robots文件(获取robotstxt文件)

什么是Robots.txt文件?它有什么作用?Robots.txt是网站中的一个文件,它告诉搜索引擎网站的哪些内容禁止或允许被爬虫工具(蜘蛛)抓取。主流搜索引擎

什么是Robots.txt文件?它有什么作用?

Robots.txt是网站中的一个文件,它告诉搜索引擎网站的哪些内容禁止或允许被爬虫工具(蜘蛛)抓取。主流搜索引擎(包括Google、Bing和Yahoo)能够认可并尊重Robots.txt的要求

要查看网站上是否有robots文件,请访问网址:域名/robots.txt,如https://loyseo.com/robots.txt.下图的例子是某WordPress网站安装Rank math SEO插件后自动生成的Robots文件及其内容。

robots文件(获取robotstxt文件)插图

Robots.txt 是怎么运作的?

要了解Robots.txt文件是如何工作的,需要了解搜索引擎的工作机制:①抓取②抓取③索引(也可以叫索引)。

爬行:搜索引擎的蜘蛛在爬网的过程中,通过从其他网站中获取到了你的网址,那么它就会记录下这个网址。还有,你也可以通过搜索引擎的站长工具,譬如在Google Search Console中提交你的网站地图(Sitemap),告知搜索引擎你的网站网址。抓取:蜘蛛通过访问之前爬行获取的网址,抓取你网页里的内容并存档。爬行就像记录商店门牌号,抓取就是进店拍照。那是否你提交的网址一定都会被抓取呢?不一定,因为搜索引擎分配给你的抓取份额是有限的,如果你的站点很小,那基本不用担心,那如果你的站点规模庞大,那么,对于使用Robots.txt文件,禁止某些不必要的内容被抓取,就很用必要了,这能让抓取份额用在有意义的地方,而不是被无意义的内容消耗。是否被抓取的内容一定会被索引呢?并不是,搜索引擎有自己的规则来判定你的内容是否值得被索引,如果你的内容是重复的、抄袭的、无意义无价值的,那么很可能是被抓取了,但是没有索引。并且索引也是需要时间的,尤其对于新站,就像一个新人一样,还需要时间考验你,至于这个时间是多久,那就是搜索引擎说了算了,你需要做的是持续坚持的做正确且有用的事情:写内容体现专业度、做外部拓展增加信用度。

robots文件(获取robotstxt文件)插图(1)

也可以直接在站长工具中查看被索引的网页。

robots文件(获取robotstxt文件)插图(2)

是否被抓取的内容一定会被索引呢?并不是,搜索引擎有自己的规则来判定你的内容是否值得被索引,如果你的内容是重复的、抄袭的、无意义无价值的,那么很可能是被抓取了,但是没有索引。并且索引也是需要时间的,尤其对于新站,就像一个新人一样,还需要时间考验你,至于这个时间是多久,那就是搜索引擎说了算了,你需要做的是持续坚持的做正确且有用的事情:写内容体现专业度、做外部拓展增加信用度。

好了,了解了搜索引擎的工作机制之后,我们开始说Robots文件的操作。

当一个搜索引擎的蜘蛛来到一个网站的时候,它会先读取这个Robots.txt文件,在了解到哪些网站是禁止抓取的之后,搜索引擎就不会抓取这些页面了。

但是,如果这些URL有其他导入链接(即外部链接),例如其他URL提供了指向此内容的外部链接,则此页面可能仍会被索引。虽然页面的内容因为无法抓取而无法直接获取,但是搜索引擎会根据外部链接提供的相关信息对该内容进行索引,并显示在搜索结果中。

因此,如果您不希望某个内容被抓取或索引,那么您还需要在内容中设置noindex meta标签(meta robots)。

好了,知道了Robots.txt的工作原理,我们开始做一个robots.txt文件。

下一篇文章将解释如何创建Robots.txt文件。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/112396.html

发表回复

登录后才能评论