前端开发入门到精通的在线学习网站

网站首页 > 资源文章 正文

什么是Robots.txt文件?它有什么作用?

qiguaw 2025-05-02 12:56:52 资源文章 34 ℃ 0 评论

什么是Robots.txt文件?它有什么作用?

Robots.txt 是网站里的一个文件,它告诉搜索引擎抓取工具(蜘蛛)禁止或允许抓取网站的哪些内容。主流搜索引擎(包括 Google、Bing 和 Yahoo)都能够识别并尊重 Robots.txt的要求。

如需查看网站是否有Robots文件,请访问网址:域名/robots.txt,譬如
https://loyseo.com/robots.txt,下图的示例,是一个WordPress网站安装完Rank math SEO插件自动生成的robots文件及其内容。

Robots.txt 是怎么运作的?

要想知道Robots.txt文件是如何发挥作用的,就要了解搜索引擎的工作机制:①爬行②抓取③索引(也可以叫做收录)。

  • 爬行:搜索引擎的蜘蛛在爬网的过程中,通过从其他网站中获取到了你的网址,那么它就会记录下这个网址。还有,你也可以通过搜索引擎的站长工具,譬如在Google Search Console中提交你的网站地图(Sitemap),告知搜索引擎你的网站网址。
  • 抓取:蜘蛛通过访问之前爬行获取的网址,抓取你网页里的内容并存档。爬行就像记录商店门牌号,抓取就是进店拍照。那是否你提交的网址一定都会被抓取呢?不一定,因为搜索引擎分配给你的抓取份额是有限的,如果你的站点很小,那基本不用担心,那如果你的站点规模庞大,那么,对于使用Robots.txt文件,禁止某些不必要的内容被抓取,就很用必要了,这能让抓取份额用在有意义的地方,而不是被无意义的内容消耗。
  • 是否被抓取的内容一定会被索引呢?并不是,搜索引擎有自己的规则来判定你的内容是否值得被索引,如果你的内容是重复的、抄袭的、无意义无价值的,那么很可能是被抓取了,但是没有索引。并且索引也是需要时间的,尤其对于新站,就像一个新人一样,还需要时间考验你,至于这个时间是多久,那就是搜索引擎说了算了,你需要做的是持续坚持的做正确且有用的事情:写内容体现专业度、做外部拓展增加信用度。
  • 也可以直接在站长工具中查看被索引的网页。
  • 是否被抓取的内容一定会被索引呢?并不是,搜索引擎有自己的规则来判定你的内容是否值得被索引,如果你的内容是重复的、抄袭的、无意义无价值的,那么很可能是被抓取了,但是没有索引。并且索引也是需要时间的,尤其对于新站,就像一个新人一样,还需要时间考验你,至于这个时间是多久,那就是搜索引擎说了算了,你需要做的是持续坚持的做正确且有用的事情:写内容体现专业度、做外部拓展增加信用度。

好了,了解到搜索引擎的工作机制后,我们开始说Robots文件的运作。

当搜索引擎的蜘蛛来到网站时,首先会阅读这个Robots.txt文件,了解到什么网址禁止被抓取后,搜索引擎便不去抓取这些页面。

但是,如果这些网址存在其他的导入链接(即外链时),譬如其他网址给了你一条外链指向这个内容,那么这个页面还是可能会被索引的,虽然,因为无法抓取而不能直接获取页面的内容,但是搜索引擎会根据外链提供的相关信息对这个内容进行索引并展示在搜索结果中。

所以,如果你想一个内容不被抓取,也不被索引,那么你还需要通过在内容中设置noindex元标记(meta robots)

好了,了解了Robots.txt的工作原理后,我们开始制作一个robots.txt文件。

下篇文章讲解如何创建Robots.txt文件

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表