关于robots.txt,看完这篇文章就都懂了

Robots.txt在SEO中扮演重要角色。它位于网站根目录,指导搜索引擎爬虫浏览和索引网站内容。配置Robots.txt可控制爬取行为,保护隐私,避免重复内容对排名的负面影响。但并不能真正保护敏感信息,需其他安全措施。正确配置Robots.txt可提升网站的搜索排名和曝光度,优化抓取资源,提升整体性能和用户体验。以下Will整理了有关robots.txt的常见问题。

谷歌广告有哪些出价策略,怎么选?

谷歌广告有哪些出价策略,怎么选?

Q: 我的网站是否必须要有一个robots.txt文件? A: 非必须。当Googlebot访问一个网站时,会尝试获取robots.txt文件来请求抓取许可。如果没有robots.txt文件、robots meta标签或X-Robots-Tag HTTP头,网站通常也会被正常抓取和索引。但是对于大型网站还是建议设置robots.txt.

Q: 我应该使用哪种方法来阻止网络爬虫? A: 这取决于具体情况。robots.txt适用于控制整个网站的抓取,robots meta标签用于控制单个HTML页面在搜索结果中的显示,X-Robots-Tag HTTP头用于控制内容在搜索结果中的显示。选择方法时应考虑具体需求。另外这涉及到抓取预算,如果使用robots meta标签,爬虫还是会抓取但是并不索引,所以这浪费了抓取预算。

Q: 是否可以使用robots.txt、robots meta标签或X-Robots-Tag HTTP头来从搜索结果中删除他人的网站? A: 不可以。这些方法只适用于您可以修改代码或添加文件的网站。要了解如何从Google中删除信息,请查阅相关文档。

Q: 如何减缓Google对我的网站的抓取速度? A: 可以在Google Search Console帐户中调整抓取速率设置来实现。

Q: 我是否可以为多个网站使用相同的robots.txt? A: 不可以。robots.txt文件中的规则(sitemap:除外)只对相对路径有效。

Q: 我是否可以将robots.txt文件放在子目录中? A: 不可以。该文件必须放在网站的顶级目录中。

Q: 是否必须包含allow规则以允许抓取? A: 不需要。所有URL默认都是允许抓取的,而allow规则用于覆盖同一robots.txt文件中的disallow规则。

Q: 如果我的robots.txt文件中存在错误或使用了不受支持的规则会发生什么? A: 网络爬虫通常非常灵活,通常不会因为robots.txt文件中的小错误而受到影响。一般情况下,最糟糕的情况是将忽略不支持的规则。但是要注意,Google无法读取思想,必须解释抓取到的robots.txt文件。如果您发现文件中存在问题,通常很容易进行修复。

Q: 我应该使用什么程序来创建robots.txt文件? A: 您可以使用任何创建有效文本文件的程序。常用的程序有Notepad、TextEdit、vi或emacs等。创建文件后,可以使用robots.txt测试工具进行验证。

Q: 如果我通过robots.txt的disallow规则阻止Google抓取页面,该页面会在搜索结果中消失吗? A: 阻止Google抓取页面可能会将该页面从Google的索引中删除。但是,robots.txt的disallow并不能保证该页面不会出现在搜索结果中。基于外部信息(例如传入的链接),Google仍可能认为该页面相关并在搜索结果中显示。如果希望明确地阻止页面被索引,可以使用noindex robots meta标签或X-Robots-Tag HTTP头。在这种情况下,不要在robots.txt中阻止该页面的抓取,因为必须抓取该页面才能看到并遵守标签。了解如何控制与Google分享的内容。

Q: 更改我的robots.txt文件需要多长时间才会影响搜索结果? A: 首先,必须刷新robots.txt文件的缓存(通常将内容缓存一天)。您可以通过向Google提交更新后的robots.txt来加快此过程。即使找到更改,抓取和索引是一个复杂的过程,对于个别URL可能需要相当长的时间,因此无法给出确切的时间线。同时,请注意,即使robots.txt文件禁止访问URL,该URL可能仍然显示在搜索结果中,尽管我们无法抓取它。如果希望尽快从Google中删除您阻止的页面,请提交删除请求。

Q: 如何暂时暂停我的网站的所有抓取? A: 您可以通过对所有URL返回503(服务不可用)的HTTP状态代码来暂时暂停所有抓取,包括robots.txt文件。robots.txt文件将定期重试,直到可以再次访问为止。我们不建议更改robots.txt文件以阻止抓取。

Q: 我的服务器不区分大小写。我如何完全阻止对某些文件夹的抓取? A: robots.txt文件中的规则区分大小写。在这种情况下,建议确保只有一个版本的URL被索引,使用规范化方法实现这一点。这样可以减少robots.txt文件中的行数,使其更容易管理。如果不可行,我们建议列出文件夹名称的常见组合,或尽量缩短名称,仅使用前几个字符,而不是完整名称。例如,不要列出/MyPrivateFolder的所有大小写排列组合,而是列出/MyP的排列组合(如果您确定没有其他可抓取的URL与这些前缀相匹配)。或者,如果抓取不是问题,也许使用robots meta标签或X-Robots-Tag HTTP头更合适。

Q: 我对所有URL返回403 Forbidden,包括robots.txt文件。为什么网站仍然被抓取? A: 403 Forbidden的HTTP状态代码以及其他4xx HTTP状态代码被解释为robots.txt文件不存在。这意味着爬虫通常会假设可以抓取网站的所有URL。为了阻止网站的抓取,必须返回带有200 OK HTTP状态代码的robots.txt文件,并包含适当的disallow规则。

最后再补充一点,Q: 如何申请谷歌再次抓取和索引一个页面?A: 在Google search console的url inspection tool里设置。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注