[日常]UserAgent中的AhrefsBot解释

网站优化/运营
572
0
0
2022-10-13
标签   网络爬虫

在观察网站的访问者ua信息的时候

看到有很多AhrefsBot

Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)

官方网站的介绍总结就是一个对于我们国内用户无用的蜘蛛

什么是AhrefsBot?

AhrefsBot 是一个 Web 爬虫,为 Ahrefs 在线营销工具集的 12 万亿链接数据库提供支持。它不断抓取网络以使用新链接填充我们的数据库并检查以前找到的数据的状态,以便为我们的用户提供最全面和最新的数据。

来自网络的 Ahrefs Bot 收集的链接数据被全球数千名数字营销人员用于规划,执行和监控他们的在线营销活动。 这些数据对 SEO 社区具有巨大价值,因为它可以帮助营销专业人员更好地理解世界上最大的搜索引擎的基本算法,以便他们可以相应地优化网站。我们的爬虫每隔 24 小时访问超过 60 亿个网页,并每 15-30 分钟更新一次 Ahrefs 的索引。 根据最近一项关于“好机器人”的第三方研究,AhrefsBot 是仅次于 Googlebot 的第二大活跃爬虫。

AhrefsBot 在您的网站上做什么?

AhrefsBot 正在抓取您的网站,记录出站链接并将其添加到我们的数据库中。它会定期重新抓取您的网站以检查以前找到的链接的当前状态。

我们的抓取工具不会收集或存储有关您网站的任何其他信息。它不会在您的网站上触发广告(如果有),也不会为您的 Google Analytics(分析)流量增加数字。

它是否尊重 robots.txt 文件?

是的。绝对地。

我们严格尊重 robots.txt,禁止和允许规则。

如何控制您网站上的 AhrefsBot?

如上所述,AhrefsBot 严格遵循您网站上的 robots.txt 文件。因此,您可以根据需要在您的网站上完全控制它。

要更改 AhrefsBot 访问您网站的频率,您可以在您的 robots.txt 文件中指定来自我们的机器人的两个连续请求之间的最小可接受延迟:

User-agent: AhrefsBot

Crawl-Delay: [value]

其中 Crawl-Delay 值是以秒为单位的时间。

如果出于某种原因您想阻止 AhrefsBot 访问您的站点,请将以下两行放入您服务器上的 robots.txt 文件中:

User-agent: AhrefsBot

Disallow: /

请注意,AhrefsBot 可能需要一些时间来选择您的 robots.txt 文件中的更改。这将在每次下一次预定爬网之前进行。