撰稿:勤奋团队
robots 文本文件或 robots.txt 文件(通常被错误地称为robots.txt文件)是任何网页的基本元素。将 robots.txt 文件添加到网站的根文件夹是一个非常简单的过程,拥有此文件实际上是搜索引擎的“质量标志”。
robots.txt 只是一个 ASCII 或纯文本文件,它告诉搜索引擎不允许它们进入网页的哪些位置 - 也称为机器人排除规则。本文档中出现的任何文件或文件夹都不会被搜索引擎蜘蛛抓取和索引。拥有 robots.txt 文件,即使是空白文件,也表明您认识到搜索引擎可以进入您的网站并可以免费访问它。建议将 robots 文本文件添加到网站的主域和所有子域。
如何创建Robots.txt文件?
您必须拥有您的域的根访问权限。您的网 巴西赌博数据 络托管服务商可以帮助您了解您是否有足够的访问权限。文件最重要的部分是它的创建和位置。使用任何文本编辑器创建 robots.txt 文件。
最后,您需要确保您的 robots.txt 文件是 UTF-8 编码的文本文件。 Google 和其他流行的搜索引擎和抓取工具可能会忽略 UTF-8 范围之外的字符,这可能会使您的 robots.txt 规则无效。
设置您的用户代理
如何创建 robots.txt 文件的下一步是设置用户代理。用户代理是指您要允许或阻止的网络爬虫或搜索引擎。多个实体可以是用户代理。 GoogleBot、Bingbot、Slurp Bot、DuckDuckBot 和 Facebot 是用户代理的一些示例。
设置文件规则
robots.txt 文件按组读取。组将指定用户代理是谁,并且将具有规则或策略来指示用户代理可以访问和不能访问哪些文件或目录。
这些是使用的指令:
Disallow:该指令指的是与您的根域相关的页面或目录,您不希望指定的用户代理对其进行爬网。它以正斜杠 (/) 开头,后跟页面的完整 URL。仅当它引用目录而不是整个页面时,它才会以正斜杠结尾。您可以为每条规则使用一个或多个禁止设置。
Allow:该指令指的是与您的根域相关的页面或目录,您希望指定的用户代理对其进行爬网。例如,允许指令将用于覆盖禁止规则。它还以正斜杠 (/) 开头,后跟页面的完整 URL。仅当它引用目录而不是整个页面时,它才会以正斜杠结尾。您可以为每条规则使用一个或多个权限选项。
站点地图:站点地图是可选的,它给出了网页的地图位置。唯一的规定是它必须是完全限定的 URL。您可以使用零个或多个,具体取决于需要。
网络爬虫从上到下处理组。如上所述,它们访问未明确设置为禁止的任何页面或目录。因此,请在每个组中的用户代理信息下方添加 Disallow: / 以阻止这些特定用户代理抓取您的网页。
上传您的文件
网页不会自动附带 robots.txt 文件,因为它不是必需的。一旦您决定创建一个,请将文件上传到您网站的根目录。上传取决于您网站的文件结构和网络托管环境。请联系您的托管提供商以帮助您上传 robots.txt 文件。
有多种方法可以测试并确保您的文件正常工作。对于其中任何一个,您都可以看到其语法或逻辑中的任何错误。这些是最常用的: