什么是robots.txt?
Robots.txt文件是网站跟搜索引擎爬虫间的协议,用简单的txt格式文本方式告诉对应的搜索引擎被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,爬虫就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有的页面。
要知道robots.txt文件中的“Disallow”命令与页面头部的元描述noindex 的作用不完全相同。您的robots.txt会阻止抓取,但不一定不进行索引,网站文件(如图片和文档)除外。如果搜索引擎从其他地方链接,它们仍然可以索引您的“不允许爬取”的页面。
建议
因此,Prevent Direct Access Gold不再使用robots.txt禁止规则阻止您的网站页面进行搜索索引。相反,我们使用 noindex元标记,这也有助于谷歌和其他搜索引擎正确地在您的网站上为您的内容分发其入站链接值。
Yoast官方建议保持robots.txt文件干净,不要阻止包括以下任何内容:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-content/plugins/
Disallow: /wp-includes/
WordPress也同意说robots.txt文件不应该禁止任何东西。事实上, /wp-content/plugins/ 和 /wp-includes/ 目录包含您的主题和插件可能用于正确显示您的网站的图像,JavaScript或CSS文件。阻止这些目录意味着插件和WordPress的所有脚本,样式和图像被阻止,这使得百度和其他搜索引擎的抓取工具难以分析和理解您的网站内容。同样,你也不应该阻止你/wp-content/themes/。
总而言之,禁止你的WordPress资源,上传和插件目录,许多人声称可以增强你的网站的安全性,防止任何目标易受攻击的插件被利用,但实际上可能弊大于利,特别是在SEO方面。
这就是我们从robots.txt中删除这些规则的原因。但是,您可能仍希望将它们包含在你的网站的Robots.txt内。
建议包含Sitemap文件
尽管建议你将XML站点地图提交到各大搜索引擎网站管理员工具,但你仍可将sitemap添加到robots.txt文件中,帮助搜索引擎快速爬取收录你的网站页面。
Sitemap: http://你的网站域名/post-sitemap.xml
Sitemap: http://你的网站域名/page-sitemap.xml
Sitemap: http://你的网站域名/author-sitemap.xml
Sitemap: http://你的网站域名/offers-sitemap.xml
Robots.txt的其他规则
出于安全,建议阻止你的WordPress的readme.html,licence.txt和wp-config-sample.php文件访问,以便未经授权的人员无法检查并查看您正在使用的WordPress版本。
User-agent: *
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sample.php
您还可以使用robots.txt对不同的搜索引擎爬虫定制不同的爬取规则,如下示例。
User-agent: Googlebot
Disallow:
User-agent: Bingbot
Disallow: /refer/
这是如何阻止蜘蛛抓取WordPress搜索结果,强烈建议加入此规则:
User-agent: *
Disallow: /?s=
Disallow: /search/
Host&Crawl-delay 是您可能考虑使用的其他robots.txt指令,尽管不太受欢迎。第一个指令允许您指定网站的首选域(www或非www):
User-agent: *
#we prefer non-www domain
host: 你的网站域名
下面的规则是用来告诉搜索引擎蜘蛛在每次抓取之前等待几秒钟。
User-agent: *
#please wait for 8 seconds before the next crawl
crawl-delay: 8
正确的robots.txt
综上所述,我们建议WordPress的robots.txt内容编写为:
User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sample.php
Disallow: /refer/
Disallow: /?s=
Disallow: /search/
#we prefer non-www domain(填入你的网站域名首选域名,一般带www,请根据实际情况填写,部分搜索引擎不支持此规则,慎重添加)
host: 你的网站域名
crawl(填入你希望爬虫爬取页面的延迟秒数)
crawl-delay: 8
Sitemap: http://你的网站域名/post-sitemap.xml
温馨提示:
上述的robots.txt文件仅供参考,请各位站长根据自己的实际情况编写内容,其中
User-agent: *:即对所有搜索引擎蜘蛛通用;
Allow:规则:即允许爬取;
Disallow规则:即不允许爬取;
host规则:用于指定网站首选域;
crawl-delay规则:用于设定爬虫爬取时间间隔;
Sitemap规则:用于设定网站的地图地址。
1 本站文章均为原创,除非另有说明,转载请附上出处链接,谢谢。
2 本站提供的资源(插件或主题)均为网上搜集,如有涉及或侵害到您的版权请立即通知我们。
3 本站所有下载文件,仅用作学习研究使用,请下载后24小时内删除,支持正版,勿用作商业用途。
4 因代码可变性,不保证兼容所有浏览器、不保证兼容所有版本的系统、不保证兼容您安装的其他插件。
5 本站保证所提供资源(插件或主题)的完整性,但不含授权许可、帮助文档、XML文件、PSD、后续升级等。
6 使用该资源(插件或主题)需要用户有一定代码基础知识!由本站提供的资源对您的网站或计算机造成严重后果的本站概不负责。
7 因不同CMS系统不定期升级,导致有时可能会遇到部分源码不兼容,介意勿使用,谢谢!
8 本站资源售价只是赞助和汉化辛苦费,收取费用仅维持本站的日常运营所需。
9 如果喜欢本站资源,欢迎捐助本站开通会员享受优惠折扣,谢谢支持!
10 如果资源地址失效,请在相应资源页面下留言,我们会尽快修复下载地址。
暂无评论内容