robots.txt书写错误导致的严重后果

泽泽 2016年10月22日编辑

robots介绍

就是一个网站根目录的txt文本，需要自己建立的，目的就是告诉搜索引擎哪些页面可以抓取，哪些页面不准抓取。

事情的起因就是我建立了这个东西，下面就是我写的东西。

User-agent: *
Disallow: /a*/这个是不准抓的链接
Disallow:/install/这个是不准抓的链接
sitemap:https://zezeshe.com/sitemap.xml

错就错在这个声明上了Disallow: /a*/，这个就是禁止http://zezeshe.com/a带有这样格式的链接，而我的文章格式是https://blog.zezeshe.com/archives/demo.html这样的，因为每篇文章链接都含有http://zezeshe.com/a，所以搜索引擎完全没有抓取我的文章。（容我哭一下）

创建robots.txt本身是优化收录的，结果我这么一写反而起了超级大的反效果，哭。

之前怀疑过https导致收录过慢，也怀疑过我自己修改文章链接格式导致的原因，现在我发现我错了，最大的原因居然是这个不起眼的txt文件。

robots文件写法

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图

今天我得到了个Flash的教训

驾考科一到科四攻略完成

Amazon Bedrock使用基础模型为企业定制人工智能

近期，在亚马逊云科技2023 re:Invent全球大会上，亚马逊云科技宣布全面发力生成式AI，推出面向企业级生成式AI的一系列新服务及功能，其中Amazon Bedrock...

智能家居的一小步从点灯开始

因为冬天室内比较冷，卧室灯的开关不在床头，不想每次都要下床关灯，一直觉得搞这些智能家居比较费钱就一直没搞，直到刷视频刷到了蓝牙通断器。蓝牙通断器就是用蓝牙可以控制开关灯的一个...

【近况】两针疫苗、公交扫码不扣钱

打疫苗等了很久了，7月1日社区终于组织打疫苗了，我妈给全家人都领了接种卡，于是次日7月2日请假去打疫苗，排队的人不是特别多，排了不到一个小时就轮到我了，然后看到我爷年纪大，就...

保安室那些事

保安室背景XX炮兵学校，原本每个门岗都是有卫兵把守的，最近不知为何将2号门5号门6号门把守工作交给物业了，于是我就去应聘保安了。过程需要开一些证明，无犯罪累计证明，健康证明，...

淘宝买了两个偏二次元的短袖

酷暑来临，要穿短袖啦，于是买买买。上神器，淘宝，然后定了两件短袖。一件是《偶像大师》里面的，《偶像大师》我没看过[这就补番]《偶像大师灰姑娘女孩》中双叶杏的私服，双叶杏好...

Amazon Lightsail轻松创建远程桌面

亚马逊云科技有提供一些免费试用的产品，比如一年免费的EC2，三个月免费的Lightsail，以及永久免费的Lambda，此次文章主要介绍的是Lightsail，它类似于某些云...

移动，联通，电信，广电超实惠流量卡套餐，19元185G或235G流量，29元265G或275G流量，流量卡数量有限先到先得！

哔哩哔哩UID靓号，短位7位哔哩哔哩uid出售中

评论区

暂无评论，快来抢沙发