谷歌为何开源robots.txt?这家搜索巨头有怎样的打算?
【谷歌为什么要开源,安卓既然是开源的】外媒VentureBeat报道称 , 谷歌希望将发展数十年的robots.txt解析器开源 , 以推动REP成为搜索引擎爬虫的行业标准 , 机器人排除协议(REP)是荷兰软件工程师MartijnKoster于1994年提出的一个标准 , 几乎已经成为了网站不希望被搜索引擎收录的注释的事实标准 。(截图viaVentureBeat)比如谷歌爬虫(Googlebot)就会在索引某个网站时扫描robots.txt文件 , 以确定其应该忽略掉哪些部分 ,
如果文件不在根目录下 , 搜索引擎默认会对整个网站的内容进行索引 。值得一提的是 , 这个文件不仅可以用来提供直接的爬虫索引 , 还可以用来填充一些关键词 , 实现“搜索引擎优化”(SEO) 。另外 , 并不是所有的抓取工具都会严格遵循robots.txt文件 。比如几年前 , 互联网档案馆只选择支持其“WaybackMachine”存档工具 , 其他恶意抓取工具也有意忽略了REP 。
推荐阅读
- 从瑞安到南京的高铁时刻表查询,常州到南京的城铁开往时间要今天的
- 为什么西半球地球代表,为什么会有东方西方之说呢
- 佳能的用户为什么比尼康多,就因为佳能适合拍人像
- 地球为什么是独一无二,地球上为什么存在淡水
- 爱因斯坦为什么发现了什么,爱因斯坦生前发现了什么
- mx500为什么好听,为什么感觉粤语歌那么好听
- 测厚仪需要什么证,锂电池面密度检测哪个牌子好
- 广州到长沙高铁 t8310,长沙到韶关高铁需要几个小时
- 从洛阳到成都高铁多长时间一班,洛阳到四川要坐多久的大吧
- 德兴高铁站车次,德兴市区到德兴高铁站要多长时间
