谷歌为什么要开源,安卓既然是开源的( 二 )


谷歌为何开源robots.txt?这家搜索巨头有怎样的打算?
【谷歌为什么要开源,安卓既然是开源的】外媒VentureBeat报道称 , 谷歌希望将发展数十年的robots.txt解析器开源 , 以推动REP成为搜索引擎爬虫的行业标准 , 机器人排除协议(REP)是荷兰软件工程师MartijnKoster于1994年提出的一个标准 , 几乎已经成为了网站不希望被搜索引擎收录的注释的事实标准 。(截图viaVentureBeat)比如谷歌爬虫(Googlebot)就会在索引某个网站时扫描robots.txt文件 , 以确定其应该忽略掉哪些部分 , 
如果文件不在根目录下 , 搜索引擎默认会对整个网站的内容进行索引 。值得一提的是 , 这个文件不仅可以用来提供直接的爬虫索引 , 还可以用来填充一些关键词 , 实现“搜索引擎优化”(SEO) 。另外 , 并不是所有的抓取工具都会严格遵循robots.txt文件 。比如几年前 , 互联网档案馆只选择支持其“WaybackMachine”存档工具 , 其他恶意抓取工具也有意忽略了REP 。

推荐阅读