被迫开放搜索数据，谷歌的渡劫宣告失败_搜索引擎|算法|百度

文章图片

美国司法部与硅谷巨头谷歌的反垄断案，现在已经变成了一出超长的连续剧，随着美国联邦法院做出最新裁定，谷歌放下的心又悬了起来。日前有消息显示，美国联邦法院裁定，谷歌方面必须向竞争对手开放部分核心搜索数据。

经过长达五年时间的拉锯，如今看来谷歌只是收获了一场惨胜。尽管无需剥离Chrome浏览器和Android操作系统，让谷歌逃脱了被拆分的命运，现有商业体系不至于被彻底重构，可开放核心搜索数据给竞争对手，真的有可能会动摇谷歌的根基。
这一次，谷歌必须向竞争对手交付的搜索数据包括搜索索引和用户交互数据，几乎等于是让他们亲手培育自己的竞争对手。为什么谷歌搜索引擎的江湖地位一直固若金汤， DuckDuckGo等后继者从未对他们造成实质上的威胁？其中的奥妙就在搜索索引、用户交互数据等核心数据上。
作为几乎是最成熟的互联网业务，搜索引擎的产品形态从诞生开始就基本固定，都是依靠爬虫从网络上提取各网站的信息，然后将其保存在自己的数据库中、并建立索引。当用户发起搜索请求后，系统检索与用户查询条件匹配的相关记录，再按特定排列顺序将结果呈现给用户。
在上世纪90年代的互联网技术革命中，百度和谷歌的崛起就是技术制胜的结果。尽管早期的搜索引擎多如牛毛， AltaVista、Infoseek、WebCrawler等基于布尔搜索的搜索引擎比“黄页”强得有限，它们往往直接抓取网页，然后通过“全文搜索”技术，将包含有用户查询关键词的网页链接返回。然而这类初级“搜索引擎”有一个致命缺陷，那就是它们并不知道哪个网页更好。
这时候百度依托于超链分析技术，通过分析网页链接的数量和质量来评估内容的权威性，就显著提升了搜索结果的相关性和准确性。而谷歌的PageRank算法也是通过分析网页之间的链接关系，来实现评估网页的效果，在技术层面上降维打击其他搜索引擎，这就是谷歌和百度崛起的关键。
随着谷歌、百度的壮大，通过算法分析链接之间的引用关系本身，就变成了人尽皆知的“大白菜” 。比如雅虎推出的“自建搜寻服务”（Build Your Own Search service），可以让任何一个人从0开始搭建可用的搜索引擎。但问题在于，用户并不关心搜索引擎的原理，更关注的是“如何更好地获取信息” ，这就不仅仅涉及算法，更需要常年对用户搜索数据的积累。

进入新世纪的第二个十年，在数据共享和存储趋向于服务端的情况下，信息的获取和流动已经不是主要问题，但如何针对具体问题在海量的数据中找到相关性最高的信息，则是一个比较难的问题，而这也是一个水滴石穿的工作。
这也是为什么字节跳动当初为了搭建搜索业务，挖走了百度大搜索部门的许多工程师，可后续推出的“悟空搜索”表现一言难尽。这是因为即便工程师可以被挖，他们脑海里的算法也能带走，但用户数据可是带不走的。只有百度和谷歌在过去二十年来收集了无数用户的查询，才能投入资源去优化高频和长尾场景。
简而言之，同样是搜索一个关键词，谷歌总是能讨用户欢心，是因为他们的索引数据库庞大到难以想象。相比《大英百科全书》，谷歌的索引数据库才是包罗万象的百科全书。海量用户的搜索行为数据（如点击偏好、停留时间、地域分布），得以让谷歌的算法能够持续优化，形成 “数据越大—算法越好—用户越多—数据更大” 的飞轮效应。

尽管同样都是搜索引擎，可谷歌每一次提供的结果总是最符合你的心意， DuckDuckGo则老是差点意思的情况下。久而久之，除了真正关心个人隐私的用户会盯着效果不佳这个缺陷，继续使用DuckDuckGo ，更侧重效率的普罗大众就必然会投入谷歌的怀抱。
【被迫开放搜索数据，谷歌的渡劫宣告失败】现在法院要求谷歌交出“用户意图判断数据”、“匿名化的搜索结果排序逻辑数据” ，乃至索引数据库，就意味着友商也能获得谷歌的这些“秘籍” 。当“武林绝学”人人都能练的时候，谷歌搜索的危机自然也就真正到来了。

被迫开放搜索数据，谷歌的渡劫宣告失败

推荐阅读

牛肉可以和苦瓜一起吃吗

5月24号山东省济宁市地震了吗

梦见自己被人用刀杀死了梦见自己被人用刀砍死了

绵绵歌词绵绵歌曲简介

芹菜和茄子怎么做好吃

两个朝下的c是什么车

上海旅游景点推荐

怎么面对初中孩子早恋家长怎么面对初中孩子早恋

梦见加减计算运算

沙士比亚对爱情的名言

为什么电脑一插上耳机就关机

教你Win7旗舰版注册表修改权限提示拒绝访问如何处理

古代说吃过饭了怎么说古人怎么表述已经吃过饭

hd9550amd amd9550

高考后祝福语，关于高考祝福语怎么说

论智能产品的重要性,智能产品论文怎么写