被迫开放搜索数据,谷歌的渡劫宣告失败

被迫开放搜索数据,谷歌的渡劫宣告失败

文章图片

被迫开放搜索数据,谷歌的渡劫宣告失败

美国司法部与硅谷巨头谷歌的反垄断案 , 现在已经变成了一出超长的连续剧 , 随着美国联邦法院做出最新裁定 , 谷歌放下的心又悬了起来 。 日前有消息显示 , 美国联邦法院裁定 , 谷歌方面必须向竞争对手开放部分核心搜索数据 。



经过长达五年时间的拉锯 , 如今看来谷歌只是收获了一场惨胜 。 尽管无需剥离Chrome浏览器和Android操作系统 , 让谷歌逃脱了被拆分的命运 , 现有商业体系不至于被彻底重构 , 可开放核心搜索数据给竞争对手 , 真的有可能会动摇谷歌的根基 。
这一次 , 谷歌必须向竞争对手交付的搜索数据包括搜索索引和用户交互数据 , 几乎等于是让他们亲手培育自己的竞争对手 。 为什么谷歌搜索引擎的江湖地位一直固若金汤 , DuckDuckGo等后继者从未对他们造成实质上的威胁?其中的奥妙就在搜索索引、用户交互数据等核心数据上 。
作为几乎是最成熟的互联网业务 , 搜索引擎的产品形态从诞生开始就基本固定 , 都是依靠爬虫从网络上提取各网站的信息 , 然后将其保存在自己的数据库中、并建立索引 。 当用户发起搜索请求后 , 系统检索与用户查询条件匹配的相关记录 , 再按特定排列顺序将结果呈现给用户 。
在上世纪90年代的互联网技术革命中 , 百度和谷歌的崛起就是技术制胜的结果 。 尽管早期的搜索引擎多如牛毛 , AltaVista、Infoseek、WebCrawler等基于布尔搜索的搜索引擎比“黄页”强得有限 , 它们往往直接抓取网页 , 然后通过“全文搜索”技术 , 将包含有用户查询关键词的网页链接返回 。 然而这类初级“搜索引擎”有一个致命缺陷 , 那就是它们并不知道哪个网页更好 。
这时候百度依托于超链分析技术 , 通过分析网页链接的数量和质量来评估内容的权威性 , 就显著提升了搜索结果的相关性和准确性 。 而谷歌的PageRank算法也是通过分析网页之间的链接关系 , 来实现评估网页的效果 , 在技术层面上降维打击其他搜索引擎 , 这就是谷歌和百度崛起的关键 。
随着谷歌、百度的壮大 , 通过算法分析链接之间的引用关系本身 , 就变成了人尽皆知的“大白菜” 。 比如雅虎推出的“自建搜寻服务”(Build Your Own Search service) , 可以让任何一个人从0开始搭建可用的搜索引擎 。 但问题在于 , 用户并不关心搜索引擎的原理 , 更关注的是“如何更好地获取信息” , 这就不仅仅涉及算法 , 更需要常年对用户搜索数据的积累 。



进入新世纪的第二个十年 , 在数据共享和存储趋向于服务端的情况下 , 信息的获取和流动已经不是主要问题 , 但如何针对具体问题在海量的数据中找到相关性最高的信息 , 则是一个比较难的问题 , 而这也是一个水滴石穿的工作 。
这也是为什么字节跳动当初为了搭建搜索业务 , 挖走了百度大搜索部门的许多工程师 , 可后续推出的“悟空搜索”表现一言难尽 。 这是因为即便工程师可以被挖 , 他们脑海里的算法也能带走 , 但用户数据可是带不走的 。 只有百度和谷歌在过去二十年来收集了无数用户的查询 , 才能投入资源去优化高频和长尾场景 。
简而言之 , 同样是搜索一个关键词 , 谷歌总是能讨用户欢心 , 是因为他们的索引数据库庞大到难以想象 。 相比《大英百科全书》 , 谷歌的索引数据库才是包罗万象的百科全书 。 海量用户的搜索行为数据(如点击偏好、停留时间、地域分布) , 得以让谷歌的算法能够持续优化 , 形成 “数据越大—算法越好—用户越多—数据更大” 的飞轮效应 。



尽管同样都是搜索引擎 , 可谷歌每一次提供的结果总是最符合你的心意 , DuckDuckGo则老是差点意思的情况下 。 久而久之 , 除了真正关心个人隐私的用户会盯着效果不佳这个缺陷 , 继续使用DuckDuckGo , 更侧重效率的普罗大众就必然会投入谷歌的怀抱 。
【被迫开放搜索数据,谷歌的渡劫宣告失败】现在法院要求谷歌交出“用户意图判断数据”、“匿名化的搜索结果排序逻辑数据” , 乃至索引数据库 , 就意味着友商也能获得谷歌的这些“秘籍” 。 当“武林绝学”人人都能练的时候 , 谷歌搜索的危机自然也就真正到来了 。

    推荐阅读