
文章图片

文章图片

文章图片

此前在去年夏季 , 谷歌前任CEO埃里克?施密特在斯坦福大学进行的演讲中宣称 , AI公司可以先通过AI工具盗取知识产权 , 然后再雇佣律师来处理法律纠纷 。 本以为这只是互联网老炮故作惊人之语 , 可没想到一众AI厂商将这当真了 。
过去一年间 , AI厂商通过各种各样的手段从版权所有者手中获取数据的行为 , 几乎成为了业界的通行做法 , 并且绝大多数AI厂商都不愿为数据(语料)支付合理费用 , 由此版权方与AI厂商在全球范围内也掀起了大量的诉讼 。 眼看着“晋西北打成一锅粥” , 微软方面就准备围绕数据建立一套新的秩序 。
近日有爆料称 , 微软正在与部分美国出版商洽谈试点计划 , 旨在构建双边市场 , 让版权方与AI厂商可以围绕数据进行自由交易 。 据悉 , 微软自己的Copilot AI助手将作为“小白鼠” , 版权方可向微软销售其内容 , 微软也在尝试将该计划涵盖到其他AI产品 。
相关消息显示 , 微软在相关演示文稿中宣称 , “你值得根据你的知识产权质量获得报酬” 。 据称 , 未来微软围绕数据的货币化系统将基于PCM(Price-Cost Margin Model)定价模型 , 以确保数据定价的公平性 。
微软这招 , 堪称是巨头利用体量优势遏制初创公司无解的阳谋 , 因为AI初创公司虽然往往有技术 , 可是却缺少数据 。
以往AI初创公司以不合规方式获取数据背后的理论基础 , 是行业惯例的“合理使用” 。 美国最高法院在著名的Campbell v. Acuff-Rose Music案中确立了一个重要原则 , 即如果一种使用方式从根本上改变了原作品的目的或性质 , 那么这种使用很可能被视为合理使用 。
在AI行业看来 , AI大模型的运行模式确实从根本上改变了原作品的性质 。 不仅如此 , AI厂商还普遍认同“著作权法保护的是表达 , 而非思想、方法而非功能 。 AI训练提取的恰恰是思想和功能 , 而非具体表达” , 因此他们使用爬虫等技术手段获取版权方的内容时堪称是心安理得 。
与此同时 , 从xAI的Gork-4到OpenAI的GPT-5、再到阿里的Qwen3-Max , 已经从不同的维度反应了Scaling laws(尺度定律)并未失效 , 只是数据获取的难度变得比以往更高了 。 换而言之 , 增加计算量、模型参数和数据集大小来提升大语言模型的智能水平依然可行 , 只不过这个模式的经济性已经断崖式下降 。
“AI的训练数据如同化石燃料一样面临着耗尽的危机”确实是事实 , 可业界深信AGI(通用人工智能)能够在数据被消耗殆尽前完成 。 所以从思想层面到现实 , “偷数据”也就成为了整个AI业界心照不宣的潜规则 。 可问题是 , AI厂商利用技术优势低成本获取数据 , 作为“受害者”的版权方自然就不乐意了 。
尽管在AIGC这个概念问世之前 , 版权方确实不知道内容还可以被用于训练AI , 以至于OpenAI等先行者实实在在享受了先发红利 。 可等到这一轮AI革命爆发 , AI厂商的估值如同坐火箭般上涨 , 版权方就赫然发现 , 这一块蛋糕居然没有自己的份 。
由于技术水平存在巨大差异 , 版权方面对AI爬虫时几乎无计可施 , 可偏偏AI革命又是各国聚焦的新兴赛道 , 指望通过监管大棒来遏制AI厂商偷窃数据的行为并不现实 。 所以当下摆在版权方面前的局面相当恶劣 , 因为从技术到监管都对他们不利 。 这时候微软站出来 , 说要建立一个AI厂商和版权方的交易市场 , 无疑就是雪中送炭了 。
从某种意义上来说 , 微软试图建立的数据交易市场是一个堪比谷歌Google Ads生态的创举 。 当然 , 微软的这个想法虽然很好 , 但要建立一套能运行的AI语料交易机制也不容易 , 因为一般的数据和AI需要的语料并不完全等价 。 常规的数据往往指的是用户的地址、手机号、购物记录等标准化的信息 , 而语料则是文章、图片、视频、聊天记录 。
比如同样一张1024x1024分辨率的图片 , 知名大拿和业界新丁的作品价码肯定不一样;同样一篇3000字左右的文章 , 出自《华尔街日报》和本地三流小报也不可同日而语 。 目前互联网行业对于内容的评价体系是基于流量打造 , 也就是用户越爱看的内容越值钱 。
可同一套评价体系却无法直接嫁接到AI领域 , 毕竟人与人评价同一事物尚且会因文化、教育背景的区别导致差异 , 就更遑论AI了 。 这也是为什么在微软之前 , 全球知名内容分发网络(CDN)服务商Cloudflare也宣称要为AI厂商和版权方建立一个交易平台 , 却至今还没有下文的原因 。
其实付费不是问题 , 但如何付费才是关键 , 因为AI厂商也怕版权方狮子大开口 。 以至于 , 当下AI厂商购买内容授权时往往是单对单 , 一家一家地谈 。 例如从2023年开始 , AI行业的领头羊OpenAI就陆续与美联社、施普林格、新闻集团、卫报传媒集团等出版商达成合作 , 付费获取后者的新闻、图像、视频等数据 。
【微软出手“立规矩”,AI公司不能白拿数据】
微软的想法则是建立一个统一大市场 , 可内容质量的量化以及随之而来的定价却是难题 。 AI模型的训练确实高度依赖语料的质量 , 但当下AI模型的参数规模已经达到了万亿水平 , 到底其中的哪些内容贡献了效果 , 根本就没人能说得清 。
简而言之 , 微软口中“知识产权质量获得报酬”模式其实存在大量的模糊地带 。 如果他们不能提出一条标准化的计量体系 , AI语料的货币化系统 , 恐怕就不是短时间就能建立起来的 。
推荐阅读
- ?阿里云为中小企业造“AI员工”
- 嵌入式芯片AI能力新高度!安谋科技推出“星辰”STAR-MC3 CPU IP
- 手机行业诞生“新黑马”,5分钟打破销量纪录,IP68+100W+M10屏幕
- 小米17 Pro大字吸睛,“小字”藏刀,逆光之王是否名符其实?
- 开放+融合:飞利浦如何重新定义智慧会议“无线”体验
- 美白打压了?江西两兄弟突破芯片封锁,联手破局AI“心脏”
- “逛展”全球数贸会:杭州科创新势力吸睛
- 手机高刷鼻祖,要“重新定义”高刷了
- 黄仁勋:中国工程师 + 996 = 芯片界 “猛兽”
- 一图看懂手机大厂“芯片进阶史”
