
文章图片

文章图片
学术网站本是知识的宝库 , 却因AI爬虫的疯狂掠夺而陷入瘫痪 。 从DiscoverLife到BMJ , 数百万次异常访问让服务器不堪重负 , 威胁着开放获取的科研命脉 。 这场「数字蝗灾」究竟因何而起?学术界又该如何应对?
假如一个平日里宁静的图书馆 , 突然涌入一大群不速之客 , 他们不阅览、不沉思 , 只是一味地疯狂复印每一本书的每一页 。
这喧嚣吵闹的场面 , 怎能不打扰那些正埋首书海、专心阅读的人们呢?
如今 , 学术网站正遭遇类似的「数字入侵」 。
就在近日 , Nature发表文章详细揭露了这些行为 。
文章地址:https://www.nature.com/articles/d41586-025-01661-4
数字「蝗灾」席卷学术界DiscoverLife是一个在线图像库 , 拥有近300万张珍贵的物种照片 , 是很多生物学家的科研生命线 。
然而 , 从今年2月开始 , 该网站每天都被数百万次异常访问淹没 , 页面加载缓慢 , 甚至彻底瘫痪 。
当你试图打开一张稀有昆虫的图片时 , 却只能面对「服务器繁忙」的提示 。
罪魁祸首是谁?
不是黑客 , 也不是病毒 , 而是一群悄无声息的AI爬虫 , 正在疯狂「啃食」数据 , 为生成式人工智能「喂食」 。
这些大量抓取数据的爬虫 , 正困扰学术出版商与研究人员 , 尤其是运营期刊论文、数据库和其他资源网站的人 。
「现在的情况就像是西部大荒野 , 」PSI公司的首席执行官Andrew Pitts说 。 该公司为学术交流界提供经过验证的全球IP地址库 , 位于英国牛津 。
「最大的问题是访问量实在是太大了 , 给系统带来了巨大的压力 。 这不仅耗费资金 , 还干扰了真正的用户 。 」
那些运营受到影响的网站正在想方设法阻止这些爬虫机器人 , 减少他们造成的干扰 。
但这绝非易事 。 特别是对资源有限的小机构来说 。
「如果这些问题得不到解决 , 一些小型机构可能会彻底消失 。 」德国斯图加特国家自然历史博物馆的动物学家Michael Orr表示 。
爬虫程序泛滥互联网爬虫并非新生事物 。
几十年来 , 谷歌等搜索引擎的爬虫一直在扫描网页 , 助力信息检索 。
然而 , 生成式AI的崛起引发了「坏爬虫」的洪流 。
今年 , 位于伦敦的医学期刊出版商BMJ发现 , 其网站上的爬虫机器人流量已经超过了真实用户的流量 。
BMJ的首席技术官Ian Mulvany表示 , 这些机器人激进的行为导致服务器超载 , 正常客户的服务也因此中断 。
不只BMJ , Highwire Press(专攻学术出版的互联网托管服务提供商)的服务交付总监Jes Kainth直言:「我们观察到坏爬虫的流量激增 , 这已成为严重的问题 。 」
开放获取知识库联合会(COAR)在四月份的报告中指出 , 在其调查的66个成员中 , 超过90%的成员表示曾遭遇AI爬虫抓取内容 。
【Nature警告:AI「数据饥渴症」引爆学术宕机潮,90%知识库濒临崩盘】其中大约三分之二的成员因此经历了服务中断 。
COAR执行主任Kathleen Shearer表示:「我们的知识库是开放获取的 , 所以某种程度上我们欢迎内容被再利用 。 但有些爬虫过于激进 , 正造成宕机等严重运营问题 。 」
为何盯上学术网站?数据是新石油 。
这句话在AI时代被演绎得淋漓尽致 。
LLM、图像生成器这些AI工具依赖海量高质量数据进行训练 , 而学术网站(期刊论文、数据库、开放知识库)成了「金矿」 。
因为这些网站内容权威、新鲜 , 且往往结构化良好 。
正如网络服务提供商Cloudflare副总裁Will Allen所言:「如果你的内容新颖或相关度高 , 对构建AI聊天机器人的开发者来说就是无价之宝 。 」
这些爬虫往往通过匿名IP地址行动 , 绕过付费墙 , 甚至无视网站设置的robots.txt文件(用于规范爬虫行为) 。
Wiley出版社的高级副总裁Josh Jarrett表示 , 他们发现爬虫试图获取订阅内容 。 4月 , Wiley还发布声明 , 强调未经授权的非法爬取不可接受 。
但精明的坏爬虫非常擅长绕过付费墙 。
危机下的挣扎面对爬虫洪流 , 学术网站在奋力自救 。
但在许多情况下 , 限制机器人访问而不影响正常用户十分的困难 。
一种常见的方法是集成一个文件 , 告知机器人哪些行为被允许或禁止 。
但坏爬虫往往无视规则 。
另一种方法是全面封禁所有爬虫类似的行为 , 但这种一刀切的行为又可能误伤合法用户 。
Mulvany解释说 , 学者常通过代理服务器访问期刊(这意味着大量请求可能来自同一个IP地址) , 这种访问方式很像是机器人行为 。
「我们得找到一个平衡点 , 既要保护网站不被流量激增搞崩 , 又不能影响用户正常访问这些资源 。 」Mulvany表示 。
「这事真挺烦人的 , 得花不少精力来减少这些风险 。 」
这些网站也可以屏蔽掉特定的爬虫程序 , 但需要首先区分善意和恶意爬虫 。
Cloudflare和PSI公司正努力识别坏爬虫 , 但新型AI爬虫层出不穷 , 难以完全遏制 。
「我们急需国际上达成关于AI公平使用和尊重这类资源的协议 。 」Orr表示 。
「否则 , 长远来看 , 这些工具将找不到可用的训练资源 。 」
参考资料:https://www.nature.com/articles/d41586-025-01661-4
https://coar-repositories.org/news-updates/open-repositories-are-being-profoundly-impacted-by-ai-bots-and-other-crawlers-results-of-a-coar-survey/
推荐阅读
- 亚马逊码农噩梦来袭,沦落「仓库工人」,每天流水线分拣「AI代码」
- 苹果「Pro」新机,终于大变样!
- 小米新机官方预热:搭载「玄戒O1」,即将发布
- SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?
- 多智能体在「燃烧」Token!Anthropic公开发现的一切
- 打算放弃中国市场?黄仁勋警告美国小心华为海外通吃
- 警告!iOS 26.0 beta 有问题,可能导致无法开机
- 一粒「扣子」,开启了Agent的全生命周期进化
- 腾讯打出「AI岗位薪酬不限」的底气来自哪?
- 这些 iPhone,被苹果彻底「淘汰」
