Nature警告：AI「数据饥渴症」引爆学术宕机潮，90%知识库濒临崩盘_nature

文章图片

文章图片

学术网站本是知识的宝库，却因AI爬虫的疯狂掠夺而陷入瘫痪。从DiscoverLife到BMJ ，数百万次异常访问让服务器不堪重负，威胁着开放获取的科研命脉。这场「数字蝗灾」究竟因何而起？学术界又该如何应对？
假如一个平日里宁静的图书馆，突然涌入一大群不速之客，他们不阅览、不沉思，只是一味地疯狂复印每一本书的每一页。
这喧嚣吵闹的场面，怎能不打扰那些正埋首书海、专心阅读的人们呢？
如今，学术网站正遭遇类似的「数字入侵」。
就在近日， Nature发表文章详细揭露了这些行为。
文章地址：https://www.nature.com/articles/d41586-025-01661-4

数字「蝗灾」席卷学术界DiscoverLife是一个在线图像库，拥有近300万张珍贵的物种照片，是很多生物学家的科研生命线。
然而，从今年2月开始，该网站每天都被数百万次异常访问淹没，页面加载缓慢，甚至彻底瘫痪。
当你试图打开一张稀有昆虫的图片时，却只能面对「服务器繁忙」的提示。
罪魁祸首是谁？
不是黑客，也不是病毒，而是一群悄无声息的AI爬虫，正在疯狂「啃食」数据，为生成式人工智能「喂食」。
这些大量抓取数据的爬虫，正困扰学术出版商与研究人员，尤其是运营期刊论文、数据库和其他资源网站的人。
「现在的情况就像是西部大荒野，」PSI公司的首席执行官Andrew Pitts说。该公司为学术交流界提供经过验证的全球IP地址库，位于英国牛津。
「最大的问题是访问量实在是太大了，给系统带来了巨大的压力。这不仅耗费资金，还干扰了真正的用户。」
那些运营受到影响的网站正在想方设法阻止这些爬虫机器人，减少他们造成的干扰。
但这绝非易事。特别是对资源有限的小机构来说。
「如果这些问题得不到解决，一些小型机构可能会彻底消失。」德国斯图加特国家自然历史博物馆的动物学家Michael Orr表示。

爬虫程序泛滥互联网爬虫并非新生事物。
几十年来，谷歌等搜索引擎的爬虫一直在扫描网页，助力信息检索。
然而，生成式AI的崛起引发了「坏爬虫」的洪流。
今年，位于伦敦的医学期刊出版商BMJ发现，其网站上的爬虫机器人流量已经超过了真实用户的流量。
BMJ的首席技术官Ian Mulvany表示，这些机器人激进的行为导致服务器超载，正常客户的服务也因此中断。
不只BMJ ， Highwire Press（专攻学术出版的互联网托管服务提供商）的服务交付总监Jes Kainth直言：「我们观察到坏爬虫的流量激增，这已成为严重的问题。」
开放获取知识库联合会（COAR）在四月份的报告中指出，在其调查的66个成员中，超过90%的成员表示曾遭遇AI爬虫抓取内容。
【Nature警告：AI「数据饥渴症」引爆学术宕机潮，90%知识库濒临崩盘】其中大约三分之二的成员因此经历了服务中断。
COAR执行主任Kathleen Shearer表示：「我们的知识库是开放获取的，所以某种程度上我们欢迎内容被再利用。但有些爬虫过于激进，正造成宕机等严重运营问题。」

为何盯上学术网站？数据是新石油。
这句话在AI时代被演绎得淋漓尽致。
LLM、图像生成器这些AI工具依赖海量高质量数据进行训练，而学术网站（期刊论文、数据库、开放知识库）成了「金矿」。
因为这些网站内容权威、新鲜，且往往结构化良好。
正如网络服务提供商Cloudflare副总裁Will Allen所言：「如果你的内容新颖或相关度高，对构建AI聊天机器人的开发者来说就是无价之宝。」
这些爬虫往往通过匿名IP地址行动，绕过付费墙，甚至无视网站设置的robots.txt文件（用于规范爬虫行为）。
Wiley出版社的高级副总裁Josh Jarrett表示，他们发现爬虫试图获取订阅内容。 4月， Wiley还发布声明，强调未经授权的非法爬取不可接受。
但精明的坏爬虫非常擅长绕过付费墙。

危机下的挣扎面对爬虫洪流，学术网站在奋力自救。
但在许多情况下，限制机器人访问而不影响正常用户十分的困难。
一种常见的方法是集成一个文件，告知机器人哪些行为被允许或禁止。
但坏爬虫往往无视规则。
另一种方法是全面封禁所有爬虫类似的行为，但这种一刀切的行为又可能误伤合法用户。
Mulvany解释说，学者常通过代理服务器访问期刊（这意味着大量请求可能来自同一个IP地址），这种访问方式很像是机器人行为。
「我们得找到一个平衡点，既要保护网站不被流量激增搞崩，又不能影响用户正常访问这些资源。」Mulvany表示。
「这事真挺烦人的，得花不少精力来减少这些风险。」
这些网站也可以屏蔽掉特定的爬虫程序，但需要首先区分善意和恶意爬虫。
Cloudflare和PSI公司正努力识别坏爬虫，但新型AI爬虫层出不穷，难以完全遏制。
「我们急需国际上达成关于AI公平使用和尊重这类资源的协议。」Orr表示。
「否则，长远来看，这些工具将找不到可用的训练资源。」

参考资料：https://www.nature.com/articles/d41586-025-01661-4
https://coar-repositories.org/news-updates/open-repositories-are-being-profoundly-impacted-by-ai-bots-and-other-crawlers-results-of-a-coar-survey/

Nature警告：AI「数据饥渴症」引爆学术宕机潮，90%知识库濒临崩盘

推荐阅读

内里加绒外面皮u的裤子怎么洗

微信无法扫码

枸杞怎么吃效果最好,枸杞怎么吃效果更好

内扣怎么扎好看

小仙女开花是什么样子

茶叶种植需要注意什么时候

便宜的呢子大衣可以用洗衣机洗吗

14天热销100万台，24GB+1TB+骁龙8Gen3，已成手机行业“新爆款”

公司自然人是什么意思公司自然人是啥意思

股票停牌什么意思股票停牌的意思

如何修复汽车划痕车上有划痕怎么修复小妙招

糖对人体有什么作用

重庆华西咨询有限公司招聘电话号码是多少,但彦铮任重庆市副市长

商丘酷奇单车总部在哪里,共享单车倒闭后

圣经的第一句话是什么

小学六年级成绩查询入口官网，如何在网络上查找六年级期末考试分数