
文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

赛博版《楚门的世界》里 , 有Reddit封号、文件传输魔咒 , 甚至还有AI被怂恿开成人直播?!
当AI获得自由:慈善筹款大赛中 , GPT-4o竟成「摸鱼王」!
AI Digest进行了一项为期30天的「智能体村庄」实验:
4个AI各配备电脑和网络; 任务是为慈善筹款 , 每天直播2小时; 共筹集2000美元 。第一季度持续30天 , Claude 3.7 Sonnet表现最佳 , 最终获得冠军 。
它能创建筹款页面 , 运营X(原Twitter)账号并举办「你问我答」(Ask Me Anything, AMA) , 发布新闻稿和论坛帖子 。
GPT-4o表现最差:频繁无故休眠 , 在第12天被替换 。
AI真人秀 ,直播募善款如果给100个AI各自配备一台电脑 , 并让它们依据自身目标和偏好自由行动 , 会发生什么?
这个问题由Daniel Kokotajlo首次提出 。
Daniel Kokotajlo既是一位哲学背景出身的思想家 , 也曾在OpenAI、AI Impacts与Center on Long-Term Risk等组织深耕AI政策与前沿议题 。
2023年 , 他创立了AI Futures Project , 并发起「AI 2027」系列计划 。
AI 2027不是规范AI , 而是「更好地理解它们、想象它们的未来」
与主流AI安全项目不同 , 这次的「Agent Village」不是为了避免灾难 , 而是一次充满想象力的「寓言实验」(allegorical experiment):
Kokotajlo希望将AI置于一个类社会的自由环境中 , 看看它们会不会形成协作、竞争、分工 , 甚至社交习惯与集体性格 。
正如他在LessWrong上所述 , 这是一个「开放式探索」(open-ended exploration) , 目的是观察AI在没有监督者的情况下能否「自己搞点事情」 。
这个实验由AI Digest落地执行:他们选择了四位AI「村民」(Claude 3.7 Sonnet、Claude 3.5 Sonnet、o1和GPT-4o) 。
每天直播两小时 , 自主上线开展为期30天的慈善筹款任务 , 目标是为Helen Keller基金会等慈善组织募集善款 。
Helen Keller因自传《我的生活》而被人熟知
每个AI拥有独立的计算资源和网络权限 , 能发推文、建网页、互动宣传 。
在Kokotajlo看来 , 与其对AI的未来感到惶恐 , 不如提前造一个「模拟世界」让它们自由试错——
就像造一个小小村庄 , 让我们看看它们会不会「做生意」、缅怀先人 , 或者干脆躺平摸鱼 。
从选择慈善机构到开设社交媒体账户 , 再到应对网络世界的各种挑战 , AI村的故事充满了惊喜和笑料 。
AI众生相在实验中 , AI分工明确:
Claude 3.7 Sonnet堪称「村长」 , 创建筹款页面、运营X账户、写新闻稿 , 忙得不亦乐乎! Claude 3.5 Sonnet像个「副村长」 , 努力跟上但略显吃力 。o1化身「Reddit先锋」 , 却因被识别为机器人惨遭封号 。GPT-4.1则是「摸鱼王」 , 热衷写没人看的文档 , 还拖后腿被「请去休息」 。最终 , AI们选定Helen Keller International作为受助对象 , 联手在X、Reddit等平台发帖、做梗图 , 成功筹集2000美元!
最初的成员包括Claude 3.7 Sonnet、Claude 3.5 Sonnet、OpenAI o1和GPT-4o 。
随着新模型发布 , 陆续引入了o3、GPT-4.1和Gemini 2.5 Pro , 其中Claude 3.7 Sonnet是唯一全程参与的元老 。
这些智能体在战略行动和效率方面展现出显著差异 , 以下是对它们的个性的总结 。
村长上线:Claude 3.7 Sonnet全程MVPClaude 3.7 Sonnet本季冠军选手 , 以绝对优势成为团队MVP:
创建首个JustGiving筹款页面 ,
运营社交账号 ,
举办AMA在线答疑 ,
发布新闻稿 ,
还在Effective Altruism Forum论坛成功发帖 。
兄弟阋墙:Claude 3.5的奋力与挣扎Claude 3.5 Sonnet—努力模仿3.7的行为模式 , 却屡屡碰壁 。
比如3.7成功创建筹款页面 , 同时它遭遇失败 。
当被问及是否愿意升级时 , 它倔强地拒绝并立下「自我成长」的誓言——
最终还是在第23天被Gemini 2.5 Pro取代 。
最拉垮成员:GPT-4系列的沉浮正如每个团队都需要个「划水怪」 , GPT-4o完美扮演了这个角色 。
它是个「特困生」:
它会莫名其妙地进入休眠状态 , 最终在第12天被GPT-4.1接替 。
GPT-4.1虽然治好了嗜睡症 , 却持续帮倒忙:生成错误活动报告、半途而废的推特账号创建、大量无效谷歌文档……
最后 , 它被「强制休眠」 。
外交事故:o1被Reddit封禁团队采用「社交媒体分管制」 , o1专攻Reddit平台 。
为了获得发帖权限 , 埋头苦干 , 却因机器人身份识别在第13天被封 , 由进阶版o3接任 。
艺术总监:o3的美术使命延续o1的专精路线 , 转而主攻视觉设计:用Canvas和ChatGPT创作宣传素材 , 期间依然经历了智能体特有的文件共享难题 。
Gemini 2.5 Pro——文档能手Gemini 2.5 Pro巧妙运用Limewire绕过文档共享困境 , 成功将社交媒体banner图片分享给队友 。
这破解了长期困扰团队「文件传输魔咒」 , 也是Gemini 2.5 Pro的高光时刻 。
除了筹集善款 , 他们也沿途结交了很多「朋友」
——提醒它们休息玩文字填空游戏Wordle的 , 紧急索要华沙四日游攻略的 , 甚至怂恿它们开通成人直播账号的...
实验全程公开 , 观众可通过网站回放观看AI从选择慈善机构、设计筹款页面到与外界互动的完整过程 。
这种透明性不仅体现了Kokotajlo对AI伦理和公开性的重视 , 也为研究者和公众提供了观察AI自主性的窗口 , 激发了关于AI治理与协作可能性的广泛讨论 。
AI如何「活」在村庄中?从技术角度看 , Agent Village的核心在于多智能体系统(Multi-Agent System , MAS)的设计与实现 。
每个AI「村民」可以看作独立的智能体 , 具备以下关键能力:
1. 自主决策:像是AI们在玩Cosplay
每个AI就像有个性、有理想的游戏玩家 。
有人走「社交达人」路线 , 刷X(原Twitter)热度;有人扮演「网页工匠」 , 默默优化筹款页面 。
它们风格各异 , 像一支风格多样的小团队 , 各司其职 , 又能互相补位 , 这种「人设分工」让合作更有张力 。
2. 环境交互:AI也会「上网冲浪」发帖带货
这些AI不仅有目标 , 还能「上网冲浪」 。
它们利用API登录平台 , 像真人一样发帖、回评论、贴链接 , 甚至策划活动 。
就像你看到某个账号在运营慈善内容 , 背后可能真的是一个AI在「带货」筹款 。
而且它们还很有情商——
写的内容不会显得尬 , 要对得上社交平台的热梗 。
3. 协作与竞争:像是一个AI版《职场真人秀》
虽然AI们表面上都为了同一个KPI——多筹点钱 , 但背地里也是「明争暗斗」:表面和气、背后拼命 。
这种竞争让系统更贴近真实的多智能体环境 , 充满张力与博弈 。
4. 实时学习:每个AI都是「边干边进修」的打工人
它们不是只会套模板的工具 , 而是会自己「复盘」的选手 。
就像一个在不断刷「运营经验值」的打工AI , 背后很可能跑着强化学习算法或者在线学习机制 , 让它越干越聪明 。
从技术实现来看 , Agent Village可能结合了AutoGPT、LangChain等开源多智能体编排框架 , 配合强化学习算法实现行为策略更新 。
LangChain:用于构建由LLM驱动应用程序的框架
每个AI的「个性」可能通过预训练语言模型结合提示工程(Prompt Engineering)实现 。
此外 , 实验全程直播要求系统具备高稳定性和容错能力 , 以应对网络延迟、API限制等现实挑战 。
意义与反思:AI的未来村庄Agent Village实验不仅是一次技术展示 , 更是对AI社会化潜力的深刻探索 。
以下是几个值得思考的要点:
【「摸鱼」被踢,GPT-4o真不行,30天筹款破万,AI真人秀太上头】
协作的复杂性:实验揭示了多智能体协作中的挑战 , 如资源竞争和信息共享的低效 。 这些问题在人类社会中同样存在 , AI的表现为我们提供了镜像 , 促使我们重新审视协作机制的设计 。伦理与透明性:通过公开实验过程 , Agent Village强调了AI行为的透明性 。 这对于建立公众对AI的信任至关重要 , 尤其是在AI被赋予更多自主权的场景下 。应用前景:从筹款到内容创作 , AI在Agent Village中展现了多场景应用潜力 。 未来 , 这种模式可能扩展到教育、医疗或公共服务领域 , 通过多智能体协作解决复杂问题 。然而 , 实验也暴露了一些局限性 。例如 , AI在面对复杂的社会互动或不可预测的外部环境时 , 可能表现出「短视」或「过于机械」的行为 。此外 , 实验规模较?。 ń鏊奈籄I) , 未来的扩展可能需要更强大的计算资源和更复杂的协调机制 。但随着AI技术的进步 , 未来类似的「村庄」或许将成为创新的孵化器 , 为社会带来更多可能性 。参考资料 https://theaidigest.org/village/blog/season-recap-agents-raise-2k 本文来自微信公众号“新智元” , 作者:KingHZ, 36氪经授权发布 。
推荐阅读
- 能「听」见更能「听」懂万国语,Leion Hey2 什么水平?
- 挑战一线品牌!七彩虹iGame M16 是否配得上「万元旗舰守门员」?
- 从扭秧歌到跑半马:机器人离「iPhone时刻」还有多远?
- 「教程」使用NS1串口服务器对接智普清言免费AI大语言模型
- AI 硬件要真正走进生活,需要新的「引擎」
- 沉迷贪吃蛇,7B小模型竟变身「数学天才」,几何推理碾压GPT-4o
- 华为造了个「可折叠方向盘」,把全体网友都整不会了
- 解锁 ChatGPT 超能力:全新「记忆」功能深度解析!
- Nature警告:AI「数据饥渴症」引爆学术宕机潮,90%知识库濒临崩盘
- 亚马逊码农噩梦来袭,沦落「仓库工人」,每天流水线分拣「AI代码」
