
文章图片

文章图片

文章图片

文章图片

文章图片

OpenAI 在通向 AGI(通用人工智能)的五大阶段中 , 将「组织级」智能列为最终目标:即 AI 能像一个组织般管理复杂流程、决策高层任务、协调大规模操作 。近两年来 , 大量多智能体系统(Multi-Agent Systems MAS)研究陆续涌出 , 不断朝这这一里程碑迈进 。
为了推动该领域加速健康发展 , 由上海交通大学、上海 AI 实验室、牛津大学、普林斯顿大学、Meta 等十个机构联合推出的 MASLab , 带来首个统一、全面、研究友好的大模型多智能体系统代码库:
- 论文地址:https://arxiv.org/pdf/2505.16988
- 代码地址:https://github.com/MASWorks/MASLab
「一键横评」「快速上手」「复现无忧」
你是否也曾:
- 看了几十篇 MAS 论文 , 却发现代码实现千差万别?
- 打开一个 MAS 项目的仓库 , 一眼望去配置乱、接口杂?
- 想尝试复现或二次开发 , 但总是无从下手 , Debug 到天亮?
那你一定不能错过 MASLab!
MASLab 有多好用?
MASLab 统一化集成了超过 20 种主流 MAS 方法 , 涵盖过去两年内各大顶会的成果、多个领域、多种任务类型 。 并且每种方法都经过研究者们逐步输出比对 , 确保过程和结果严格遵循原始实现!
三大核心特性 , 一次到位:
? 方法全:包含 AgentVerse、ChatDev、LLM Debate、AFlow、MAS-GPT 等 20 多种多智能体方法 , 为广大研究者省去复现烦恼!
? 评估准:统一输入预处理、LLM 配置、评估协议 , 确保横评公平性与可重复性!
? 结构清晰:统一方法实现结构 , 新手也能轻松上手 , 轻松拓展!
跨域横评 , 真实力一目了然!
研究者们利用 MASLab 进行了大量实验分析 , 覆盖 10 余种评测基准(MATH、GPQA、GAIA 等) , 包括 LLaMA-3.3、Qwen-2.5 系列、GPT-4o 等 8 大主流模型 , 首次系统地刻画大模型多智能体(MAS) 方法在多个任务维度下的性能图谱 。
通过大量实验 , 为广大研究者们展示了当前多智能体系统方法的发展现状、有劣势等 。
MASLab 研究团队不仅紧跟多智能体(MAS)领域前沿 , 更基于现有成果 , 创新性地提出了更高效的 MAS 方法 ——MASLab-ReAct 。 该方法支持搜索、读图、读语音等多种工具 , 并在 GAIA 验证集上取得了更优结果!实验数据更是有力证明 , 尤其在需要代码执行、图像解析等工具调用能力的场景下 , MAS 展现出无可比拟的显著优势 , 预示着其在真实世界应用中蕴藏的巨大潜力!
多维剖析:不只是简单跑跑实验!
MASLab 进一步探索:
?? 仅因评估协议不同 , 不同 MAS 方法排名可发生巨大变动!
MASLab 研究团队探讨了不同 MAS 方法使用的评估协议 , 实验证明 —— 评估方式选择 , 直接影响科研结论!这一结果直接地证明了 MASLab 这一统一代码框架对多智能体领域的重要性!
扩展性分析:
考察不同多智能体方法 Test-time Compute 的拓展性:
考察不同模型尺寸(7B~72B)对多智能体方法表现的影响:
失败分析:详细追踪格式错误、工具调用失败等常见问题源 。 MAS 系统的表现不仅依赖模型「聪明」 , 更依赖其是否能「听懂指令」 。
共建未来:开源共享 , 共创智能新生态!
MASLab 不是闭门造车的项目 , 而是为社区而生的开源平台 , 欢迎社区贡献!共同打造 MAS 的标准实验平台!
未来 MASLab 将持续开源更多方法与基准 , 推动构建真正可持续发展的 MAS 研究社区!
MASWorks 大模型多智能体开源社区
与此同时 , MASLab 研究团队近期发起了一个全新的倡议 ——MASWorks 开源社区!愿景是连接全球研究者 , 汇聚智慧 , 一同分享、贡献与协作 , 共同推动 MAS 领域的蓬勃发展 。
作为社区启动的首个重磅活动 , MASWorks 将在 ICML 2025 举办聚焦大语言模型多智能体的 Workshop:MAS-2025!期待全球广大学者的积极参与 , 共同探讨、碰撞思想 , 描绘 MAS 的未来蓝图!
【统一20+多智能体方法,MASLab震撼发布】
- MASWorks:https://github.com/MASWorks MAS-2025
- ICML 2025 Workshop on MAS:https://mas-2025.github.io/MAS-2025/
推荐阅读
- 这个憋屈多年的“行业第一”,被腾讯救了一命
- 不是井底之蛙,感觉现在小米澎湃比iOS流畅多了
- CVPR 2025 多模态大一统:斯坦福 x 复旦提出符号主义建模生成式任务
- CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
- 新买的华为手机,一定要完成这4步设置,手机能多用好几年!
- 这么多年了,为什么台式机还处于组装(DIY)阶段?
- 博主曝vivo X Fold5三防性能:可以水下折叠,且填补了多项行业空白
- 美光宣布向多个关键客户出样 HBM4 36GB 12Hi 内存
- 小米千元机有多能打?这3款性价比高,618不要错过了
- 华为新品震撼发布 鸿蒙5全面覆盖手机、平板、电脑、穿戴等全场景多终端
