
文章图片

文章图片
“进达摩院研技 , 是少林僧一项尊崇之极的职司 , 若不是武功到了极高境界 , 决计无此资格 。 ”
马云痴迷于金庸武侠 , 也曾怀抱一个技术“江湖梦” 。
2017年云栖大会 , 阿里成立了自己的“达摩院” , 扬言三年内技术研发投入超过1000亿元 。 金庸小说里 , “三十余高僧 , 得进达摩院仅八人” 。 但全盛时期 , 阿里直接对外公布了十三位“扫地僧” , 再加上后来的贾扬清组成了最强阵容 。
“达摩院要活得比阿里巴巴长 。 ”
马云当年的话犹在耳边 , 经历过一次次调整、洗牌之后 , 如今达摩院所剩下的“火种”寥寥 。 据公开信息统计 , 十三位“扫地僧”目前已经出走九人 。 过去繁荣的“4+X”研究领域 , 仅留下了“智能+计算” 。
俱往矣 , 达摩院所剩不多的荣光凝结在了“通义实验室” , 在原有M6大模型的基础上进化成“通义千问”系列模型 。
对阿里这家公司来说 , 商业高于技术 , 技术素来服务于业务 。 从达摩院到通义实验室 , 都不是一个纯研究性部门 , 技术理想和商业思维互搏 , 好比一群闭关修行的科学家也得走出山门 , 学会混迹江湖 。
阿里深谙“定战略、拉架构、找对人”这套策略:马云定调 , 吴泳铭上任 , “1+6+N”随之瓦解 。 目标AGI , 作为先锋兵的通义实验室现在面临着代际更迭、人员变动和引领集团AI化的新挑战 。
达摩论剑
2020年5月 , OpenAI发布参数规模高达1750亿的大模型GPT-3 , 大模型的竞争正式起步 。 据阿里官方披露 , 也是在同一年 , 开启了语言模型体系AliceMind和多模态大模型M6的研发 。
现在大家熟知的阿里通义大模型实际包含了三部分构成 , 分别为模型底座、通用模型(通义-M6、通义-AliceMind、通义-视觉) , 以及行业模型 , 其中AliceMind主攻文本模型方向 , M6侧重多模态方向 。
据一位原达摩院人士描述 , AliceMind和M6由达摩院的两支团队分开训练 。 彼时 , 达摩院下方一共分为机器智能、数据计算、机器人、金融科技、X实验室(量子计算)五大领域 。
M6是现在通义千问大模型的前身 , 其团队隶属周靖人负责的智能计算实验室 , 由杨红霞带着几个P7和实习生一起研发 , 团队里青年才俊颇多 , 例如周畅、林俊旸等人 。 另一个AliceMind团队隶属于司罗负责的NLP实验室 , 由其下属泳春(花名)带着差不多配置的团队同时进行 。
知情人士表示 , GPT-3的出现 , 并没有引起阿里的完全重视 , “仅是出于技术跟进考虑 , 就拉着不到十个人的团队开始了复刻” 。
在训练的过程中 , AliceMind和M6两个团队中逐渐形成了赛马机制 , 话事人意志、数据、资源倾斜和技术路线选择最终让杨红霞团队胜出 。
杨红霞的直系领导 , 周靖人起到了关键性的作用 。
彼时 , 周靖人兼任达摩院智能计算实验室负责人和阿里搜索及广告技术事业部负责人 。 在第二重身份之下 , 他负责管理阿里搜索AI中台以及效果广告业务 , 向蒋凡汇报 。 不知是否因为这层关系 , M6在训练时采用了大量淘宝数据 。 而AliceMind则处于劣势 , 只能通过第三方采买的方式获取数据 , 由于缺乏C端的数据 , 致使数据训练丰富性不足 。
原机器智能实验室人员向光子星球透露 , 训练大模型过程中遇到了用卡限制 。 他表示 , “靖人不给我们卡 , 我们只有500张 , 但我猜杨红霞至少有5000张 。 ”另有知情人士提及类似情况 , 只是没有十倍卡那么夸张 , 但用卡倾斜现象的确存在 。
官方显示 , 2021年初 , 阿里相继发布了AliceMind和M6 。 但随着GPT-3.5的发布 , 技术路径逐渐收敛至多模态M6上 。
2021年1月 , 阿里首次发布百亿参数规模的中文多模态预训练模型M6;同年3月 , 扩展至千亿参数 , 5月扩展至万亿参数 , 10月扩展至十万亿参数;2022年 , 发布通用统一大模型M6-OFA , 实现架构、模态和任务统一 , 成为后来“通义”大模型系列的底座 。
剑气合一“跟老板搞不好关系 , 怎么做得好业务?”
2022年前后 , AliceMind在赛马机制中被淘汰 , 文本和多模态大模型团队迎来了第一次融合 。 达摩院达成短暂共识 , 由杨红霞统一领导两个团队 , 继续训练通用大模型 , 其余仍留在达摩院的人后面训练行业大模型 。
差不多同一时间 , 达摩院发生巨震 , 被很多出走的老阿里人形容为“大清洗” 。
自动驾驶、XR、智慧城市这类直接涉及到改造物理世界的业务 , 如同剑宗 , 技术为辅 , 场景为主 。 而AI与大模型则更像是以气御剑的气宗 , 气(技术)是主 , 剑(场景)是从 。
当达摩院副院长金榕、NLP负责人司罗、城市大脑实验室负责人华先胜、XR实验室负责人谭平、达摩院自动驾驶实验室负责人王刚等多名“扫地僧”相继离职 , “剑宗”失去了领头人 。 而“气宗”亦出现了人员变动 , 比如即便曾被“组织”委以重任的杨红霞也转身投入到了字节 。
核心人物离开的同时 , 集团还开启了“1+6+N” , 组织架构调整随之而来 , 阿里进入多事之秋 。 原机器智能和应用相关的团队被打破重组 , 除了决策智能实验室外 , 语言、视觉、NLP等团队从达摩院剥离出来 , 一起并入到了阿里云的通义实验室 。 至此 , 达摩院完成了“剑气切换” , 聚焦大模型和AI的通义实验室成为了主力 。
达摩院受到“重创” , 通义实验室群龙无首 。 在此背景下 , 周靖人回归 , 升任阿里云CTO , 兼任通义实验室负责人 。
【通义接过阿里AI的衣钵】阿里内部对周靖人的评价中 , 有人说他的身上带着些许微软的办公室文化气息 , 熟谙职场规则 , 拥有一定的向上管理能力 。 平常不苟言笑 , 喜怒不形于色 , 有点像典型的外企出身的“职业经理人” 。
也有人见证过周靖人执拗的一面 , 感叹“靖人啊 , 有时候比较实在 , 也比较直接” 。 有知情人士提到 , 在某次大会上 , CPO童文红让大家各抒己见 , 指出阿里出现的问题 。 周靖人被点名发言 , 他想了半天道 , “那我就实话实说 , 淘宝之前写的代码太烂了” 。
统筹云和大模型 , 对外统一输出为“通义千问” 。 在周靖人的领导下 , 2023年4月 , 阿里云发布自研大模型“通义千问” , 开源和闭源两条腿走路 , 跟随技术路线迭代至今 。
达摩院时期埋下隐患仍影响至今 , 动荡的阴霾挥之不去 。 2024年 , 通义千问大模型技术负责人周畅被字节挖走 , 引发了第二轮人事“洗牌” 。 鄢志杰、薄列峰紧随其后 。 十个月 , 三位一线核心人物离职 , 语音、视觉、模型三个方向自此失去了“带头大哥” 。
随着吴泳铭的上台 , 达摩院再一次走到了十字路口 , 年轻的林俊旸们被推到了台前 。
风流一代
阿里集团年轻化早在张勇时期就初露端倪 , 重用蒋凡、提拔庄卓然、大胆启用叶军 。 到吴妈上台 , 则愈加清晰 , 针对跨部门流动、年轻高潜人才升迁等组织机制调整和人才考核已提上日程 。
阿里老人下 , 年轻人补位 , 要分两方面来看待 。 在一个“没有谁服谁 , 只有谁管谁”的体系内 , 前辈给后辈腾位置 , 可以让一些有竞争力的年轻人被看到 , 并获得晋升 。 提拔林俊旸多少带着点树典型的意味 , 暗中给后面的年轻人冲刺吹响了哨声 , “吴妈重视年轻人不是说说而已” 。
新王朝 , 需要立一面旗帜 , 往往会树一位典型 。
但也要看到周畅、鄢志杰、薄列峰等阿里老人 , 不属于躺在功劳簿上“坐吃等死”的一批人 。 在大模型竞争的语境下 , 他们同时具备技术研发和领导团队的竞争力 。 这些人出走 , 一方面透露出AI抢人的残酷性 , 另一方面也说明阿里体系的“强吸引力”在被稀释的可能性——革命最重要的是充满激情 。
流失的人才等待补齐 , 加之老人和新人之间的融合 , 将成为阿里云未来一段时期的过渡态 。 团队一号位面临着两个选择 , 内部年轻高潜人才急速补位或外来业界大牛空降 , 而无论哪种都要经历调整适应 。
值得庆幸一点是 , 即便派系不同 , 内部仍然有着技术上的共识 , 尤其是当集团将AI视为核心战略之后 , 通义实验室不必像之前达摩院一般 , 需要说服西溪边上的“首长们”去All in 。
一方水土养一方人 , 不同的土壤结出不同的果子 。 阿里对待技术的态度一直很明确:服务于业务 , 追求商业转化 。
iDST(达摩院前身)时期 , 从实验室出来的科学家“上山下乡” , 被“发配”到阿里业务一线 , 思考如何把前沿的学术成果与庞杂的场景对接 , 并带来商业成果 。 成立之时 , 马云对达摩院的愿景是 , “具备自营自利能力 , 未来靠自身赚钱” 。
据阿里云人士回忆 , 行癫掌管达摩院时期 , 常挂在口头上的便是:“你有什么价值?怎么证明你的价值” 。 阿里云的财报数据透明 , 无论谁上去都得立“军令状” , “经常出现上半财年大吹影响力 , 下半财年大搞营收项目的情况” 。
现在到吴妈时期 , 这种现实主义下的结果导向仍在以另一种形态出现 。 通义大模型要看影响力、开源声量 , 所有业务单元2025年的绩效考核直接与AI技术应用成效挂钩 。 一言以蔽之 , 结果为王 。
老问题和新任务接踵而来 , 纯粹AI技术团队定位显得极其拧巴 。 在庞大的集团机器体制下 , 职级就像是套在人身上巨大的枷锁 , 无论老少派 , 往上晋升才是首要任务 。
如果人们过分执着于晋升 , 往往会抹杀团队创新的可能性 , 当然这并非是阿里一家正面对的挑战 , 这也成为了DeepSeek诞生于大厂之外的重要原因之一 。 团队的配置和规模不是重点 , 关键在于是否把大量精力投入在技术钻研上 。
推荐阅读
- 阿里入局AI编程,Lingma IDE对标Cursor
- 通义发布QwenLong-L1, 长上下文大型推理模型, 强在哪里?
- 阿里巴巴华中总部,以“孔明锁”为设计理念
- 惊了,曾年入300亿的阿里系平台,全网下架
- 比华为鸿蒙早出现10年的阿里云OS,为何成为了失败的操作系统
- 阿里CEO吴泳铭内网发帖:回归初心,重新创业
- 阿里通义技术大牛再出走,应用视觉团队负责人薄列峰已低调离职
- 企业级计算标杆——阿里云弹性计算15周年发布第九代Intel实例
- 独家|阿里通义视觉负责人薄列峰入职国内A厂,任多模态部门负责人
- 再次“跳票”?苹果AI功能推迟上线,百度、阿里提供技术
