Flash Attention作者最新播客:英伟达GPU统治三年内将终结

Flash Attention作者最新播客:英伟达GPU统治三年内将终结

文章图片


henry 发自 凹非寺
量子位 | 公众号 QbitAI
英伟达还能“猖狂”多久?——不出三年!
实现AGI需要新的架构吗?——不用 , Transformer足矣!
“近几年推理成本下降了100倍 , 未来还有望再降低10倍!”
这些“暴论” , 出自Flash Attention的作者——Tri Dao 。

在最新播客《Unsupervised Learning》中 , Tri Dao分享了对GPU市场、推理成本、模型架构以及AI未来趋势的深度洞察 , 并针对上述“暴论”展开了有理有据的分析:
未来2-3年内 , 随着针对不同工作负载类别的专用芯片出现——包括低延迟的智能体系统、高吞吐量的批量处理以及互动式聊天机器人——AI硬件格局将从NVIDIA当前约90%的主导地位 , 转向更加多元化的生态系统 。 MoE架构、推理优化、模型量化、模型架构和硬件的协同设计等技术促成了模型推理成本的下降 。 未来将会出现三类工作负载模式:传统聊天机器人、极低延迟场景、大规模批处理/高吞吐场景 , 硬件供应商可以针对不同的工作负载做出相应的优化 。……
Tri Dao不仅是Flash Attention的作者 , 而且还是Mamba的作者之一 。
同时 , 他也是TogetherAI的首席科学家、普林斯顿大学教授 。
《Semi Analysis》曾盛赞他在英伟达生态中的贡献 , 是其护城河的重要组成部分 。

可以说 , 他对硬件市场以及AI硬件未来发展的判断极具参考价值 。
接下来 , 就和我们一起看看吧!
访谈全文整理如下:
(注:为方便阅读 , 调整了部分语气词和过渡)
访谈内容 Nvidia 的主导地位及其竞争者Q:在英伟达生态体系 , 比如芯片层面或者GPU系统整合方面 , 会看到新的竞争者吗?
Tri Dao:我确实花了不少时间思考芯片 , 我认为当然会有很多竞争者进入这个领域 。
AMD已经在这里很久了 。 英伟达之所以占据主导 , 有几个原因:他们设计了非常好的芯片 , 同时也做出了很好的软件 , 这形成了一个完整的生态 , 让大家在此基础上开发更多的软件 。 但我认为 , 随着工作负载(work load)逐渐集中在特定架构上 , 比如Transformer、MoE等 , 设计适配这种工作负载的芯片会变得更容易 。
在推理端 , AMD有一些优势 , 比如更大的内存 , 现在我们已经开始看到一些团队在尝试 。 在训练端则更困难一些 , 网络通信(networking)是主要瓶颈 , 而英伟达在这方面仍然领先 。
但人们已经理解了:打造优秀训练芯片的挑战是什么 , 打造优秀推理芯片的挑战又是什么 。 最后比拼的就是执行力 。 所以我会说 , 这是一个非常令人兴奋的领域 。 我和很多在设计新芯片的人交流过 , 无论是推理还是训练 。
我预计未来几年 , 部分工作负载会进入“多芯片”时代 , 不会像现在这样90%都在英伟达上运行 , 而是会跑在不同的芯片上 。
Jacob Effron:你认为当前的架构是否已经足够稳定 , 可以支撑对未来两三年推理和训练工作负载的长期押注 , 还是说目前仍存在不确定性 , 各家初创企业和公司各自下注 , 最终可能只有一两家脱颖而出?
Tri Dao:我认为在架构层面 , 从宏观来看 , 好像已经在Transformer上趋于稳定 。
但如果你仔细看 , 会发现其实还在发生很多变化 。
【Flash Attention作者最新播客:英伟达GPU统治三年内将终结】最近这两年最显著的就是Mixture of Experts(MoE) 。 它让模型变得更大 , 参数更多 , 但计算是稀疏的 。
这带来一些权衡 , 比如需要更多内存 , 但计算量可能相对更小 。
对一些芯片制造商来说 , 这会增加难度 , 因为他们可能原本是针对稠密模型设计的 , 计算分布很均匀 , 而现在要面对稀疏计算 , 设计起来更复杂 。
再比如attention已经存在十多年了 , 但至今仍在不断演变 , 这其实会让一些事情变得困难 。
像DeepSeek就提出了一种multi-head latent attention , 它和传统的attention有些不同 。 比如他们使用了非常大的head dimension 。
如果你的系统里矩阵乘法引擎只有某个固定大小 , 可能就不匹配了 。
像这样的一些问题 , 一旦你深入到细节里就会出现 。 所以这是架构上的挑战 。
在工作负载层面 , 人们使用这些模型的方式也在发生很大变化 。
传统的用法是聊天机器人(虽然“传统”也不过就是过去两三年的事) , 但现在出现了新的负载 , 比如编程工作负载——像Cursor、Windsurf这样的工具 。
这类更接近agent的工作负载 , 不仅仅是运行模型 , 还需要调用工具 , 比如运行Python解释器、做网页搜索等等 。
这会带来芯片设计上的挑战 。 如果芯片只专注于让模型本身跑得最快 , 就可能忽略了与主机连接去执行网页搜索这类任务的能力 。
所以我会说 , 虽然从高层来看架构似乎稳定了 , 但在底层仍然有很多变化 。 而且工作负载本身也在演变 , 所以这始终是一场“竞速” , 看谁能更快适应新的负载 。
芯片设计中的挑战Q:如果说现在90%的工作负载还在英伟达芯片上运行 , 那么你觉得两三年后会怎样?
Tri Dao:我认为在推理端 , 会出现多样化 , 我们已经开始看到像Cerebras、Grok、SambaNova这样的公司带来的挑战 。
他们强调可以做到极低延迟的推理 , 这对某些场景非常棒 。
我们和一些客户交流时发现 , 他们非常在乎尽可能低的延迟 , 并且愿意为此支付更高成本 。 同时也有客户特别关注大批量、高吞吐量的推理 , 比如海量数据处理、合成数据生成、或者强化学习训练中需要快速rollout、生成大量轨迹的场景 。
所以我认为市场一定会多样化 , 因为工作负载本身也会越来越多样:低延迟、高吞吐 , 甚至可能是视频生成 , 这都会对算力和内存提出不同的要求 。
Jacob Effron:初创公司如何押注不同类型的优化?
Tri Dao:如果是创业公司 , 你就必须下注 。 你投资的时候 , 其实就是要做一个超出常规的押注 。
你可能会赌说 , 聊天机器人最终会消失 , 人们真正关心的其实是别的东西 , 比如视频模型、视频生成模型、世界模型 , 或者机器人之类的 。
然后你就掷骰子 , 说 , 好吧 , 那可能会占据50%的工作负载 。
那么我们要如何为这种工作负载设计芯片呢?你只能希望自己的押注是对的 。 我觉得这就是创业公司的角色 。
如果你不押注 , 而只是说我要为通用的工作负载优化 , 那么大厂会在执行力上完全碾压你 。
Jacob Effron:为什么不去尝试除了英伟达以外的其他公司?硬件领域会出现巨额薪资吗?
Tri Dao :我个人其实和很多不同公司的工程师都有合作 , 包括英伟达、AMD、谷歌、亚马逊等等 。
我花很多时间在英伟达的芯片上 , 纯粹是因为这是我们现阶段能用到的最普及的产品 。
他们设计了非常好的芯片 , 也有非常好的软件支持 , 这让我能够做很多有意思的事情 , 而这正是我追求的:能不能做出有意思的东西 。
比如我们之前和AMD合作过一个版本的Flash Attention , 并且把它集成进了公共仓库 。
所以我们确实有跟他们合作 。 至于最好的合作模式应该是什么 , 我现在还不太确定 。
不过 , 最近我更多地在思考:我们需要什么样的抽象?不仅是针对英伟达芯片 , 而是针对GPU和加速器整体 。
在最低层级 , 我还是会花很多精力榨干这些芯片的性能 。
但随着我们在Together AI的扩张 , 我们必须考虑:如何让后来加入的工程师更快上手?其中一部分就是构建能在英伟达芯片上工作的抽象 , 同时也可能适配其他芯片 。
另一个让我很兴奋的问题是:我们能不能设计一些抽象 , 让AI本身替我们完成部分工作?
我觉得答案还没有完全清晰 。 但作为人类的技术负责人 , 我们的任务就是构建合适的抽象 , 让别人能够快速上手 , 这样你做的事情才能跨芯片、跨工作负载发挥作用 。
Jacob Effron:你觉得现在我们已经有那种能跨不同芯片都能用的抽象了吗?
Tri Dao :我觉得我们有一些 , 对吧?
但这就是经典的权衡 。 比如Triton就很好用 , 它支持英伟达芯片、AMD GPU、Intel GPU等 。 这需要他们设计一个前端 , 然后针对不同厂商的芯片 , 后端由不同公司贡献代码 。
我觉得Triton其实非常不错 , 很多公司都在押注它 。 比如Meta的PyTorch编译器 , 就会直接生成Triton代码 , 然后交给Triton去为英伟达或AMD生成底层代码 。
但这仍然是一个权衡:如果你不掌控最底层 , 可能就会损失一些性能 。
关键就在于损失多少 。 如果你只损失5%的性能 , 却能换来3倍的生产力 , 那完全值得 。
但如果损失太大 , 大家可能就会回到更底层、更贴近硬件的做法 , 尤其是在推理市场竞争激烈的情况下 。
所以我会说 , 人为设计其实非常难 。 我甚至会说 , 硬件可移植性有点像是个神话 。
就算在英伟达内部 , 不同代际之间差异也非常大 。 CPU每年可能性能只提升5%-10% , 旧代码还能跑 , 但GPU完全不是这样 。
英伟达几乎每一代芯片都要重写所有底层代码 , 因为提升FLOPS的方式就是增加更多专用组件 , 支持更低精度 , 或者改写芯片内部的同步机制 。
所以即便是在英伟达内部 , 不同代际之间的代码可移植性其实也很有限 。
Q:抽象的价值就在于 , 即便只是面对同一家厂商的不同代际芯片 , 也能帮上忙 , 对吧
Tri Dao:我觉得Triton的抽象非常有吸引力 。 他们甚至还有一些更底层的扩展 , 比如最近很新的Gluon , 能暴露更多硬件细节 , 但代价是通用性会差一些 。 还有Modular公司在开发Mojo语言 。
Jacob Effron:你觉得他们在做的事情怎么样?
Tri Dao:我觉得很酷 。 他们确实找到了部分正确的抽象 。 关键就在于执行力 。
因为大家都会问:“你在英伟达芯片上到底有多快?”某种意义上 , 这个问题不太公平 , 但这就是现实 。
所以他们必须在抽象之外做一些定制化 , 让代码在英伟达芯片上跑得足够快 , 然后再做一些AMD的定制化 。
问题就在于 , 你愿意做多少定制?这就是性能与通用性的权衡 。
我们会看到越来越多这样的库或领域专用语言出现 。 比如斯坦福有人在做Kittens来抽象GPU编程 , 谷歌有MosaicGPU 。
我肯定还漏掉了一些 。 但大家都意识到一个问题:我们目前还没有合适的抽象 。 这导致训练新人写高性能GPU内核非常痛苦 。
解决方案就是构建抽象 。 我觉得我们现在正处在快速迭代的阶段 , 这也是为什么会出现这么多领域专用语言 。
与此同时 , 随着AI模型越来越强 , 我在思考:我们该如何为语言模型设计领域专用语言或抽象?因为它们的运作方式和人类有点不一样 , 我们现在也不知道答案 。 所以我认为未来一两年情况会清晰得多 。 现在就是百花齐放 , 大家都在尝试不同方向 。
Jacob Effron:你觉得这些抽象最有可能从哪里产生?
Tri Dao:我认为主要有两个角度:
一个是从机器学习的角度出发 , 思考我们有哪些工作负载 , 以及需要哪些原语来表达这些工作负载 。 比如推理本质上是内存受限问题 , 关键在于如何尽快搬运数据;或者如何最快做矩阵乘法 。 另一个角度是从硬件出发 。 芯片上有很多非常酷的专用组件 , 要思考如何暴露这些能力 。 英伟达在这方面特别强 , 比如设计了更多异步机制 。不过 , 矩阵乘法的速度太快了 , 反而显得其他部分很慢 。 所以更重要的是如何重叠矩阵乘法和其他计算 。 这就需要抽象层来支持异步执行 , 比如流水线、同步机制等等 。
所以我认为抽象会从这两个方向出现 , 要么从工作负载出发 , 要么从硬件出发 。 我觉得再过一两年就会清晰得多 。
Jacob Effron:在设计抽象时 , 你们现在在多大程度上真的使用AI本身?你觉得未来几年会有什么变化?
Tri Dao:是的 , 我觉得模型在这方面开始变得有用了 。 这让我最近真的很惊讶 。 有些人已经在尝试完全自动化的GPU内核编写:你只要描述问题 , LLM就能直接生成内核代码 。
这有点像我们在其他领域看到的 , 比如生成简单的Python脚本、做数据分析、写前端网页 , 对吧?这些现在LLM已经能做 。 那么问题是:我们能不能也做到为GPU编程生成代码?
Jacob Effron:Vibe kernel?
Tri Dao:如果你想要的是这个的话 , 我觉得我们还处在非常早期的阶段 。
这些模型现在能生成一些简单的内核 , 比如逐元素的操作:你输入一个数组 , 然后在每个元素上做运算 。 或者一些归约操作 , 比如求和、归一化之类的 。
这类代码模型能生成得还算不错 。 但一旦变复杂一些 , 这些模型就写不出正确的代码了 。
我觉得这主要还是因为训练数据不足 。
训练数据在这一块非常难搞 。 因为如果你在网上抓取内核代码 , 你拿到的可能就是一些课堂项目 , 或者是GPU三代以前的文档 , 而这些文档里很多写的都是现在完全不该再用的做法 。 所以训练数据确实非常困难 。 我认为答案可能是要从一些专家级的数据开始 , 然后基于这些生成合成数据 。 或者把模型接到编译器、性能分析器这样的工具上 , 从中获得大量训练数据 , 构建合适的环境 。 我觉得一两年之内可能会有突破 , 但目前确实很难 。
Jacob Effron:那这些数据现在掌握在谁手里呢?
Tri Dao:我觉得这种数据不算是私有的 。
确实有一些地方能找到专家级代码 , 但更关键的是流程:怎么从少量专家数据出发 , 生成海量的合成数据 。
比如Discord上的GPU Mode社区 , 他们就在尝试做这个 。
他们用编译器 , 比如PyTorch编译器 , 把PyTorch代码转换成Triton代码 , 这个Triton就是更底层的内核代码 。
这样他们就能生成大概1.5万对这样的程序数据——PyTorch和Triton的对应关系 。
其实你得有点创造性 , 因为网上原始数据确实不多 , 所以你得想办法创造训练数据 。 所以我觉得这是一个方向:如果你想要完全自动化的内核生成 , 现在还非常早 。 另一个方向是:模型能不能和人类协同工作?我对这点的惊喜更大——这些模型现在其实已经相当有用了 。
Jacob Effron:有没有什么具体的时刻 , 让你觉得AI模型真的已经有帮助了?
Tri Dao:我觉得大概有两个重要节点 。 一个是o3——o3的推理能力进步很大 。
有时候我会和o3或GPT-5一起头脑风暴 , 比如我有个函数 , 该怎么优化?要注意哪些点?
它们给出的高层思路出乎意料地好 。
另一个是Claude Code 。 它居然在写Triton内核方面表现相当不错 , 这点非常棒 。
因为虽然我喜欢写内核 , 但我更多的时间其实花在设计上:思考该设计怎样的架构 , 才能更好利用硬件 。
而具体的实现部分 , 虽然设计很有意思 , 但实现过程往往非常繁重 。 这时候Claude Code就帮了很大忙 。 我觉得它能让我整体生产效率提升大约1.5倍 。
我是ClaudeCode的重度用户 。 如果让模型和人类协同工作 , 而不是指望它们完全自动生成内核 , 那它们的作用其实非常大 。
Jacob Effron:接下来你最期待的里程碑是什么以及新模型出来时 , 你会测试什么?
Tri Dao:我觉得ClaudeCode是个典型的质变案例 , 因为它变得更具备代理性了 。
某种程度上 , 他们在后期训练Claude时 , 针对这一点做得特别好 。
我相信OpenAI、Google很快也会达到类似的水平 。 这里说的代理性(agentic)就是指它能很好地调用工具 , 并且知道什么时候该用工具 。
比如它知道:啊 , 我现在可能没有用对API , 那我要怎么查API?
或者程序没编译过、程序不够快 , 那我该怎么从profiler里拿信息?就是这种能力 。
所以我觉得新模型里 , 我会关注它们能不能知道自己不知道 , 以及什么时候该去主动寻找新信息 。这虽然听起来有点模糊 , 但现在已经有人开始做这种代理性能力的基准测试了 , 只是还非常早期 。
Q:自从ChatGPT发布后 , 这三年到底是什么推动了成本降低和延迟改善?
Tri Dao:这几年里 , 推理成本可能下降了大概100倍 。
至少从ChatGPT面世以来是这样的 , 这点从API价格变化上也能反映出来 。
一方面是在模型层面 , 人们在相同参数量级下训练出了更好的模型 。
部分原因是使用了更多数据 , 部分原因是架构改进 。 我认为MoE确实帮助大家发明了更高效的注意力机制等等 。
所以在模型端 , 模型在相同参数下变得更强大 。
另一方面是在推理优化上 。
我们见证了一系列技术的大爆发 。 早期其实大家并不清楚推理的瓶颈在哪里 。
后来逐渐发现 , 关键问题在于数据传输——比如权重在内存之间的搬移 , 或者KV缓存的搬运 。
KV缓存是注意力机制中用于存储历史的部分 , 以便生成下一个预测 。 所以大量优化都是围绕如何减少数据搬运展开的 。
比如说模型量化 。
两三年前 , 通常一个参数需要16位表示 。 现在8位已经很常见了 , 新模型里4位也被大量使用 , 甚至还有1–2位的尝试 , 非常激进 。
但实验显示 , 在量化过程中 , 很多情况下质量几乎没有损失 。 当然这需要相当复杂的技术 , 但效果非常好 。
比如最近OpenAI发布的GPT-oss , 大部分层都被量化到4位 。 他们的模型总共有1200亿参数 , 但因为每个参数只需4位 , 整个模型可以放进大概60GB的空间里 , 这直接转化成了非常好的推理性能 。 所以量化是一个方向 。
另一个方向是模型架构和硬件的协同设计 。
随着理解的深入 , 算法研究人员和硬件专家的沟通变多 , 大家能结合各自的知识去发现硬件上的瓶颈 , 并针对性地调整算法 。
比如Flash Attention就是这样:我们意识到内存访问才是主要瓶颈 , 于是重新设计了注意力的实现方式 , 减少内存访问 。 这类优化在推理领域正在不断发生 。
DeepSeek的一个例子叫multi-head latent attention 。 他们发现推理时很多开销来自于KV缓存的压缩和传输 , 于是提出通过潜在投影把KV缓存投射到更小的空间 , 从而大幅减小缓存规模 。 这在实践中效果很好 , 能够更高效地部署模型 。
还有MixtureofExperts(MoE) 。 在MoE里 , 每个token的计算不需要用到模型的所有参数 , 而是只激活部分专家单元 , 这就是稀疏化 。
在过去两年里 , 趋势就是让模型越来越稀疏 。 比如早期Mistral的开源MoE模型是8个专家里激活2个 , 也就是25% 。
而DeepSeek和OpenAI的最新模型里 , 比如GPT-oss , 是在128个专家里只激活4个 , 也就是1/32 。 这种稀疏化非常适合大规模服务用户 。
总的来说 , 大家对推理负载的理解更深 , 模型架构和推理堆栈是协同设计的 , 这就是最近性能提升的主要来源 。
推理优化技术Q:未来的推理优化技术还会有哪些改进?
Tri Dao:我认为还会有大约10倍的提升空间 。
尽管我们已经摘了许多果实 , 但仍有很多可做的事 。
首先是硬件端:过去难以预测两年后的工作负载 , 所以难以做高度专用化 。
但随着架构相对稳定 , 芯片设计者可以为推理做专门优化 , 比如加强对低精度的原生硬件支持、改进网络通信等 。
特别是在MoE场景下 , 模型参数增大但每次只激活一部分 , 模型可能分布在多块GPU/芯片上 , 这时网络就非常关键 。 我估计硬件方面一年内就能带来2–3倍的提升 。
在模型层面 , 会有推进架构的空间 。
举例我做的Mamba , 思路是让模型把历史压缩成更小的状态向量 , 而不是保存完整的KV cache——这有代价但在某些大批量推理场景下(例如同时探索多条思路的推理或搜索)效果很好 。
Google的Gemini Deep Think就是同时探索多路径的思路 , 这类场景会让KV cache成为更大的瓶颈 , 因此压缩历史的方向非常重要 。 我认为模型层面也能带来2–3倍的提升 。
在内核实现层面 , 越来越多人专注于高性能kernel , 很多人才正加入这块 , 内核优化也可能再带来2倍的提升 。 把这些合起来 , 短期内一年左右再实现约10倍的整体改进是有可能的 。
专门化的AI推理Q:你觉得生态会由单一能覆盖所有场景的供应商主导 , 还是会出现专门化?
Tri Dao:我认为可能会出现三类工作负载模式 , 所有推理提供方都会理解并尝试优化这些模式 , 但规模化也有显著优势 。
大体上有:
传统聊天机器人:需要一定交互性但不要求极低延迟) 极低延迟场景:比如代码辅助 , 响应快2–3倍能显著提升用户效率——我愿意为此付更多钱 以及大规模批处理/高吞吐场景:需要同时对大量序列做推理 。不同供应商可能在这些细分场景上做出不同权衡 , 有些提供广泛覆盖 , 有些则专注于某类场景做到极致 。 我的意思是 , 人们通过同时运行多个模型来解决这个问题 。
比如同时跑四个Claude Code 。 但我个人更喜欢深度工作 , 当我和模型合作时 , 我通常只用一个——我的合作者会骂我 , 她说:“你应该同时开四个ClaudeCode 。 ”
对这种工作负载 , 人们可能愿意为低延迟付更多钱 , 这就是低延迟类型的工作负载 。
另一类是非常大批量的工作 , 我不太在意延迟 , 只关心尽可能高的吞吐量 。 这对生成合成数据等场景很重要 。
正如我提到的 , 很多人训练模型的方式是:先有少量专家级数据或人工标注数据 。
举个例子 , 你是一家航空公司 , 想训练AI助理来处理客户投诉 , 你手里只有少量高质量数据 , 然后可以从中生成大量合成数据 。 模型在模拟人类行为上非常出色 。
你可以让模型模拟一个来自纽约、因为航班延误而恼火的顾客 , 模型竟然能表现得很像人类 。
事实上 , 互联网上就有大量类似数据供模型学习 。
模型内部有一套世界模型 , 它可以基于这些生成大量数据 , 虽然不如人工数据精准 , 但量很大 。
在这种推理使用场景中 , 你真正关心的只是吞吐量 。
另一类是强化学习训练场景 。 训练一个智能体执行任务并改变策略时 , 你需要评估策略的好坏 。
这就需要从模型中抽样大量完成结果 , 也叫rollout , 评估其表现 。 这里就需要大批量、高吞吐的推理能力 。 我认为这是第三种使用场景——非常大批量 。
对于这三类场景 , 人们已经开始识别这些模式 , 而作为推理提供方 , 我们会针对不同场景做不同优化 。
Jacob Effron:你们是如何在这三类场景间分配资源的?
Tri Dao:我觉得这就是大规模运行的好处——我们称之为“舰队级优化” 。
在数千GPU上推理时 , 你可以动态调整集群分配 。
举个简单例子:运行批量推理(batch API) 。
OpenAI提供这个选项 , 我们也有类似选项 。 如果看到集群在处理交互式查询时不忙 , 就可以调入批量查询以充分利用算力 。
结果是 , 我们对batchAPI通常提供约50%折扣 , 我想OpenAI也是这样 , DeepSeek大概也是 。
AI工作负载演进与开源工具Q:你觉得推理市场未来的发展如何?优化空间是否无限?
Tri Dao:过去确实有很多果实 , 如果你能写出合理内核、搭建合适推理引擎 , 会比市场上已有方案好很多 。
但现在开源工具已经非常成熟了 , 比如VLM、SGLang等项目 , 都已经达到生产级别质量 。
我们也会和这些项目合作、贡献代码 。 所以基线水平已经提高很多 。
同时 , 工作负载也在不断演化 。 客户会提出新的需求:前缀缓存、低延迟 , 或者不是文本而是视频 , 这些都有不同的性能权衡 , 我们也在应对这些客户需求 。
即便开源工具越来越好 , 工作负载变化也很快 , 总有新事情可做 。 模型本身越来越强 , 可以从中提取价值的方式也越来越多 , 这也是为什么有很多初创公司基于这些模型构建业务 。 工作负载将持续演化 。 Jacob Effron:快速变化的节奏下 , 这三大类工作负载会逐渐分化吗?
Tri Dao:我觉得还是会有聚合 。 代理型(agentic)工作负载可能是杀手级用例 。
就像ChatGPT是应用层面的一个跃变 , 它让用户第一次能与语言模型互动、调试代码、查找和分析信息 。
下一波应用将是代理型:AI能自主采取行动、收集信息 。 这需要不同的优化策略 , 不只是让模型在GPU上运行得快 , 还要考虑如何与人类使用的工具衔接 , 比如Web搜索 。
如果是工程师 , 可能希望模型能访问设计软件;金融分析师 , 则希望模型能访问特定数据库 。 这类工作负载预计会成为未来一年左右的主流 。
在消费端 , 我的一个预测是实时视频生成会成为趋势 。
我们已经看到一些初步迹象 , 这会像TikTok改变内容消费方式一样 , 彻底改变消费者体验 。 我们合作的一些公司 , 比如Pika Labs和Hetra , 正专注于实时视频生成 , 这是我们的押注 。
实时视频生成也带来全新挑战 , 非常耗算力 , 这可能会进一步推动芯片发展和推理优化 。
架构创新和专家级别的AIQ:假如可以快进三年 , 得到AI基础设施领域一个关键问题的答案 , 这个问题会是什么?哪一个问题的答案最能影响你们今天的战略?
Tri Dao:接下来几年 , 我想回答的问题是:我们如何让AI达到专家水平?
目前 , 我认为模型在某些任务上 , 比如前端编程 , 处于人类中等水平 。
他们已经很厉害了 。 实际上 , 这些模型在前端编程上比我强得多;或者在数据分析这类任务上 , 只要互联网上有大量数据 , 模型就能轻松胜任 。
它们在这些任务上大概达到了中等水平 , 甚至略高于平均水平 。
但经济上最有价值的任务仍然存在 。 我们为人类专家支付高额报酬 , 比如飞机设计、硬件设计、医生、律师等 。
这些人成为专家 , 是因为他们花了大量时间使用专业工具 , 而这些工具的数据并不等同于互联网海量信息 。
这正是他们成为专家的原因 。 所以我们要让模型达到这个水平 , 能够与人类专家协同工作 , 我认为这才是大量经济价值的来源 。
Q:你合作者Albert说过 , Transformer本身不会是最终方案 , 你觉得我们需要架构创新才能达到那个水平吗?
Tri Dao:我认为 , 要达到AGI或ASI , 目前的架构可能已经足够了 。
但成本如何?如果有更好的架构 , 也许我们能提前一两年达到目标 , 或者用10倍更低的成本实现 , 这可能很值得 。
每年我们在AI基础设施上大约花5000亿美元——大概在这个量级 。
问题是 , 我们是否需要花10倍的预算?还是通过更好的架构 , 用现有甚至更少的支出就能达到目标?
这就是架构研究的价值所在:能否通过更好架构达到AGI 。 我认为当前架构具备所有关键成分 , 如果不断扩展 , 也可以实现目标 , 但成本可能是天文数字 。 Jacob Effron:你还在关注哪些架构?
Tri Dao:我对MoE特别感兴趣 , 尤其是越来越稀疏 。 我们在探索极限:能稀疏到什么程度?
这一直是一个很有吸引力的方向 。 DeepSeek做了很重要的工作 , 证明可以让模型非常稀疏 , DeepMind早期也有相关探索 。 这是一种用同样算力获得更多智能的方法 。
最终 , 我们想优化每分钱的推理效率 。
这意味着可以量化为每浮点操作推理量(inference per flop)和每分钱的FLOPs 。
前者更多依赖架构设计、数据、算法;后者更多依赖硬件和内核优化 。 在架构层面 , 我们尝试从相同计算中提取尽可能多的智能 。 MoE是一个例子 。
我和Albert做的一些状态空间模型工作也很有趣 。
我们与Nvidia的一些团队合作训练模型 , 他们发布了几款模型 , 显示这种架构——Transformer与Mamba的混合——可以在更低成本或更高推理性能下得到高质量模型 。
所以架构对于推理非常重要 。 我现在非常强调“推理优先”的架构设计 , 因为大部分FLOPs都用于推理 , 我们希望架构能最大化推理效率 。
Jacob Effron:你现在在研究哪些方向?未来可能有哪些重要论文?
Tri Dao:我仍然在这些领域工作 , 非常感兴趣 。 同时 , 我也在探索一些新方向 , 其中之一是寻找下一波真正有影响力的应用 。我认为机器人是其中一个方向 。
比如离真正优秀的家庭人形机器人还有多远?
也许五年 , 也许十年 , 我不确定 。 这通常会带来很多有趣且重要的研究问题 , 这是科研方向上的一个方向 。
Jacob Effron:在机器人研究领域 , 你觉得最有趣的点是什么?
Tri Dao:关于机器人 , 我们可以用已有的基础模型来初始化控制机器人 。 你可以用语言模型来做规划 。
比如 , 你让机器人去拿咖啡杯 , 语言模型可以说:“去那张桌子拿咖啡杯” , 等等 。
但目前缺失的是在现实世界中进行交互和行动的数据 , 因为我们没有这类数据 。 我们有语言数据 , 但缺少与实际世界交互的数据 。 对 , 你显然也看到有人在尝试扩大仿真数据的规模 , 他们实际上在做遥操作 , 但实际波动的数据问题依然存在 。
另一点是 , 机器人必须以多分辨率、多时间尺度的方式处理信息 。 有些操作 , 比如控制关节 , 需要非常快速的响应;但规划机器人的路径 , 则可以慢一些 。
这里需要显式考虑时间尺度 。 我想做非常轻量的计算吗?只是控制关节 , 还是做更重的推理来规划最优路径?
所以我认为最终会是一个复合系统 , 由语言模型、视觉模型、音频模型、世界模型初始化 , 但如何把它们组合在一起 , 是一个大问题 。
学术界与工业界的平衡Q:你是如何考虑在学术和工业之间的选择的?
Tri Dao:这是个很好的问题 , 也很个人化 。 对我来说 , 我喜欢同时做创业和做教授 。
这两种模式提供了不同的思维和执行方式 。 创业方面很有趣 , 因为节奏快 。 我们想做的事情 , 几天、几周、最多几个月就能完成 。 团队执行力强 , 可以快速实现目标 , 我对团队在Together做的工作非常自豪 。
学术方面 , 时间尺度更长 , 考虑的问题更具前瞻性 。 我们不会追求一个月内的解决方案 , 而是思考未来两三年方向上的有趣问题和挑战 。 和学生一起工作也非常有趣 , 因为我们可以深入思考这些问题 。
当然有一些权衡 , 比如学术计算资源少 。 评价方式也不同 , 更关注思想是否有趣 , 而不是是否运行得快 。
学术给你更多自由去深入思考长周期问题 。 我正好喜欢两种模式 , 所以仍然在普林斯顿做教授 , 同时参与创业 。
我认为这是一种探索与开发结合的模式:学术更偏向探索 , 资金通常来自政府 , 用于探索大量想法 , 也许只有5-10%的想法会成功 。 投资者也类似 , 探索大量想法 , 其中少数可能非常重要 。
一个例子是Attention , 它通过Google的论文出名 , 但最初来自Mila的学术研究 , 是Dmitry Bahdanau、Yoshua Bengio等人的工作 。
当前架构的其他组成部分 , 如Adam优化器(JimmieBa等)和LayerNorm , 也来自学术界 。
很多现在的基础都是学术探索的结果 。 大公司和创业公司会把这些想法商业化 , 快速执行 , 同时理解市场需求 , 有更多资金推动大想法落地 。
比如 , SSI明确说不做任何产品 , 但人们愿意投钱 , 因为他是Ilya 。 当AI的某些风投开始获得回报 , 投资者就更愿意投入资金 。
Jacob Effron:过去一年你在AI上改变的一个观点是什么?
Tri Dao:这些模型出乎意料地有用 , 即便在我日常的高级和专家级工作中 , 它们在数学和编码上也非常出色 。 比我预期的高很多 , 确实很厉害 。
Jacob Effron:你觉得一年后开源模型和闭源模型的质量会更接近还是更远?我认为会更接近 。 现在的扩展更多依赖RL , 而这实际上更依赖工具链 , 而不仅仅是原始算力 。 所以开源在这方面会做得很好 。
Jacob Effron:目前AI领域还有哪些发展被忽视了?
Tri D:数据 。 数据总是有点被低估 。 合成数据 , 用模型重新生成或改写数据 , 会产生巨大影响 , 但关注的人少 。 Jacob Effron:你最喜欢看到的应用是什么?
Tri Dao:我们与一些视频生成公司合作 , 比如Pika Labs和Hetra , 他们用我们训练的模型生成虚拟的TikTok视频 , 效果非常棒 。
— 完 —
量子位 QbitAI · 头条号签约
关注我们 , 第一时间获知前沿科技动态

    推荐阅读