把百亿大模型装进终端,存算一体如何“破局”端边算力困局?

把百亿大模型装进终端,存算一体如何“破局”端边算力困局?

文章图片

把百亿大模型装进终端,存算一体如何“破局”端边算力困局?

文章图片

把百亿大模型装进终端,存算一体如何“破局”端边算力困局?

文章图片

把百亿大模型装进终端,存算一体如何“破局”端边算力困局?

文章图片

把百亿大模型装进终端,存算一体如何“破局”端边算力困局?

文章图片

芯东西(公众号:aichip001)
作者 | 云鹏
编辑 | 漠影
今天 , 一场横跨各个产业的算力革命正在AI新时代爆发 , 随着以DeepSeek为代表的国产大模型加速走向产业 , AI从云端走向端边 , 大模型和AI应用的落地热潮势不可挡 。
在这样的趋势下 , AI推理算力需求的暴涨给产业同时带来了机遇和挑战 , 根据公开数据预测 , 未来3年 , 推理算力年复合增速将达到训练算力的近4倍 。 如何把百亿级参数模型落地智能终端、实现云级推理能力走向端边 , 同时兼顾高性能、高能效、高隐私安全 , 成为业内关注的核心焦点在 。
在昨日刚刚盛大开幕的2025世界人工智能大会(WAIC 2025)上 , 我们看到数十家国内AI龙头链主企业亮出了3000多项前沿技术和产品 , 包括40多个大模型、50多个AI终端产品和60多个机器人 , 大家对终端产品上各类亮眼的端侧AI应用体验兴趣盎然 。
作为这场AI算力革命核心玩家的芯片企业们 , 也纷纷在这场盛会上亮出自己的看家本领 。 比如国内AI芯片创企后摩智能就发布了面向端边大模型场景的AI芯片后摩漫界M50 , 并在展区展示了自家的硬件全家桶和基于存算一体技术的端边大模型落地案例 。
后摩漫界M50以及基于其打造的算力卡 , 有着极致能效比、高面效比、低功耗实现的突出能力 , 让产业看到了解开端边大模型落地“算力不足、功耗过高、隐私泄露”三大“症结”的破局之道 。
继2023年推出首款存算一体AI芯片后 , 这无疑是后摩智能向端边大模型领域再次迈出的关键一步 。

一、端边大模型落地:高算力、高能效、低功耗、大带宽、强隐私缺一不可当下 , 行业正迫切需要解开端边大模型落地三大死结:算力不够用、功耗降不下来、隐私保不住 。 用户对于高算力、高能效、低功耗、大带宽、高隐私的需求成为AI推理时代的突出特点 。
在大模型从云端走向端边设备的过程中 , 首先要突破算力的瓶颈 , 端侧设备算力先天远低于云端 , 目前即使是旗舰消费级PC处理器的NPU算力通常也只有数十TOPS 。
结合相比云端大幅削减的内存带宽 , 百亿参数模型端侧推理速度可能只有10tokens/s左右 , 完全无法满足实时交互的需求 。 与此同时 , 边缘节点往往需要同时处理海量并发推理需求 , GPU资源利用率较低 , 响应时间过长 , 这些都对实际用户体验有较大影响 。
此外 , 端侧先天受制于“功耗枷锁” , 绝大部分端侧移动设备电池容量有限 , 同时受到整机功耗墙限制 , 不可能以大幅牺牲续航体验来换取AI体验的提升 。
根据三方实测 , 手机端运行7B模型的CPU功耗甚至可以达到8W , 这对续航影响十分显著 。
最后 , 在数据隐私安全方面 , 需求侧的挑战也越来越明显 。 端侧AI的发展越来越快 , 尤其在AI agent浪潮下 , 数据成为关键——无数据不个性化 。
多模态大模型成为主流 , 照片、截图、语音、文字、视频 , 甚至是金融信息、医疗信息、用户使用习惯、用户深度画像都会成为大模型的数据来源 。 数据安全被提到前所未有的高度 , 对企业来说尤其如此 。
落地侧需求的涌现也不断激励芯片产业寻找和探索新的解决方案 , 比如通过芯片硬件架构的创新、资源调度算法的优化、各类硬件级加密方式的升级 , 去提升性能、能效和安全性 。
从硬件层技术创新来看 , 存算一体技术路径已经被后摩智能证明行之有效 , 此次新品M50的落地进一步巩固了这一技术路线 , 让产业看到了其实际落地能带来的产业价值 。

二、后摩秀出存算一体王炸升级 , 解密背后核心软硬件技术创新细节此次M50芯片实现的性能突破可以说相当亮眼 , 同时还兼顾了能效和安全 , 其最突出的三个特点就是极致能效比、高面效比和低功耗实现 。
单个M50芯片的典型功耗仅有10W , 但INT8算力却直接达到了160 TOPS , 同时有着48GB的大内存 , 这使其可以支持百亿级参数模型的本地推理 。
根据官方实测数据 , M50单芯片就可以实现70亿参数大模型25+tokens/s的推理速度 , 可用性大幅提升 。
值得一提的是 , M50还支持更丰富的混合数据类型 , 其在Tensor上同样支持浮点运算 , 与此同时 , M50支持通过芯片互联提供更高算力、扩展更多边端场景 。
在这样颠覆式升级的背后 , 存算一体架构的技术创新发挥着关键作用 , 基于非冯·诺依曼架构 , 存算一体架构可以打破芯片设计的“存储墙”及“功耗墙” , 实现计算单元与存储单元的集成 , 在存储单元内完成部分或全部的运算 , 进而解决芯片性能瓶颈、提升能效比 。
具体来看 , IP创新是关键一环 , 后摩智能自主研发了存算一体创新IP , 其可以满足多精度、高能效比、高带宽、低功耗等需求 。
M50用上了后摩智能自研的第二代存算一体IP , 支持双端口的加载和计算的并行 , 并且解决了大量测试和可靠性难题 。 此前业内几乎没人做过存算一体芯片在这方面的测试 , 后摩智能是真正脚踏实地一点点摸索出来的 。
此外 , 在极小芯片面积内实现大算力的同时兼顾电源稳定性也是一大挑战 , 后摩智能团队在这方面积累了不少技术专利 。
在有了高效存算一体IP后 , 如何高效利用并落地实现交付给客户 , 还要考验AI处理器的设计能力 , 后摩智能针对大模型应用专门设计了新的IPU架构 , 包括对自适应计算或者弹性加速的支持 , 以及在存算上直接进行浮点运算 。
从创始人兼CEO吴强博士在演讲中提到 , 团队从2023年就开始研究大模型和存算一体的结合 , 投入很多资源 , 在过去两年陆续发表了30多篇国际顶刊论文 。
此外 , 后摩智能还自主研发了易于使用的软件工具链 , 适配存算架构的算子库 , 可以高效利用存算IP所带来的性能、功耗优势 , 简化部署流程的同时 , 提升部署能效 。
可以看到 , 在存算一体这条技术路线上 , 后摩智能做了海量的扎实研发 , 填补了诸多技术空白 , 并一步一个脚印地探索出了一条切实可行的落地路径 , 从学术论文到落地应用 , 让产品真正“work” , 是才最难的 , 而这些都是表面上所看不到的艰辛 。

三、“一片口香糖”尺寸解决百亿参数大模型落地 , 多场景端边设备智能体验“质变”在M50过硬的芯片硬实力基础上 , 后摩智能推出了丰富产品形态 , 帮助企业在端边多场景完成大模型在设备端的落地 。 这些产品已经可以实现消费终端、智能办公、智能工业等诸多场景的覆盖 , 给这些端边设备的AI体验带来显著改善 。
当下 , AI手机和AI PC是端侧AI落地走的最快的两种产品形态 , 而PC相比手机 , 同时兼顾消费端和产业端应用 , 适用性更为广泛 , AI PC也是后摩智能M50芯片以及相关产品表现颇为亮眼的领域 。
其中力擎LQ50 M.2卡基于标准M.2 2280规格 , 将M50芯片的算力浓缩至“单片口香糖”尺寸 , 可以“即插即用” , 使用十分便捷 , 这对于紧凑型移动设备非常重要 。
LQ50 M.2卡基于采用存算一体创新架构 , 搭配了48GB LPDDR5内存 , 内存带宽153.6 GB/s , 可以直接本地运行百亿级参数大模型 , 7B/8B模型推理速度据称可超过25tokens/s , 小尺寸低功耗也令LQ50 M.2卡兼顾了无风扇设计 , 适用性更加广泛 。
值得一提的是 , 在软件兼容和开发生态方面 , LQ50 M.2卡兼容Windows 11/Linux/Android等主流操作系统 , 通过后摩大道平台支持全栈开发 , 可以灵活部署在AI PC、AI Stick(AI计算棒)等移动终端设备中 , 在消费、办公、工业等场景中提供本地大模型推理加速能力 , 同时保障数据隐私与低延迟响应 。
在场景适配能力方面 , M50支持多芯互联技术 , 可以动态扩展算力适配未来模型升级 , 这对更广泛场景的扩展覆盖十分关键 。
比如力擎LQ50 Duo M.2卡基于OCP Dual M.2标准设计 , 集成了两颗 M50芯片 , 通过高速互联技术实现320 TOP的算力释放 , 同时其配备了96GB内存 , 带宽307GB/s , 这样的豪华规格使其可以直接突破14B/32B大模型的端侧部署瓶颈 。
在边缘复杂场景中 , 双芯架构既能驱动智能会议系统完成多语种实时翻译和声纹识别会议纪要 , 也可以支持百亿参数大模型私有化部署 , 还能本地运行多模态AI Agent 。
基于这些产品和解决方案我们可以看到 , M50系列产品在AI PC、智能终端、工业边缘设备等场景都具有极高的性能适配性 。
在消费领域 , M50系列可以很好地赋能平板、PC、AI Stick等移动终端设备;智能办公场景中 , 智能会议系统在断网环境下也能实现多语种翻译、纪要生成 , 会议内容不上云、不泄露;智能工业领域 , 产线质检与车路云协同通过本地算力完成实时分析决策 , 生产数据与运营信息在设备端闭环处理 , 避免云端传输隐患 。
可以看到 , “存算一体+端边大模型”的技术路径是高效可行的 。
这一模式真正给解决有限硬件资源上的高效数据处理的难题提供了行之有效的路径 。 对比传统芯片方案 , 基于存算一体技术的端边设备在智能体验上是有“质变”的 , 给AI超级应用未来的爆发打牢了端侧算力基础 。
可以说 , 后摩智能存算一体技术和产品 , 将AIGC等大模型能力融入AI PC、智能终端等场景 , 也令后摩智能成为推动端边设备从“功能型”向“智能体”的范式升级的核心玩家之一 。

结语:从移动终端、智能办公到智能工业 , 存算一体打破端侧AI落地“不可能三角”成立五年来 , 后摩智能长期专注深耕存算一体技术 , 从M30到M50 , 其已经实现了端边AI芯片的良性迭代落地闭环 , 在诸多场景中实现了对企业的赋能加速 , 成为推动AI普惠落地的关键芯片玩家 。
在今年的WAIC 2025大会上 , 国内AI芯片玩家作为中国智算产业的核心力量 , 无疑成为业内关注的焦点 , 结合当下“算力即国力”的大背景 , 夯实智算底座也成为国内不少省份在AI领域的重要布局方向之一 。
【把百亿大模型装进终端,存算一体如何“破局”端边算力困局?】沿着这一大趋势方向 , 后摩智能无疑在端边大模型AI芯片领域跑在了技术力的第一梯队 , 用硬核技术创新给解决行业顽疾带来新的解法 。 随着技术的快速迭代 , 我们相信后摩智能会给产业带来更多有价值的技术创新和优秀产品 。

    推荐阅读