从GPU 到 NPU，移动芯片求解AI 算力困局_腾讯|人工智能|深圳市

文章图片

文章图片

【从GPU 到 NPU，移动芯片求解AI 算力困局】本文由半导体产业纵横（ID：ICVIEWS）编译自semiengineering
边缘人工智能、GenAI 和下一代通信正在给手机增加更多的工作负载，而手机已经面临着提供高性能和低功耗的压力。

领先的智能手机供应商正在努力跟上本地化生成人工智能、标准手机功能以及在手机和云之间来回移动更多数据的需求不断增长的计算和功率需求。
除了面部识别和其他设备内置应用等边缘功能外，手机还必须适应持续更新的通信协议、系统和应用程序。而且，它们需要一次充电就能完成所有这些操作，同时在用户手中或贴近脸部时仍能保持凉爽。

图1：手机电路板，右上角显示片上系统 (SoC) ，包含 Arm CPU 和其他组件。来源：Arm
Imagination Technologies 产品管理、细分战略高级总监 Vitali Liouti 表示：“如果你观察任何高端手机配置，就会发现所有 SoC 都采用异构架构，它们由不同的模块组成，执行不同的功能，但又相互协作。从系统角度来看，每个移动 SoC 制造商都是这么做的。他们以异构的方式看待系统，并从平台的角度（包括硬件和软件）进行考量。 ”
Cadence硅片解决方案事业部Tensilica DSP 产品管理和营销总监 Amol Borkar 表示，由于 AI 网络的快速发展和 AI 模型需求的日益多样化，为移动市场设计 SoC 变得越来越复杂。 “与传统工作负载不同， AI 模型——尤其是大型语言模型 (LLM) 和 Transformer 变体——在架构、大小和计算需求方面不断发展。这为芯片设计人员创造了一个不断变化的目标，他们必须将对未来 AI 功能的支持硬编码到硅片中，并且一旦制造出来就无法更改。由于需要支持 AI 频谱的两端——大规模基于云的模型，以及针对设备推理优化的紧凑、高效的模型（如 TinyLlama），这一挑战进一步加剧。这些较小的 LLM 对于在功率和内存限制严格的移动和嵌入式设备上实现智能功能至关重要。 ”
除了牢记SoC 系统视角之外， AI 还在推动单个处理器及其分配任务的变革。
Synaptics副总裁兼物联网和边缘AI 处理器总经理 John Weil 表示：“目前正在发生的最大变化遵循两个方向。 Arm生态系统和 RISC-V 中的 CPU 架构都在不断增强。人们正在添加矢量数学单元块来加速基于 Transformer 的模型所需的各种数学函数。第二条路径涉及神经处理器增强，可以将其看作是 GPU ，但专注于边缘 AI 模型加速。这些主要是矢量数学单元，旨在加速模型内的各种操作数。如果你查看 Arm 张量算子集架构 (TOSA) 规范，就会发现其中存在各种各样的 AI 操作数，人们正在编写加速例程，就像使用 Open GL 编写 GPU 一样。 ”

图2：移动 SoC 设计，其中 AI 加速器可以是另一个 GPU、NPU 或高端 ASIC 。来源：Synopsys
过去几年， GPU 和 NPU 的设计都在不断更新，以适应新的用例。 Imagination 的 Liouti 指出， GPU 通常占据高端手机硅片面积的 25% 左右，而 NPU 的尺寸也不断增大，以承担大量的工作负载。 “根据工作负载的不同， NPU 会占据主导地位，或者你必须将问题分解到 NPU 的某些层和 GPU 的某些层。 NPU 已经成为所有低功耗应用不可或缺的一部分。对于任何需要始终在线的应用， NPU 都是最佳选择。此外，你仍然需要一个性能强大的 CPU ，因为它需要大量的初始工作以及管理。如果 CPU 性能不佳，那么 GPU 或 NPU 再大也没用。 ”
关键重点在于任何形式并行处理的能效，无论是图形处理、通用计算还是人工智能专用计算。 “我们一直在研究我们的ALU引擎，并对其进行了彻底的重新设计和调整，以实现非常节能的数字运算， ”Imagination技术洞察副总裁Kristof Beets表示。 “下一步是将更多NPU领域的技术引入GPU——数据类型是更专用的处理流水线，以提供足够的性能。此外，我们需要在整个客户群中实现可扩展性。我们不能忽视开发者社区，因为我们如何让人们访问它？我们如何确保一切开箱即用？然后，如何有效地优化和调整它们？”
总的来说，将人工智能设计到芯片中变得更加容易。 “五年多前，人们会说， ‘天哪，我听说人工智能要来了。我不知道该怎么办。我们甚至没有数据科学家。我得雇一个数据科学家团队来解决这个问题吗？’也许十年前确实如此。但现在绝对不是这样了， ”英飞凌物联网、消费电子和工业 MCU 高级副总裁 Steve Tateosian说道。说到开发者方面，我拥有一支由博士级DSP 工程师组成的团队，专门负责调试我的音频前端。现在，也许你还有几位——我甚至不会说是 AI 工程师，因为他们只是工程师——开发工程师，他们知道如何使用 AI 工具来创建这些模型。在过去 5 到 10 年里，工具也得到了显著改进，其中包括工程师获取数据、标记数据、创建模型、测试模型以及优化模型以适应终端设备的开发工作流程。许多最专业的知识都已融入这些工具中，因此更广泛的开发人员可以更轻松地创建这些应用程序或模型。
一切皆可视、无线和触觉随着人工智能的不断发展，越来越倾向于视觉化的形式。这需要比传统文本格式更强大的处理能力。
Ansys产品营销总监Marc Swinnen 表示：“过去，界面是计算机或基于文本的。现在，一切都是视频或全图形界面，对计算的要求更高。大量的计算都用于管理视频的输入和输出——从屏幕输入，再通过 1080p 输出等等。 ”
此外，一切都是无线的，因此手机上的模拟内容也随之增加。 “现在一部手机里大约有六根天线——这太疯狂了， ”斯温宁说。 “所有这些高频电信功能，从Wi-Fi、5G、蓝牙到AirDrop ，都有各自的频率、各自的芯片和各自的天线。 ”
通信标准的不断发展给SoC 设计人员带来了进一步的挑战。
“最重要的是实现 AI 用例并推动 UFS 落地，加速规范的制定， ”Synopsys 移动、汽车和消费 IP 产品管理执行总监兼MIPI 联盟主席 Hezi Saar 表示。 “MIPI 联盟能够将其提前一年，因此这确实降低了风险。人们现在正在定义它。 SoC 和 IP 供应商需要在规范制定的同时开发他们的 IP 。他们需要进行流片并获得符合部分规范的硅片，并为下一个规范做计划，规划互操作性，并在我们工作的同时规划构建生态系统。过去，情况并非如此。规范过去有一定的演变频率。每两年就会有一个规范。但是一切都被压缩了，因为 AI 更多的是软件，它会影响硬件。硬件不是软件。 ”

图3：智能手机中正在实施的用例，其中 LLM 或 AI 引擎需要在存储设备上可用。来源：Synopsys
Saar 表示：“当你打开设备时，该模型的大部分功能都需要在 DRAM 中找到自己，这意味着从 UFS 设备到 SoC 的读取连接需要非常高效。这就是延迟。你不能按下按钮，问任何问题，然后等待两秒钟。当然，还有更多方法可以做到这一点。你不需要读取全部内容。你可以进行部分读取。但所有这些系统都在这里存储数据，我需要将其快速推送到 DRAM 。我让 LLM 运行，比如说，一个片上加速器。但我需要将它连接到 DRAM 进行计算，然后将其返回给用户，以便他们收听音频。在移动设备中，它必须非常非常高效。功耗极其重要。他们会减少传输。我会尽可能地将 UFS 设备置于睡眠模式。我预计存储连接和 DRAM 连接都将继续非常快速地发展——比以前快得多。 ”
多模态模型和GenAI 工具（例如 Stable Diffusion）的兴起进一步加剧了复杂性，这些工具将文本、图像以及音频处理整合到统一的架构中。 Cadence 的 Borkar 表示：“这些模型需要灵活高效的计算结构，能够处理各种数据类型和执行模式。为了在不确定性和 AI 快速发展面前保持韧性， AI 子系统的设计必须兼顾未来发展。这通常涉及将可编程 IP 模块与 NPU 集成，使 SoC 能够在流片后适应新的模型架构和工作负载。要支持如此广泛的 AI 用例， SoC 不仅需要强大高效，还需要架构敏捷，这使得以 AI 为中心的芯片设计成为移动计算领域最具活力和挑战性的前沿领域之一。 ”
手机算法的另一个用例是确定屏幕上什么是有意义的触摸，什么不是，无论是“直板”手机还是可折叠手机，由于其屏幕非常薄，可折叠手机面临着额外的挑战。
Synaptics 产品营销总监 Sam Toba 表示：“当显示屏变薄时，顶层的触摸层必须离噪声很大的显示层更近。我们必须处理来自单个像素的大量显示噪声。这对于非常非常薄的显示屏来说是一个问题。由于背景层非常薄，由于极板之间的距离越来越近，电容会变得更高。这是一个大问题，因为当你感应触摸时，它感应到的电容非常小，而背景电容又很大，因此在薄面板中，从如此大的噪声（电容噪声）中识别有效的手指信号变得更加困难。 ”
这款超低功耗芯片需要判断哪些信号有意义，然后才能唤醒主机SoC 。 “如果主机必须检测触摸，那么仅仅为了寻找触摸信号就会耗费大量电量，这意味着设备必须一直处于运行状态。大多数触摸信号都必须被拒绝。 ”
AI 功能和模型的本地处理手机中搭载着众多AI 应用，而且数量还在不断增加。 Ansys 的 Swinnen 指出，只要有可能，处理就应该在手机上进行，这样只有精简的信息才会发送到云端。例如，面部识别或照片编辑等机器学习功能应该在靠近摄像头的地方进行处理。
GenAI 模型（例如 ChatGPT 或代理 AI 助手）的推理请求也可以在本地处理。 Synopsys 的 Saar 指出， AI 模型已经变得更加高效和紧凑，因此无论它们是几兆字节、几千字节还是几千兆字节，都可以存储在设备上，具体取决于你讨论的模型和设备。
本地设备处理具有诸多优势。西门子数字工业软件解决方案网络专家Ron Squiers 表示：“通过将 AI 硬件嵌入这些移动设备，他们可以在设备内部进行大型语言模型推理。无需将事务发送回云端进行繁重的推理，只需在边缘端完成即可。这具有双重优势：更低的延迟、更好的实时响应、更好的闭环伺服控制，并且能够更好地保护在边缘端本地生成的数据隐私。 ”
其他人也同意这一点。 “你不用把数据发送到云端，所以功耗和成本都会降低， ”英飞凌的Tateosian说道。 “一些边缘AI应用可以在不增加连接成本的情况下提升智能，或者可以减少连接数量。这意味着减少云连接，并降低终端设备的功耗。 ”
Imagination 的 Liouti 表示，在超优化时代，设计师需要将技术债务降至最低，才能让手机发挥更大的潜力和性能。 “数据移动造成了 78% 的功耗。我们的主要关注点是‘如何减少这种数据移动？’这可以在 GPU 层面实现，这也是我们关注的重点，但也可以在平台层面、SoC 层面实现。我们必须开发极其先进的技术来减少数据移动，而对于神经网络来说，这变得更加复杂——尤其是对于大型神经网络，因为它们需要大量的数据。 ”
虽然越来越多的设备端AI处理正在发生，但由于电池和功率限制，有些功能仍将在云端运行。 “你总是需要有所取舍， ”Liouti说道。 “这只是一段伟大旅程的开始，几年后情况将截然不同。我们才刚刚触及皮毛。我认为Transformer是构建更宏大目标的基础模块。目前，我们需要区分炒作与现实。以目前在移动设备上本地运行的图像生成模型为例。现实情况是，它们的性能远不如你在电脑上使用Midjourney找到的模型。几年后情况将会发生改变。 ”
更强大的GPU 将成为解决方案的一部分。 “在移动领域，我们可以将额外的功耗节省转化为更高的时钟频率和更高的性能，因为我们可以保持相同的功耗和热预算， ”Imagination 的 Beets 说道。
然而，英飞凌的Tateosian 观察到，每次新版本发布之后，手机用户体验并没有太大变化。 “尽管这些设备的性能和内存都提升了，但软件却在吞噬这些。 ”
结论有几个关键趋势推动着移动SoC 设计的变革。
Ansys 的 Swinnen 表示：“模拟技术的兴起、视频和人工智能的蓬勃发展，以及当今应用对高性能计算 (HPC) 的需求，使得芯片需要具备强大的计算能力。这些因素推动着 SoC 的发展，但手机制造商受限于需要保持低功耗和小尺寸的特性，而且与 NVIDIA 等 GPU 公司相比，他们受到的经济因素制约更大。对他们来说，性能才是最重要的，如果成本稍微高一点，那就接受吧。但对于手机芯片来说，成本并非如此。为了达到数百万的产量，必须保证成本低廉。 ”
设计人员必须确保从硬件和软件两个角度来设计SoC 。 “忘记这一点的人都会失败， ”Imagination 的 Liouti 说道。 “当你考虑语言模型、层级结构和操作时，我们必须考虑到这一点。这听起来简单，实则不然。本质上，你必须找到利用硬件进行数学运算的最佳方法，以确保你的解决方案处于领先地位，因为我们是在与巨头竞争。你必须进行软硬件协同设计，而单凭一名工程师是无法完成的。这必须涉及多个不同的学科，其中一些学科甚至完全不相关。 ”
*声明：本文系原作者创作。文章内容系其个人观点，我方转载仅为分享与讨论，不代表我方赞成或认同，如有异议，请联系后台。
想要获取半导体产业的前沿洞见、技术速递、趋势解析，关注我们！

从GPU 到 NPU，移动芯片求解AI 算力困局

推荐阅读

柠檬怎么看熟了没，如何看柠檬成熟没有

玻璃胶发霉变黑怎么去除

生活家健康指南：开车习惯导致的疾病振动病

厦门沙茶面的做法厦门沙茶面怎么做

elgrand是什么车

六月雪有什么含义

关于发短信问题

静止法衣有什么用云顶之弈静止法衣作用

额头窄脸大适合什么发型

nano卡是什么意思啊

三八妇女节通知，过三八节通知出去玩怎样写

淘宝为什么整顿关闭,2017年关闭了多少淘宝店

保定新安新区现在房价,作为二线城市的保定

为什么会有一夫一妻制,一夫一妻制起源于哪里

怎么样通过芝麻认证,关于支付宝职业信息认证

教你AU怎么制作减速伸缩变调效果