
文章图片

佛罗里达大学领导的一个研究团队 , 与加州大学洛杉矶分校和乔治华盛顿大学合作 , 开发了一种原型光子AI芯片 , 该芯片利用光进行卷积操作 , 与电子等效芯片相比 , 能耗降低了多达两个数量级 。 这一创新的核心是一种完全集成的基于菲涅耳透镜的架构 , 在芯片上执行二维空间卷积 , 且全部在模拟光学域中进行 。
封装的光子联合变换相关器 , 包括硅光子芯片、定制印刷电路板和八通道光纤阵列 。
该芯片是同类产品中的首款 , 通过被动衍射光学器件执行空间卷积 , 并单片制造在硅光子基板上 。 该原型为深度学习中最耗费资源的操作之一——卷积神经网络(CNN)中的乘累加(MAC)操作——实现了近零能耗计算 。
测试结果和性能指标
研究人员使用一个训练用于分类MNIST数据集手写数字的CNN对芯片进行了测试 , 这是机器学习中的标准基准 。 该光子卷积模块被集成到网络的第一层 , 对输入图像应用学习到的内核 。 网络的其余部分采用数字实现 , 模拟混合推理流程 。
研究报告显示 , 该芯片达到了98.1%的分类准确率 , 与纯电子推理流程几乎没有区别 。 但在能效方面 , 差异巨大 。 与传统的数字卷积引擎(基于CPU、GPU或FPGA)相比 , 该光子芯片将每次推理的能耗降低了100倍 , 预计操作能耗低至皮焦耳级 。
光子联合变换相关器的示意图 , 包括硅光子芯片和芯片外控制器 。
重要的是 , 该架构与波长无关 , 并支持波分复用(WDM) 。 通过为不同数据通道使用不同波长 , 可以在同一物理结构中并行运行多个卷积操作 , 从而在不增加占地面积或热负载的情况下扩展计算吞吐量 。
对边缘AI的影响
这种光学CNN加速器解决了功率密度问题 , 这是部署边缘AI的最大瓶颈之一 。 随着CNN的深度和复杂性增加 , 卷积操作主导了计算预算 。 在紧凑的边缘设备(如传感器、无人机、可穿戴设备或植入式设备)中运行AI推理 , 不仅需要高效性 , 还需要热静默和占地最小化 。
所制造的SiPh芯片的光学显微镜图像 。
通过这种基于透镜的方法 , 计算是被动的、无风扇的且本质上并行的 。 它避开了电子加速器常见的内存带宽、数据移动瓶颈和热节流等问题 。 由于光的模拟特性允许连续值内核应用 , 因此也避免了量化或剪枝的妥协 。
此外 , 由于该芯片采用标准光刻技术制造 , 因此可以与现有硅光子平台单片集成 , 或与CMOS后端配对 。 这使其比以往的自由空间光学或光纤耦合设计更实用 , 后者需要笨重的设置 , 不适合商业集成 。
一种新的混合计算模型
该芯片并非完整的神经处理器 , 它仅处理卷积步骤 。 但通过将最耗能的前端计算卸载到光学领域 , 并将决策逻辑或全连接层留给传统硅电路 , 它定义了一种新的混合计算模型 。 未来的系统可能在同一基板上共同集成用于CNN的光子加速器、用于逻辑的数字控制器以及用于数据存储的内存阵列 。
随着AI硬件竞赛的加速 , 此类创新指向了一个未来 , 在那里计算不再局限于电子和晶体管 , 而是扩展到光子、干涉以及光的根本属性 。
该原型由美国海军研究办公室资助开发 , 并作为同行评议的硅兼容被动芯片上卷积演示 , 在《先进光子学》杂志上发表 。
原文:
【能耗降低100倍!美国开发光子AI芯片——直接利用光做卷积!】https://www.allaboutcircuits.com/news/optical-chip-beats-counterparts-in-ai-power-efficiency-100-fold
推荐阅读
- 小米17 Pro Max采用革命性技术超级像素 雷军:功耗降低26% 非常夸张
- 40年前的全球首个致命软件Bug:至少三人因100倍强辐射身亡
- LG显示拟更换OLED面板金属箔材料,以降低成本
- 降低大模型幻觉、让企业AI输出更靠谱,亚马逊云科技掏出10年家底
- 荣耀这次真急眼了,16GB+1TB跳水1495元,100倍变焦+北斗卫星消息
- AMD RX 9070 XT显卡实测最新FSR4:帧率反而比FSR3降低了不少
- 谷歌Gemini一次提示能耗≈看9秒电视,专家:别太信,有误导性
- 初代未拆封iPod拍出40264美元天价,是当时售价100倍
- 谷歌技术报告披露大模型能耗:响应一次相当于微波炉叮一秒
- SK海力士、三星要慌?华为新技术,降低AI对HBM芯片依赖
