
文章图片
Nvidia 发布了其CUDA 工具包的最新更新 , Ver. 13 引入了重大的性能更新 。
CUDA 13 版本特性概述CUDA 13 版本引入了全新 CPU 资源支持、统一 Arm 平台架构 , 并新增了多个操作系统适配 。
英伟达已发布 CUDA 工具包的最新更新版本 , 13 版本带来了显著的性能升级 。
CUDA Toolkit 版本 13 现在支持最新的 Blackwell GPU 系列
升级后的工具包增强了程序员使用便利性、兼容性及语言加速能力 。 13 版本还首次在英伟达生态中引入基于分块的编程模型 , 进一步降低开发者工作量 。
什么是CUDA?图形处理器(GPU)针对含多个小型处理核心的高度并行运算进行了优化 , 但其本身难以直接用于非图形计算场景的编程 。 CUDA 是英伟达开发的计算环境 , 支持图形渲染以外的高性能计算应用 。 该平台作为 GPU 与通用应用程序之间的中间层 , 可赋能需要并行运算的程序 , 同时包含丰富的库、编译器指令及语言适配功能 。
AI 大语言模型开发与应用、科学分析及密码学等复杂场景 , 均能从 GPU 及多 GPU 系统提供的大规模并行计算中获益 。 CUDA 的设计目标即让广泛的应用开发者能够利用这些计算场景 。
13 版本关键更新CUDA 13 新增对英伟达最新 Blackwell GPU、Jetson Thor 高级 AI 与机器人 GPU , 以及 DGX Spark “桌面超级计算机” 的支持 。 其支持范围覆盖至当前所有架构的英伟达 GPU(不再支持 7.5 之前的架构) , 并针对 Blackwell 架构更新了 32 字节对齐的向量类型以提升性能 。
该工具包统一了 Arm 平台的开发者体验 , 提供覆盖服务器与嵌入式应用的单一工具链 , 同时更新了操作系统与平台支持 , 包括红帽企业 Linux 10、Debian 12.10、Fedora 42 , 以及 Rocky Linux 10.0 和 9.6 。 此外 , NVIDIA Nsight 开发工具得到更新以优化依赖检查 , CUDA 数学库(如 cuBLAS、cuSPARSE、cuSOLVER 及 cuFFT)也完成升级 。
NVCC 编译器现支持 GCC 15 与 Clang 20 , 并引入新语言特性以改善应用二进制接口(ABI)集成 。 用户还将获得加速的 Python 核心与开发者友好的封装方式 , Wheel 包与 CUDA 核心计算库(CCCL)也优化了库结构 。
统一服务器与嵌入式开发工具链在 13 版本之前 , CUDA 几乎可视为两个独立产品:开发者需分别安装服务器级项目与嵌入式项目的工具链 。 两者语法与操作虽高度相似 , 但针对服务器与嵌入式目标的库、头文件及其他开发组件存在差异 。
13 版本打破了这一限制:现在单一工具链可同时适配两种目标场景 , 生成的二进制文件会针对开发者使用的 GPU 自动优化 , 无需因部署场景切换工具链 。
新版本还整合了与 GPU 部署配套的 Arm 代码 ——Arm 二进制文件兼容所有 Arm 目标设备(仅 Orin sm_87 除外)及仿真平台 , 而旧版本需要为仿真与部署使用不同工具链 。
基于分块的并行编程分块编程(或基于数组的编程)支持对数组或矩阵中的所有数据点同时执行指令 。 并行编程常需对多个数据块同时执行相同操作 , 而分块编程可自动为开发者处理并行逻辑:只需编写单个函数 , 底层智能层会处理所有低级细节以实现并行运算 。
比较块级编程与基于图块的编程 。
编译器与运行时系统负责在线程与核心间分配负载 , 该抽象层在大幅降低编码负担的同时实现了性能最大化 。
免费获取【英伟达 CUDA 重大更新!】英伟达 CUDA 工具包 13 版本现已开放免费下载 , 支持 Linux x86_64 与 arm64-sbsa 多发行版 , 以及 Windows 10、11、Server 2022 和 Server 2025 的 x86_64 平台 。
推荐阅读
- 三星HBM4样品已通过英伟达测试,本月预生产
- 新一代芯片?英伟达不想放弃中国市场,还有希望吗?
- 象帝先新一代伏羲架构GPU将采用5nm工艺,算力可达160TFLOPS?
- 英伟达,仍将控制内存制造商
- 天玑9500细节曝光:AI算力高达100TOPS,还有“存算一体”黑科技
- 国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同性能
- 解放人力提升效率 柯尼卡美能达重塑大型企业海量纸质档案管理流程
- 传台积电2nm良率已达66%
- 英伟达新研究:小模型才是智能体的未来
- 荣耀目前“销量巨高”的两款中端机,激活量达到百万,可以闭眼入
