
文章图片
作者 | 付秋伟
过去十年 , 云计算的快速发展为企业带来了前所未有的便利 , 越来越多行业开始深度拥抱云技术 。 但与此同时 , 数据泄露、权限滥用、供应链攻击等安全事件频发 , 也让不少企业 , 尤其是数据安全敏感度型企业 , 在选择云模式时多了一层顾虑 。 在这样的背景下 , 专有云凭借物理隔离、自主可控、本地化部署等特性 , 成为许多企业平衡云便利与安全需求的重要选择 。
然而 , 近两年 AI 技术的爆发 , 又给专有云固有的安全范式带来了新的冲击 , 比如大模型训练需要海量数据的跨域流动、数据轨迹难追溯、生成式 AI 攻击的黑箱特性等等 。 AI 时代 , 专有云的安全信任基石究竟该如何重构?
「AI 进化论:智算时代 OS 的破局之路」第二期直播 , 聚焦「专有云操作系统安全」 , 邀请了三位阿里云的技术专家:阿里云专有云系统安全技术专家 姜迎、阿里云技术专家 孙维东、阿里云技术专家 / 龙蜥社区软件供应链安全架构师 郑耿 , 共探 AI 时代专有云操作系统的安全之道 。
以下为经编辑整理的专家访谈实录 。
Part 1:行业趋势与核心挑战
Q1:在专有云场景下 , 物理隔离一直被视为安全的终极手段 , 但随着新技术的突破和业务场景复杂度的提升 , 其局限性也开始显现 。 如何看待物理隔离对专有云场景的价值?AI 时代对专有云的安全又提出了哪些新挑战?
姜迎:物理隔离仍是防御外部入侵的终极手段 , 也是合规层面的刚性需求 —— 例如政务网络要求物理切断连接以满足数据主权要求 , 但它无法抵御内部威胁 。 AI 时代的到来 , 让攻击路径更具自适应性、攻击手段更高级:攻击者能自动感知环境与设备信息 , 更容易发现内部漏洞并实现横向渗透 。 除此之外 , 专有云除了自用也会存在转售模式 , 并且业务也需要向混合云模式发展 , 还是需要透过连接公网进一步发展业务 。 这要求我们通过机密计算、零信任、抗量子技术等升级技术范式 , 以抵御这些高级威胁 。
孙维东:物理隔离是专有云安全的基石 , 能防御各类外部攻击 , 如同 “最坚固的外壳” , 但它无法覆盖所有攻击向量 —— 比如内部威胁 , 以及 AI 时代更复杂、智能化、随机化的攻击 。 物理隔离虽坚固但灵活性不足 , 在新攻击范式下 , 需要通过机密计算、零信任、软件供应链安全提升、国产操作系统与自主芯片协同等技术进行补充 , 让整个系统更安全 。 并非物理隔离本身过时 , 而是需要更灵活的技术组合 。
郑耿:安全的核心始终是服务于业务 。 AI 时代的计算范式和业务架构发生了巨大变化 , 对海量数据和计算资源的需求显著提升 。 物理隔离从安全角度看是 “堡垒” , 但会限制资源的按需调配与复用 , 对业务发展存在一定约束 。
Q2:传统安全架构比较依赖 “边界防护” 和 “补丁管理” , 但面对高级持续性威胁(APT)时往往力不从心 。 近年来 “零信任”“机密计算” 等理念兴起 , 这些技术正在如何重塑专有云的安全逻辑?从技术演进角度看 , 这种范式转换有何关键特征?
姜迎:AI 时代的攻防对抗不断升级 , 攻击模式更趋高级化 —— 例如能自适应调整攻击路径、通过深度伪造技术模拟声纹或视频等 。 这推动了机密计算、零信任、抗量子技术等的兴起 , 安全范式也从 “边界防护” 升级为 “端到端全链路保护” 。
- 机密计算:偏向数据流防护 , 实现数据全生命周期加密保护 —— 数据进入可信执行空间时加密处理 , 出空间需经过加密审批 , 仅在空间内解密并运行计算 。
- 零信任:偏向控制流管控 , 遵循最小权限原则 , 用动态身份认证(如短期访问凭据)替代传统固定密钥 , 强化权限管控力度 。
- 后量子技术:应对量子计算对非对称加密算法的解密威胁 。
孙维东:零信任和机密计算在专有云场景的应用越来越广泛 。 专有云虽相对隔离 , 但 AI 时代不同业务单元间的数据协作、流动需求显著增加 。 机密计算解决 “数据可用不可见” 的问题 , 零信任则强化动态权限管控 , 二者共同重塑了 “不依赖固定边界、聚焦数据和权限本身” 的安全逻辑 。
Q3:国产操作系统与自主芯片的协同发展是当前行业热点 , 但安全能力的提升不能仅靠 “替换” , 更需 “重构” 。 当前 , 在国产 OS 与自主芯片的协同中 , 安全信任链构建面临哪些核心挑战?
孙维东:可控是构建安全生态的重要基础 , 但可控不意味着绝对安全 。 当前自主芯片生态呈现 “百花齐放” 的特点 , 涌现出众多新的安全架构、设计理念与技术方案 , 迭代速度显著加快 —— 这为安全特性的发展提供了支撑 , 但也带来两大挑战:
- 生态不统一:操作系统是连接硬件与应用的桥梁 , 需衔接不同芯片的安全特性、AI 加速能力等 , 但芯片生态较为分散 , 如何平衡性能、稳定性 , 同时提供统一的使用方法以避免增加开发者负担 , 是一大难题 。
- 安全特性抽象难:需要将不同芯片的安全特性进行统一抽象 , 让开发者、企业、芯片厂商、学界等能轻松参与生态开发 , 目前实现难度较大 。
郑耿:软件供应链安全是保障系统研发全环节(从开源软件包引入、编码、测试、发布到使用全流程)的安全性 。 由于开源的普及 , 主流开发范式变成基于开源组件的二次开发 , 如果研发中引入的开源组件若存在安全问题 , 这些问题会随着软件供应链传导至最终的产品 , 引发安全风险 。
传统应对思路以 “扫描 + 修复” 为主:对源码、二进制制品进行安全扫描、依赖扫描等 , 识别安全风险后 , 通过工单推动业务修复 。 这种方式偏被动且滞后 。 如今则更强调 “安全左移”—— 在需求分析、架构设计、编码等阶段提前安全工程师介入 , 开展安全分析和组件评估 , 介入越早 , 修复成本越低 。
【智算浪潮下的专有云操作系统安全:范式跃迁与信任链重塑】2025 年的新态势主要有三个:
- 攻击智能化:攻击者借助 AI 发起攻击 , AI 的随机性和创造性让攻击更难预测 , 传统防护策略容易失效 。
- AI 自身供应链风险:AI 研发流程(从数据、模型训练、微调到部署)存在多个攻击点 , 已成为业界关注的热点 。
- 云上攻击增多:AI 对数据、计算、存储资源的需求激增 , 企业上云比例上升 , 云的攻击价值提升 , 针对云的攻击也随之增加 。
Q5:从技术实践的角度来看 , 国产 OS 如何实现从硬件启动到应用运行的全栈可信验证?TPM(可信平台模块)与 TEE(硬件级可信执行环境)的协同在其中能发挥哪些关键作用?
孙维东:全栈可信验证的核心是保障运行环境的完整性 —— 只有完整性得到保证 , 机密性防护才有意义 。 验证过程需实现 “可度量、可验证”:
- 基于 TPM 的可信计算阶段:从硬件开始 , 逐级度量固件、操作系统内核、系统软件、应用软件(包括虚拟化、云原生组件) , 最终生成硬件签名报告 。 通过验证报告 , 可确认系统运行在合法硬件上 , 且所有软件未被篡改 。
- TEE(机密计算)阶段:在完整性基础上增加机密性保护 , 例如机密虚拟机(Confidential VM)会对内存加密 , 即使是宿主机管理员等拥有高级权限的攻击者 , 也无法获取明文数据 。
- 机密虚拟机运行在裸金属服务器时 , TEE 保护虚拟机内的机密性和完整性 , TPM 保护宿主机软件栈的完整性 , 从外到内覆盖全环境 。
- 采用 VTPM(虚拟 TPM)技术 , 将 VTPM 运行在机密虚拟机内 , 既保护 VTPM 自身安全 , 又能为其他虚拟机提供类物理 TPM 的安全能力 。
姜迎:性能损耗方面 , 机密计算的性能已远超同态加密、联邦学习等技术 。 国外芯片数据显示 , CPU 和内存性能损耗约 2-3% , 内存密集型或 AI 业务约 3-4%;IO 损耗相对较高(7-20%) , 但 Trust IO 等技术已能将 IO 损耗优化至接近无损水平 。 国内芯片也在通过硬件卸载、加速引擎、指令集优化等提升性能;软件层面 , 内存异步回收、内存子系统改造、缓存文件系统等技术也能降低损耗 。 性能优化需要业务、系统、硬件的垂直协同设计 , 单一层面的优化效果有限 。
兼容性方面 , 国外机密计算技术发展较早 , 开源社区已有适配主流芯片的组件;国内因芯片 “百花齐放” 且发展较晚 , 兼容性仍是挑战 , 需要通过生态标准(如抽象层)实现统一适配 。 此外 , 安全、性能、兼容性之间需要平衡 , 可能存在为了安全和性能牺牲部分兼容性的情况 , 这往往需要通过芯片定制化实现安全与性能的双重保障 。
Q7:国密算法的实践落地 , 不仅是出于合规性要求 , 更是技术发展的必然演进 。 OS 原生集成国密算法时 , 在密钥管理、合规适配方面有哪些技术难点?阿里云在这方面有哪些创新实践?
郑耿:技术难点主要有四点:
- 基础软件支持体系尚不完善:国密算法需覆盖操作系统内核、工具链、中间件、应用层全链路 , 但目前基础软件适配不足 , 需大量适配工作才能降低上层用户的接入成本 。
- 生态呈现碎片化特征:纯软件实现国密算法的性能损耗较大 , 通常需要硬件与软件协同(如硬件密码加速算子) , 但国内硬件生态分散 , 适配标准不统一 , 增加了开发者的使用成本 。
- 性能问题突出:这是安全领域的共性挑战 , 国密算法的实现(尤其是纯软件实现)往往存在较明显的性能损耗 , 影响业务运行效率 。
- 密钥管理复杂:全链路加密涉及多环节密钥 , 如何实现统一管理是一大难题 。
- 投入基础软件生态建设 , 在 Linux 内核、OpenSSL、libgcrypt、gnulib、nettle 等从内核到应用的全链路完成国密适配 , 并将能力贡献给上游开源社区 , 共建生态 。
- 联合铜锁社区推动国密算法标准化 , 例如铜锁社区的 8998 RFC 标准将国密算法实现在国际社区发布 , 为在 TLS v1.3 协议中使用完整的商密套件提供依据 。
- 在龙蜥社区安全联盟发起硬件安全合作计划 , 构建国产化的安全硬件基础设施和软件生态 。
- 布局后量子密码 , 联合铜锁社区在 Tongsuo 项目中实现了部分后量子密码 , 应对量子计算对传统密码的冲击 。
郑耿:构建可验证、可追溯的软件镜像发布体系 , 需要覆盖研发全链路 , 每个环节都需保障安全:
- 源码管理:通过安全扫描、结合大模型开展源码安全分析 , 确保源码和构建脚本的安全性 。
- 构建环境:加强权限管理、隔离与可信性保障 , 例如采用 TEE 技术构建可信构建环境 , 防范构建环境被攻击 。
- 下游信任传递:通过软件物料清单(SBOM)记录研发核心信息 , 包括源码依赖、构建工具依赖、构建三方包依赖、发布信息等 , 让下游用户清晰了解交付内容 , 解决 “黑盒” 信任问题 。
- 制品仓管理:制品仓是供应链攻击的高频目标 , 需加强安全管控 , 通过权限管控、制品签名等方式 , 防范恶意软件上传 。
Part 3:阿里云方案与行业启示
Q9:阿里云推出的 ACK-TEE 机密计算平台 , 在金融、医疗等敏感行业已有成功案例 。 能否从技术架构层面解析它是如何实现 “计算在云端 , 数据不出域” 的?这种模式对行业有何借鉴价值?
姜迎:ACK-TEE 本质上是基于 Kubernetes 调度的容器集群 , 核心是将数据计算置于 TEE 可信执行环境中 , 从而实现 “计算在云端 , 数据不出域” , 主要有三种模式:
- 机密虚拟机模式:将容器部署在机密虚拟机内 , 容器调度集群的数据面部署在机密云服务器上 , 控制端与数据端实现隔离 。 数据进入 TEE 前会经过预处理与加密(覆盖存储和传输环节) , 计算结果出域前需加密并经过审批 , 全链路保障数据不泄露 。
- 物理机机密容器模式:直接在物理机上部署基于轻量虚拟化的机密容器(如开源项目 compositional containers) , 由 Kubernetes 调度 , 依赖芯片级内存加密和隔离技术保护数据 。
- 安全容器 + APP TEE 模式:在安全容器(基于 Cgroup、NameSpace 等实现系统级隔离)上 , 采用英特尔 SGX 等技术实现进程级机密保护 。 即使安全容器被攻破 , APP TEE 仍能保障数据安全(即 “破壳不破芯”) 。
Q10:国产 OS 与自主芯片的协同需要生态各方共同努力 。 阿里云在龙蜥社区中 , 是如何推动国产 OS 与自主芯片的深度适配?
孙维东:龙蜥社区是阿里云深度参与的开源生态 , 推动国产 OS 与自主芯片适配主要依靠三点:
- 上游优先原则:阿里云将在机密计算、软件供应链、国密算法等领域的安全技术 , 以及性能、兼容性、稳定性优化等特性 , 毫无保留地贡献给龙蜥社区 , 推动软硬件生态繁荣 , 形成自主芯片与国产 OS 的正向循环 。
- SIG 小组聚焦:社区设有机密计算、软硬件、国密等专项小组(SIG) , 以特定领域或课题为核心 , 组织芯片厂商、开发者等协同开发 , 让讨论与落地更聚焦高效 。
- 生态开放性:通过开源活动吸纳学界、友商等参与 , 同时向国际社区(如 Coco 社区)贡献国产芯片适配代码 , 推动国产生态纳入国际标准 , 提升国际认可度 。
姜迎:AI 时代的攻击将更具自主性 —— 会自适应调整路径、直击目标 , 甚至通过深度伪造实施攻击 , 这将驱动攻防对抗持续升级 。 防御层面则需强化 AI 智能化预测能力(例如部署 AI 哨兵系统) , 实现攻防的智能化升级 。 数据安全方面 , 需融合机密计算、多方计算、区块链等技术 , 并结合抗量子技术 , 从多学科角度保障数据安全 。 量子计算可能解密现有加密数据 , 因此需升级密码体系 , 布局量子密钥分发和后量子技术 。
孙维东:从需求角度看 , AI(尤其是大语言模型)的影响力让全行业意识到数据安全的重要性 , 对安全的要求也更高 , 但当前安全技术、生态与标准的迭代速度 , 仍难以跟上 AI 的发展节奏 , 这是行业普遍面临的现状 。 攻击的随机性和灵活性远超防御能力 , 即使借助 AI 进行防御 , 也受限于大模型的可解释性和精确性短板 。 量子计算的威胁则更明确 —— 它瞄准现代密码学的基石 , 一旦突破 , 现有安全技术将面临失效风险 。 企业需重点关注安全技术与 AI、量子计算的协同 , 以及生态和标准的完善 。
郑耿:量子计算的破坏性具有可预见性 , 对基于整数分解问题和离散对数问题等的密码机制威胁最大 , 传统对称密码可通过加长密钥应对 , 或采用基于格等方式的新算法 。 AI 对安全领域的冲击更显著:传统安全防御是被动防御(基于历史攻击数据总结规律) , 在 AI 驱动的不可预测攻击面前防护效果将大打折扣 , 需转向 “安全韧性(Resilience)”—— 即强调主动防御和系统被攻破后的自动恢复能力 。 企业需要探索借助 AI 构建新的防御范式 , 以此提升安全韧性 。
栏目介绍:
在 AI 重塑产业格局与国产化替代加速推进的双重浪潮下 , 《AI 进化论:智算时代 OS 的破局之路》以云、AI、安全等技术与服务器操作系统如何融合演进为主线 , 聚焦服务器操作系统在智算时代的进化之路 , 特邀学术权威、行业专家、客户代表围绕原生智能、原生安全、软硬协同等热点议题展开深度对话 , 并以阿里巴巴服务器操作系统为例 , 系统性解析其技术架构、演进之路及场景应用价值 , 以期给行业带来启示与借鉴 。
推荐阅读
- 红米Note15系列线下上手反馈:三款版本,哪款更值得选择?
- 下一个晶圆需求的拐点在哪里?
- vivo新机官宣:8月22日起,线下体验
- 究竟会花落谁家?DeepSeek最新大模型瞄准了下一代国产AI芯片
- 赶超格力拿下国内第二,小米空调赢了
- 魅族22长焦实拍样张曝光:旗下首款潜望长焦旗舰!
- 华为史上哪代 Nova 手机最经典——对标蓝绿厂而生的线下新星进化史
- 字节突然开源Seed-OSS,512K上下文主流4倍长度,推理能力刷纪录
- 取代三星?vivo X200 Ultra拿下演唱会设备租赁第一名!
- 红米Note15 Pro+下狠手:卫星通信+IP69K防水,中端机有旗舰功能
