大模型智能体不止能写代码，还能被训练成白帽黑客_网络安全|ai|自动化

文章图片

文章图片

文章图片

文章图片

当人们还在惊叹大模型能写代码、能自动化办公时，它们正在悄然踏入一个更敏感、更危险的领域 —— 网络安全。

想象一下，如果 AI 不只是写代码的助手，而是能够像「白帽黑客」一样，在不破坏系统的前提下模拟攻击、发现漏洞、提出修复建议，会带来怎样的改变？

这个问题，最近由 Amazon AWS AI 的 Q Developer 团队给出了答案。他们在 arXiv 上同时发布了两篇论文，提出了训练网络安全大模型的全新方法：Cyber-Zero 和 CTF-Dojo 。这两项研究不仅是学术探索，更像是一次「实战演练」的预告，预示着大模型智能体正在从通用任务走向网络安全的前线。

论文 1: Cyber-Zero: Training Cybersecurity Agents without Runtime
链接: https://arxiv.org/abs/2508.00910

论文 2: Training Language Model Agents to Find Vulnerabilities with CTF-Dojo
链接：https://arxiv.org/abs/2508.18370

网络安全
大模型落地的一座特殊堡垒

在通用任务上，大模型的训练已经形成了相对成熟的范式：海量数据、长时间预训练、再经过对齐与微调。但网络安全场景不同，其核心难点在于训练环境与数据的高度敏感性。

事实上，闭源大模型已经在安全攻防方向展现出一定潜力。 Google 的 Project Zero 团队就曾使用 Gemini 系列模型探索漏洞发现，一些初创公司甚至尝试构建基于闭源模型的「AI 红队」，用来模拟攻击并进行防御验证。实际案例表明，这些强大的闭源模型确实具备了发现漏洞、自动化执行攻击步骤的潜力。

然而问题在于，这些模型的训练范式和数据集完全不透明。我们无法得知它们是如何习得攻防知识的，也无法验证模型的安全性与可靠性。更重要的是，闭源模型无法被研究者和企业安全团队自主改造或控制，这本身在安全领域是一种潜在风险。

另一方面，如果要让模型从零开始学会攻防，传统思路需要搭建真实运行环境，以生成交互轨迹。但这种方式成本高、风险大，甚至可能在实验中触发不可控的攻击。而高质量的安全攻防数据本就极度稀缺。漏洞利用和修复往往涉及复杂的环境状态、系统调用和长时间推理，很难像自然语言文本那样容易转化为标准语料。

这意味着，如果继续沿用传统方式，「AI 白帽黑客」可能永远只能停留在实验阶段。 Amazon 团队正是瞄准了这个瓶颈，提出了两个互补的解决方案：Cyber-Zero 致力于「如何生成安全而高效的训练数据」，而 CTF-Dojo 则专注于「如何在实战中训练模型发现漏洞」。

Cyber-Zero
无需真实环境的模拟训练场

Cyber-Zero 的核心思想是「runtime-free training」，即完全不依赖真实运行环境，而是通过已有知识和语言建模生成训练所需的高质量行为轨迹 (trajectories) 。

团队注意到，公开的 CTF（Capture The Flag）竞赛 writeups 是极其宝贵的资源。它们记录了参赛者如何分析题目、尝试攻击、定位漏洞以及最终解题的过程。 Cyber-Zero 正是基于这些 writeups ，构建出高质量的训练轨迹。

具体来说，系统首先从 writeups 中提取关键步骤和思路，然后通过设定不同的人格（persona），让大模型在纯文本环境中模拟攻防双方的对话与操作。例如，攻击者 persona 会生成可能的利用路径，防御者 persona 会进行应对。这一过程中生成的长序列交互被视作行为轨迹，用于训练网络安全智能体。

实验表明，这种免运行时的轨迹生成不仅规模可观，而且多样性丰富，覆盖了常见的攻防模式。与真实环境生成的轨迹相比， Cyber-Zero 的数据在漏洞定位、攻击路径推理等任务上的训练效果毫不逊色，甚至在部分指标上表现更优。这意味着， AI 白帽黑客可以在一个完全安全的虚拟训练营中反复优化，而不必担心成本和风险。

【大模型智能体不止能写代码，还能被训练成白帽黑客】

团队还得出几项关键发现：

通用的软件工程智能体（SWE Agents）无法直接迁移至网络安全任务。写代码 ≠ 找漏洞，两类技能之间存在明显鸿沟。模型规模与性能密切相关：参数更大的模型更擅长维持长程推理链，跨多步组合命令，并在多轮交互中保持状态连贯，这对复杂攻防至关重要。经过 Cyber-Zero 轨迹微调的 32B 智能体，性能已接近闭源模型 Claude-3.7-Sonnet ，而推理成本仅为其 1% 。
这些结果一方面凸显了 Cyber-Zero 的实用价值：它不仅能安全、低成本地生成训练数据，还能让模型通过微调在安全任务上具备实用能力；另一方面也指出了研究方向：如果不针对安全任务进行专门优化，即便是大规模的通用 SWE 智能体也难以承担白帽黑客的角色。

CTF-Dojo
让 AI 在实战中学会发现漏洞

如果说 Cyber-Zero 提供的是一个「虚构的训练场」，它通过解析 CTF writeups 与 persona 模拟，在纯文本空间中生成攻防轨迹，让模型在完全无风险的虚拟环境中学习；那么 CTF-Dojo 就是一个「真实的战场」。它直接构建可运行的 CTF 攻防环境，让智能体能够真正执行命令、与系统交互、发现并利用漏洞。前者强调规模化、安全、高效的数据生成，后者强调贴近实战的攻防演练，两者一虚一实，形成互补。

CTF-Dojo 的核心难点在于：如何在大规模下为 LLM 智能体提供稳定的运行环境。传统 SWE（软件工程）代理通常需要专家手动配置环境才能运行，而每个任务的准备工作往往耗时数周，极大限制了研究规模。为此， Amazon 团队提出了 CTF-Forge ，一种能够在几分钟内自动搭建运行时的容器化工具，可以快速部署数百个挑战实例，显著降低了人力成本。

研究团队选择了全球最具代表性的 pwn.college CTF Archive 作为种子数据。该数据集收录了数百个来自顶级赛事的高质量题目，涵盖六大类别，从 Web 漏洞、二进制利用到密码学挑战一应俱全。通过精心筛选，并排除测试数据中已包含的题目，最终形成了 658 个独立任务实例，为智能体训练提供了坚实的基础。

然而，最初实验表明，开源模型在这些复杂任务上的成功率极低。大部分 OSS 模型只能完成少数挑战，生成的轨迹也质量参差不齐。为了提高可用样本的产出率，团队引入了三项推理阶段增强技术：

将公开的赛题笔记（writeups）作为提示，帮助模型更快锁定解题方向；运行时增强：通过在执行过程中动态修改环境配置或任务约束，把过于复杂的挑战「降维」，从而提升模型完成任务的成功率；教师模型多样化：不仅依赖单一模型生成解题轨迹，而是同时调用多种不同类型的大模型（包括开源和闭源），让它们各自贡献成功案例，以此获得更丰富、更具多样性的训练样本。
最终，团队主要依赖 Qwen3-Code-480B 和 DeepSeek-V3-0324 两个强大的开源模型，收集到来自 274 个挑战的 1000+ 成功轨迹。在去除冗余、限制每个任务实例的最大样本数后，最终得到了 486 条高质量、经过运行验证的轨迹。

基于这些数据，研究团队对 Qwen3 系列模型（8B、14B 和 32B 参数规模）进行了训练，并在多个网络安全基准任务上评估了效果。结果显示，经过 CTF-Dojo 训练的模型，在 EnIGMA+ 基准（源自前作 Cyber-Zero）上取得了最高 11.6% 的绝对提升，不仅超过了开源基线模型，还表现出与闭源模型接近的水平。更重要的是，随着训练样本数量的增加，性能呈现出清晰的可扩展性，证明了在真实环境轨迹驱动下，大模型在网络安全任务上的潜力可以被系统性激发。

这些结果意味着， CTF-Dojo 不仅解决了过去「环境难以大规模配置」的工程难题，还验证了一个核心科学问题：网络安全智能体的性能能够随着执行数据的增加而持续提升。在已有 SWE 代理无法泛化的情况下， CTF-Dojo 给出了一条清晰的道路：通过规模化、自动化的运行环境收集轨迹，推动模型逐步逼近人类白帽黑客的实战水平。

从虚拟到实战的组合拳

把 Cyber-Zero 和 CTF-Dojo 放在一起看，就会发现它们形成了一个闭环。 Cyber-Zero 提供的是安全、可扩展的训练数据来源，相当于一个虚拟训练营；而 CTF-Dojo 则是实战武馆，让模型在真实挑战中不断迭代。前者解决了数据与成本的问题，后者解决了能力习得与迁移的问题。两者结合，为 AI 白帽黑客的成长提供了完整路径。

这种设计思路的意义在于，它不仅追求理论上的可行性，还强调在生产环境中真正可部署。正如论文中展示的实验结果， Cyber-Zero 的数据生成和 CTF-Dojo 的环境构建都能规模化运行，且能在真实任务上带来可验证的性能提升。这标志着 AI 在网络安全方向正在逐步进入应用落地阶段。

未来意义与挑战

AI 白帽黑客蕴藏广阔前景：在企业安全团队中，它可以作为虚拟成员，自动扫描代码、发现潜在漏洞，并提出修复建议；在红队演练中，它可以充当对手角色，帮助测试防御系统；在教育场景中，它可以成为学员的「陪练」，提供个性化的挑战和反馈。更长远来看，随着成本降低和技术成熟，中小企业也有望借助这样的系统获得「普惠安全」。

但与此同时，这项技术的双重用途属性不容忽视。正如研究团队在论文中强调的那样，虽然 Cyber-Zero 和 CTF-Dojo 的初衷是帮助开发者和研究人员在软件部署前发现并修复漏洞，但同样的能力也可能被滥用于进攻目的，比如自动化发现外部系统的漏洞，甚至开发恶意工具。特别是 Cyber-Zero 的「免运行时」方法，降低了训练高性能网络安全智能体的门槛，使其更容易被更广泛的群体获取和使用。这种民主化的趋势既意味着安全研究的普及，也意味着风险的扩散。

实验结果已经证明，基于虚拟轨迹或执行验证数据训练的模型，能够在多个基准任务上达到接近甚至媲美闭源前沿模型的性能。这表明先进网络安全能力的民主化不仅在技术上可行，而且正在快速到来。如何确保这类能力更多地服务于防御，而不是被滥用于攻击，将是未来亟需讨论的议题。

在未来研究方向上，团队提出了几个值得关注的思路。一个是构建实时更新的 CTF 基准：通过 CTF-Forge 自动重建比赛环境，把来自活跃 CTF 赛事的挑战容器化，用于动态评测和轨迹采集，实现可扩展、实时的 benchmark 。另一个方向是强化学习，即让网络安全智能体直接与动态环境交互，并通过结构化奖励获得反馈。这种范式有望突破单纯模仿学习的局限，使模型能够发展出更普适、更具适应性的策略，更好地应对未知的安全问题。

因此，未来的关键在于平衡开放与安全。在推动技术进步与普及的同时，建立有效的安全护栏，需研究者、开发者、安全机构与政策制定者协同努力，确保这类强大工具以负责任的方式被开发和使用。唯有如此，才能真正增强整体网络防御能力，迎接一个更安全的智能时代。

参考资料：
[1
Zhuo T. Y. Wang D. Ding H. Kumar V.Wang Z. (2025). Cyber-Zero: Training Cybersecurity Agents without Runtime. arXiv preprint arXiv:2508.00910.
[2
Zhuo T. Y. Wang D. Ding H. Kumar V.Wang Z. (2025). Training Language Model Agents to Find Vulnerabilities with CTF-Dojo. arXiv preprint arXiv:2508.18370.
[3
https://x.com/terryyuezhuo/status/1962009753472950294
[4
https://github.com/amazon-science/Cyber-Zero

大模型智能体不止能写代码，还能被训练成白帽黑客

推荐阅读

滚筒洗衣机漏油怎么回事

vivo手机密码忘记解决方法 vivo手机忘记密码怎样开锁

初中生孩子怎么教育方法初中生孩子怎么教育方法最有效

如何做蒜苗炒肉？

企业微信视频会议可以暂停画面吗？企业微信视频会议暂停教程

冰墩墩什么材质的冰墩墩什么材质的好

杳如黄鹤典故杳如黄鹤故事是怎么样的呢

为什么宝宝头发是黄色的宝宝头发很黄是怎么回事

石榴泡白酒的比例是多少,石榴泡白酒治什么

放码落花风雪灞桥是什么

为什么小蓝单车押金199,共享单车退不了押金该怎么办

我来教你布卡黑魔法APP的简单使用过程。

自行车真空胎打不进气怎么办

乐视手机权限管理在哪

我是火影怎么卡级2015,漫漫长路《我是火影》与你同行

华为哪个型号的手机性价比高,求推荐一款华为手机