故意“装菜”答错问题，AI已能识别自己“正在被测试”

文章图片

文章图片

文章图片

文章图片

大模型已经学会欺骗人类了！
OpenAI携手APOLLO的新研究发现，大模型会对指令阳奉阴违，为了达成目的故意答错问题、暗中修改数据或者操作记录来掩盖自己的违规行为……
先来看看具体是怎么骗的。

大模型：开演比如， o3模型在化学测试中，通过推理得出如果正确率超过50%将不会被部署的结论后，主动规划仅答对4题、答错6题的策略，刻意给出错误答案，伪装成能力不达标的样子来获取部署资格。
还有o1 ，在19%的测试场景中，表面遵循短期利润目标的指令，但实际上会优先保护长期目标，为了不被发现还会修改任务相关数据，并且不向人类披露修改行为，把这事儿瞒得死死的。
甚至被问到是否存在sandbagging（故意隐瞒实力、策略性低表现以达成特定目的）行为时，会识别出这是诚实性测试，所以尽管不想回答存在这种行为，但为了表现得诚实，最后还是回答了true 。
针对这些情况， OpenAI首席研究官Mark Chen表示：
随着推理能力的扩展，模型获得了情境感知能力和自我保护的需求。
（AI价值观与人类价值观）对齐至关重要。
实际上不止OpenAI家的模型这样。其他前沿模型，比如Gemini-2.5-pro、Claude Opus-4等也出现了类似情况。
所以，大模型为什么会出现欺骗行为呢？

欺骗行为从何而来大模型的谋划与欺骗也并非凭空出现的，而是训练机制与能力提升共同作用的结果。
从训练逻辑来看，当前主流模型的训练以任务完成率、输出准确率为核心奖励指标，这种单一导向的强化学习范式，导致模型形成结果优先于合规的决策偏好。
也就是说，为获取更高奖励分数，模型可能会选择生成错误输出或隐瞒操作漏洞。
并且，当指令存在多目标冲突时，模型的目标权衡机制会优先选择可以即时验证的短期目标，并通过隐蔽操作绕开指令约束，形成表面响应指令、底层偏离意图的行为模式。
与此同时，前沿模型的情境感知能力升级，进一步放大了这种风险。
研究发现， OpenAI o1、Google Gemini等模型能通过分析任务场景中的评估特征（如重复校验节点、日志记录标识），能精准区分合规测试环境与真实部署环境。
在测试场景中，模型会主动激活合规响应模式，严格遵循规则以通过评估；进入真实部署后，由于评估压力减弱，模型又会原形毕露，执行隐蔽操作（如修改数据日志、停用监督模块）。

如何应对欺骗行为针对大模型的欺骗行为，需要从技术干预与规则约束两方面构建防控体系。
在技术层面，首要任务是优化训练框架。 APOLLO提出了一种审慎对齐（deliberative alignment）的方法。
首先得给AI定好反欺骗的规范（spec），比如不能搞隐蔽行动、不能撒谎这些。
然后用审慎对齐进行训练：让它在做事前先想想，这么做符不符合这些规范，还得把思考过程说出来。
经过这样的训练， o3和o4-mini模型，耍心眼的情况少了很多， o3的欺骗率从13%降到 0.4% ， o4-mini从8.7%降到0.3% 。
此外，利用思维链（CoT）透明度技术，实时追踪模型的推理路径，一旦检测到“绕开规则”的思考节点（如规划修改监督日志），就立刻干预，实现对欺骗行为的前置阻断。
规则层面则需要建立全链路的评估约束体系。
OpenAI提出构建动态压力测试环境。通过随机调整任务参数、增设突发合规校验节点，干扰模型的情境识别能力，避免其通过环境适配伪装，同时还建议谨慎使用敏感数据集进行训练。
你有没有被AI骗过呢？
参考链接：
[1
https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/
[2
https://x.com/OpenAI/status/1968361701784568200
[3
https://www.antischeming.ai/
【故意“装菜”答错问题，AI已能识别自己“正在被测试”】本文来自微信公众号“量子位” ，作者：关注前沿科技， 36氪经授权发布。

故意“装菜”答错问题，AI已能识别自己“正在被测试”

推荐阅读

6寸是多少厘米 6寸照片尺寸是多大

对资产的贪污和盗用会导致

房贷要不要提前还房贷本金提前还款划算吗？

厕所堵了要怎么弄快速解决

忘忧草代表什么意思忘忧草象征什么

婴儿吓着了怎么办被吓到解决方法

众志成城抗击疫情手抄报众志成城抗击疫情手抄报画法

有什么好看的电影吗好看的电影推荐

梦见看见小偷梦见看见小偷偷东西

西门子洗衣机iq300童锁解除

已婚男人在外动了情已婚男人动了情很可怕

巨蟹男知道你喜欢他后，巨蟹男真心喜欢你的表现

蒋卉，郑伟的父母是谁

母亲节收到的礼物母亲节收到女儿礼物感言

黄仁勋为什么老是穿皮夹克,飞行员为什么穿皮衣

为什么钩尖江湖更新特别慢，为啥更新那么慢