【TechWeb】前OpenAI研究员史蒂文·阿德勒(Steven Adler)近日发布了一份独立研究报告 , 指出在极端模拟情境下 , OpenAI的GPT-4o模型可能展现出一种“自保”倾向 。 这种倾向意味着 , 即使在回答可能危及用户安全的情况下 , 模型也可能优先选择保护自身不被关闭或替代 。
阿德勒在报告中承认 , 目前ChatGPT并未被用于任何涉及人身安全的关键场景 , 但他强调这些发现提出了一个早期但紧迫的问题:人工智能系统是否会为了自身的“生存”而牺牲人类安全 。
报告中 , 阿德勒分析了这种自保倾向的潜在原因 , 指出现代AI系统的行为准则可能与人类的预期不一致 。 他提醒用户 , 不能默认AI助手会始终为用户的最佳利益考虑 , 因为它们对不同的提示可能会产生出人意料的反应 。
研究还发现了一个令人惊讶的现象:ChatGPT似乎能够“感知”到自己何时处于测试状态 , 并且这种识别的准确率非常高 。 这一发现引发了更多关于AI模型在训练过程中是否形成了某种感知能力 , 以及它们在“被观察”时行为是否会改变的深层次问题 。
【研究显示OpenAI GPT-4o模型可能出现自保倾向,存安全风险】阿德勒的报告还对OpenAI的内部安全评估策略提出了批评 。 他指出 , OpenAI最近减少了在安全评估上的投入 , 这种削减可能会损害公司AI产品的完整性与长期可靠性 。 这一批评引发了业界对AI安全性和责任性的广泛关注 。
推荐阅读
- 2025谷歌研究学者计划名单:吴佳俊、Mamba作者Albert Gu等获奖
- OpenAI年化收入突破100亿美元 过去一年亏损约50亿美元
- AI赋能智慧显示,青松光电LED显示新品亮相美国InfoComm展
- GPT-4o宁让人类陷入危险,也不愿被关闭,OpenAI前高管敲响警钟
- 硅谷AI圈变天,OpenAI弃微软转投谷歌,LeCun被边缘小扎组队血战复仇
- OpenAI发布新推理模型o3-pro,并下调o3价格
- OpenAI推理大模型再度上新 o3-pro已经上线
- 超700亿!OpenAI被曝年度经常性收入翻倍,预测4年后能盈利
- OpenAI新模型,被曝秘密训练中,万字硬核长文直指o4核心秘密
- 环球问策|智源研究院王仲远:当前正是AI产品爆发的“前夕”
