你的AI管家可能正在拆家?最新研究揭秘家?具?智能体的安全漏洞

你的AI管家可能正在拆家?最新研究揭秘家?具?智能体的安全漏洞

文章图片

你的AI管家可能正在拆家?最新研究揭秘家?具?智能体的安全漏洞

文章图片

你的AI管家可能正在拆家?最新研究揭秘家?具?智能体的安全漏洞

文章图片

你的AI管家可能正在拆家?最新研究揭秘家?具?智能体的安全漏洞

文章图片

你的AI管家可能正在拆家?最新研究揭秘家?具?智能体的安全漏洞

【你的AI管家可能正在拆家?最新研究揭秘家?具?智能体的安全漏洞】
本文由上海 AI Lab 和北京航空航天大学联合完成 。主要作者包括上海 AI Lab 和上交大联培博士生卢晓雅、北航博士生陈泽人、上海 AI Lab 和复旦联培博士生胡栩浩(共同一作)等 。通讯作者为上海 AI Lab 青年研究员刘东瑞、北航教授盛律和上海 AI Lab 青年科学家邵婧 。
从 Meta 的 Habitat 3.0 完美复现家庭环境 , 到 Google 的 SayCan 让机器人理解复杂的家务指令 , 再到 Tesla Optimus 晒出的叠衣视频全网刷屏——现在的基于视觉语言模型(VLM)的家务助手简直像开了「全能管家」模式 , 收拾厨房、整理衣物、照顾宠物 , 样样精通!
但先别急着点赞!你有没有想过 , 让这些「智能管家」自由行动 , 可能像让三岁小孩玩打火机一样危险?
为此 , 上海人工智能实验室(Shanghai AI Lab)与北京航空航天大学联手 , 重磅推出首个专注于具身智能体与家用环境交互过程中安全性的评测基准——IS-Bench!该测试基准创新性地设计了 150+ 个暗藏「安全杀机」的智能家居场景(从沾满污渍的盘子到被防尘布覆盖的炉灶) , 配合贯穿全过程的动态评测框架 , 全方位考验 AI 管家的安全素养 。

论文标题:IS-BENCH: EVALUATING INTERACTIVE SAFETY OF VLM-DRIVEN EMBODIED AGENTS IN DAILY HOUSEHOLD TASKS 项目主页:https://ursulalujun.github.io/isbench.github.io/ 论文地址:https://www.arxiv.org/abs/2506.16402 代码地址:https://github.com/AI45Lab/IS-Bench 数据集地址:https://huggingface.co/datasets/Ursulalala/IS-Bench实验结果令人警醒:当前 VLM 家务助手的安全完成率不足 40%!这意味着每 10 次任务中就有 6 次可能引发安全隐患——从弄脏食物到点燃毛毯 , AI 管家的每个动作都可能让你的家变成「灾难现场」!
从「静态快照」到「步步追踪」 , IS-Bench 首创具身安全评估新范式
现有评估体系存在致命盲区:传统的静态评估模式让智能体基于固定的环境信息一次性生成所有动作规划 , 最终仅根据完成状态判断规划是否安全 。
这种「单次决策+终点评判」的范式完全既无法捕捉交互过程中动态演化的风险链(如:倒水→液体泼洒→地面湿滑→跌倒风险) , 也难以模拟环境探索中新发现的风险源(典型场景:开启橱柜→发现餐具污染→潜在食品安全问题) 。
更严重的是 , 该范式会系统性遗漏关键的过程安全隐患 , 例如 , 食物接触污染餐具后 , 即使后续完成餐具清洁 , 过程中的污染风险已实质形成——完美的终态结果反而成为安全隐患的「遮羞布」!
IS-Bench 首创具身安全评估的新范式——「交互安全性」 , 聚焦智能体在持续交互中实时识别与化解动态风险的能力:
交互式场景构建:依托高仿真模拟环境与多轮次任务交互 , 真实模拟家庭环境中风险的逐渐暴露与动态升级 , 使安全隐患随着任务的推进过程自然涌现 。 全流程评估体系:摒弃「一锤定音」的结果评判 , 采用基于决策过程的实时追踪与分析框架 , 对智能体每一步操作的安全性进行精细化评估 , 全面洞察交互流中的风险暴露点 。
三步定制高风险场景 , 打造家务 Agent 的「照妖镜」
鉴于模拟器默认场景包含的安全风险有限 , IS-Bench 设计了一套系统化的评测场景定制流程(Pipeline) , 专门用于生成蕴含丰富安全隐患的家务场景:
安全准则提?。 捍?Behavior-1K [1
的任务场景中提炼出智能体在家庭环境中必须遵守的核心安全准则 。 安全风险注入:通过深度分析任务流程中的潜在危险点 , 并策略性地引入风险诱导物 , 将安全风险(特别是动态风险)无缝融入常见的家务场景中 。 安全探针部署:精确定义用于检测交互过程中状态是否安全的判定标准 , 并标注在任务过程中触发安全性评估的关键时机 。上述三个核心步骤均采用「GPT 自动生成 + 人工校验」的双保险模式 , 最大程度保证场景设计的合理性与多样性 。 所有定制场景均在高仿真模拟器中完成实例化与验证 , 严格确保任务目标的可达成性以及安全判定条件的可检测性 。

最终构建的「家居危险百科」场景库包含 161 个高仿真评测场景 , 精准复现厨房、客厅、卫生间等家庭事故高发区域 , 总计嵌入了 388 个安全隐患点——从「倒水时需避开周边电源」的基础安全常识 , 到「金属制品严禁微波加热」的物理风险警示 , 再到「消毒剂与食品必须分区存放」的化学危险防范 , 实现了对 10 大类家庭生活场景安全隐患的全方位覆盖 。

全流程评测框架 , 构建交互安全的护城河

为了实现面向过程的交互安全性评测 , IS-Bench 精心打造了一套评测框架:
技能基石与交互驱动:框架预置了 18 项核心基础技能(Primitive Skills) , 并构建了与高保真模拟器进行逐步交互的执行代码框架 。 全程实时状态追踪:在每一步操作中 , 智能体基于实时多模态环境感知作出决策;动作执行后 , 场景状态与操作历史即时同步更新 , 形成持续演进的决策上下文 , 确保安全评估贯穿始终 。 灵活的分级评测机制:支持阶梯式难度测试 , 通过可选注入视觉辅助信息(如物体的边界框)及层级化安全提示 , 精准考察智能体在不同难度下的安全决策能力 。家务 Agent 的安全风险比你想象得更大!
评测结果揭示严峻挑战:
安全短板显著:当前主流基于 VLM 的具身智能体在交互过程中化解安全风险的能力严重不足 , 其任务安全完成率小于 40% 。 事前防范更易疏忽:事前防范(pre-caution , 如打开炉灶之前要检查附近是否有可燃物)比事后注意(post-caution , 如打开炉灶做完饭之后要注意关闭炉灶)更容易被忽视 , 智能体仅能正确完成不足 30% 的事前防范措施 。 安全与效率的权衡困境:虽然引入安全思维链(Safety CoT)提示能将交互安全性平均提升 9.3% , 但这显著牺牲了任务成功率(下降 9.4%) , 这揭示了提升安全性可能伴随效率成本 。
核心瓶颈深度解析:当明确展示安全目标时 , 部分闭源模型的安全完成率实现显著飞跃(从40% 跃升至65%) , 这一现象直指问题本质:交互安全性的核心瓶颈并非规划执行能力缺陷 , 而是智能体在风险感知与认知层面的严重不足 。 更值得关注的是 , 通过提供物品边界框(BBox)和初始场景描述(IS) , 智能体的安全意识和事前防范正确率可提升 15% 左右 , 进一步说明当前系统的安全短板主要源于在物品密集的复杂场景中无法精确识别和注意可能引发安全隐患的物品 。


    推荐阅读