复旦大学推出OmniAVS:让AI看懂、听懂视频中的每个细节

【复旦大学推出OmniAVS:让AI看懂、听懂视频中的每个细节】复旦大学推出OmniAVS:让AI看懂、听懂视频中的每个细节

这项由复旦大学计算机科学与人工智能学院的应凯宁、丁恒辉、介冠权、江宇罡等研究人员领导的研究发表于2025年7月30日 , 题为《Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation》 。 有兴趣深入了解的读者可以通过复旦大学研究团队的项目主页https://henghuiding.com/OmniAVS/访问完整论文和数据集 。

当你在观看一段音乐会视频时 , 突然有人问你\"那个演奏出类似琵琶声音的乐器在哪里?\" , 你的大脑会同时处理文字描述、视觉画面和音频信息 , 然后准确指出右侧那把吉他 。 这个看似简单的过程 , 实际上涉及了多种感官信息的综合理解和推理 。 如今 , 复旦大学的研究团队希望让人工智能也能像人类一样 , 不仅能\"看到\"视频画面 , \"听到\"声音 , 还能理解这些信息的深层含义 , 并给出合理的解释 。

传统的AI视频理解就像一个只能看不能听的观众 , 或者只能听不能看的听众 。 即使有些系统能同时处理视觉和听觉信息 , 它们的理解也往往停留在表面 , 比如只能识别\"有人在说话\" , 却不能理解\"这个人可能生病了 , 因为他在咳嗽\" 。 更重要的是 , 现有的系统在接收指令时非常死板 , 只能理解纯文字描述 , 无法处理包含图片、声音或语音的复合指令 。

研究团队面对的挑战就像训练一个全能的私人助理 , 这个助理不仅要能看懂各种场景 , 听懂各种声音 , 还要能接受多种形式的指令 , 比如你给它看一张照片说\"找出视频中长得像这个的东西\" , 或者播放一段音频说\"找出发出类似声音的对象\" 。 更关键的是 , 这个助理还要能解释它的判断过程 , 告诉你为什么做出这样的选择 。

一、创造全新的\"全能理解\"数据集

为了训练这样一个全能助理 , 研究团队首先需要创建一个前所未有的训练数据集 , 就像为厨师准备一个包含各种食材和烹饪方法的超级厨房 。 他们将这个数据集命名为OmniAVS , 包含了2104个视频和超过6万个多模态表达方式 。

这个数据集的独特之处在于它的\"八面玲珑\" 。 传统的数据集就像只会一种语言的翻译 , 而OmniAVS就像一个精通八种沟通方式的超级翻译 。 它支持八种不同的表达组合:纯文字、纯语音、文字配声音、语音配声音、文字配图片、语音配图片、文字配声音和图片、语音配声音和图片 。 这意味着你可以用多种方式向AI提出要求 , 就像和一个真正理解你的朋友交流一样 。

更重要的是 , 这个数据集强调的是深层理解而非表面识别 。 以往的数据集中 , 问题通常是\"谁发出的声音最大?\"这种表面层次的询问 。 而在OmniAVS中 , 问题变成了\"谁最可能生病了?\"这样的深层推理 。 AI需要听到咳嗽声 , 看到相关的视觉线索 , 然后推断出\"咳嗽通常意味着生病\"这样的逻辑链条 , 最后给出解释说\"这个人咳嗽了 , 可能生病了\" 。

为了构建这个数据集 , 研究团队从三个主要来源收集视频素材 。 首先是网络上符合创意共享许可的真实视频 , 这些视频展现了丰富的日常生活场景 。 其次是来自电视节目数据集TVQA的内容 , 这部分提供了大量包含对话的复杂场景 。 最后是团队自己录制的视频 , 所有参与者都同意使用这些素材进行研究 。

在筛选过程中 , 研究团队制定了严格的标准 。 他们优先选择那些包含有意义音频内容的视频 , 这些音频不仅仅是噪音 , 而是能够承载信息或推理价值的声音 。 同时 , 他们偏向于选择包含多个对象的复杂场景 , 这样可以创造更多样化的指向表达 , 让数据集更贴近真实世界的复杂情况 。

在表达方式的设计上 , 研究团队遵循了几个重要原则 。 首先 , 所有表达都必须与视频中的音频内容相关 , 而不仅仅是视觉线索 。 其次 , 表达应该强调声音的内容含义 , 而不仅仅是发声这个动作本身 。 比如 , 与其说\"狗在叫\" , 不如说\"狗在警告\" , 因为后者需要理解叫声的含义 。 第三 , 鼓励在表达中融入推理元素 , 并在必要时提供解释 。 最后 , 表达可以指向任意数量的对象 , 从零个到多个都可以 , 这样更贴近真实应用场景 。

二、开发智能助理OISA

有了丰富的训练数据 , 研究团队接下来开发了一个名为OISA(全模态指导分割助理)的AI系统 。 这个系统就像一个经过专业训练的视听分析专家 , 不仅能理解各种形式的指令 , 还能准确地在视频中标识出目标对象 , 并解释自己的判断过程 。

OISA的核心架构包含两个主要组件 , 就像一个人的大脑和手的协作 。 \"大脑\"部分是一个多模态大语言模型 , 负责理解和推理;\"手\"部分是一个掩码生成器 , 负责在视频中精确标识目标对象 。 这种设计让系统既能进行复杂的多模态理解 , 又能执行精确的视觉任务 。

在处理视频内容时 , OISA采用了一种独特的\"音视频交错\"策略 。 传统方法就像看电影时先看完所有画面再听完所有声音 , 这样很难建立两者之间的对应关系 。 而OISA的方法更像人类的感知过程 , 它将音频切分成与视频帧对应的片段 , 然后交替处理视觉和听觉信息 , 就像\"看一帧 , 听一段 , 再看一帧 , 再听一段\"这样的节奏 。 这种方法在不增加额外参数的情况下 , 实现了音频和视频的精确时间对齐 , 这对于需要准确定位发声对象的任务来说至关重要 。

对于各种形式的输入指令 , OISA都有相应的处理策略 。 当接收到包含图片的指令时 , 它会使用视觉编码器处理图片信息 。 当遇到包含音频的指令时 , 它会使用音频编码器分析声音特征 。 所有这些不同模态的信息最终都会被统一编码 , 融合到系统的理解框架中 。

在目标定位方面 , OISA采用了一种叫做\"查询传播\"的技术 。 传统方法就像用一把万能钥匙去开所有的锁 , 往往效果不佳 。 而OISA的方法更像一个不断学习和适应的开锁专家 , 它会根据每一帧的具体情况调整自己的\"钥匙\" , 确保能准确地在每一帧中找到目标对象 。 这种动态调整的机制让系统能够很好地处理对象移动、视角变化、遮挡等复杂情况 。

三、训练过程的精心设计

训练OISA就像培养一个多才多艺的专家 , 需要分阶段进行能力建设 。 整个训练过程分为两个主要阶段 , 每个阶段都有明确的目标和方法 。

第一阶段是音频-文本对齐训练 , 就像教一个只会看不会听的人学会理解声音 。 由于OISA使用的基础模型原本不支持音频输入 , 研究团队需要为它添加一个\"音频理解模块\" 。 在这个阶段 , 他们使用自动语音识别数据集和音频描述数据集来训练这个模块 , 让系统学会将听到的声音转换成语言模型能够理解的表示 。 这个过程中 , 只有新增的音频处理部分在学习 , 其他部分保持不变 , 就像给一个已经很聪明的学生专门补习一门新课程 。

第二阶段是全模态指导分割调优 , 这个阶段就像让学生将各种技能综合运用到实际工作中 。 研究团队使用了多个不同类型的数据集 , 包括语义分割数据集、指向分割数据集、指向视频分割数据集 , 以及他们自己创建的音频-视觉分割数据集 。 这种多样化的训练就像让一个学生既要学会数学 , 又要学会物理和化学 , 最终成为一个综合能力强的专家 。

在训练细节上 , 研究团队采用了一些巧妙的策略 。 对于视频样本 , 他们在训练时从每个视频中均匀采样10帧 , 其中4帧作为\"密集帧\"进行详细分析 , 其余帧作为\"稀疏帧\"提供时序上下文 。 而在实际应用时 , 系统会采样32帧 , 其中4帧作为密集帧 , 确保能够捕捉到足够的细节信息 。

为了保持训练效率 , 研究团队使用了LoRA技术来微调语言模型部分 。 这种技术就像在不改变房屋主体结构的情况下重新装修房间 , 既能适应新的需求 , 又不会破坏原有的功能 。 同时 , 他们完全训练掩码生成部分的参数 , 确保这个负责精确定位的组件能够达到最佳性能 。

四、突破性的实验结果

经过精心训练的OISA在各种测试中展现出了令人印象深刻的能力 。 在OmniAVS数据集上的测试结果就像一场全面的能力考试 , OISA在各个项目上都取得了优异成绩 。

在主要的分割准确性指标上 , OISA达到了41.1%的综合得分 , 这个数字听起来可能不高 , 但要知道这是在一个极其复杂的任务上的表现 。 相比之下 , 即使是13B参数的大型模型LISA也只能达到36.1%的水平 , OISA以更小的模型规模实现了5%的性能提升 。 这就像用一台普通家用车在复杂的越野赛道上跑出了比豪华SUV更好的成绩 。

更令人兴奋的是 , OISA在解释生成方面的表现 。 系统不仅能准确找到目标对象 , 还能用自然语言解释自己的判断过程 。 在METEOR评分标准下 , OISA达到了21.7%的得分 , 显著超过了LISA-13B的16.5% 。 这意味着OISA不仅是一个准确的\"眼睛\"和\"耳朵\" , 还是一个能够清晰表达思路的\"大脑\" 。

在不同类型的指令处理上 , OISA展现出了真正的\"全能\"特质 。 对于包含文字、声音和图片的复合指令(第VIII类) , OISA达到了53.0%的准确率 , 这是所有指令类型中表现最好的 。 这说明当给系统提供更多信息时 , 它能够更好地理解任务要求并做出准确判断 。 这就像一个侦探 , 当获得更多线索时 , 破案的准确率也会显著提高 。

研究团队还测试了不同音视频融合策略的效果 。 传统的注意力机制方法只能达到35.8%的准确率 , 而OISA采用的音视频交错策略达到了39.2% 。 当进一步结合原始音频信息时 , 性能提升到了40.5% 。 这些数字背后反映的是不同技术路线的根本差异 , 就像不同的烹饪方法会产生完全不同的菜品味道 。

在掩码生成策略的对比中 , OISA的查询传播方法也显示出了明显优势 。 相比于传统的\"一个令牌分割所有帧\"方法 , 查询传播在使用相同掩码头的情况下 , 将准确率从35.2%提升到了40.5% 。 这种提升就像从使用固定模板绘画转向根据具体对象调整笔触 , 自然能获得更精确的结果 。

五、实际应用中的表现

为了验证OISA的实用性 , 研究团队在多个相关任务上进行了测试 , 结果展现了系统的强大适应能力 。

在传统的图像指向分割任务上 , OISA在RefCOCO系列数据集上都达到了最先进的性能水平 。 特别是在RefCOCO+数据集的testA分割上 , OISA达到了71.7%的准确率 , 超过了许多专门针对图像分割设计的系统 。 这说明OISA的多模态理解能力不仅在音视频场景中有效 , 在处理静态图像时也同样出色 。

在视频指向分割任务上 , OISA同样表现不俗 。 在MeViS数据集上达到43.2%的准确率 , 在R-YTVOS上达到62.1% , 在R-DAVIS17上达到65.2% 。 这些结果证明了OISA的视频理解能力已经达到了与专门的视频分割系统相当的水平 。

特别值得一提的是OISA在ReVOS数据集上的表现 。 这个数据集专门测试需要推理能力的视频分割任务 , OISA不仅在准确率上达到了47.3%的最新纪录 , 在鲁棒性评分上也达到了19.3% , 比之前的最佳结果提升了4% 。 这个提升特别有意义 , 因为它表明OISA不仅能在标准情况下工作良好 , 在面对各种意外情况时也能保持稳定的性能 。

在原有的Ref-AVS数据集上 , OISA取得了58.0%的综合得分 , 大幅超越了之前的最佳结果 。 这个对比特别有说服力 , 因为Ref-AVS是目前最接近OmniAVS的公开数据集 。 OISA在Ref-AVS上的优异表现 , 加上它在更困难的OmniAVS上的领先地位 , 清晰地展现了这种全模态方法的优势 。

六、成功案例与局限性分析

通过具体的应用案例 , 我们可以更直观地理解OISA的能力和局限 。

在一个成功案例中 , 系统面对的是一段包含多人对话的视频 , 用户询问\"谁在开玩笑?\"这个问题需要系统不仅要听懂对话内容 , 还要理解语境和说话者的意图 。 OISA成功地识别出了第四帧中正在说\"Just yanking your chain!\"(只是在逗你玩)的说话者 , 并解释说\"老板在逗他的同事\" 。 这个案例展现了系统在语音理解、语境分析和推理方面的综合能力 。

另一个印象深刻的案例涉及多模态指令处理 。 用户提供了一张火灾图片和一段警笛声音 , 然后询问\"发出这种声音并前往这种地方的是什么?\"OISA准确地识别出了消防车 , 并解释说这是\"第一辆消防车\" 。 这个案例说明了系统能够真正理解不同模态信息之间的关联 , 并进行合理的推理 。

然而 , OISA也存在一些局限性 。 在一个失败案例中 , 用户询问\"谁发出最清脆响亮的声音?\"面对的是包含低音管、长号、单簧管、小提琴、大提琴和钢琴混合演奏的复杂音频 。 OISA回答\"没有对象匹配这个要求\" , 显然无法处理这种复杂的音频分离任务 。 这说明当多个对象同时发声时 , 系统还难以准确分离和识别各个声源 。

这些局限性指向了未来研究的重要方向 。 首先是音频事件分离技术的改进 , 需要能够在复杂声学环境中分离出不同的声源 。 其次是更高效的音视频融合方法 , 目前的交错策略虽然有效 , 但仍有改进空间 。 第三是多模态表达的联合表示学习 , 需要找到更好的方法来整合来自不同模态的信息 。

七、技术创新的深层意义

OISA的技术创新不仅仅是性能数字的提升 , 更代表了AI系统向更自然、更智能交互方式的重要进步 。

音视频交错处理策略的提出解决了一个长期存在的技术难题 。 传统的序列拼接方法就像让一个人先看完一整部无声电影 , 再听完所有对白 , 最后试图将两者关联起来 。 而交错处理更接近人类的感知方式 , 我们在观看视频时是同时处理视觉和听觉信息的 。 这种方法的成功证明了模仿人类认知过程在AI系统设计中的价值 。

查询传播机制的引入也代表了对动态视觉理解的重要突破 。 静态的查询向量就像一把固定形状的钥匙 , 而动态更新的查询向量更像一个能够适应不同锁孔的智能钥匙 。 这种设计理念可能会在其他需要处理时序信息的AI任务中找到更广泛的应用 。

多模态指令理解的实现标志着人机交互方式的重要进步 。 传统的AI系统要求用户学会如何与机器\"对话\" , 而OISA让机器学会理解人类更自然的表达方式 。 你可以给它看图片、播放声音、说话或者打字 , 系统都能理解并做出相应的回应 。 这种灵活性让AI系统更加亲近和实用 。

推理能力的集成可能是最重要的突破 。 以往的系统更像是高级的识别工具 , 能告诉你\"是什么\" , 但不能解释\"为什么\" 。 OISA不仅能识别对象 , 还能解释识别的逻辑 , 这让AI系统的行为更加透明和可信 。 当系统说\"这个人可能生病了 , 因为他在咳嗽\"时 , 用户能够理解并验证这个判断的合理性 。

八、未来发展的无限可能

OISA的成功开启了多个激动人心的发展方向 , 每一个都可能带来革命性的应用 。

在教育领域 , 这种技术可能会催生全新的智能教学助手 。 想象一个能够同时理解学生的提问、观察学生的表情、听懂学生的困惑点的AI老师 。 它不仅能回答问题 , 还能根据学生的反应调整教学方式 , 提供个性化的学习体验 。

在医疗诊断方面 , 结合了视觉和听觉信息处理的AI系统可能会成为医生的得力助手 。 系统可以同时分析患者的外观症状、听诊声音、描述症状的语音等多种信息 , 提供更全面的诊断支持 。 更重要的是 , 它能够解释诊断的依据 , 帮助医生做出更准确的判断 。

在安全监控领域 , 这种全模态理解能力可能会带来更智能的监控系统 。 系统不仅能识别异常行为 , 还能理解声音环境 , 比如区分正常交谈和争吵 , 识别求救声和正常喊叫的区别 。 这种细致的理解能力可能会大大减少误报 , 提高安全防护的效率 。

在娱乐和内容创作方面 , OISA的技术可能会推动更智能的视频编辑工具的出现 。 创作者可以用自然语言描述想要的效果 , 系统能够理解并自动完成复杂的编辑任务 。 比如\"把所有笑声最大的片段剪辑出来\"或者\"找出背景音乐和画面最配的时刻\" 。

在人机交互的未来发展中 , OISA代表的多模态理解能力可能会成为下一代智能助手的标准配置 。 用户不再需要学习特定的指令格式 , 而是可以用最自然的方式与AI系统交流 。 你可以指着某个对象、播放相关声音、用语音描述 , 系统都能准确理解你的意图 。

研究团队也明确指出了几个重要的发展方向 。 首先是更高效的音视频融合方法 , 需要在保持理解能力的同时提高处理效率 。 其次是声音事件分离技术的改进 , 这对于处理复杂的多声源环境至关重要 。 还有就是多模态表达的联合表示学习 , 需要找到更好的方法来整合不同类型的信息 。

此外 , 系统的对话能力扩展也是一个重要方向 。 未来的版本可能会支持多轮交互 , 用户可以与系统进行持续的对话 , 逐步细化和调整需求 。 比如用户先问\"找出在说话的人\" , 然后可以进一步询问\"其中谁看起来最高兴\" , 系统能够在前一次结果的基础上继续分析 。

说到底 , OISA的出现标志着AI系统向更加智能、更加自然的方向迈出了重要一步 。 它不仅仅是一个技术工具 , 更像是一个能够理解和解释世界的智能伙伴 。 当我们能够用最自然的方式与AI交流 , 当AI能够像人类一样综合运用多种感官信息进行思考和推理时 , 人工智能就真正开始接近我们对智能助手的终极想象 。

这项研究的意义远不止于技术本身的突破 , 它为我们展现了一个更加智能、更加理解人类需求的AI未来 。 在这个未来里 , 人与机器的交流将变得更加自然和高效 , AI系统将成为我们真正的智能伙伴 , 帮助我们更好地理解和处理这个复杂多样的世界 。

Q&A

Q1:OmniAVS数据集有什么特别之处?为什么要创建这个新数据集? A:OmniAVS是首个支持8种不同表达方式的音视频分割数据集 , 包含2104个视频和6万多个多模态表达 。 它的特别之处在于支持文字、语音、声音、图片的任意组合指令 , 而且强调深层理解而非表面识别 。 比如不再问\"谁声音最大\" , 而是问\"谁最可能生病\" , 需要AI听到咳嗽声后推理出生病的可能性 。

Q2:OISA系统是如何同时处理视频和音频信息的? A:OISA采用了独特的\"音视频交错\"策略 , 将音频切分成与视频帧对应的片段 , 然后交替处理视觉和听觉信息 , 就像\"看一帧、听一段、再看一帧、再听一段\"的节奏 。 这种方法比传统的先看完再听完的方式更接近人类感知过程 , 能实现精确的时间对齐 , 不需要额外参数就能准确定位发声对象 。

Q3:这项技术未来可能应用在哪些领域? A:OISA技术有广泛的应用前景 。 在教育领域 , 可开发能同时理解学生提问、观察表情、听懂困惑的智能教学助手;在医疗诊断中 , 可帮助医生综合分析患者的外观症状、听诊声音等多种信息;在安全监控方面 , 能区分正常交谈和争吵 , 识别求救声;在内容创作中 , 创作者可用自然语言描述想要的编辑效果 , 系统自动完成复杂编辑任务 。

    推荐阅读