潜在的缺点
在许多方面来看,AV-HuBERT 象征着 Meta 在用于复杂任务的无监督、多模式技术方面不断增长的投资 。
Meta 表示 AV-HuBERT 可以为开发“低资源”语言的对话模型开辟可能性 。该公司建议,AV-HuBERT 还可用于为有语言障碍的人创建语音识别系统,以及检测深度伪造和为虚拟现实化身生成逼真的嘴唇运动 。
在各方面数据上,新方法的变现着实很精彩,但也有学者有一些担忧 。
其中,华盛顿大学的人工智能伦理学专家Os Keye就提到,对于因患有唐氏综合征、中风等疾病而导致面部瘫痪的人群,依赖读唇的语音识别还有意义吗?
在微软和卡内基梅隆大学的一篇论文中,提出了人工智能公平性研究路线图,指出类似于 AV-HuBERT 的面部分析系统的某些方面可能不适用于患有唐氏综合症、软骨发育不全(损害骨骼生长)和“导致特征性面部差异的其他条件”等 。
Mohamed 强调 AV-HuBERT 只关注唇部区域来捕捉唇部运动,而不是整个面部 。他补充说,与大多数 AI 模型类似,AV-HuBERT 的性能将“与训练数据中不同人群的代表性样本数量成正比” 。
“为了评估我们的方法,我们使用了公开可用的 LRS3 数据集,该数据集由牛津大学研究人员于 2018 年公开提供的 TED Talk 视频组成 。由于该数据集不代表残疾说话者,因此我们没有预期性能下降的特定百分比,”Mohamed 说 。
【AI 声音鉴定】Meta 表示,它将“继续在背景噪声和说话者重叠很常见的日常场景中进行基准测试和开发改进视听语音识别模型的方法 。”
参考链接:
https://venturebeat.com/2022/01/07/meta-claims-its-ai-improves-speech-recognition-quality-by-reading-lips/
推荐阅读
- 表示声音的词语有哪些?
- 视频通话声音小怎么回事
- 美的电磁炉烧水声音很大怎么回事
- 实习生自我鉴定通用
- 电脑屏幕录屏怎么录声音
- iphone录屏怎么录内置声音
- 中专自我鉴定
- 微信的声音怎么调大小
- 张碧晨是中国好声音第几季的冠军
- 家里漏水怎么鉴定是否漏水
