阿里通义新一代语音模型Fun-ASR再进化 垂直领域识别准确率提超15%

阿里通义新一代语音模型Fun-ASR再进化 垂直领域识别准确率提超15%

文章图片


快科技8月22日消息 , 今日 , 阿里通义发布新一代端到端的语音识别大模型Fun-ASR , 该模型增强了上下文感知和高精度语音转写能力 , 在家装、保险等多个行业场景的语音识别准确率均提升了15%以上 。
据了解 , Fun-ASR是大语言模型驱动的语音识别算法 , 其基于自研语音算法和监督微调的Qwen3训练 , 并采用前沿的模型架构以及先进的文本模态对齐技术 , 可有效保护和增强大模型的语言处理能力;
此外 , Fun-ASR集成了RAG方案 , 可提供自动化音频信息检索功能 , 最高可导入1000多个自定义热词 。
基于该功能 , 系统能够根据输入音频精确获取相关领域热词、文档及前文记录 , 大幅提升特定领域内的关键词识别效果 。

为解决语音识别不准确、噪声干扰、语种混淆以及生成幻觉等问题 , 通义团队还在ASR模型训练中引入了RL(强化学习)技术 , 此策略有效减少识别过程中的幻觉 , 提高整体系统的准确性与可靠性 。
值得一提的是 , 在四川话、粤语、闽南语等多地方言上 , Fun-ASR取得了领先同类产品的表现 。
此外 , Fun-ASR对远场拾音和近场降噪的等多样环境也表现出了良好的适应性 , 无论是会议室、工位 , 还是超市、户外 , 均可有效保证识别准确率 。
在训练数据上 , Fun-ASR基于上亿小时音频数据的训练 , 全面涵盖了互联网、科技、家装、畜牧、汽车等十多个领域的专业术语 , 在多个垂直领域的识别准确率显著提升 。
实测数据显示 , Fun-ASR在保险行业的准确率较以往提升18% , 在家装、畜牧等行业也实现了15%-20%的提升 。
【阿里通义新一代语音模型Fun-ASR再进化 垂直领域识别准确率提超15%】

    推荐阅读