
文章图片
快科技8月22日消息 , 今日 , 阿里通义发布新一代端到端的语音识别大模型Fun-ASR , 该模型增强了上下文感知和高精度语音转写能力 , 在家装、保险等多个行业场景的语音识别准确率均提升了15%以上 。
据了解 , Fun-ASR是大语言模型驱动的语音识别算法 , 其基于自研语音算法和监督微调的Qwen3训练 , 并采用前沿的模型架构以及先进的文本模态对齐技术 , 可有效保护和增强大模型的语言处理能力;
此外 , Fun-ASR集成了RAG方案 , 可提供自动化音频信息检索功能 , 最高可导入1000多个自定义热词 。
基于该功能 , 系统能够根据输入音频精确获取相关领域热词、文档及前文记录 , 大幅提升特定领域内的关键词识别效果 。
为解决语音识别不准确、噪声干扰、语种混淆以及生成幻觉等问题 , 通义团队还在ASR模型训练中引入了RL(强化学习)技术 , 此策略有效减少识别过程中的幻觉 , 提高整体系统的准确性与可靠性 。
值得一提的是 , 在四川话、粤语、闽南语等多地方言上 , Fun-ASR取得了领先同类产品的表现 。
此外 , Fun-ASR对远场拾音和近场降噪的等多样环境也表现出了良好的适应性 , 无论是会议室、工位 , 还是超市、户外 , 均可有效保证识别准确率 。
在训练数据上 , Fun-ASR基于上亿小时音频数据的训练 , 全面涵盖了互联网、科技、家装、畜牧、汽车等十多个领域的专业术语 , 在多个垂直领域的识别准确率显著提升 。
实测数据显示 , Fun-ASR在保险行业的准确率较以往提升18% , 在家装、畜牧等行业也实现了15%-20%的提升 。
【阿里通义新一代语音模型Fun-ASR再进化 垂直领域识别准确率提超15%】
推荐阅读
- 阿里业务变更为四大集团:大文娱权重下滑 蒋凡“太子”地位稳固
- 魅族新一代旗舰机官宣:9月中上旬,正式发布
- 反“开盒”技术联盟成立,百度、抖音、阿里、腾讯等公司成首批成员
- 通义APP上线官方知识库,首批覆盖教育、法律、金融等五大领域
- 新一代芯片?英伟达不想放弃中国市场,还有希望吗?
- 象帝先新一代伏羲架构GPU将采用5nm工艺,算力可达160TFLOPS?
- 阿里图像生成模型登顶HuggingFace,一句话把马斯克“变老”
- 刚刚,阿里“扫地僧”重出江湖!加入杭州AI创企,与另一位大佬汇合
- 英睿达T710 2TB SSD评测:新一代性能旗舰 14.5G/s仅有57度
- 红米新机官宣:新一代小金刚,下周见!
