skill的替换词 skill是什么意思

2019年全球语音交互市场规模达到13亿美元,预计2025年全球语音交互市场规模将69亿美元,目前以广泛应用到智能家居、车载语音、智能客服等行业和场景 。笔者从事语音交互产品一年有余,针对语音交互的概念定义、优劣势、适用场景和产品、未来发展等进行梳理总结 。

skill的替换词 skill是什么意思


1. 什么是语音交互?语音交互(VUI)指的是人类与设备通过自然语音进行信息的传递 。一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程:
skill的替换词 skill是什么意思


(1)ASR
用于将声学语音进行分析,并得到对应的文字或拼音信息 。语音识别系统一般分训练和解码两阶段:
  • 训练即通过大量标注的语音数据训练数学模型,通过大量标注的文本数据训练语言模型;
  • 解码,即通过声学和语言模型将语音数据识别成文字 。
声学模型可以理解为是对发生的建模,它能够把语音输入转换成声学表示的输入,更准确的说是给出语音属于某个声学符号的概率 。语言模型的作用可以简单理解为消解多音字问题,在声学模型给出发音序列之后,从候选的文字序列中找出概率最大的字符串序列 。
(2)NLP
用于将用户的指令转换为结构化的、机器可以理解的语言 。NLP的工作逻辑是:将用户的指令进行Domain(领域)→Intent(意图)→Slot(词槽)三级拆分 。
以“帮我设置一个明天早上8点的闹钟”为例:该指令命中的领域是“闹钟”,意图是“新建闹钟”,词槽是“明天8点” 。这样,就将用户的意图拆分成机器可以处理的语言 。
【skill的替换词 skill是什么意思】(3)Skill
也即AI时代的APP 。Skill的作用就是:处理NLP界定的用户意图,做出符合用户预期的反馈 。
(4)TTS
即语音合成,从文本转换成语音,让机器说话 。TTS业内普遍使用两种做法:一种是拼接法,一种是参数法 。
  • 拼接法即从事先录制的大量语音中,选择所需的基本发音单位拼接而成 。优点是语音的自然度很好,缺点是成本太高,费用成本要上百万 。参
  • 数法指使用统计模型来产生语音参数并转化成波形 。优点是成本低,一般价格在20万~60万不等,缺点是发音的自然度没有拼接法好 。但是随着模型的不断优化,现在参数法的效果已经非常好了,因此业内使用参数法的越来越多 。

2. 语音交互有哪些优劣势?PART 1: 语音交互的优势优势1:信息传递效率高
百度语音开放平台的研究结果显示,相比于传统的键盘输入,语音输入方式在速度及准确率方面更具优势 。利用语音输入英语和普通话的速度分别是传统输入方式的3.24倍和3.21倍,信息传递效率进一步可拆分为4类:
  1. 检索高效:针对复杂的输入词,尤其是在输入方式不便的场景下,语音交互更高效 。例如电视场景下进行电影搜索 。
  2. 跨空间便捷:远场语音交互可以跨3~5米进行交流,针对需要跨空间的操作,语音交互更高效,例如:智能家居控制 。
  3. 跨场景便捷:语音交互的潜在好处时可以根据说话内容自动判断意图场景,在需要频繁跨场景交互的场景下语音交互更高效 。
  4. 支持组合指令:语音交互可以一次性下达多条指令,然后分别执行,在需要支持多意图同时传递的场景下语音交互更高效 。假设你今晚想要看一部电影,你可以选择说:“播放刘德华的电影电影要四星以上并且是免费观看的 。”

    推荐阅读