(1)将输入门、遗忘门、输出门变为两个门:更新门 (UpdateGate) 和重置门 (ResetGate)。
(2)将单元状态与输出合并为一个状态 。
GRU单元内部计算逻辑如图4-1所示 。

图4-1GRU单元内部计算逻辑
4.2 Badcase分析
通过Bi-GRU模型我们获得了12类各类别准确率及整体准确率78.12% 。其中分类正确率低于60%的类别为“预订”、“支付”、“X产品”,分类正确率低于70%且会话量大的类别为“订单查询修改” 。我们着重分析这几类的错误原因 。
(1)缺乏对词语重要性的表示
如图4-2所示,预订类别的会话通常会被误判为订单查询修改(占比63%)、增值服务(占比19%)、X产品(10%) 。如下两个会话:

图4-2 ‘预订’标签误判数据中各类别占比
S1: 你好,我从上海回新加坡这趟行程需要托运古筝,长165cm左右的超长行李,重量不会超过20kg,请问东航可以运送吗?…… 。(订单查询修改)
S2: 您好,我要买一个票,然后乘客的名字太长了,然后说这边人工帮我订,从新加坡到上海,需要行李托运 。(预订)
对于上述两个会话,都包含了如“上海”、“新加坡”、“托运”、“行李”等词语,但会话S1“上海回新加坡这趟行程”表明了已经有机票,是在咨询特定机票的政策等信息,其业务类别标签是订单查询修改 。会话S2的业务类别是预订,在该会话中“买一个票”充分表明了用户要买票的意图 。
因此,我们认为相同的词语在不同的标签下其重要性是不同的,比如“上海”和“新加坡”都出现两个会话中,但由于出现的位置、前后关联的词语不一致,其对分类的重要性也就不同,在模型的优化过程中可以考虑加入注意力监听机制 。
(2)未能正确识别行业词汇
对于“支付”和“X产品”这两个类别,会话在分词时准确率就有一定的损失 。如下会话:
S3:金牌服务包是什么?金牌服务包是包含40元接送机券,8元免一次同舱改签手续费 。
其在分词时被分为:['金牌','服务','包是','什么','?','金牌','服务','包是','包含','40','元','接送','机券',',','8','元免','一次','同舱','改签','手续费',' 。']
但其实“金牌服务包”是携程机票推出的一个服务产品,在分词时不应当被拆分,因此一方面,我们总结出这些行业词汇,并将其加入到jieba的自定义词典中 。另一方面,分词的准确率直接影响了后续文本分类模型的准确率,我们尝试通过Bert等预训练语言模型降低分词准确率的影响 。
(3)上下文特征未能充分表达
上下文特征通常是指用户会话时所处的场景特征,在模型中引入上下文场景特征有利于业务经验的表达,如下会话:
S4:超重行李怎么购买?##请您稍等哦~ 我查看下订单哦##好的呦##帮您核实您订单没有免费托运行李的,您需要购买多少KG呢?…(增值服务)
S4中的用户是一个无行李额出行的用户 。因此,可考虑将用户咨询时的上下文场景信息如用户本身的信息提取出作为特征加入到模型中 。
4.3 优化过程
依据上述badcase的分析,我们进行如下优化 。
(1)针对错误原因1:缺乏对词语重要性的表示 。
在优化过程中首先考虑将Self-Attention与循环神经网络进行组合 。尝试的模型包括Bi-GRU+Self-Attention、HAN 。
推荐阅读
- 玄武湖是人工湖还是天然湖
- 怎么联系抖音客服电话 怎么联系抖音客服
- 苏伊士运河是人工河吗
- 学生票能在人工窗口补全票吗
- 天然气灶改人工煤气灶 燃气灶可以当煤气灶用吗视频
- 阳台种植黄瓜的时间和方法 阳台种植黄瓜需要人工授粉吗
- 人工降雨是怎么降下来的
- 人工智能目前薪资多少 平均工资是多少
- 金桔能在室内养吗 室内养的金桔树要人工授粉吗
- 花甲是人工养殖还是海里的
