会议论文怎么检索,论文相似度怎么检索( 二 )


因而,客服领域对话系统的一个关键任务就是正确地将用户的输入分类到相应业务类型下的具体意图(即识别出用户输入到对话系统执行某个动作之间的一个映射关系)中,从而达到识别和理解用户要表达的意图,帮助提高语言、语音导航系统的语义识别能力 。目前基于词嵌入的低维稠密向量表示能比较好的表示词、段落、文档的语义和次序信息方法上:1)可利用word2vec能训练词的向量表示,在基于词的向量表示的基础上去表示文档向量 。
2)可直接训练文档向量,词向量的提出者Tomas Mikolov在2014年也提出了Doc2vec(在word2vec的基础上),与Word2vec一样,Doc2Vec也有两种模型,分别为:Distributed Memory(DM)和Distributed Bag of Words(DBOW) 。DM模型在给定上下文和文档向量的情况下预测单词的概率,DBOW模型在给定文档向量的情况下预测文档中一组随机单词的概率 。
其中,在一个文档的训练过程中,文档向量共享(意味着在预测单词的概率时,都利用了本文档的语义) 。Distributed Memory(DM):Distributed Bag of Words(DBOW)3)此外还可以利用深度神经网络模型,比如以LSTM、biLSTM等结构为基础的模型训练文本向量,计算文本相似度 。

推荐阅读