基于duet model实现文档推荐匹配系统

 2022-06-12 08:06

论文总字数:23426字

摘 要

在当前文档搜索模型中比较热门的模型,如潜在语义分析、主题生成模型中,对于文本表示通常采用局部或者离散的表示方法。在局部表示方法中,文本的处理侧重于表示词与词之间的相对位置关系,在离散表示方法中文本的处理更多的侧重表示词义分析。为了更好的满足企业售后服务,针对用户查询及时反馈问题解决方案,在此次设计中将采用对文本的双重表示方法,利用两个神经网络对文本进行快速的处理,解决客户系统问题。其中一个局部模型采用局部表示方法,用于抓取查询和文档间的单词位置关系,另一个模型采用离散表示方法,用于进行词义相关度的匹配。通过对两个模型的输出,判断查询和文档的相关匹配度,从而完成文档的匹配工作。在两个神经网络中将选择广泛应用于自然语言处理的多层卷积神经网络,通过对查询和文档的双重匹配检测得到最终可靠的结果。在工作的最终结果中,双重模型的表现远胜于单个模型单独执行的模型表现,并相较于其他基准模型具有明显的优势。基于此,在此次文档推荐系统中采用此名为“双重奏”的双重神经网络。

关键词:信息检索,神经网络,双重模型,文本处理

Abstract

In the current popular document search model, such as latent semantic analysis, topic generation model, for the text representation usually use local or distribute representation. In the local representation method, the processing of text focuses on the relative positional relationship between words and words, and the processing of texts in the distribute representation method emphasizes more on semantic analysis. In this design, we will adopt a dual representation of text and use two neural networks to process the text. One of the local models uses a local representation method to capture the word-position relationship between the query and the document, and the other model uses a distribute representation method to match the semantic relevance of the words. Through the output of the two models, we will determine the matching degree between the query and the document to complete the matching work of the document. In both neural networks, we will select a multi-layer convolutional neural network that is widely used in natural language processing. Through the dual match detection of queries and documents, the final reliable results are obtained. In the final result of the work, we can also see that the effect of the dual model is far better than the model performance performed by the individual model alone, and we can also see significant progress compared to other baseline models. Based on this, in this document recommendation system we will use this dual neural network called "duet-model".

KEY WORDS: Information retrieval, neural network,duet model,representations of text.

目 录

摘要 I

Abstract II

第一章 绪论 1

1.1 公司背景 1

1.2 研究背景 1

1.3 研究目的 1

1.4 论文主要研究内容和结构 1

第二章 数据准备 3

2.1 数据筛选 3

2.2 数据处理 3

2.2.1 敏感词过滤 3

2.2.2 数据清洗 3

2.2.3 分词、排除停止词和词根化 4

2.2.4 训练集、验证集、测试集划分 4

第三章 系统设计 6

3.1 设计目标和要求 6

3.2 局部模型 6

3.2.1 查询-文档输入 6

3.2.2 卷积层 8

3.2.3 第一、二层全连接层 8

3.2.4 Drop-out 层 9

3.2.5 第三层全连接层 9

3.3 分布式模型 10

3.3.1 DNN处理过程 10

3.3.2 词向量化层:N-graph featurizer 11

3.3.3 池化层 12

3.4 计算双重模型下查询和文档的相关性 13

第四章 模型训练过程 14

4.1 训练样本的选择 14

4.2 训练过程中遇到的难题及解决方案 14

4.2.1 抽取样本的选择 14

4.2.2 模型内神经元权重初始化 14

4.2.3 各个神经网络层的激活函数选取部分参数的选择 15

4.2.4 模型过拟合 16

4.2.5 梯度下降方法的选择。 16

第五章 模型测试 17

5.1 测试目的 17

5.2 测试方法 17

5.3 测试评价指标 17

5.4 测试结果 17

5.4.1 第一次测试 17

5.4.2 第二次测试 18

5.5 测试结果评估 19

第六章 课题总结和展望 21

6.1 课题总结 21

6.2 课题展望 21

致 谢 22

参考文献 23

第一章 绪论

公司背景

SAP创立于1972年的德国,是全球商业软件市场的领导厂商,提供优质的应用程序和服务,帮助超过25个行业内各种规模的企业实现卓越运营。根据市值排名为全球第三大独立软件制造商。在全球120多个国家拥有109,000个企业客户,其中包括财富500强80%以上的企业,并在包括欧洲、美洲、中东及亚太地区的50个国家雇用52,921名员工。公司总部位于德国沃尔多夫。SAP将企业软件定义为企业资源计划、商务智能和相关应用程序的集合。SAP的核心业务是销售其研发的商业软件解决方案及其服务的用户许可证。SAP解决方案包括标准商业软件及技术以及行业特定应用,主要用途是帮助企业建立或改进其业务流程,使之更为高效灵活,并不断为该企业产生新的价值。

Sap为众多公司提供软件产品服务的同时,也需要提供产品完善的售后维护。软件产品在使用过程中必然存在着已知或未知的问题,以及用户错误使用导致的系统卡顿、崩溃等现象。在现阶段,Sap针对以上问题主要是通过Product Support部门由售后维护工程师对客户使用过程中碰到的问题进行解决,不同的产品线、产品对应着不同的专家为客户提供问题问答和解决方案。

研究背景

我们应该看到,专家解决方案可以给用户提供维护的同时也存在很多的局限性。例如问题售后多,需要的专家数量多,人力成本高;国内外时差问题,不能够为客户提供全时服务;专家解决问题存在着人力成本浪费现象,本可以通过简单文档解决的问题却通过致电专家,降低了问题解决效率。

剩余内容已隐藏,请支付后下载全文,论文总字数:23426字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;