基于duet model实现文档推荐匹配系统

 2022-06-12 08:06


摘 要




In the current popular document search model, such as latent semantic analysis, topic generation model, for the text representation usually use local or distribute representation. In the local representation method, the processing of text focuses on the relative positional relationship between words and words, and the processing of texts in the distribute representation method emphasizes more on semantic analysis. In this design, we will adopt a dual representation of text and use two neural networks to process the text. One of the local models uses a local representation method to capture the word-position relationship between the query and the document, and the other model uses a distribute representation method to match the semantic relevance of the words. Through the output of the two models, we will determine the matching degree between the query and the document to complete the matching work of the document. In both neural networks, we will select a multi-layer convolutional neural network that is widely used in natural language processing. Through the dual match detection of queries and documents, the final reliable results are obtained. In the final result of the work, we can also see that the effect of the dual model is far better than the model performance performed by the individual model alone, and we can also see significant progress compared to other baseline models. Based on this, in this document recommendation system we will use this dual neural network called "duet-model".

KEY WORDS: Information retrieval, neural network,duet model,representations of text.

目 录

摘要 I

Abstract II

第一章 绪论 1

1.1 公司背景 1

1.2 研究背景 1

1.3 研究目的 1

1.4 论文主要研究内容和结构 1

第二章 数据准备 3

2.1 数据筛选 3

2.2 数据处理 3

2.2.1 敏感词过滤 3

2.2.2 数据清洗 3

2.2.3 分词、排除停止词和词根化 4

2.2.4 训练集、验证集、测试集划分 4

第三章 系统设计 6

3.1 设计目标和要求 6

3.2 局部模型 6

3.2.1 查询-文档输入 6

3.2.2 卷积层 8

3.2.3 第一、二层全连接层 8

3.2.4 Drop-out 层 9

3.2.5 第三层全连接层 9

3.3 分布式模型 10

3.3.1 DNN处理过程 10

3.3.2 词向量化层:N-graph featurizer 11

3.3.3 池化层 12

3.4 计算双重模型下查询和文档的相关性 13

第四章 模型训练过程 14

4.1 训练样本的选择 14

4.2 训练过程中遇到的难题及解决方案 14

4.2.1 抽取样本的选择 14

4.2.2 模型内神经元权重初始化 14

4.2.3 各个神经网络层的激活函数选取部分参数的选择 15

4.2.4 模型过拟合 16

4.2.5 梯度下降方法的选择。 16

第五章 模型测试 17

5.1 测试目的 17

5.2 测试方法 17

5.3 测试评价指标 17

5.4 测试结果 17

5.4.1 第一次测试 17

5.4.2 第二次测试 18

5.5 测试结果评估 19

第六章 课题总结和展望 21

6.1 课题总结 21

6.2 课题展望 21

致 谢 22

参考文献 23

第一章 绪论



Sap为众多公司提供软件产品服务的同时,也需要提供产品完善的售后维护。软件产品在使用过程中必然存在着已知或未知的问题,以及用户错误使用导致的系统卡顿、崩溃等现象。在现阶段,Sap针对以上问题主要是通过Product Support部门由售后维护工程师对客户使用过程中碰到的问题进行解决,不同的产品线、产品对应着不同的专家为客户提供问题问答和解决方案。




您需要先支付 80元 才能查看全部内容!立即支付
