基于语境的短文本信息提取分析研究

 2022-01-17 11:01

论文总字数:23265字

目 录

1.绪论 1

1.1研究背景及意义 1

1.2发展历史及国内外研究现状 1

1.3 文本信息提取的概述 2

1.3.1文本信息提取的定义 2

1.3.2文本信息提取的目标 2

1.3.2.1命名体识别 2

1.3.2.2实体关系提取 3

1.3.2.3事件提取 3

1.3.2.4信息集成 3

1.4 本文的研究内容 4

2.语境与相关算法的介绍 4

2.1 前言 4

2.2 语境的定义 5

2.3语境的作用 5

2.4分词相关技术介绍 6

2.4.1 分词概念介绍 6

2.4.2 分词算法介绍 6

2.4.2.1基于字符串匹配 6

2.4.2.2基于理解的分词方法 7

2.4.2.3基于统计的分词方法 7

2.5命名实体识别相关技术介绍 7

2.5.1 基于规则和词典 8

2.5.2基于统计的方法 8

2.6实体关系抽取相关技术介绍 8

2.6.1 实体关系抽取介绍 8

2.6.2 依存句法分析对关系抽取的作用 9

2.6.3 实体关系抽取算法介绍 9

2.6.3.1基于模板的算法 9

2.6.3.2 基于特征的实体关系抽取 9

2.7语境对本文研究任务的作用 10

3.基于语境的短文本信息提取算法设计 10

3.1 分词 10

3.1.1 前期准备 10

3.1.2 算法实现 15

3.1.2.1 读取数据 15

3.1.2.2 读取字典 15

3.1.2.3 正向最大匹配实现 15

3.1.2.4 算法优化 16

3.2 命名实体识别 16

3.2.1代码实现 16

3.2.2 斯坦福工具原理解析 16

3.2.3 基于HMM实现命名实体识别 18

3.3 实体关系抽取 20

3.3.1 依存句法分析算法 20

3.3.1.1生成式句法依存分析算法 20

3.3.1.2基于最大熵的句法依存分析算法 20

3.3.1.3基于CRF的句法依存分析算法 20

3.3.2 关系抽取算法 21

3.3.2.1基于模板的算法 21

3.3.2.2基于特征的实体关系抽取 21

3.3.3 代码实现 22

4. 基于语境的短文本信息提取实验结果 23

4.1 数据准备 23

4.2分词实验结果 24

4.3命名实体识别实验结果 24

4.3.1 环境准备 24

4.3.2 实验结果 26

4.4实体关系提取实验结果 26

4.4.1 数据库设计 26

4.4.2 关系提取实验结果 27

5. 总结与展望 27

参考文献 29

致谢 30

基于语境的短文本信息提取研究

俞静

,China

Abstract:Information is not independent, and the emergence of information must be accompanied by vectors, such as language, action, natural phenomena, text, etc. Among them, text as one of the main carriers of information, the study of text information extraction has gradually attracted people's attention. Identifying the named entity and extracting the relationship between simple entities is the key task of this study.

After text segmentation,the next process is Identifying named entities.To a certain extent, the result of segmentation will have an impact on the recognition effect. So this paper describes the concept of participle and related algorithms. Entity recognition generally chooses two methods based on rules or statistics. This article will elaborate in detail. In this paper, context is composed of words, and similar words in the same context play a similar role, so context plays a vital role in relation extraction and entity recognition.This paper also introduces the processing flow of template based entity relationship extraction and the processing flow of statistical entity relationship extraction based on statistics, and also introduces dependency parsing analysis algorithm.

Key words:Information extraction;entity;participle;context;dependency parsing

1.绪论

1.1研究背景及意义

剩余内容已隐藏,请支付后下载全文,论文总字数:23265字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;