基于概率上下文无关文法的句法分析研究

 2022-05-19 10:05

论文总字数:23227字

摘 要

随着人工智能技术的不断发展,自然语言处理逐渐成为一个热门的研究领域,而句法分析又是自然语言处理中的一个重要研究方向。句法分析是语义分析表示的一个重要的中间过程,在信息抽取、问答系统中起着至关重要的作用。

句法分析就是识别一个句子并给句子分配一个结构的过程,通常这种结构是由上下文无关文法来描述的。在基于统计的句法分析中,歧义现象是大量存在的,而概率文法提供了对这个问题的解决方法。本文的主要工作如下:

(1)基于概率上下文无关文法来为句法信息建立概率模型,它是上下文无关文法的概率扩充,每条文法规则都有一个概率。用这种文法可以处理句子中的歧义现象:计算句子的每种分析的概率,然后从中选择概率最大的分析。

(2)采用极大似然估计法从标注好的语料库中学习文法规则的概率,针对数据稀疏的问题,使用了一种基于古德-图灵数据平滑的方法对规则的概率进行处理。这样,得到的文法规则更加准确。

(3)对于如何选择出句法分析的最佳结果,基于概率CYK算法从可能的分析树中选择最佳分析树,这是一种动态规划的方法,时间复杂度为O()。

关键词:句法分析,概率上下文无关文法,CYK算法

Abstract

With the development of artificial intelligence technology, natural language processing has gradually become a hot research area nowadays, and syntactic parsing is an important research direction in natural language processing. Parsing serves as an important intermediate stage of representation for semantic analysis and plays an important role in information extraction and question answering.

Syntactic parsing is the task of recognizing a sentence and assigning a syntactic structure to it, which is usually described by context-free grammar. Ambiguity exists in statistical parsing and probabilistic grammar provides a solution to this problem. The major work of this thesis is as follows:

(1) This thesis uses probabilistic context-free grammar to build a probabilistic model for syntactic information. It is a probabilistic augmentation of context-free grammars in which each rule is associated with a probability. This grammar can be used to deal with ambiguity in sentences: calculate the probability of every sentence analysis, and then select the analysis with the highest probability.

(2) In this thesis, we use the maximum likelihood estimation to learn the probability of grammar rules from tagged corpus. To solve the problem of sparse data, a method based on Good-Turing data smoothing is used to deal with the probability of rules. In this way, the grammar rules obtained are more accurate.

(3) In order to select the best result of parsing, this thesis uses probability CYK algorithm to select the most-likely parse tree from the possible analysis trees, which is a dynamic programming method with time complexity of O().

KEY WORDS: syntactic parsing, Probabilistic Context Free Grammar, CYK algorithm

目 录

摘 要 I

Abstract II

第一章 绪论 1

1.1 研究背景 1

1.2 句法分析基本概念 1

1.2.1短语结构句法分析 2

1.2.2依存关系句法分析 2

1.3 研究所面临的问题 3

1.4 本文的主要工作 4

1.5 本文的内容安排 4

第二章 相关工作 5

2.1 句法分析方法综述 5

2.2.1基于规则的方法 5

2.2.2基于统计的方法 5

2.2 句法分析相关模型研究 6

2.3 句法分析相关算法研究 7

2.4 本章小结 8

第三章 基于概率上下文无关文法的句法分析 10

3.1 文法的介绍 10

3.2 文法模型的选择 11

3.2.1概述 11

3.2.2 PCFG用于消除歧义 12

3.2.3 PCFG的假设和问题 14

3.3 规则的概率估计 14

3.4 数据平滑方法 15

3.5 选择句子的最佳结构 16

3.6 本章小结 17

第四章 实验与分析 18

4.1 评价标准 18

4.2 实验数据和结果 19

4.3 实验分析 20

4.3.1开放测试与封闭测试 20

4.3.2数据平滑方法的使用 21

4.4 本章小结 22

第五章 总结与展望 23

5.1 工作总结 23

5.2 未来展望 23

参考文献 25

致 谢 27

第一章 绪论

本章首先阐述本文工作的研究背景和意义,然后介绍句法分析的基本概念,接着说明句法分析的难点和问题,最后介绍本文的文章结构。

研究背景

剩余内容已隐藏,请支付后下载全文,论文总字数:23227字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;