基于多实例多标签学习的关系抽取方法研究-毕业论文网

论文总字数：29245字

摘要

现代关系抽取任务大多基于有监督的学习方法，虽然有较高的准确率和召回率，但需要大量的人工标注语料，并且可移植性差。本文提出了一种基于远监督(Distant Supervision or Weak Supervision)的关系抽取方法，通过匹配知识库与文本获取训练数据，降低对人工标注语料的依赖，可有效地针对大量的、不同的关系进行抽取。针对训练数据集中一个实体对可能拥有多个实例多个标签的问题，本文实现了一种多实例多标签学习(MIML-RE)的模型。它通过使用一个带有隐藏变量的图模型对文本中每一个实体对的所有实例以及它们的标签建模，并且在训练分类器的过程中，综合考虑实体类型，排除错误的关系预测，带来分类器性能上的提升。

本文使用TAC- KBP评测发布的源构造数据集，利用远监督关系抽取方法完成其中Slot Filling 任务，并把本文中的MIML-RE模型应用到这个任务中。在训练阶段本文以处理后的知识库KB(Knowledge Base)为训练数据，从中检索例句抽取实体和槽之间的依存路径训练分类器；在评测阶段本文以目标实体名称为关键词通过Lucene从数据源SC(Source Corpora)中获取候选文档集，用Stanford CoreNLP工具包对候选文档进行句法依存的解析，进行关系抽取，完成槽填充。

关键词：关系抽取，远监督，多实例多标签

A STUDY ON THE MULTI-INSTANCE MULTI-LABEL LEARNING

FOR RELATION EXTRATION

Abstract

In this paper we discuss a new approach to extract relational data from unstructured text without the hand labeled data. So-called distant supervision or weak supervision for relation extraction (RE) – gathering training data by aligning a database of facts with text – is an efficient approach to scale RE to thousands of different relations. However, this introduces a new challenge where the relation expressed by a pair of entities found in the same sentence is unknown. For this reason, traditional supervision method for relation extraction by assuming every instance of a pair of entities just hold a relation label is not so suitable. To resolve this problem, we propose a new multi-instance multi-label learning method for relation extraction. It models not only all the instances of entity pairs but also their relation labels at the same time using a graphical model with a latent variable. What’s more, it can exclude some impossible relation types according to the entity types when training the classifiers which can introduce the improvement of performance of the classifiers.

In our experiments, we use distant supervision and MIML-RE model to solve TAC-KBP slot filling task. We query instance from Knowledge Base and extract dependency path between entities and slots to train classifiers in training. And in testing we use Stanford CoreNLP package to find entity mentions in candidate document collection extracted from Source Corpora.

KEY WORDS: relation extraction, distant supervision, MIML-RE

第一章绪论 1

1.1 研究背景 1

1.2 研究内容和意义 1

1.3 论文组织结构 2

第二章相关研究 3

2.1 关系抽取 3

2.2 远监督方法 3

2.3 MIML-RE 4

第三章基于远监督的关系抽取 6

3.1 开放式实体关系抽取 6

3.2 关系抽取任务描述 6

3.3 远监督关系抽取方法流程 7

第四章多实例多标签关系抽取模型 9

4.1 模型描述 9

4.2 模型实现 10

4.3 本章小结 12

第五章实验与分析 13

5.1 TAC－KBP评测 13

5.2 Stanford CoreNLP 15

5.3 实验过程 17

5.4 实验结果及分析 18

5.5 本章小结 20

第六章总结与展望 21

6.1 工作总结 21

6.2 未来展望 21

参考文献（References） 23

绪论

1.1 研究背景

随着互联网上的文本信息和数字资源的飞速增长，面对日益增多的海量信息，如何从中快速获取用户感兴趣的、真正需要的信息，并将这些信息自动地进行分类、提取和重构，越来越受到研究者的广泛关注。对关系抽取方法的研究就是这项任务中重要的一个环节。

传统的关系抽取评测任务是面向限定领域文本、限定类别实体、事件等的抽取，这在很大程度上制约了关系抽取技术的发展和应用。例如问答系统中所需要的关系抽取技术远远超过了通常研究的人名、地名、组织机构名、时间和日期等有限的实体类别，它可能涉及上下位（hypernym-hyponem）、部分与整体（part-whole）、地理位置（located/near）等关系类别，甚至涉及到的类别是未知的、不断变化的。这种应用需求对关系抽取技术的研究提出了新的挑战。另一方面，从关系抽取的技术手段来讲，由于网络文本具有不规范性、开放性和海量性的特点，使得传统的依赖于领域专家手工标注的训练语料的统计机器学习方法遇到了严重的挑战[赵军等，2011]。

1.2 研究内容和意义

本文重点关注基于远监督的关系抽取，它是信息抽取的一个子问题，用于解决两个命名实体间有标注关系的抽取问题。图1-1展示了关系抽取领域的、一个带有两个标签的简单例子。远监督方法也有两个建模难点。第一个难点是通过启发式规则获得的训练实例可能是带有噪音的，就像图1-1中最后一句，对于这个实体对，任何已知的关系标签(BornIn 和 EmployedBy)都是不正确的。这种误报率(false positive)有时候会达到很高，例如[Riedel et al. 2010]通过将Freebase中的关系和New York Times中的文章对齐，误报率高达31%。第二个难点是相同的实体对可能拥有多个关系标签，并且对于这个实体对，仅仅通过文本提及难以确定描述的是哪个关系。例如在图1-1中，元组（Barack Obama, United States）有两个合法的标签：BornIn和EmployedBy，每一个标签在不同的句子中被实例化。

DB=
sentence	Latent Label
Barack Obama is the 44^th and current President of the United States.	EmployedBy
Obama was born in the United States just as he has always said.	BornIn
United States President Barack Obama meets with Chinese Vice President Xi Jinping today.	EmployedBy
Obama ran for the United States Senate in 2004.	/

图1-1: 对一个包含两个实体的数据集通过远监督生成的训练语句

图1-2概括出了多实例多标签（Multi-instance Multi-label, MIML）学习模型。本文提出了一种称之为MIML-RE的新的图模型，将MIML学习用于关系抽取。本文的研究做出了以下贡献：

MIML-RE是同时对多实例（将隐藏标签同实例匹配）和多标签（通过提供一个简单的方法捕获标签之间的依赖关系）联合建模的RE方法。在训练分类器时，综合考虑实体类型和关系名称，对于与之前学习到的意义不相容的标签，本文会去除这些不正确的关系预测。比如两个实体Tony Park 和Eva Longoria ，本文学习到的关系标签是SpouseOf，则在判断过程中就会启发式地去掉ParentOf或者ChildOf 等关系。
我们将远监督关系抽取方法和MIML-RE模型应用到TAC-KBP Slot Filling 任务中。

instance

label

ance

instance

ance

label

Object

图 1-2: 多实例多标签问题描述。传统的远监督方法中每个对象只有一个实例一个标签。对于关系抽取这个对象是两个命名实体元组。对于文本中这个元组的每一个提及都产生一个不同的实例。

1.3 论文组织结构

本文的重点是介绍基于远监督的关系抽取方法，并实现了多实例多标签学习（MIML-RE）模型。本文其余各章组织如下：

第二章相关研究：介绍本文的相关工作，主要包括对实体关系抽取方法的研究，以及常用的实体关系抽取方法的优缺点。另外还简要介绍了基于远监督的关系抽取方法的研究现状以及多实例多标记模型在关系抽取中的应用。

第三章基于远监督的关系抽取：在这一章中，首先分析了开放式实体关系抽取的难点，然后给出了本文关系抽取任务的符号化定义，最后重点介绍了基于远监督关系抽取的流程，包括属性关系提取、文本预处理、对齐（训练语料的构造和优化）以及训练分类器四个步骤。

第四章 MIML-RE模型：在这一章中，首先介绍了MIML-RE模型，以及模型中各个符号的定义，接着介绍了EM算法并详细阐述了如何利用EM算法来训练本文的模型。

第五章实验与分析：介绍本文的实验以及实验结果，主要包括以下几个方面：介绍实验中用到的数据集以及Stanford CoreNLP工具，介绍实验过程中应该注意的问题，给出实验结果，并对实验结果进行简要的分析，对本文的MIML-RE模型做出简要的评价。

第六章总结与展望：总结本文的工作，并简要说明其中的不足和未来可能的研究方向。

注册

找回密码

基于多实例多标签学习的关系抽取方法研究

绪论

1.1 研究背景

1.2 研究内容和意义

1.3 论文组织结构

相关研究

2.1 关系抽取

您可能感兴趣的文章

登录

绪 论

1.1 研究背景

1.2 研究内容和意义

1.3 论文组织结构

相关研究

2.1 关系抽取

您可能感兴趣的文章

绪论