PDF中表格语义标注技术研究

 2022-02-08 08:02

论文总字数:21924字

摘 要

公司的客户、供应商、竞争对手、合作伙伴可谓是一份重要的市场情报,可以很好的反映出一个公司的发展规模、发展前景。由于市场上有大量的公司并且有众多新公司的出现,使得手动收集竞争对手等信息是一个劳动密集的更是耗时的工作。因此,本文提出基于机器学习的方法,自动地从公司招股书中的表格中提取几种关系的公司名单。

我们提取招股书中每个表格和表格前描述句子的一些特征,包括一些关键词的出现、字符串长度、关键分词的TF-IDF值等,生成一系列多维的特征向量。通过手动标记特征向量对应的结果值,将标记的特征向量组作为决策树的训练数据,对于一个新的表格的特征向量,使用训练后的决策树来判断是否是目标关系的表格。

然后再提取表格中每一列的特征,同样通过标记一定数量的特征向量作为决策树的训练数据,使用训练后的决策树来输出目标关系表格中的目标关系列。

最后通过一定规则,排除列中特殊单元格,从而抽取出目标关系的公司名称。

关键词:表格,关系,决策树,特征,分词,TF-IDF,训练

Abstract

The company's customers, suppliers, competitors, partners can be described as an important market intelligence, which can be a good reflection of a company's development scale and development prospects. There are a large number of companies, which making manual collection of competitors and other information to be a labor intensive and time-consuming work. Therefore, in this thesis, we show a method based on machine learning to automatically extract a list of companies from the company's prospectus. We extract the characteristics from the form and description before the form, including the emergence of a number of keywords, the length of the sentence, the TF-IDF value of keywords, etc., to generate a series of multi-dimensional feature vector. Then we use these feature vector to train the decision tree which can judge the relation table. Then we extract the characteristics from the result tables, and use these characteristics to train another decision tree which can judge the relation column. At last, we get the name of the companies from relation columns by rules.

KEY WORDS: table, relationship, decision tree, feature, segmentation of sentence, TF-IDF, train

目录

摘要 2

Abstract 3

第一章 绪论 1

1.1 研究背景和研究目的 1

1.2 研究现状 2

1.3 本文主要工作 3

1.4 文章组织结构 3

第二章 背景知识 5

2.1 机器学习与决策树 5

2.2 C4.5决策树算法 7

2.3 WEKA 8

2.4 信息增益 12

2.5 TF-IDF 14

2.6 Ansj分词 15

第三章 基于决策树的“客户”关系抽取方法及实验 16

3.1数据集及数据预处理 16

3.2利用决策树提取客户表格 16

3.2.1特征词的选择 16

3.2.2 TF-IDF值计算 17

3.2.3 表格内容特征 17

3.2.4其他表格描述特征 18

3.2.5 产生训练样本向量 19

3.2.6 使用WEKA决策树产生实验结果 20

3.3 利用决策树提取客户关系列 21

3.3.1 表格列特征生成 21

3.3.2 使用WEKA决策树产生实验结果 22

3.4 从列中提取公司名称 22

第四章 结果分析 23

4.1 测试结果 23

4.2 输出结果 24

第五章 总结 26

参考文献 27

致谢 29

第一章 绪论

1.1 研究背景和研究目的

每个公司都有一些固定的客户、供应商及合作伙伴,也会有同行业中竞争比较激烈的竞争对手。获得一个公司的这几个关系的公司名称,可以帮助衡量出该公司的发展规模和发展前景。公司间的合作、贸易,都需要获取对方的这份情报来更好的权衡自己在合作、贸易中的利益。同行业中的竞争关系的公司,也可以通过对方的这份情报更好的制定公司外交策略,使自己在同行业的竞争中掌握先机。另外,对于市场分析者和投资者,这也是分析一个公司发展情况的重要内容。在中国新的经济环境下,证券公司和证券交易所开始有推荐或批准企业在一个全新的板块IPO(首次公开发行)的权利,这些机构需要寻找具有巨大潜力的公司,一个知名公司的竞争对手、合作伙伴和贸易伙伴等便可以成为候选人。因此如何更快更准确地获取公司的客户、供应商、竞争对手、合作伙伴的名单成为一个研究的话题。

网络中海量的数据可以作为获取公司客户、供应商、竞争对手、合作伙伴的一个重要来源,但是公司的招股书可以为关系的抽取提供更准确、更直接的信息。公司招股书是具有规范性的,在文本类型的组成结构上会包括标题、文本和表格,而相应的竞争对手、合作伙伴、供应商和客户的名称也会出现在这些标题、文本和表格中。其中,标题中的公司名称数量是极少的,大部分的相应关系的公司名称存在于文本和表格中。文本中需要找到相应关系的句子,然后从中提取出公司名称,而表格中只需确认表格对应的关系,然后提取其中某一列便可以初步获得相应关系的公司名称。因此,本文提出了基于机器学习的表格中关系抽取方法,通过提取表格、表格前描述句子、表格列的特征形成特征向量,然后标记数据并使用决策树训练,最终输出表格中相应关系的公司名称。

而在整个公司招股书中,从表格中抽取的公司名称可以作为从文本中抽取的公司名称的种子,然后在文本中搜索这些种子出现的文本语句,通过对这些语句的形式、规律分析获取文本中出现的其他目标关系公司名称。利用新得到的公司名称再作为种子,循环遍历获取相应的公司名称,直至不在产生新的公司。从而最终完成从招股书文本、表格中抽取出公司的竞争对手、合作伙伴、供应商和客户。

剩余内容已隐藏,请支付后下载全文,论文总字数:21924字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;