基于词内涵的文本分类算法研究

 2022-01-17 11:01

论文总字数:20229字

目 录

第一章 综述 1

1.1总体概述 1

1.2选题背景 2

1.2.1文本分类定义及流程 2

1.2.2国内外发展现状 2

1.3研究目的及意义 4

第二章 文本分类算法 5

2.1 KNN算法及k近邻(k-NN)分类器 5

2.2朴素贝叶斯算法 6

2.3支持向量机((SVM)分类器 7

2.4神经网络算法 8

2.5各类算法比较 8

第三章 实现 9

3.1开发运行环境 9

3.2准备工作 9

3.2.1 JDK介绍及安装 9

3.2.2 Eclipse介绍及安装 10

3.2.3 Maven介绍及安装 10

3.2.4 MySQL介绍及安装 11

3.2.5 MapDB介绍 12

3.3基于词内涵的文本分类算法研究 12

3.3.1词的共句关系 12

3.3.2词的共句统计 13

3.3.3 20_Newsgroup(单标签英文平衡语料) 17

3.3.4分类算法实现 18

第四章 实验 22

4.1数据库内容 22

4.2实验结果 25

4.2.1实验结果截图 25

4.2.2分类结果 26

第五章 总结 26

参考文献 28

致谢 29

基于词内涵的文本分类算法研究

刘一文

,China

Abstract: With the rapid development of Internet technology and the popularity of the Internet , we have entered into an era of information explosion. How to categorize, organize, and manage large amounts of text data has become one of the most important problems in resent times. Therefore, text classification becomes a research hotspot. The theme of this paper is to study the text classification algorithm. This paper will study the text classification algorithm based on the connotation of the word. We achieve the text classification by analyzing the word connotation to study the regular pattern of words, finding out the frequency regularity of words, and comparing with the known classification of text. The connotation of the word is different from the meaning of the word, which also refers to the meaning of the words, the background of the word, the language environment and so on. The word connotation has greater scope. Thus, we can make text classification more accurately through the research on the connotation of the word. Of course, this experiment only achieves the initial results, to be improved.

Key words: Word connotation; Word frequency; Corpus linguistics; Text classification

第一章 综述

1.1总体概述

随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,而在这些数据中,文本数据又是数量最多的一类。“文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程”。现在文本分类的研究越来越多,文本分类技术的应用也很广泛,例如在媒体界,每天都会有很多投稿需要审核,这个时候就需要文本分类技术;还有在一些新闻网站上,每天都会有各种不同类别的文章,体育类、娱乐类、经济类、教育类等等,这个时候我们也需要文本分类技术。

在20世纪90年代以前,文本分类的主要方法一直是基于知识工程领域的:这种方法对于专业人才的需求是很大的,它需要专家来定义推理规则来作为文本分类的判断标准。但是这种方法有明显的缺点:分类的质量依赖于规则的好坏、需要有大量的专业人员制定推理规则、不适宜推广、不同领域的规则制定完全不同导致资源资金浪费。所以一开始实现文本分类的方法并不完善,而且有许多弊端,而机器学习技术能很好地解决上述问题:以统计理论为基础,利用算法让计算机对已知训练数据进行统计分析并获得规律,再利用这个规律对未知的文本数据进行预测分析。所以在这一方法中,文本分类基本过程即:标注、训练、分类。标注是人工分类文档作为训练数据,训练是计算机从训练数据中分析出规律,分类就是通过规律完成对待分类文档的分类工作。

随着信息技术的发展,人们已经从信息缺乏的时代进入到信息极为丰富的数字化时代,我们可以通过网络轻松获得丰富的数字化信息,但有的时候我们无法快速准确有效的获取我们需要的信息,同时,随着大数据时代的到来,海量文本信息急剧增加,大规模文本处理已经成为一个挑战,按照之前方法显然毫无优势,因此我们需要通过文本分类算法使我们更有效的获取数字化信息。

于是,人们开始探索文本分类的方法,许多研究者们开始研究文本分类的算法,通过机器可识别的语言来实现快速的文本分类,有通过向量空间模型表征文本的方法,但这种传统的方式是有一些弊端的。为了处理弊端,学者们开始从词的概念或者语义方面对文本的分类展开深入的研究,从而出现了一些新的文本分类方法,比如基于概念、基于语义等等。文本分类的总体发展趋向、研究情况,将是我们之后关注的焦点。

本文将会基于词内涵研究文本分类算法,针对已知分类的文本,分析文本中词的共句关系、词频规律,然后通过分析待预测的文本的词共句关系和词频规律,与已知的文本规律比较,从而实现文本分类。本文只是初步实践,仍需改进。

1.2选题背景

1.2.1文本分类定义及流程

文本分类(Text Classification)是在已经定好的分类标准下,让计算机来自动将要分类的文本分好类的过程。

文本分类的一般流程【6】是:

(1)将训练文本一个一个分词;(2)找出一些特征词;(3)用文本把特征词表示成特征向量;(4)通过特征选择得出向量子集;(5)最后用算法分类。

流程如下:

图1-1文本分类流程

1.2.2国内外发展现状

近年来,Internet发展迅猛,网络信息越来越多,各种文本、图片、视频的信息充斥着网络。怎样在这众多信息中快速得到有效的内容是目前最重要的研究目标。所以,文本分类技术的研究成为热门。

国外的文本分类技术研究在20世纪50年代就开始了,比国内早了很多年。一开始的文本分类研究是从知识工程领域开始的,从20世纪60年代到80年代末,知识工程技术领域的文本分类系统一直是最有用的分类系统,但此分类系统前期是需要人工来构建知识系统的,会大量消耗资源,这在当时是文本分类的一大阻碍。那个时候,需要很专业知识工程领域的专家来制定分类的规则标准,然后分类的时候对照标准进行分类。所以这个时候的主要工作是在制定规则阶段,在这个阶段,需要很专业的人才,同时可能还需要他了解熟悉文本分类的知识结构,这样才能制定出准确详细的标准,要求是很高的。所以这就出现了一个问题,专业人才是不多的,会导致人才消耗大,浪费时间物资【3】

90年代初,随着基于机器学习的分类技术稳步发展,到此,利用机器学习来分类文本成了主要的研究方向,逐步代替了之前的知识工程技术。此种分类方法是这样实现分类的:先对统计已分类好的训练数据的特征规律,然后利用这个规律建立分类器,从而达到分类文本的目的。这个方法就不再需要专家的参与了,所以不再需要太多消耗人力物力,从而增加了文本分类技术的可行性【5】

总结来说,国外的文本分类技术发展史大致是以下两大阶段【7】:

  1. 60年代至80年代,基于知识工程技术的方法。

这个时期的文本分类手段主要基于知识工程技术,即先通过这个领域的专业人员先定义好分类规则,然后通过统计的方法来对文本分类。但是这个手段是有弊端的,就是耗费人力资源,并且对专业领域的人才需求极大,且需要这些专业人才对文本分类领域也要熟悉,这个是很难的。

2)80年代后期至今,基于机器学习的方法。

这个时期的文本分类手段主要是基于机器学习的,这个时候就不再是人工对信息文本分类,而是更多依赖于机器的自动化分类。同时,就不存在之前那个时期的弊端,不需要那么专业的知识工程技术方面的人才。这种手段的逐步发展也就让我们发现了其中的好处,即可以使文本数据的分类更快捷、更精准。这个时期还出现了许多很有代表性的想法,其中有朴素贝叶斯方法、K最近邻方法等等。

当然,文本分类算法研究的脚步并没有就此停滞不前,实践者们仍然在不断地探究,因此,更为成熟的的文本分类技术也在不断地被提出。例如朴素贝叶斯算法(Naive Bayes )、k最近邻算法(kNN)、支持向量机算法(Support Vector Machine)、神经网络算法(Neural Network)等【4】

随着文本分类技术的完善,文本分类问题慢慢转化为分词、特征选择、分类算法等子问题【3】。此外,国外还受启发拓展研究了许多其他领域,比如信息抽取方向、信息检索方向,并且,在这些方面都从最初的理论研究发展到了实践阶段,主要表现在:分本分类在数字图书馆、邮件分类、Web分类、信息过滤等领域均有应用【2】

国内对文本分类技术的研究相较于国外就比较晚,一开始,因为中文和英文差别很大,学者们只是学习整理国外的相关文献,并没有在中文文本上实验分类。就这样一直到了1981年,才有国内高校的教授首先介绍了国外成熟的文本分类的研究情况并探讨了其优劣。从这以后,国内的专家学者们才开始了对文本分类的深入的研究。

剩余内容已隐藏,请支付后下载全文,论文总字数:20229字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;