基于机器学习的邮件文本分类方法

 2022-08-13 02:08

论文总字数:22834字

摘 要

随着互联网的普及,各种信息技术快速发展,人们的交流越来越依赖于互联网。人们热衷于通过各种社交平台交流,但在工作场所中电子邮件仍是人们主要的交流方式。然而人们收到的电子邮件中往往会存在很多垃圾邮件。垃圾邮件中常常充斥着大量广告、虚假、诈骗信息,不仅会耗费用户的浏览邮件时间,还会挤占重要邮件的存储空间,甚至会威胁到用户账号和个人信息安全。本文首先介绍了如何通过朴素贝叶斯算法处理文本和进行文本分类。并通过实验总结出朴素贝叶斯算法去处理邮件文本分类时的优缺点。再介绍了Bagging,AdaBoost等算法。其中着重介绍了AdaBoost算法如何将弱分类器提升为强分类器的原理。并通过以多个NBM(朴素贝叶斯模型)作为子分类器组合成一个强分类器的实验,清晰地展示出AdaBoost算法如何让分类器由弱到强的具体过程。最后通过两次实验结果的对比,体现出AdaBoost算法具有高准确率的优点。

关键词 AdaBoost ;朴素贝叶斯算法 ;邮件文本分类

Abstract

With the popularization of Internet and the rapid development of various information technologies, people's communication is becoming more and more dependent on the Internet. In the workplace, e-mail has become a major and formal form of communication. However, e-mail messages that people receive often contain a lot of junk mail. Spam is full of advertisements, false and fraudulent information. It not only takes up the storage space of the mailbox, but also consumes the user's online time, and even threatens the user's account number and personal information security. This paper first describes how to deal with the text and classification of text through naive Bayes algorithm. It also points out the shortcomings of naive Bayes algorithm in dealing with the classification of mail texts. Such as easy to produce a phenomenon such as fitting. AdaBoost algorithm is adopted in this paper. By using a naive Bayes algorithm as the base classifier, multiple weak classifiers are generated by iterative training to achieve a strong classifier with high accuracy and no overfitting. Through experiments, we compare the single naive Bayes algorithm and the naive Bayes algorithm, the classifier as the base classifier, and the AdaBoost algorithm to classify the error rate in the mail.

Keywords AdaBoost ;Naive Bayes ;Mail text categorization

目 录

摘 要 II

Abstract II

第1章 绪 论 1

1.1. 研究意义 1

1.2. 研究现状 1

1.2.1. 黑白名单技术 1

1.2.2. 规则过滤技术 1

1.2.3. HASH技术 1

1.2.4. 机器学习算法 1

1.3. 本文研究内容及其意义 2

第2章 朴素贝叶斯算法分类邮件 3

2.1. 朴素贝叶斯算法介绍 3

2.1.1. 算法定义 3

2.1.2. 贝叶斯公式及理解 3

2.2. 其他算法介绍 4

2.2.1. 逻辑回归算法 4

2.2.2. K邻近算法 6

2.3. 利用朴素贝叶斯算法分类邮件过程 7

2.3.1. 流程图 7

2.3.2. 训练样本获取 7

2.3.3. 样本特征提取 7

2.3.4. 训练分类器 8

2.3.5. 测试样本 8

2.3.6. 使用朴素贝叶斯算法出现的问题与注意 8

2.3.7. 实验结果与算法优缺点 9

2.4. 本章小结 10

第3章 AdaBoost算法 11

3.1. 引入 11

3.1.1. Bagging算法介绍 11

3.1.2. Boosting算法 12

3.2. AdaBoost算法 12

3.2.1. AdaBoost算法基本介绍 12

3.2.2. AdaBoost算法原理 12

3.3. 本章小结 14

第4章 基于朴素贝叶斯算法的AdaBoost分类器 16

4.1. 分类器算法介绍 16

4.2. 实验过程 16

4.2.1. 训练样本获取 16

4.2.2. 实验流程 16

4.3. 实验结果 18

4.3.1. 各分类器权值 18

4.3.2. 测试样本分类准确率 18

4.3.3. 实验结果分析 18

4.4. 实验可改进的地方 19

4.5. 本章小结 19

第5章 AdaBoost分类器系统实现 20

5.1. 使用语言与工具 20

5.2. 系统结构 20

5.2.1. 数据接口层 20

5.2.2. 分类器训练层 20

5.2.3. 输出层 20

5.3. 本章小结 21

第6章 总结 21

参考文献 23

致 谢 24

绪 论

研究意义

随着互联网的逐渐普及,现如今互联网对人们生活的影响日渐深入,相比于以往的实体店购物,现金或信用卡支付,网上购物、手机支付极大地方便了人们的生活。而互联网也改变了人们的沟通习惯,颠覆了人们传统的沟通方式。基于互联网的社交平台和通讯工具相比于传统的电话、短信、写信等沟通方式有着花费的成本较低,需要的时间更短,沟通方式更加多样化等优势。所以人们更加喜欢通过这些通讯方式来交流。而微信、Facebook等社交平台是现在人们沟通的主流工具,但在正式场合、工作场景中,邮件仍是人们主要的交流工具。像在与领导、客户、或者是导师正式交流的时候,邮件会是我们主要选择的方式。

但在人们收到的邮件中往往会存在着大量的垃圾邮件。这些垃圾邮件往往包含着广告、色情甚至诈骗、钓鱼等信息。不仅会浪费用户的时间和精力去筛选掉这些邮件,也可能会威胁到用户的账号与信息安全。对于整个互联网来说这些垃圾邮件也极大的占用了网络带宽,把互联网资源浪费在这无意义的邮件上。所以这些垃圾邮件十分需要通过一定手段来过滤掉。

研究现状

黑白名单技术

通过一定技术手段将那些经常发送垃圾邮件的IP信息找到。将这些IP信息提供给邮件服务厂商,从而屏蔽从这些IP发出的邮件。白名单则是相反,对信任的IP完全接受邮件。这样做有效地减少了利用服务器大量群发的垃圾邮件,减轻了邮件厂商服务器的负担。但是缺陷也很明显,垃圾邮件发布者可以针对黑名单频繁地更换IP地址来避免被屏蔽,并且来自这些被屏蔽的IP的正常邮件也会被拒收【1】

规则过滤技术

过滤技术通过规则或匹配算法来判断一封邮件是否为垃圾邮件。一开始是通过搜索邮件的内容文本中是否存在垃圾邮件中常见的关键字或者是根据邮件的主题与垃圾邮件常见主题的类似程度来判断邮件是否为垃圾邮件。更进一步的话则是通过垃圾邮件中存在着的特征(比如单词、词组、位置、大小、附件等)来形成规则(如正则表达式),通过这些规则来查找并过滤垃圾邮件。像国外的权威机构TREC(Text Retrieval Conference)针对垃圾邮件内容建立了语料库。通过这些语料库来形成规则来查找垃圾邮件。通过规则可以实现模糊匹配来判别垃圾,适应性更强。但是如今在大数据时代,垃圾邮件数量也迅速增长。邮件内容格式也在不停变化。与之匹配的规则也想要不断地去更新。随着规则库的庞大,邮件分类匹配的速率会变得越来越慢。

HASH技术

HASH技术是邮件系统通过创建HASH来描述邮件内容,如通过邮件的内容、发件人的信息作为参数,计算得出这个邮件的HASH,来描述这个邮件。如果HASH相同,则可说明这个邮件内容相同。可以用来检测批量发送的垃圾邮件【2】

机器学习算法

在当今大数据时代,基于机器学习算法的邮件分类相比上述的早期的分类方法,具有适应性强,通用性广的特点。现如今垃圾邮件数量也与日俱增,垃圾邮件总数越大,类别越多对于早期的过滤技术可能就越棘手。而对于基于机器学习的过滤手段来说,数量和种类越多,可用作训练的样本集就越多,基于机器学习算法的过滤技术效果就越好。而且对于基于机器学习算法的分类器来说,一般接触过的垃圾邮件种类都能很好的进行分类。所以在现在大数据时代,适应性和通用性好的基于机器学习的邮件文本分类比较适用。这也是本文要介绍基于机器学习下的邮件文本分类技术的理由。

剩余内容已隐藏,请支付后下载全文,论文总字数:22834字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;