校园舆情分析中的情感倾向性研究

 2021-12-23 08:12

论文总字数:25612字

摘 要

作为互联网的重要组成部分,校园网络的建立产生了信息化校园这样一种新的校园模式,为校园文化的发展提供了全新的技术环境,网络成为校园文化交流的重要载体。师生在校园网络中陈述自己的观点,表达自己的情绪,形成了具有一定特点的校园网络舆情,对校园文化建设产生了深远影响。因此,针对校园热点话题实施深入的意见挖掘,掌握实时舆情动向,对引导校园价值走向,构建和谐校园文化环境有着重大的作用。

本文以校园BBS为研究载体,考虑了高校学生在发帖中的行文特征和情感表达特征,比较了不同的文本特征选择算法和机器学习方法在校园舆情情感分析方面的适用性,为所在课题组的研究提供了依据。在文本预处理模块,构建了用户词典和停用词词典,考虑了情感词词性影响,实现了更为纯净全面的中文分词。在文本建模模块,比较了互信息,信息增益,卡方统计量,加权对数似然比四种不同的特征选择算法和特征向量的不同维度对文本倾向性分析效果的影响。在分类器训练模块,比较了朴素贝叶斯,支持向量机,K最近邻和决策树四种机器学习方法的分类效果。最后,从准确率,召回率和F-score三个方面评价了情感倾向性分析算法。

关键词:校园舆情,情感倾向性分析,特征选择,机器学习,文本分类

A STUDY ON EMOTIONAL TENDENCY IN CAMPUS

PUBLIC OPINION ANALYSIS

Abstract

As an important part of the Internet, the establishment of the campus network has produced a new form of campus, which is called information campus and provided a new technology environment for the development of the campus culture. The network has become an important platform for campus culture exchange. Teachers and students in the campus network state their views and express their emotions, forming public opinion in campus with special characteristics, which has a profound impact on the construction of the campus culture. Therefore, the implementation of opinion mining on campus hot topics and the real-time grasp of public opinion trends have a significant effect on guiding campus value trends and building a harmonious campus cultural environment.

To provide basis for the group’ research, this paper used campus BBS as research carrier, by considering the characteristics of writing and emotion expressing in college students’ postings, compared the applicability of different text feature selection algorithms and machine learning methods in emotional analysis of public opinion in campus. In the text pro-processing module, considering the impact of emotional words speech and the constructing of user dictionary and stop words dictionary, we achieved a more pure, comprehensive Chinese participle. In the text modeling module, we compared the effect of four different feature selection methods on text tendency analysis, including mutual information, information gain, chi-square statistic and weighted log likelihood ratio. Meanwhile, the impact of different dimensions of the feature vector was also in consideration. In the classifier training module, we compared the classification results of four different machine learning methods, including Naive Bayes, Support Vector Machine, K-Nearest Neighbor and Decision Tree. Finally, we evaluated the emotional tendency analysis algorithm on three aspects, accuracy, recall and f-measure.

KEY WORDS: campus public opinion, emotional tendency analysis, feature selection, machine learning, text classification

目 录

摘 要 I

Abstract II

第一章 绪论 1

1.1 研究背景 1

1.2 文本倾向性分析研究现状 1

1.3 研究内容与研究目标 2

1.4 论文的组织与结构 2

第二章 相关理论与关键技术 4

2.1 文本倾向性分析的概念 4

2.2 文本倾向性分析的主要方法 4

2.3 文本建模 4

2.3.1 文本表示模型 5

2.3.2 文本特征选择方法 6

2.4 文本倾向性分析算法 7

2.4.1 朴素贝叶斯 7

2.4.2 支持向量机 8

2.4.3 K-最近邻 9

2.4.4 决策树 10

2.5 本章小结 10

第三章 基于机器学习的文本倾向性分析 11

3.1 文本爬取 11

3.1.1 定义Item 11

3.1.2 编写Spider 12

3.1.3 设置Item Pipeline 12

3.2 文本预处理 12

3.2.1 断句 13

3.2.2 词典构建 13

3.2.3 词性标注 14

3.2.4 中文分词 15

3.3 文本特征选择 15

3.4 情感倾向性分析 16

3.5 本章小结 17

第四章 实验结果及分析 18

4.1 实验环境 18

4.2 实验数据介绍 18

4.3 实验工具介绍 19

4.4 实验性能评估指标 20

4.5 实验设计与结果分析 20

4.5.1特征维度的选择对情感倾向性分析的影响 21

4.5.2 不同的特征选择方式和机器学习方法对情感倾向性分析的影响 21

4.6 本章小结 23

第五章 总结与展望 24

5.1 工作总结 24

5.2 后续工作展望 24

致谢 25

参考文献(References): 26

  1. 绪论

1.1 研究背景

进入21世纪以来,随着互联网的迅速发展,信息突破时间与空间的限制,使人们不仅成为了网络信息的读者,更成为了信息的创造者。各种网络媒体,如新闻门户、博客、论坛、BBS等已经渗透到人们的日常生活中,成为人们获取和交流信息必不可少的平台。中国互联网在迅速发展的同时,其舆论安全问题也引人深思。不良信息在网络上的传播对社会造成的影响不容忽视,尤其对于心智理念尚未成熟的大学生集中的高校。

剩余内容已隐藏,请支付后下载全文,论文总字数:25612字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;