在线社交网络中用户情感分析算法的设计与实现

 2021-12-25 03:12

论文总字数:18448字

摘 要

随着互联网的飞速发展,社交网络近年来成为一个社会热点事件发布、信息交流的平台。人们乐于在网络中发表自己的观点、表达自己的态度及情感,如对电影的评论,对产品的评价或对热点事件或话题的态度。然而随着在线社交网络的快速发展和用户规模的激增,面对海量的数据,如果仅仅使用人工方式并不现实。因此需要应用相关技术对用户产生的文本、用户行为记录进行综合分析,得出用户对事件、产品的情感倾向。

用户产生的文本信息包含了大量情感信息和各种情感倾向性,因此很多用户情感分析研究都是基于用户文本,很少有研究将用户关系考虑进去。但是社交网络中的用户都是有关联的,相互关联的用户倾向于持有类似的观点或情感。

本文在随机森林算法的基础上加入用户关系,设计了一种结合用户关系的情感分析算法(User Random Forest,简称URF)。本文在新浪微博数据集上进行了对比实验,结果表明:(1)在文本的基础上结合用户关系可以提高用户情感分类的准确率。(2)本文所提出的URF算法的准确率优于其他仅基于文本的情感分类算法。

关键字:社交网络;用户关系;情感分析;随机森林

ABSTRACT

With the rapid development of the Internet, social network in recent years has become a platform to publish hot social events, exchange information and communication. People are willing to publish their views and express their attitudes and feelings in the network, such as the comments on the film, the evaluations of the product or the attitudes of the hot issues or topics. However, with the rapid development of online social networks and boom of users, if we only use artificial way in face of massive data, it is not realistic. So in order to obtain users’ emotional tendencies towards events and products, we need to use relevant technologies to analyze user-generated text and user behavior records comprehensively.

User-generated texts contain a great deal of emotional information and a variety of emotional bias, so many user sentiment analysis studies are based on the analysis of user-generated texts and few studies have taken the user relationship into consideration. However, users are associated in social networks, related users are tend to hold similar views or feelings.

In this paper, we propose the User Random Forest algorithm(URF), which is based on Random Forest algorithm modified by user relationship. We conduct experiments on Weibo data sets, the results shows that (1) With the user relation on the basis of the text, the accuracy of user emotion classification can be improved, (2) The accuracy of the proposed URF algorithm is superior to other sentiment analysis algorithms based on text only.

Key words: social network; user relation; sentiment analysis; random forest

目录

摘要 I

ABSTRACT II

目录 III

第一章 绪论 1

1.1研究背景与意义 1

1.2研究现状 1

1.2.1情感分析研究现状 1

1.2.2研究现状总结 3

1.3研究目标和内容 3

1.4论文的主要工作 4

1.5论文的组织结构 5

第二章 相关理论技术简介 7

2.1社交网络 7

2.2特征降维 8

2.2.1词频法(Term Frequency) 8

2.2.2文档频率法(Document Frequency) 8

2.2.3卡方统计法(Chi-Square) 8

2.3机器学习分类算法 9

2.3.1朴素贝叶斯(Naive Bayes) 9

2.3.2支持向量机(Support Vector Machine) 9

2.3.3随机森林(Random Forest) 10

2.4本章小结 10

第三章 用户情感分析算法 11

3.1文本情感分析 11

3.1.1文本预处理 12

3.1.2特征选择 12

3.1.3特征降维 13

3.1.4情感分类 14

3.2结合用户关系分析用户情感 14

3.3算法实现 15

3.4本章小结 15

第四章 实验设计与分析 16

4.1实验环境 16

4.2实验数据集分析 16

4.3实验设计 17

4.4实验结果与分析 17

4.4.1几种情感分析算法准确率对比实验 18

4.4.2不同用户关系权重下URF算法的准确率 19

4.4.3实验结果小结 19

4.5本章小结 20

第五章 总结与展望 21

5.1研究工作总结 21

5.2研究工作展望 21

致谢 23

参考文献 24

第一章 绪论

1.1研究背景与意义

随着互联网特别是社交网络的飞速发展,社交网络成为人们结识好友、发表观点和交流信息的重要渠道,人们因相同的兴趣、观点、想法等聚集形成了社交网络独有的复杂结构和信息动态传播机制。随着社交网络和社交媒体的兴起和流行,越来越多的人成为在线社交网络中的一员并积极参与其中,人们在社交网络中畅所欲言,各抒己见。社交网络成为一个社会热点事件发布、信息沟通与交流的平台,常见的社交网络有BBS、微博、博客等。随着在线社交网络的迅速发展和使用人群的快速膨胀,有关社交网络的研究分析成为互联网领域的热点研究之一。

与报纸、电视等传统信息传播媒介相比,在线社交网络因其普遍性、实时性而得到迅猛发展。特别是随着智能手机、平板电脑等移动设备的流行、普及,处理数据能力的增强和内存容量的扩大,越来越多的用户可以随时随地发表自己的评论和观点、提出自己的意见和想法、表达自己的情感和态度,如对电影的评论、对产品的评价或对热点事件和话题的态度和看法。

剩余内容已隐藏,请支付后下载全文,论文总字数:18448字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;