豆瓣影评中文文本的情感分析研究

 2023-08-21 04:08

论文总字数:16229字

摘 要

近几年来,在总书记习近平的领导与带领下,稳定、持续的增长成为中国经济行的代名词。在我国,经济发展的到重视的同时,文化产业也彰显出蓬勃生机。电影市场的规模也在逐步扩大,电影的种类不断丰富百花齐放。人们越来越注意精神物质文化的追求,电影俨然已经成为我们现代生活的必需品。收集并利用网络文本评论并进行情感分析成为一种潮流。随着时代的发展,电影评论逐渐成为人们精神生活的重要组成部分,也成为了学者们关注的焦点。通过情感分析与研究,电影整体情感取向可以被人们所了解。本文主要是对豆瓣网上的电影评论展开研究,分析电影评论的情感倾向——正向情感和负向情感。首先创建了一个豆瓣电影评论情感词典,然后从豆瓣网抓取《绿皮书》电影评论,经过分词、去停用词等预处理后,将从豆瓣网上爬取的评论与情感词典进行匹配,并计算出情感倾向数值,最终得到该电影情感分类结果。从分类的结果看,持正向情感的评论多于向评论,这与该电影深受观众欢迎实际情况一致,表明了本文算法的有效性。

关键词:文本挖掘,豆瓣影评情感分析,Python爬虫,情感倾向

Abstract:In recent years, under the leadership and leadership of General Secretary Xi Jinping, stable and sustained growth has become a synonym for China"s economic development. In our country, while economic development is being paid attention to, the cultural industry is also showing vigorous vitality. The scale of the movie market is also gradually expanding, and the types of movies are constantly enriching and flourishing. People pay more and more attention to the pursuit of spiritual and material culture, and movies have become the necessities of our modern life. It is a trend to collect and use online text comments and make emotional analysis. With the development of the times, movie reviews have gradually become an important part of people"s spiritual life and become the focus of scholars" attention. Through emotional analysis and research, the movie"s overall emotional orientation can be understood by people. This article mainly studies the movie reviews on douban.com and analyzes the emotional tendency of movie reviews-positive emotion and negative emotion. First, an emotion dictionary of Douban movie reviews is created. Then, the movie reviews of Green Paper are retrieved from Douban. After preprocessing such as word segmentation and stop words removal, the comments retrieved from Douban are matched with the emotion dictionary, and the emotion tendency value is calculated. Finally, the emotion classification result of the movie is obtained. Judging from the classification results, there are more positive comments than positive comments, which is consistent with the fact that the movie is well received by the audience and shows the effectiveness of the algorithm in this paper.

Keywords:text mining, watercress movie review sentiment analysis, Python crawler, emotional inclination

目 录

1 前言 4

1.1 研究背景及意义 4

1.2 文献综述 5

1.2.1 国外研究成果 5

1.2.2 国内研究成果 6

2. 文本挖掘的主要方法介绍 7

2.1 情感分析相关介绍 7

2.2 基于情感词典的分析方法 8

2.3 基于机器学习的分析方法 9

3. 豆瓣网站评论文本信息的获取 10

3.1 豆瓣网站评论文本相关概念介绍 10

3.1.1 豆瓣网站 10

3.1.2豆瓣网站评论文本的选取 11

3.1.3 文本评论信息的确定 11

3.2 基于Python网络爬虫技术 12

4. 基于情感词典方法的分析 13

4.1 情感词库的构建 13

4.1.1 豆瓣评论词典准备 14

4.1.2 评论文本分词处理 16

4.2 文本数据预处理 16

4.3 计算电影评论文本情感倾向值 16

4.3.1基于中文文本情感计算 16

4.3.2 基于文本表情的情感计算 17

5.实验结果及分析 18

5.1 界面设计 18

5.2 详细运行流程 18

结 论 21

参考文献 22

致 谢 23

1 前言

1.1 研究背景及意义

近年来,习近平总书记领导的中国经济出现了稳定可持续增长的趋势,我国以经济发展为重点,支持文化产业不断发展,电影市场不断扩大,电影是我们生活的重要组成部分,电影的票房收入将随着时间的推移稳步增加由于经济原因,它将不可避免地导致各种社会资本涌入电影业,这使得电影业在良好的各种平台、市场中迅速增长从2005年到2015年,在这短短的十年里,中国电影业面临着前所未有的爆发。2014年,票房总额达到296亿美元,增长了36%,这是一个很高的纪录。直到 2015年初, 中国电影市场是世界上仅次于美国的第二大市场,2015年电影业增长率超过35%,美国平均增长率仅为6%,中国电影制片厂首次达到440.7亿,这是从未出现过的。中国预计将在2018年超过美国,成为全球最大的电影市场,预计该计划在"十三五"结束时的市场规模将达到 1,000亿元。

随着互联网的普及,越来越多的人倾向于在社交媒体上积极地表达自己的观点、喜好和情感。社交网络平台的不同领域,如新浪微博、QQ、博客、体育运动论坛、知乎等等与蓬勃发展的中国电影市场齐头并进,所以出现了豆瓣、时光网这类的网站。此类网站记录成员的账户,通过各种电影爱好者对电影进行评级和评价,形成电影的在线分类模型。在大多数观众去看电影之前,他们通常通过豆瓣评论等网站,看电影的评论和电影的内容来决定是否愿意买票去看电影。但我们必须指出,这些评论主要是以文字形式提出的,这些文字不仅描述客观事实,而且记录主观想法,客观事实存在于时间和空间维度中,并不是正确或不正确的,也就是说,它们不会随主观意见而改变,主观意见是每个人都有的看法,不具有客观性,但我们需要的正是主观性,这是因为客观事实的存在是没有争议的,但对一部电影的观众的评价显然是主观的,在一部电影中,甚至在不同的观众中也是截然不同的,但这也是最有争议的,因为看电影的人成千上万,每个人对电影的看法也是不一样的,在这么多的评论中,重要的是要高效、情感化地分析注释文本,以便用户能够从大量的电影注释中找到符合其电影要求的电影。

剩余内容已隐藏,请支付后下载全文,论文总字数:16229字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;