影视数据爬取和可视化分析设计与实现

 2022-11-21 09:11

论文总字数:16985字

摘 要

摘 要

网络爬虫是一种通过多种方式从网络上获取信息的程序,然后进行数据清洗,提取出所需要的数据。然后进行数据的可视化,将数据简洁明了的展现给用户。

  1. 影视数据的爬取:本文采用requests类库、BerautifulSoup4类库以及Selenium类库对于使用动态网页数据的爬取。对于网页影视数据出现缺省值的时候,对于缺省值的再次爬取或者对于没有评分已经评分人数的电影需要进行匹配并且置零。
  2. 数据解析、分析以及可视化:对于爬取的电影总数据以及各类型影视数据按照评分排序,以及对于演员作品的查找。可视化方面对于自1990年后每五年的高分作品以及各类型影视作品的平均分数使用直方图的形式呈现给用户。
  3. 基于用户对于各类型影视作品的查找该系统将为用户推荐10部用户常查找类型的影视作品。
  4. 该系统一共应用五个类,模拟浏览器对于网页进行各类操作的类,四个界面的类,用户注册、登录、对于数据分析的界面以及显示系统给用户推荐的影视作品的显示界面。对于数据的分析大概分为三类函数:分类函数、排序函数、查找函数。可视化模块是接收数据分析模块处理的数据,然后画图展现。

【关键字】python、网络爬虫、数据清洗、数据存储、数据可视化

Design and implementation of film and television data crawling and visual analysis

Abstract

A web crawler is a program that obtains information from the network in various ways, and then performs data cleaning to extract the required data. Then visualize the data and present the data concisely and clearly to the user.

1. Crawl of film and television data: This article uses the requests class library, BerautifulSoup4 class library and Selenium class library for crawling using dynamic web page data. When there is a default value for the webpage video data, the default value is crawled again or for the movies that have not been rated and the number of people who have been rated needs to be matched and set to zero.

2. Data analysis, analysis and visualization: sort the total movie data of crawling movies and various types of film and television data according to ratings, and search for the works of actors. In terms of visualization, the average scores of high-scoring works every five years since 1990 and various types of film and television works are presented to users in the form of histograms.

3. Based on the user's search for various types of film and television works, the system will recommend 10 types of film and television works that users often search for.

4. The system uses a total of five categories, simulating browsers to perform various operations on web pages, four interface categories, user registration, login, data analysis interface, and display interface recommended by the display system . The analysis of data is roughly divided into three types of functions: classification function, sorting function, and search function. The visualization module is to receive the data processed by the data analysis module and then display it in a drawing.

[Keywords] python, web crawler, data cleaning, data storage, data visualization

东南大学成贤学院毕业设计报告(论文)

诚 信 承 诺

本人承诺所呈交的毕业设计报告(论文)及取得的成果是在导

师指导下完成,引用他人成果的部分均已列出参考文献。如论文涉及

任何知识产权纠纷,本人将承担一切责任。

学生签名: 周宇豪

日 期:2020.04.20

目录

摘 要 II

Abstract III

第一章 绪 论 1

1.1研究目的与意义 1

1.2研究内容与方法 1

1.3论文框架 1

第二章 相关技术介绍 2

2.1 网络爬虫 2

2.2对于动态网页的爬取 3

2.3数据分析与可视化分析 3

2.4影视作品的推荐算法 4

第三章 系统需求分析 5

3.1系统需求分析 5

3.2 系统性能分析 5

3.3 可行性分析 5

第四章 系统设计 6

4.1 系统分层设计 6

4.2 系统框架图 6

4.3系统流程图 7

4.4数据文件设计 9

剩余内容已隐藏,请支付后下载全文,论文总字数:16985字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;