论文总字数：18370字

目录

1绪论 1

1.1研究背景 1

1.2网络爬虫 1

1.2.1网络爬虫介绍 1

1.2.2网络爬虫原理 2

1.3国内外研究现状 2

1.4本课题研究意义 3

2系统开发相关知识准备 3

2.1 PyCharm简介 3

2.3 Python语言简介 3

2.2 MySql简介 3

2.4 Django简介 4

2.5 Django路由机制 5

3系统总体设计思路 5

3.1用户需求 6

3.2总体设计思路 6

3.3商品信息爬取 6

3.4商品评论爬取 8

3.5前端展示 9

3.6数据库设计 10

4爬虫设计及代码块 11

4.1商品爬取模块 11

4.2评论爬取模块 12

4.3数据库模块和主功能模块 13

5前端设计及代码块 14

5.1 Models模块 14

5.2登录和注册模块 15

5.3主界面 15

5.4信息统计 17

6总结 18

7讨论 19

参考文献 20

致谢 22

电商评论信息采集

刘家澍

，China

Abstract: Before the real development of Internet , people can only shop offline,but in recent years, online shopping has become more and more popular. The question that how to improve the quality of online shopping has aroused consumers’ concern.

With the rapid rise of electricity providers, these e-commerce sites can generate tens of thousands of clicks and tens of thousands of comments within a day.Consumers usually see some comments to improve their judgement about the quality of commodities when shopping online.Having collected the comments,seller could make changes in terms of the devices. Do all kinds of work, no matter how big or trivial and provide better services for consumers.

In order to obtain a large amount of data information, a set of available data analysis is formed. This paper will introduce the crawler system of the review information of e-commerce, which can get commodity reviews in oriented crawl.With the help of crawler technology and related tools, combined with the comment information of commodities, The design process and concrete realization of the e-commerce review information collection system will be explained from demand and working principle.

Key word: Web Crawler；Python；Jingdong commodity comments

1绪论

1.1研究背景

互联网的发展让信息技术和信息服务渗透于各个国家，企业，家庭以及个人。从纸质书籍到电子阅读，从线下购物到线上购物，从飞鸽传书到智能手机的飞跃，生活中的每一件事都和网络息息相关。目前，以互联网和其他产业相结合产生的互联网的概念已经越来越深入人心，医疗业，房地产，教育事业，农业的“互联网式”发展也让传统行业有了更深远发展空间，变身智慧产业。日益壮大的网络随之产生的数据量也呈指数形式增长。根据美国市场研究公司IDC的数据，2011年全球数据量已达1.8ZB，预测到2020年，此数值将达到35ZB^[1]。我们正处于大数据时代的磅礴上升之势中。

此次互联网风暴带动最大的行业就是服务业，它将原来的传统服务业包装升级，摇身一变成为新兴服务业，颠覆了人们对传统服务业的看法。餐饮，视频，旅游等等无不受益匪浅。电子商务正是这波浪潮中崛起的一个重要领域，它将消费者们的思绪从线下拉到线上，改变着人们的消费方式，网络购物的快捷方便受到了更多人的青睐。线上和线下购物的区别是不能直接接触到实物，就不会有较直观的感受。因此消费者往往会查看别人对于商品的评论，从商品的质量，价格，浏览量等信息中更直观，更全面的了解产品，从而进行取舍。仅从一年一度的双十一活动中就可以看出，2017年双十一天猫的成交额为1682亿元，如此庞大的交易额和购买量将会同时产生数以万计的评论量，众所周知这些数据是无法通过人类的手工劳动一步一步获取的。

所以，针对此点，本文将以京东电商平台作为研究对象，对京东商品信息和评论进行爬虫采集，形成可供分析的大数据集，并将评论在网页上展示出来，方便用户查看。

1.2网络爬虫

1.2.1网络爬虫介绍

随着科技越来越进步，信息的获取方式变得碎片化，可是网络却占据着主导地位。互联网发展初期，人们往往会浏览一些门户网站来获取信息，可随着网络喷井式发展，想要再得到用户所认为有用的信息变得异常困难。搜索引擎技术的发展提高了人们获取信息的效率，网络爬虫便是它的核心部分。现在人们上网非常依赖于使用搜索引擎来获取相关信息^[2]。

网络爬虫（Web Crawler）是由代码编写的能够从互联网上主动下载网页的程序^[3]。网络爬虫大致可分为以下四大类：聚焦网络爬虫（Focused Web Crawler），通用网络爬虫（General Purpose Web Crawler），增量式网络爬虫（Incremental Web Crawler）和深层网络爬虫（Deep Web Crawler）。一些大型搜索引擎网站如百度，谷歌的搜索引擎系统的重要组成部分就是通用网络爬虫，这种爬虫采集数据量巨大，爬虫下载的网页信息存储在引擎系统里，用来建立索引，这些网页信息就是整个互联网内容的备份，因此系统性能的强大决定着搜索时的效率，准确度等等因素。通用网络爬虫还存在着一定的局限性^[4]，因为通用网络爬虫的覆盖面很广，用户搜索返回的网页大多不是用户所需；同时互联网中网页的日益增长已经超出了爬虫的爬行能力；针对这些问题，一种面向特定主题的聚焦网络爬虫可以有效筛选用户所需的网页信息是与通用网络爬虫主要区别之一。增量式网络爬虫是在大体上不改变已下载的网页信息中，对网页采取更新爬取，只爬取新的网页，有效的较少了爬虫量。通过静态链接就可以获取到的网页通常被认为是静态网页，可是深层网页（Deep Web）往往不能被普通搜索到，需要用户自发输入一些关键性词汇，通过注册，登录等一系列步骤。BrightPlanet公司就曾表示过，深层网页所包含的信息量是普通网页的400多倍^[5]。所以，它是面向领域更高，包含高价值信息的网页的爬虫。

我们正是处在这个数据量爆炸的时代，电商，金融地产，公共事业，无论在哪个行业，互联网，信息，大数据，云，这些词都已司空见惯。为了将这些零散的数据整理成结构化，模块化的数据，爬虫正是为此服务。

1.2.2网络爬虫原理

网络爬虫的工作原理是从一个URL集合里选择一个URL，然后下载和分析网页，并按照一定的顺序不断加入新的URL，重复上述过程，直到网页全部下载完或达到某种标准而停止^[6]。因此，网络爬虫的首要步骤就是获得目标URL，通过请求的方式去获得它的网页源码，往往是一些html文件或json数据，接着就可以用特定方法爬取需要的信息。

1.3国内外研究现状

为了更加有效率地爬取网页信息，国内外研究者们提出了很多有关爬虫的算法策略，有助于提高爬虫质量。本文研究的是对于特定电商的商品评论的爬虫研究，所以会主要阐述面向特定主题的爬虫算法。本文将从基于Web页面的内容评价，超链接以及其他爬虫算法三大类进行分析。

在基于内容的爬虫算法中，Fish Search算法是DeBra等人提出^[7]。他将爬虫的过程比作鱼寻找食物，食物即代表相关网页，当某网页不存在时或爬取超时，鱼死掉，结束爬行。它是基于客户端的爬虫算法。Shark Search算法是对fishsearch算法的改进^[8]，在文本相似度的计算上更精确，爬虫准确率更高。

PageRank算法是谷歌创始人提出的^[9]，它是利用Web页面中链接的关系进行排序，用于对搜索结果的排序，它的算法的值和重要性成正比。BackLink算法^[10]即反向链接算法，一个网页的反向链接越多代表该网页越知名。由于搜索权重的偏差，网页爬虫算法可能会有一定的误差，并且开销较大。

A.Mccallum等人建议通过机器学习技术来创造一种特定领域的搜索引擎^[11]；M.Ehrig提出使用ontology计算相关度^[12]，在用户输入话题后，计算并进行直接匹配，爬虫收获率大增。

1.4本课题研究意义

人们无需在面对网络的大数据量时而望而生畏，也无需为如何收集此庞大的数据量而手足无策，电商评论信息采集系统的设计，通过爬虫收集商品的评论信息。收集完的评论信息可以规整的供大家分析，不用去网页上逐条逐页的翻看，节约了时间，提高效率。

以人为鉴,可以知得失。众多消费者在购买商品前是会通过评论来提高对商品质量，价格，外观全方位的判断力，进而提高消费质量；商家可以根据这些评论信息了解自己的不足，对产品及时更新和改进，改变营销策略，提高服务质量。而一些用户往往能给出合理化建议的评论，反映影响着市场的供求关系，具有相当大的指导意义。

2系统开发相关知识准备

本章主要从开发软件这方面介绍电商评论信息采集系统所需要的基础知识和理论，为后面具体设计夯实基础。

2.1 PyCharm简介

PyCharm是一款关于python语言的IDE开发软件，PyCharm有两种版本：商业版本和免费的社区版本。PyCharm具有很多的其他开发软件一样的功能例如代码编译和导航。同时，PyCharm还支持Django开发，正迎合相关系统的前端开发。总体来说，PyCharm是目前针对于Python开发比较主流的开发环境。

2.3 Python语言简介

Python是Guido Van Rossum在1989年圣诞节为打发时间而创造的语言，它是一种简易强大的编程语言，相比于Java，C语言，Python是同时支持面向对象和过程的编程语言^[13]，而且还拥有丰富的标准库^[14]，用来处理系统相关的操作。总的来说，Python正受到更多的青睐。因此本电商评论信息采集系统将采用Python语言进行开发。

2.2 MySql简介

MySql是一种小型关系型数据库管理系统，现属于Oracle公司^[15]。因为MySql数据库在实际操作过程中成本低^[16]、简单易上手等的特点，越来越多的企业选择MySql。而与MySql相匹配的SQL语言可以提供数据的更改更新，查找的相关操作，是较主流的数据库语言。MySql的逻辑结构图如下图2-1所示，它是基于客户机/服务器工作模式的关系型数据库，客户端连接到数据库服务器后通过语言命令进行操作，服务器端收到用户的请求后开始执行这些操作，并且将信息返回给用户。

剩余内容已隐藏，请支付后下载全文，论文总字数：18370字

注册

找回密码