基于Hadoop的电信运营商用户消费分析系统

 2022-01-17 11:01

论文总字数:20689字

目 录

1.绪论 1

1.1 研究目的 1

1.2 研究意义 1

1.3 国内外研究现状 1

1.3.1 国外研究现状 1

1.3.2 国内研究现状 1

2.需求分析 2

3.可行性分析 2

3.1 政策可行性 2

3.2 技术可行性 3

3.3 经济可行性 3

3.4 社会可行性 3

4.系统设计 3

4.1 系统结构设计 3

4.2 数据库设计 3

4.3 系统功能具体分析 4

5.系统实现 5

5.1 搭建虚拟机集群 5

5.2 Hadoop的安装与配置 7

5.3 Hive的安装与配置 10

5.4 安装Zeppelin 13

5.5 数据聚类程序包设计分析与实现 14

6.系统使用展示 17

6.1 数据获取 17

6.2 数据聚类处理 18

6.3 聚类数据可视化分析 19

总结 21

参考文献 21

致谢 23

基于大数据的电信运营商用户消费分析系统

赵宇佳

,China

Abstract:With the continuous development of communication technologies, people use telecommunication services more and more frequently, thus generating a large amount of user consumption behavior data. In order to store and analyze massive consumer behavior data, this paper has developed a user behavior analysis system. The system use Hadoop distributed system architecture, combines hive to store user data, uses JAVA language to develop K-Means clustering program based on MapReduce framework, and uses Zeppelin data visualization analysis tool to visualize clustering data. The system's analysis of consumer behavior data not only provides operators with more accurate customer marketing plans, but also provides the company with future direction of operations. Users can use this system to cluster user data and operate the visual interface to obtain reports for analysis.

Key word: BigData; Hadoop; Cluster analysis

  1. 绪论
    1. 研究目的

在通讯技术的迅猛发展下,几乎每个现代人每时每刻都会使用到电信运营商提供的通信服务。在如此庞大的用户量与使用时间的情况下,产生的数据量毋庸置疑也是超级庞大的。据统计估算,在百万量级下的日活跃用户数量下,就能产生约1TB大小的数据量,那么可想而知,在数以亿计的日活跃用户群的使用下,一天就能产生PB量级的数据[1]。为了利用起如此庞大的数据量,分析出其中包含的有价值的信息,为电信服务运营商提供用户业务数据使用情况分析的系统是十分有必要的。

    1. 研究意义

在如今4G通信技术基本普及,光纤基本替代ADLS接入的现状下,个人消费者每日产生的数据就如此海量,而即将在2020年上市的5G技术,毫无疑问将会给这个数字在增加上好几倍,甚至好几个量级。由此可预见未来电信行业需要处理的数据量增长率将会逐渐升高,不断增长。因此,本文将会对有能力储存处理海量数据的系统进行研究,为电信行业处理分析大数据提供一种成本低廉,扩展性高,容错性高与处理能力强大的解决方案,使电信运营商能够充分利用用户的消费记录数据进行分析,为不同的用户提供更精准,更定制化的服务;同时也能通过聚类分析,划分用户层次,分析不同层次的用户的需求。

    1. 国内外研究现状

Hadoop诞生于本世纪初的第二个年头,Apache公司建立的一个搜索引擎项目。在学习了谷歌发表的分布式文件系统的相关论文后,Hadoop的核心HDFS与MapReduce就开始成型。在经过雅虎等公司了一年多的发展和研究后,Hadoop逐渐开始被各行业熟知[2]。在这之后,Hadoop项目开源,由于Hadoop转为一个开源的项目,同时具有较好的生态环境,因此在国内外得到广泛应用。

      1. 国外研究现状

雅虎是Hadoop最大的支持者,雅虎在2006年就决定使用Hadoop,用以搭建研究集群来用以研究用户支持和发展Hadoop。在不到两年后,雅虎便把其一搜索引擎项目搭建在一个性能强大的Hadoop集群中。该集群主要用于雅虎的用户行为分析,广告精准投放,定制化推送与支撑其搜索引擎 [3]。同时雅虎的Hadoop研究团队使用该技术不断在各种排序计算中打破记录,显示出了Hadoop极大的计算能力与发展潜力。

除了雅虎这些互联网公司,连传统行业都参与到Hadoop的使用中来。《纽约时报》为了将大量的报纸制作成PDF格式的电子扫描档案。为了解决这个问题,《纽约时报》使用了亚马逊的云计算,在利用Hadoop的便利的并行计算功能的情况下,只需不到一天便解决了[4]

      1. 国内研究现状

在国内,Hadoop的应用主要集中于互联网行业。百度,阿里巴巴,腾讯三大互联网巨鳄均拥有自身的Hadoop集群。百度使用Hadoop为自己的数据研究、搜索引擎、广告投放等团队提供统一的数据储存与计算服务,数据挖掘分析服务与用户分析服务,不仅如此Hadoop还充当了数据仓库系统等。阿里巴巴则用于搜索支持、淘数据、数据魔方和量子统计等应用服务。

中国移动也是Hadoop的使用者之一。在使用Hadoop之前采用的是一台较为昂贵的Unix服务器用于处理至多一百四十万个客户的用户行为分析,占比约总数据的十分之一。同时即使是在数据受限的情况下,该服务器执行应用处理数据的时间仍然很长。因此中国移动实验性的采用了Hadoop平台,以可扩展性高,成本低,业务化,交互性高为目标,开发了名为BD-PDM的系统[5]。该系统在不到Unix商业服务器的十分之一成本的情况下,完成了十数倍的工作量。

由Hadoop被广泛使用的现状,结合数据爆炸的互联网现状可知,Hadoop在短时间内会不断发展,并更会在更多行业更多领域被应用。

  1. 需求分析

随着电信运营商业务的全面化运营策略开展以及4G等新一代通信技术对移动互联网业务产生的巨大推动作用影响下,大数据的数据量规模,数据产生速度,数据规模,数据内在价值这几个维度上得到了充分的显现。而对于目前的电信运营商,在不对现有的网络设备与运营成本追加足够多投入的条件下,大数据体系是企业未来规划中可取得足够高回报的多种增长点中有较高潜力的一种。不过因为目前大数据人才在各个行业中的稀缺,不止电信运营商,互联网公司甚至大数据方向公司都存在大数据方向人才缺失的问题。与互联网公司相比,电信运营商在大数据人才储备方面显然更不具备明显的优势;并且因为电信运营管理系统的内部构造十分复杂,所以大数据技术尚未在电信运营商中得到全面的应用并发挥价值。因此,如何向电信行业引进大数据的相关技术,并在此基础上充分把握大数据技术应用的机会给予用户更深层次,更符合用户消费需求的产品与服务是一个非常重要的问题。

对于电信运营商可以引入的大数据技术方向,主要有以下几种:1、客户社交网络分析;2、客户体验分析;3、客户价值分析。而其中第三点客户价值分析的意思是企业根据客户在不同消费行为中表现出的价值而对客户进行不同的分群聚类,然后根据客户的聚类分区提供客户化的营销方案与服务的水平等级。因此客户价值分析的最核心部分是对客户的价值等级评定。因此,一个分析测算用户价值的系统在客户价值分析方向是十分有必要的。

  1. 可行性分析
    1. 政策可行性

我国于二零一六年发布的《中华人民共和国网络安全法》,并于第二年六月正式生效。根据《网络安全法》第十八条可知,国家对于大数据产业是持鼓励态度的,国家鼓励对网络数据进行利用的行为,并以此来推动社会的经济,文化等方面的发展。不过在鼓励的同时,国家也对个人或集体利用网络数据的行为提出了前提:《网络安全法》第四十一条提到关于公开收集使用个人信息的行为,并对此作出了明确的规定。法规指出,网络运营者需要向用户明确说明需要进行收集的信息的用途,使用范围等信息,并需要在获得用户的同意后,合理合法地使用。因此电信运营商只要在法律允许范围内,向用户明示并得到使用个人信息的许可,就可以正常使用用户数据。因此本系统在政策上是可行的[6]

    1. 技术可行性

本系统使用到的技术主要有Hadoop分布式计算平台及其后续模块,虚拟机集群,MySql数据库。

Hadoop分布式计算架构可追溯至2002年Apache一个名为nutch的网络搜索引擎项目。从诞生到如今不过十数年,但由于其十分易于使用及性能强大等优点及雅虎这样的大公司对其进行强力支持,Hadoop在各大互联网公司得到广泛使用并发展出了成熟的系统生态圈,衍生出了后续各类子项目和后继模块。

虚拟机技术则是早在上世纪就被提出,虚拟机用于在硬件上实现软件环境,虚拟机集群更是被广泛用来测试网络搭建工作,发展至今早已成为一项成熟的技术被应用于各方各面。

剩余内容已隐藏,请支付后下载全文,论文总字数:20689字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;