Xgboost算法原理和应用

 2022-01-17 11:01

论文总字数:22545字

目 录

1.绪论 1

1.1 研究背景及意义 1

1.2论文的主要工作 1

1.3论文结构 1

2.机器学习(ML) 1

2.1 什么是机器学习 1

2.2机器学习的发展 1

2.3 机器学习的重要性 2

2.4 机器学习的工作原理 2

2.5机器学习算法的选择 4

3.梯度增强(GBM) 4

3.1什么是GBM 4

3.2 GBM的简介 5

3.3 GBM的推导方法(由Friedmam最初推导出的GBM的基本方法) 6

4 .Xgboost 8

4.1Xgboost的简介 8

4.2Xgboost的优点 9

4.3Xgboost的算法原理 10

5 .Xgboost的应用 15

5.1简述 15

5.2 Xgbosot安装所需软件及介绍 15

5.3环境配置 15

5.4实验任务及代码示例 15

6.总结与展望 18

参考文献 19

致谢 21

Xgboost算法原理和应用

潘东坡

,China

Abstract: With the rapid improvement of human science and technology, the application of artificial intelligence is becoming more and more common in people's daily life. Machine learning, as one of the artificial energy, plays an important role in the development of artificial intelligence. Xgboost (eXtreme Gradient Boosting) is an optimal implementation of GBM (Gradient Boosting Machines). It's fast and effective. It is a powerful and powerful tool in the field of applied machine learning. Xgboost is not only in a lot of data science competitions (such as Kaggle, KDD Cup, etc.). It is high speed and effective for data processing, and can be extended to large-scale data by many Internet Co. In this paper, the principle and formula derivation of Xgboost and the training application of Xgboost on Mushroom dataset demonstrate the advantages of Xgboost.

Key words:Boosting;GBM;ML;Xgboost

1.绪论

1.1 研究背景及意义

Kaggle竞赛在数据科学届久负盛名,其给来自全世界的数据科学家以及从事相关专业领域的人士提供了一个相互交流切磋的平台。统计学者和数据发掘专家能够在其上进行各种比赛从而来产生最好的解决方法的模型。其在全世界范围内拥有靠经20多万名的数据科学家及爱好者。Kaggle试图通过数据科学运动,找到一些直接解决难题的最优方案。Xgboost最初是由陈天奇开始的一个研究项目[1]。最初,它作为一个终端应用程序,可以使用libsvm配置文件进行配置。在赢得希格斯机器学习挑战赛后,它在ML竞赛圈中广为人知并并被广大Kaggle竞赛者运用到比赛中去。Xgboost在Kaggle竟赛中取得了相当优异的成绩,在有1700多支竞赛队伍的激烈角逐中,占有一席之地。其不管是在计算精度还是在精算速度上,较以往模型都有惊人提升。

1.2论文的主要工作

本论文的主要工作如下:

论述Xgboost的优势以及其完整的数学推导方法

将其在应用中体现

1.3论文结构

本论文结构如下

第一章:绪论,介绍Xgboost的产生背景以及优势地位,对论文的总体结构进行总结。

第二章:机器学习(ML),主要介绍机器学习的产生和大体原理。

第三章:梯度增强树(GBM),主要介绍梯度增强树的原理。

第四章:Xgboost,主要论述Xgboost相对于ML和GBM的优势以及推到过程。

第五章:Xgboost的应用,主要展示Mushroom模型在Xgboost上的运行过程和结果。

第六章:总结与展望,对论文总体的总结与心得,并对未来的展望。

2.机器学习(ML)

2.1 什么是机器学习

机器学习是用来分析机器接收的各种数据并进行分析的技术,可以使分析模型建立自动化。它是人工智能的一个分支,其教导计算机做人与动物的自然事物:从经验中学习。机器学习算法直接利用其独特的算法原理,直接从各种数据中智能的学习信息,不依赖于预先确定的方程作为模型。随着可用于学习的样本数量的增加,算法自适应地改善其性能,以最少的人为干预作出决策。

2.2机器学习的发展

由于新的计算技术,今天的机器学习不像过去的机器学习。它源于模式识别和计算机可以学习而不被编程来执行特定任务的理论; 对人工智能感兴趣的研究人员想看看电脑是否可以从数据中学习。他们能够从之前的计算中得到学习,从而产生可靠的,可重复的决定。这是一门并不新鲜的科学,但却获得了新的动力。

尽管机器学习算法已经存在了相当长的一段时间,但是最近的一个发展是能够自动将复杂的数学计算应用于大数据。以下是您可能熟悉的一些广为人知的机器学习应用程序示例:

1)宣传力度很大的特斯拉自动驾驶汽车。

2)在线推荐提供诸如淘宝和京东的推荐,机器学习应用程序在日常生活最常见的方面之一。

3)在社交网站上了解客户对你的看。

4)诈骗识别,机器学习在我们日常生活中的非常重要的用途之一。

2.3 机器学习的重要性

随着大数据的兴起,机器学习已经成为解决领域问题的关键技术,例如

①金融服务:金融行业的银行和其他企业使用机器学习技术来实现两个关键目的:识别数据中的重要见解并防止欺诈行为。这些见解可以识别投资机会,或帮助投资者知道何时进行交易。数据挖掘还可以识别具有高风险概况的客户,或使用网络监控来查明欺诈的警告信号。

②政府:政府机构如公共安全和公用事业机构对机器学习有特殊需求,因为它们有多种数据来源可供挖掘洞察力。例如,分析传感器数据可以确定提高效率和节省成本的方法。机器学习还可以帮助检测欺诈并最大限度地减少身份盗用。

③ 卫生保健:由于可穿戴设备和传感器的出现,机器学习在医疗行业中是一个快速增长的趋势,可以使用数据实时评估患者的健康状况。该技术还可以帮助医疗专家分析数据以识别可能导致改善诊断和治疗的趋势或危险信号。 

④市场营销与销售:根据以前的购买建议您可能喜欢的物品的网站使用机器学习来分析您的购买历史记录 - 并推广您感兴趣的其他物品。这种捕获数据,分析和使用它来个性化购物体验(或实现营销活动)是零售业的未来。

⑤油和气:寻找新的能源。分析地下矿物质。预测炼油厂传感器故障。简化石油分销以提高效率和成本效益。这个行业的机器学习用例数量巨大 - 并且还在不断扩大。

⑥运输: 分析数据以识别模式和趋势是运输行业的关键,运输行业依赖提高路线效率和预测潜在问题以提高盈利能力。机器学习的数据分析和建模是交付公司,公共交通和其他运输组织的重要工具。

2.4 机器学习的工作原理

两种被最普遍采用的机器学习方法是监督学习和无监督学习(如图1):监督式学习,它可以在已知的输入和输出数据上来训练模型,以便它预测未来可能的的输出;而无监督学习,可以在输入的数据中寻找到隐藏模式或内在结构。

图1.机器学习技术囊括了无监督学习和监督学习

2.4.1监督学习

受监督的机器学习可以建立一个模型,预测时间发生的不同结果。如果您已知道要尝试预测的输出的数据,请使用监督式学习。

分类的技术可以用来预测不连续的输出反应 - 例如,判断电子邮件是真的还是垃圾邮件,或者肿瘤是癌还是良性的。分类模型将输入数据分类为多个类别。

如果您的数据可以被记录,可以被分成固定的的组或者类,请使用分类。例如,在图像识别运行中,无监督模式的识别技术被用于物体的大小检测和图形的定向分割。

如果您应用的是数据领域,或者您的返回的数据是实际数字,例如温度或一段设备发生故障的时间,则使用回归技术。

2.4.2无监督学习

无监督学习能够被用来体现不同数据中暗藏的规律或者结构。它用于从没有标记的输入数据组成的数据集中得出推论。

在众多无监督机器学习技术的方法中,聚类(如图2)是运用最多的一种。它用于寻找数据以查找不可见的的模式或数据分组。其在科学上的运用有生物的DNA序列分析和检测。

例如,假设一家手机公司想要改变其建造手机塔的地点,他们可以使用机器学习来预测塔周围使用人群的数量。手机一次只可以与一个塔实现对话,因此该团队使用聚类算法来设计最佳放置单元塔,以达到用户群的手机信号最强的目的[2]

图2.聚类可以查找数据中的隐藏模式

2.5机器学习算法的选择

第一时间选择到最有的算法好像很有难度,有数十种有监督和无监督的机器学习算法(如图3),每一种机器学习算法都采用很多不同的学习方法。得到到正确的算法部分仅仅是试验,即使是经验丰富的数据科学家也不能判断算法是否能够在没有尝试的情况下就能最好的应对一个事件的发生。但是,选择算法的众多标准中还包括数据的大小和类型,您希望从数据中获得的见解以及如何使用这些见解。

剩余内容已隐藏,请支付后下载全文,论文总字数:22545字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;