新机器学习算法在不同数据集下的偏差方差及其他统计性质

 2022-05-12 08:05

论文总字数:43691字

题 目_____新机器学习算法在不同数据集下的偏差方差及其他统计性质______

____数学____________院(系)______统计________专业

学 号_________07315124_______________________

学生姓名________华潇翔________________________

指导教师________钱成________________________

起止日期________2019.1.1 – 2019.5.30_______________

设计地点_______东南大学数学学院_________________

东南大学毕业(设计)论文独创性声明

本人声明所呈交的毕业(设计)论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。

论文作者签名: 华潇翔 日期: 2019 年 5 月 30 日

东南大学毕业(设计)论文使用授权声明

东南大学有权保留本人所送交毕业(设计)论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布(包括刊登)论文的全部或部分内容。论文的公布(包括刊登)授权东南大学教务处办理。

论文作者签名: 华潇翔 导师签名: 钱成

日期: 2019 年 5 月 30 日 日期2019 年 5 月 30 日

\documentclass[UTF8,a4paper]{ctexart}

\usepackage{amsmath}

\usepackage{amsfonts}

\usepackage{amssymb}

\usepackage{amsthm}

\usepackage{natbib}

\usepackage[left=2.5cm,right=2cm,top=2cm,bottom=2cm]{geometry}

\usepackage{titlesec}

\usepackage{setspace}

\usepackage{graphics}

\usepackage{multirow}

\usepackage{diagbox}

\usepackage{graphicx}

\usepackage{subfigure}

\usepackage{caption}

\usepackage{csvsimple}

\usepackage{booktabs}

\usepackage{titling}

\usepackage{fontspec}

\setmainfont{Times New Roman}

\newtheorem{definition}{定义}[section]

\newtheorem{theorem}{定理}[section]

\newtheorem{proposition}[theorem]{命题}

\newtheorem{lemma}[theorem]{引理}

\newtheorem{corollary}[theorem]{推论}

\newtheorem{example}{例子}[section]

\newcommand{\R}{\mathbb{R}}

\newcommand{\Q}{\mathbb{Q}}

\newcommand{\C}{\mathbb{C}}

\newcommand{\N}{\mathbb{N}}

\newcommand{\Max}{\mathrm{Max}}

\newcommand{\Min}{\mathrm{Min}}

\newcommand{\Mod}[1]{\quad(\mathrm{mod}\ #1)}

\newcommand{\adic}[1]{#1-\mathrm{adic}}

\newcommand{\chuhao}{\fontsize{42pt}{\baselineskip}\selectfont}

\newcommand{\xiaochuhao}{\fontsize{36pt}{\baselineskip}\selectfont}

\newcommand{\yihao}{\fontsize{28pt}{\baselineskip}\selectfont}

\newcommand{\erhao}{\fontsize{21pt}{\baselineskip}\selectfont}

\newcommand{\xiaoerhao}{\fontsize{18pt}{\baselineskip}\selectfont}

\newcommand{\sanhao}{\fontsize{15.75pt}{\baselineskip}\selectfont}

\newcommand{\xiaosanhao}{\fontsize{15pt}{\baselineskip}\selectfont}

\newcommand{\sihao}{\fontsize{14pt}{\baselineskip}\selectfont}

\newcommand{\xiaosihao}{\fontsize{12pt}{\baselineskip}\selectfont}

\newcommand{\wuhao}{\fontsize{10.5pt}{\baselineskip}\selectfont}

\newcommand{\xiaowuhao}{\fontsize{9pt}{\baselineskip}\selectfont}

\newcommand{\liuhao}{\fontsize{7.875pt}{\baselineskip}\selectfont}

\newcommand{\qihao}{\fontsize{5.25pt}{\baselineskip}\selectfont}

\titleformat{\section}{\xiaosanhao\bfseries\centering}{\thesection}{1em}{}

\titleformat{\subsection}{\sihao\bfseries}{\thesubsection}{1em}{}

\titleformat{\subsubsection}{\xiaosihao}{\thesubsubsection}{1em}{}

\title{新机器学习算法在不同数据集下的偏差方差及其他统计性质}

\author{华潇翔}

\begin{document}

\bibliographystyle{unsrt}

\newpagestyle{main}

{

\sethead{}{\xiaowuhao 东南大学2019届本科生毕业设计(论文)}{第\xiaowuhao\thepage 页}

}

\maketitle

\begin{abstract}

{\xiaosihao 本文首先介绍了机器学习框架下的各种衡量标准,包括准确率、查准率、查全率、ROC、AUC等。然后介绍了各类机器学习所用的损失函数,以及在平方损失、0-1损失下的偏差方差分解。接下来本文介绍了各类采样方法,包括Holdout法、k-折交叉验证法、留一法、Bootstrap法、Mini-bootstrap法等等。然后本文详细介绍了两个较新的机器学习算法:极端随机树算法和LightGBM算法。之后本文介绍了需要比较的各种算法,并就如何进行采样、数值模拟以及检验做了讨论。然后本文基于PMLB数据集,对两个不同算法在不同情况下的偏差、方差等统计量的变化做了比较。本文比较了算法在不同元特征数据集下的统计量变化,在不同的采样比例下统计量的变化,在对数据进行微扰的情况下统计量的变化,在不同默认参数算法和最优算法之间统计量的差异,以及不同参数下统计量的变化。在极端随机树算法中,采样比例对偏差、方差、损失函数有显著影响,该算法偏差的鲁棒性较好,最优算法能有效降低方差从而降低损失函数,而大多数情况下调参对偏差、方差、损失函数均有显著影响。在LightGBM算法中,采样比例对偏差、方差、损失函数有显著影响,该算法方差的鲁棒性较好,最优算法能有效降低偏差从而降低损失函数,而改变参数除了改变树的最小叶节点样本数其他对统计量改变并无显著影响。

\noindent 关键词:极端随机树算法、LightGBM算法、偏差、方差}

\end{abstract}

\newpage

\title{The statistical properties of bias, variance and other statistics under new machine learning algorithms}

\maketitle

\renewcommand{\abstractname}{ABSTRACT}

\begin{abstract}

{\xiaosihao This article shows the different metrics of machine learning, including accuracy, recall rate, precision rate, ROC, AUC and so on. Then the author shows different loss function and the bias-variance decomposition under square loss and zero-one loss. Next, the author show different sampling methods including Holdout method, k-fold cross validation bootstrap method and so on. Then the author show two new machine learning algorithms: extreme randomized trees algorithm and LightGBM algorithm. Then the author make comparison of different statistics, mainly bias and variance, under different situations. It is found that under the extreme randomized tree algorithm, the sample rate has significant influence on bias, variance and loss function; the robustness of bias is good; the best parameter method can essentially decrease the variance; and for most cases changing one parameter has a significant influence on bias, variance and loss function. Under LightGBM algorithm, the sample rate has significant influence on bias, variance and loss function; the robustness of variance is good; the best parameter method can essentially decrease the bias; and no other parameters except min\_sample\_per\_leaf has a significant influence on bias, variance and loss function.

\noindent KEY WORDS: Extreme randomized trees algorithm, LightGBM algorithm, bias, variance}

\end{abstract}

\newpage

\renewcommand{\contentsname}{\sanhao 目\ \ \ \ 录}

\tableofcontents

\newpage

\pagestyle{main}

\xiaosihao

\setlength{\baselineskip}{22pt}

\section{引言}{}

机器学习作为时下非常热门的一个研究方向,截至目前已经发展出了大量基于不同模型假设的算法,在各行各业有了非常广泛的应用。但是不同的算法所使用的范围不同,而大多数研究仅仅会针对一个或者几个数据集进行测试,或者根据已有的某个数据集生成新的样本进行测试,而并不会针对大量不同的数据集进行测试,故在2017年之前相关的研究一直处于空白状态。

Randal S. Olson 等人在2017年发布了PMLB数据集\citep{Olson2017},并基于该数据集进行了部分基本机器学习算法的测试。作者将一些已建立的机器学习方法应用于整个基准测试套件,并分析数据集和算法如何在性能方面进行聚类。由于该数据集包含了大量不同维度的大样本数据集,并且具有不包含缺失数据,分类结果格式统一等优点,故无需进行大部分数据预处理工作,仅需运用数据标准化等部分预处理步骤后直接套用现有的机器学习框架。

本课题的任务是基于PMLB数据集,对其中166个子数据集运用当前较新的机器学习算法进行分析,包括但不限于极端随机树算法,LightGBM算法等。此外通过控制不同的变量,例如模型超参数、训练集-测试集比例等,分析不同情况下算法的表现。

{}

本文主要分为5章,具体安排如下:

第一章是引言,主要介绍本文的研究背景和意义。

第二章介绍本文中机器学习的预设条件,符号及机器学习的常用衡量方法及采样方法。

第三章介绍了机器学习中的极端树算法

第四章介绍了机器学习中的LightGBM算法。

第五章介绍了所用的采样、数值模拟和检验方法。

第六章介绍了极端随机树算法和LightGBM算法在不同环境下各统计量的结果。

\newpage

\section{机器学习预设条件和衡量方法}

\subsection{预设条件}

\label{ValuationNotation}

假设有一组数据集$X = (x_1,x_2,...,x_n),~~~~~~\forall i=1,...,n,x_i\in \mathcal{X} = \mathbb R^d

剩余内容已隐藏,请支付后下载全文,论文总字数:43691字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;