机器学习中的降维方法

 2022-05-22 08:05

论文总字数:34460字

%本模板在CTEX2.8版本下编辑,运行H两遍PDFLatex编译通过

%论文封面需要Word单独制作

\documentclass[oneside,openany,12pt]{cctbook}

%\documentclass[11pt]{article} 这是一般发表论文的格式

\zihao{3}\ziju{0.15}

\pagestyle{myheadings} \textwidth 16.0cm \textheight 22 truecm

\special{papersize=21.0cm,29.7cm} \headheight=1.5\ccht

\headsep=20pt \footskip=22pt \topmargin=0pt \oddsidemargin=0pt

\setcounter{section}{0}

\frontmatter

\def\nn{\nonumber}

\newcommand{\lbl}[1]{\label{#1}}

\newcommand{\bib}[1]{\bibitem{#1} \qquad\framebox{\scriptsize #1}}

\renewcommand{\baselinestretch}{1.5}

\newtheorem{theorem}{定理}

\newtheorem{proposition}{命题}

\newtheorem{lemma}{引理}

\newtheorem{remark}{Remark}

\newtheorem{corollary}{推论}

\newtheorem{defi}{定义}

\newcommand{\be}{\begin{equation}}

\newcommand{\ee}{\end{equation}}

%\def\c{\theta}

\newcounter{local}

\newcounter{locallocal}

\newcommand{\scl}{\stepcounter{local}}

\setcounter{local}{0}

%\renewcommand{\theequation}{\arabic{chapter}.\arabic{section}.\arabic{local}}

\renewcommand{\theequation}{\arabic{chapter}.\arabic{equation}}

%\renewcommand{\theequation}{\arabic{local}.\arabic{local}}

\def\s#1{\setcounter{local}{#1}}

%\usepackage[nooneline,center]{caption2}

%\usepackage[dvips]{graphics,color}

%\usepackage{Picinpar}

\usepackage{amsmath,amssymb}

\usepackage{graphicx}

\usepackage{flafter}

\usepackage{fancyhdr}

\usepackage{mathrsfs}

%%%%%%%%%%%%%%%%%%%%%%%%%%%设置页眉双下划线%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\newcommand{\makeheadrule}{%

\makebox[0pt][l]{\rule[0.55\baselineskip]{\headwidth}{0.4pt}}%

\rule[0.7\baselineskip]{\headwidth}{0.4pt}}

\renewcommand{\headrule}{%

{\if@fancyplain\let\headrulewidth\plainheadrulewidth\fi

\makeheadrule}}

\makeatother

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\pagestyle{fancy}

\renewcommand{\chaptermark}[1]{\markboth{\kaishu{\chaptername}~~~#1~}{}} % 设置页眉章节

\fancyhead[l]{\kaishu{~~~东~南~大~学~本~科~毕~业~论~文}}

\fancyhead[c]{}

\fancyhead[r]{\leftmark}

\fancyfoot[l]{}

\fancyfoot[c]{\thepage}

\fancyfoot[r]{}

\begin{document}

\begin{titlepage} %从此到 \end{titlepage}的内容第一页不编页号,以后的编页号

\end{titlepage}

\frontmatter %从 \frontmatter 到 \mainmatter 处的内容可在目录中出现但不编章号

%从 \backmatter 以后的内容也在目录中出现但不编章号

\begin{center}{\kaishu \zihao{2}{机器学习中的降维方法}}\end{center}

\vskip 0.5cm

\begin{center}{\kaishu\zihao{4} 摘\ \ \ \ 要}

\end{center} 

\addcontentsline{toc}{chapter}{摘\ \ \ \ 要} \kaishu \ \

我们身处大数据时代,其特点是数据集多、数据量大且维数特别高,数据降维成为数据分析中最为关键的环节。数据降维是多元统计分析中的经典问题,有海量文献和丰富理论,在模式识别、人工智能等领域被广泛应用。本文主要目的是总结降维的一些重要方法。

主成分分析是降维技术中经典的方法,其新特征是原始特征的函数组合,推广方法为主曲线、主曲面、核主成分分析(KPCA)等。经典方法常有局限性,尝试对其改进如下:(1)将算法中加入保护簇结构这一目标,得到局部保留投影的~PCA;(2)在聚类时自动进行数据降维的方法。

回归分析中常用到降维,切片逆回归(~SIR)为1991年提出的重要降维方法。SIR主要是将低维的响应变量切片,对高维自变量实现降维。

SIR 提出之后产生了许多后续工作,本文选取其中的轮廓投影法(~CP)研究。CP主要针对椭球分布假设不成立的情形,加入轮廓投影,避免了椭球轴存在问题,实现了SIR的推广。

最后对上述算法分别进行实例研究。首先,将~SIR运用在对高维响应变量的降维(~MP) 中,数据由计算机模拟得到,比对理论结果和实践结果,发现降维结果理想。其次,对网络入侵进行识别,数据为~KDD Cup 于~1999 年给出的高维数据集,每个入侵类型的训练数据为高维,从中提取重要的特征子集实现降维,从而提高入侵识别的效率。

\vskip 1cm \noindent{\kaishu 关键词: \ 降维方法,\主成分分析,\ 高维数据,\ 切片逆回归 }

\newpage

\thispagestyle{plain}\songti

\begin{center}{\rm Dimensional reduction in machine learning}\end{center}

\vskip 0.5cm

\begin{center}{\rm\zihao{4} Abstract}

\end{center}

\addcontentsline{toc}{chapter}{Abstract}

\par

We are in the era of big data, which is characterized by many data sets, large amount of data and high dimensionality. Data dimensionality reduction is the most critical part of data analysis. Data dimensionality reduction is a classic problem in multivariate statistical analysis. The main purpose of this paper is to summarize some important methods of dimensionality reduction.

Principal component analysis is a classical method in dimensionality reduction technology. Its new feature is the combination of the original features, and the generalization method is the principal curve, the principal surface, and the kernel principal component analysis (KPCA). The classical methods often have limitations. Try to improve them as follows: (1) Add the protection cluster structure to the algorithm to obtain PCA for local retention projection; (2) Automatically reduce data for data in clustering.

In regression analysis, reducing dimensionality methods is often used, and slice inverse regression (SIR) is an important method.

After the SIR was proposed, a lot of follow-up work was produced. In this paper, the contour projection method (~CP) is selected. CP mainly focuses on the case where the ellipsoid distribution assumption is not established, and adds contour projection to avoid the problem of the ellipsoid axis and realize the promotion of SIR.

Finally, some examples is carried out. Firstly, SIR is applied to the dimensionality reduction (~MP) of high-dimensional response variables, and the data is simulated by computer. It is found that the dimensionality reduction results are ideal. Secondly, the network intrusion is identified. The data is the high-dimensional data set given by ~KDD Cup in ~1999. The training data of each intrusion type is high-dimensional, and the important feature subsets are extracted to achieve dimensionality reduction, thereby improving the intrusion. The efficiency of identification.

\vskip 0.8cm \noindent{\rm Key Words:\ Dimensionality reduction method,\ PCA,\ high dimensional data, \ SIR }

\tableofcontents

\mainmatter

\songti

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\chapter{绪论}

\s0 \vskip 3mm

\section{背景及意义}

当代科学技术迅速发展,使得各种信息呈现出指数级别的发展膨大趋势,同时,我们更加意识到收集数据和储存数据的技术日益精湛和成熟。在日常工作学习中,从事各类工作的人们不再仅仅满足于简简单单的数据统计,或是其他数据查询等等很简易的工作,而是想要从海量数据中提取到更加有意义的信息。

\subsection{高维数据普遍存在}

生命科学:

人类基因组计划的开始,使得DNA技术迅速开始发展,人们开始试图从基因的排序中挖掘信息,例如如何找到病种基因。例如一组癌症细胞样本,一个样本对应着上万的基因,其维数高达千万。例如如何寻找隐藏的阳性癌症样本,就成为一个关于高维数据的分类问题。

文本挖掘技术:

随着微电子技术发展,一个小小的微盘中能够存储成千上万的文字、符号等文件,如何寻找到有用的信息,成为一大难题。详细来说,如何判断一封邮件是不是垃圾邮件,从文件当中提取的数据可能高达千万。此时判别算法必须对高维数据能够有效率地进行处理。

图片识别:

每一幅图片都是有很多的像素点\cite{C}组成的,它们的数据点维度是很高的。加之人们对高清图片影像的需求,以及图片识别技术的需求,如何有效地识别图片、操作图片都是非常重要的,要处理维度如此之高的数据,就必须有合理、高效的算法。

还有其他各个领域都会出现高维数据。

\subsection{高维数据带来的“维度灾难”}

通常我们在进行数据挖掘时,面临较多的是能够用矩阵表达这种类型的数据,亦或者可称为结构化数据。把收集的每个样本可以用矩阵的每一行表示,各个特征(变量)用矩阵的各个列来表示,每个特征构成维度空间里一个维度,K 维空间中的一个样本点即为拥有~K 维特征的数据对象,亦可视为该特征空间里一个~K 维向量。

维灾亦可称为维数灾难,在数据挖掘过程中,在大规模特征空间中,会遇到由于特征过多而引发的难以解决的问题。有以下几个例子:

(1)比如我们假设有一个~50维特征空间,现在有这样一个划分:从每个纬度的中点分成两部分。需要分~50 次,我们可以得到~$2^{50}$ 个形状相同的单位空间,假设一共有~$10^6$个样本数据点,这个样本量已经很大了。不妨假设样本均匀分布,计算每一个单位空间中落入样本的概率:$$

\frac {10^6}{2^{50}}lt;10^6,

$$

可见,这么多样本在高维空间中的分布是非常稀疏的。这个例子体现维度灾难带来了高维空间的稀疏性。

(2)高维空间的一个弊端是高维空间不是直观的,非常抽象,所以带来人们解决问题时的困扰。在二维空间中,单位立方体的内接球的体积~0.79,三维空间中,体积为~0.52,立方体的体积一直是1,但是其内接球的体积会逐渐趋于零,内接球的体积计算公式如下:

剩余内容已隐藏,请支付后下载全文,论文总字数:34460字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;