基于数据分布的分类器的设计和实现

 2022-01-17 11:01

论文总字数:19676字

目 录

1引言 1

2模式分类空间描述 2

3数据分布感知 3

3.1数据与区域之间所属关系的感知 3

3.1.1感知方法选择 3

3.1.2感知算法设计 5

3.1.3感知实验验证 6

3.2区域之间邻里关系的感知 7

4网络分类器设计 8

4.1区域网络分类器设计 8

4.2全局网络分类器设计 9

5竞争机制设计 10

5.1竞争区域感知 10

5.2竞争力量化计算 12

6分类算法设计 13

7模拟实验验证 14

8总结与展望 16

参考文献 17

致谢 19

基于数据分布的分类器的设计和实现

陆晓翔

, China

Abstract:The classification problem is a basic problem in the field of machine learning. In order to solve this problem, this paper focuses on the characteristics of data distribution and proposes a classification algorithm based on data distribution. This algorithm combines with clustering algorithms to perceive data regions from the perspective of spatial distribution, and perceive adjacent regions of the region by spatial positioning methods. The characteristics of data distribution are described by the containment relationship between datas and regions and the adjacent relationship between regions. Constructing a network classifier is on the spatial distribution of datas. The algorithm concentrates the classification task on the region and its adjacent regions, separating a region from its adjacent regions by SVM and futher separating it from the data space, which reduces the size and complexity of the classification task. For the insufficiency of the model construction, the algorithm adds a competition mechanism for the test data in the blank area to complete the network classifier. The algorithm avoids the problem of spatial mapping and distribution function of data sets, and improves the efficiency of the classification boundary. A network classifier is constructed based on the spatial distribution of data, making the establishment of a classification network transparent.

Key words: data distribution, region, spatial orientation, adjacent relationship, competition mech-

anism

1引言

  数据分布是模式分类的核心议题,若数据的分布已知,目前贝叶斯网络[1]可以达到很好的分类效果。由于对已知的数据分布的认识有限,面对现实世界各种复杂的分布,只能通过已知的分布或者数理统计的方法去近似未知复杂的分布,但是在理论上,这种可以近似的情况并不是很多,使得贝叶斯网络无法很好地推广和应用。传统的分类方法大多是基于两类两区域的分布来研究分类问题,但是现实的分布显然要复杂的多。对于一个两分类任务,如果将其分布情况简单的视为两个区域,那么数据分布的复杂性就会影响到分类器训练的速度和难度,同时可能会削弱分类器的泛化性能。比如传统的BP分类算法[2],其设计中绝大部分都没有遵循数据分布的原则思想。例如在网络结构上,为了寻求问题的解,增减隐层神经元个数或网络的层数,对原始数据空间进行映射。这种神经元或网络层的增减,自然会对问题空间中数据的分布造成影响,更多时候表现为破坏数据的原本分布,而且BP网络在最小化误差函数时容易陷入局部最小的情况,未能求出全局的最小值,虽然达到了良好的学习性能,但在泛化性能上表现不佳;SVM[3]在分类任务线性可分的情况下,遵从了数据的分布,可以生成一个合理的超平面;在分类任务线性不可分时,通过核函数进行空间的隐式映射,虽然可以将线性不可分任务转化为线性可分,但是同样可能会改变数据的原本分布,所以无论是原始空间还是空间变换,都要保持数据的分布特征。因此,数据分布是分类问题关注的重点议题,自然如何感知数据的分布也成为数据分类的一个基本问题。

数据分布一直以来都得到众多学者的研究,但是大多数是基于密度函数来描述和分析数据的分布[11-14]。基于密度函数描述的分布方法主要包括:(1)通过已知分布的密度函数去近似未知的分布,但是在实际过程中,由于未知数据分布的多样性,这样的近似并不准确;(2)通过近似的求解出描述数据分布的密度函数,由于未知数据分布的复杂性,这样的分布密度函数并不容易找到;(3)主要是通过增加条件或辅助机制来评估拟合出的分布的合理性,确保密度函数可以感知出数据的分布,比如GAN[4],但是GAN适合一类数据分布的感知,如果数据集是多类数据集,它无法对特定的某一类的分布进行感知,而是只能感知出整个数据集的局部分布。即使是一类数据的分布,GAN只是实现了数据分布的模糊感知,并没有感知出整体的数据分布。总的来说,数据分布的复杂性在于分布密度函数的求解上或数据分布的感知和拟合上,那么对于数据分布的感知,如何避免或解决这两个问题是感知出数据分布的关键。

本文从数据空间的角度考虑数据的分布,将每一个数据映射为空间中一个点,将复杂的连续分布转化为离散的数据之间的分布,避免了连续分布密度函数求解困难的问题,同时将传统的数据分布转化为数据的空间分布。数据的分布更多描述的是数据之间的规律,这种规律在分类中一般表现的是数据之间相似或相异关系。相对于数据的空间分布,这种规律体现着数据之间的相近或相离的关系,进一步,数据之间的相似性越高,那么他们之间的距离就越小,反之,距离就越大。对于分类而言,同类的数据往往具有一定的相似性,一般会聚集在一起,构成数据区域,异类的数据往往具有一定的差异性,一般相对分离,会构成不同的数据区域,所以数据在空间中的分布是以区域的形式分布的。如果数据的分布已知,那么分类问题就可以聚焦到区域之间的分类问题,这在一定程度上,不仅仅遵从了数据的空间分布,同时划分了分类任务,缩小了数据的训练规模。

相对于传统的分布感知方法,数据的空间分布更多的表现着离散的特征,主要表现在数据与区域的关系和区域之间的关系。基于数据的空间分布,本文提出了一种基于数据分布的分类算法。其主要贡献包括:(1)从空间角度,通过感知方法感知出了数据与区域的所属关系;(2)根据空间定位的方法,进一步感知区域之间的邻里关系;(3)基于数据的区域分布,将分类任务局部化,集中在区域之间,为每一个区域与其邻域建立边界,使其从分类任务中分离出来;(4)遵从数据的分布,针对泛化能力的空间建模;(5)与传统的神经网络不同,网络分类器建立的过程透明化。

本文余下内容组织如下:(2)模式分类空间描述;(3)数据分布感知,主要是通过感知方法感知数据的区域分布情况,进一步,感知出区域之间的邻里关系,通过区域及其区域之间的邻里关系去描述数据的空间分布;(4)网络分类器设计,本节详细介绍单个区域网络分类器和全局网络分类器的构建和设计;(5)竞争机制设计,本节主要针对网络分类器存在的不足,对落在空白区域中的测试点进行重新判定,确定其类别;(6)分类算法设计,基于分类过程的描述,设计出相应的分类算法;(7)模拟实验验证,本节基于一些人工数据集和公共数据集对该分类算法进行了合理性和正确性的验证;(8)总结与展望,主要是对于分类模型的优缺点及相关的应用背景进行一个分析和论述,同时对于该算法未来的改进和完善工作做一个大致的介绍。

2模式分类空间描述

每一个维数据样本或模式向量都可以表示成空间中的一个点,所以,模式分类问题常常可以转化到几何空间进行研究。模式分类在几何空间中可描述为:已知在空间中,有多类数据集,如何为每一类建立分类边界(函数关系),使其与其他类分离开。对于两分类问题来说,传统的分类算法都是基于两类两区域的分布来研究分类问题,即已知两分类数据集,每一类仅且只有一个区域,如图2.1所示。分类算法的目的就是

剩余内容已隐藏,请支付后下载全文,论文总字数:19676字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;