核参数判别选择方法在核主元分析中的应用
摘要:针对核主元分析(KPCA)中高斯核参数β的经验选取问题,提出了核主元分析的核参数判别选择方法。依据训练样本的类标签计算类内、类间核窗宽,在以上核窗宽中经判别选择方法确定核参数。根据判别选择核参数所确定的核矩阵,能够准确描述训练空间的结构特征。用主成分分析(PCA)对特征空间进行分解,提取主成分以实现降维和特征提取。判别核窗宽方法在分类密集区域选择较小窗宽,在分类稀疏区域选择较大窗宽。将判别核主成分分析(DisKPCA)应用到数据模拟实例和田纳西过程(TEP),通过与KPCA、PCA方法比较,实验结果表明,DisKPCA方法有效地对样本数据降维且将三个类别数据100%分开,因此,所提方法的降维精度更高。
关键词:核参数判别分析;类标签;非线性降维;核窗宽参数;核主元分析
中图分类号:TP277文献标志码:A
引言
核函数方法(Kernel Function Method, KFM)是一类新的机器学习算法,它与统计学习理论和以此为基础的支持向量机的研究及发展密不可分。随着科学技术的迅速发展和研究对象的日益复杂,高维数据的统计分析方法显得越来越重要。直接对高维数据进行处理会遇到许多问题,特别是“维数灾难”[1]问题,即当维数较高时,即使数据的样本点很多,散布在高维空间中的样本点仍显得很稀疏,许多在低维时应用成功的数据处理方法,在高维中不能应用。因此,在多元统计分析过程中降维是非常重要的。主成分分析(Principal Component Analysis, PCA)[2]的中〖HJ1.75mm〗心思想是将数据降维,以排除信息共存中相互重叠的部分。它是将原变量进行转换,使少数几个新变量是原变量的线性组合,同时,这些变量要尽可能多地表征原变量的数据结构特征而不丢失信息。新变量互不相关,即正交。由于经典的主成分分析是一种线性算法,不能抽取出数据中非线性的结构,即对非线性数据不能降维,此时可以使用核主成分分析(Kernel Principal Component Analysis, KPCA)[3-5]。KPCA用非线性变换将输入数据空间映射到高维特征空间,使非线性问题转化为线性问题,然后在高维空间中使用PCA方法提取主成分,在保持原数据信息量的基础上达到降维的目的。KPCA通过引入核函数,虽然进行了非线性映射,却不在高维特征空间进行运算,而是将点积运算转化〖HJ1.8mm〗为核函数运算形式,计算量得到极大的简化。