基于自适应主成份分析模型的汽车分队安全性评价
摘 要:给出了一种适用于多种评价数据源的主成份分析方法模型,该方法模型以变换信息损失最小为准则选择对应不同的无量纲处理方法,以一定的累计方差贡献率为阀值确定评价主成份,依据主成份与评价指标个数关系自适应处理待评价数据和生成评价结果,从而达到了提高评价精确度,降低非线性样本数据维数的目的。最后,将提出的评价模型应用于汽车分队安全评价中,并分析了评价结果,结果表明了提出模型可有效处理各种线性和非线性样本指标的评价问题。
关键词:自适应;主成份分析;汽车分队;安全评价
引言
汽车分队安全是影响部队军交运输保障效能的关键因素,不仅影响着部队的安全稳定,更关系到部队的保障力、战斗力的形成。汽车分队安全评价是对影响一个分队安全的各项因素分别考核打分,然后利用一定的方法形成综合评价结果,来反映该分队的总体安全稳定程度。研究汽车分队的安全评价方法对于提高担负军交运输任务部队的管理能力和安全稳定水平具有重要意义。
在安全评价领域,目前国内外学者提出了很多统计学概念和评价方法,代表性的有模糊评价理论[1]、层次分析法[2]、灰色关联度[3]、聚类分析法[4]、主成份分析法等。其中,主成份分析法利用降维的数学思想,将原始的多个指标重新组合成一组新的相互无关的综合指标,同时根据需要从中选择较少的几个综合指标,尽可能反应原来指标的信息,从而将安全评价中相互关联的复杂的指标简单化处理,提高了评价的效率。然而,在传统的主成份分析法中存在一些不合理的、主观的处理方法,严重影响了评价的效果。针对于此,很多学者提出了众多改进的意见,文献[5]针对传统方法对原始数据标准化处理损失信息较多的问题提出了均值化处理的思想。文献[6]讨论了主成份分析法中样本信息损失的问题,并提出了改进意见。文献[7]分析了三种无量纲化处理方法和主成份选取问题。文献[2,4]分别将主成份分析法与层次分析法、聚类分析法等相结合,提出了综合的评价方法,达到了一定的效果。
虽然众多学者对主成份分析法用于统计评价中存在的诸多问题进行了论证,并提出了改进建议,但是这些改进大多是针对该方法的某一个应用环节进行的优化,没有形成一个通用的评价模型,本文在此基础上,给出一个自适应的主成份分析评价模型,在评价流程的关键环节充分考虑了各种可能数据源特征,并对应采取了不同的处理办法,从而使得评价结果更加真实,更能反应客观实际。最后,文章在汽车分队安全评价中对给出的模型进行了应用,并给出了汽车分队安全管理的几点意见。
1 问题模型
2 自适应主成份分析法
自适应的主成份分析法是在原有的主成份分析法基础上,通过在原始数据无量纲化、相关系数矩阵求解、主成份确定等环节采用多种可选择的优化算法,来提升算法在各种领域数据源评价的自适应性,具体流程见图2。该算法的优点为可减少数据无量纲化处理的信息损失,提高非线性数据样本降维效果,有效完成各种指标评价任务。
2.1 原始数据的无量纲化自适应处理
主成份分析对原始数据的无量纲化处理是多指标综合评价的基本要求。目前广大学者提出的处理方法主要包括:数据标准化、数据均值化、极差正规化和非线性处理等。但是,无论采用什么方法都会有信息丢失,因为无量纲化中相似变换改变了原始数据结构,同时改变了变量的差异信息。这里在文献[7]中对常用变换方法处理前后的方差和相关系数分析的基础上,联合非线性中心对数变换处理方法,给出一个自适应的处理模块,以信息损失最小为准则来选择无量纲化处理的具体方法,提高评价的准确性。
如果选择以上三种变换的一种使得选择的主成份个数偏多(超过指标数的一半),则需要对原始数据进行非线性变换,一般常采用的非线性变换包括:对数变换、对数-中心变换、根值变换等,通过非线性变换能够明显提高数据的降维效果,本文以对数-中心变换为例进行算法描述。
2.2 主成份的自适应选取与分析
目前对于主成份个数的选取主要有两种观点。一是只用第一主成份,因为第一主成份能够最大限度地反映样本间的差异,是概括指标差异信息的最佳线性函数。另一种观点是不仅要充分重视第一主成份,而且也要顾及其它主成份在综合评价中所起的作用,主要做法是先按累计方差贡献率不低于某一阀值(比如85%)的原则确定前几个主成份,然后以每个主成份各自的贡献率为权数将选定主成份线性加权求和来综合评价样本的优劣。后一种处理充分顾及了各方面的信息,而且具备以第一主成份综合评价指标的优点。但是第二种方法仍存在很多问题,在有些多指标综合评价实践中,为了满足累计方差贡献率不少于85%的原则,就不得不取超过半数指标的主成份,这时失去了主成份分析法的降维效果明显的优势。
造成传统的主成份分析法降维效果不明显的原因主要是相关系数是反映指数间线性相关程度的,而在现实生活中,指标间的关系也有呈非线性关系的,如果这时非要用线性关系去反映,则会得到不正确的结论。据此,我们提出自适应主成份选取算法,该算法在主成份选取阶段,首先检测第一主成份的贡献值是否足够大(大于等于85%),如果第一主成份方差贡献率足够大,则选择第一主成份作为评价对象,反之,如果第一主成份方差贡献率不足,则选择累计方差贡献率达到某一阀值的多个主成份,且若选取主成份个数大于半数指标数,则算法返回重新对原始数据进行非线性变换。
2.3 自适应算法步骤
下面对给出的自适应主成份分析模型的具体算法步骤描述如下:
3 应用实例
下面将利用提出的自适应算法对汽车分队的安全进行评价。影响一个汽车分队的安全稳定的因素有很多,这里将综合因素概括为人的因素、车的因素和管理因素三个方面:
(1)人的因素:主要包括分队驾驶员的人均驾龄、累计驾驶里程以及年龄构成等。人是车辆驾驶的主体,驾驶员的驾驶经验和心理成熟度等都对任务中面对事故风险时是否能恰当处置有很大决定作用。
(2)车的因素:主要包括车辆装备服役年限、车辆无事故率以及车辆保养、安全技术检测投入等。充分地保护和正确使用车辆可以延缓车辆寿命,减少事故发生的几率。
(3)管理因素:主要包括训练及安全管理方面采取的措施和取得的成绩,如汽车分队人员日常训练考核结果、参与演习经验、定期开展安全教育情况以及汽车分队的红旗车驾驶员获奖情况等。分队的日常教育和训练演习是提高其任务执行能力和检验分队安全措施是否到位的重要途径。
这里选取4个汽车分队,对10个具体评价指标进行模拟考核,具体成绩见表2。
若对抽测样本在传统主成份分析法中进行评价,则求得其特征值及对应方差贡献率如表3所示,由于该类型数据源指标间相关程度较低,相关系数矩阵求得的多个特征根差别较小,导致累计方差贡献率不大,按照累积方差贡献率达到85%以上的要求,就应该选取6个主成份。然而问题中的原始指标只有10个,但为了满足累积方差贡献率不得不选取超过半数指标的主成份,降维效果差。
为此,我们在自适应算法中对该类数据源进行评价,在算法Step1中求得,A=14,B=0.033,C=3.087,比较发现A值最大,所以采用标准化无量纲处理,同时由相关矩阵求特征值。然而在Step6中检测发现主成份选取个数大于指标数的一半,因此返回Step2对原始数据进行步骤(4)对数-中心变换,再次计算对应协方差矩阵的特征值,求得第一主成份方差贡献率为0.55,小于0.85,所以求累计方差贡献率满足条件的主成份个数,结果为3,小于指标数的一半,降维效果明显。利用特征值对应的特征向量作为求主成份的加权系数,得第p个评价分队的三个主成份依次为:
从最终评价结果可以看得出四队的综合成绩是四个队中最好的,三队紧随其后,好于一队和二队。这主要得益于四队驾驶员队伍平均驾龄较长,驾驶经验丰富,此外在平时的日常训练和安全防范资金投入等方面都要好于其它三个分队。
4 结束语
本文在总结传统主成份分析法的基础上,针对传统主成份分析法不能全面评价各种应用问题的情况,给出了一种自适应的主成份分析模型,该方法模型在原始样本数据处理、主成份选取、评价结果确定等方面根据不同数据特点进行不同处理,提高了数据信息的损失率,增加了数据降维效果。最后,本文在汽车分队安全评价领域的非线性数据评价中对提出的自适应算法进行了验证,结果证明了提出方法的有效性。
参考文献
[1]张军,刘志镜.基于模糊理论的行人异常动作检测[J].模式识别与人工智能,2010,23(3): 421-427.
[2]李琼,周建中.改进主成份分析法在洪灾损失评估中的应用[J].水电能源科学,2010, 28(3): 39-42.
[3]马丽叶,卢志刚,常磊,等.基于灰色关联度的输电网经济运行指标体系研究[J].电力系统保护与控制,2011, 39(22):22-26.
[4]徐雅静,王远征.主成份分析应用方法的改进[J].数学的实践与认识,2006,35(6): 68-75.
[5]叶双峰.关于主成份分析做综合评价的改进[J].数理统计与管理,2001,20(2): 52-55.
[6]刘长标,史金平.试论主成份分析法中样本信息的损失问题[J].湖北大学学报(自然科学版),1996,18(2): 138-141.
[7]白雪梅,赵松山.对主成份分析综合评价方法若干问题的探讨[J].统计研究,1995,68(6): 47-50.
作者简介:段鹏飞(1985,1-),男,蚌埠汽车士官学校装备保障系汽车检测教研室,助教。