基于机器学习的金融数据分析研究
摘 要:随着互联网技术和信息技术的迅速发展,在互联网金融的大背景下,金融数据处理问题已经不仅仅局限于传统的数理统计方法,而更多的与机器学习领域的各种信息处理方法相结合,并取得了一些有重要意义的研究成果。本文将主要研究机器学习中的支持向量回归算法和时间序列模型用于建立预测模型的绩效问题,也就是针对金融数据分析和预测准确度的问题。
关键词:机器学习;支持向量机;金融数据
项目简介:2015年保定市科技局研究项目“基于机器学习的金融数据分析研究”,课题编号:15ZG026
一、金融数据分析的背景及意义
长期以来专家学者们都希望能够找到使误差更接近零的分析预测方法,以使投资目标函数在利益尽量大的时候风险尽量最小。所以,人们不得不努力的研究更新、更有效、泛化能力更强的数据分析预测模型。当前的金融市场业务繁多,和业务形成正比关系的各类信息系统众多,这些管理系统也产生海量的各类金融数据,如何对金融市场进行有效地、及时地预测与分析,则成为企业、银行和现代投资者所追求的目标。现代投资者不再仅仅关注于股票的基本面信息,而是更多的需要深层次的挖掘大规模金融数据内在的联系,从而获取更多的信息。在现实的金融市场中,普通的投资者很难掌握市场的全部有效信息,所以他们迫切的需要从可以得到的各类相关数据中挖掘出金融市场潜在的信息。然而现行的大量分析方法并不能对已有的数据进行大规模的开发和利用,所以并不能满足金融市场投资者的需求。投资者的这种迫切的需要将金融数据与机器学习的方法紧密联系在一起。金融市场由于其所包含的不可测因素非常多,所以我们可以将其看作是一个非线性的、非结构化的复杂系统。而机器学习方法作为智能信息处理的重要组成部分,在其他领域已经被证明可以有效地解决这种非线性问题。
二、最小二乘支持向量回归算法
最小二乘支持向量算法(LSSVM )是将标准支持向量算法中的不等式约束化成等式约束而得到的。
对于线性回归,设样本为n维向量,某区域的l个样本及其值表示为:
。
对于非线性回归,同样使用一个映射φ把数据映射到高维特征空间,再在高维特征空间进行线性回归,关键是选取适当的核函数k(x,y),使得
对于 AR(n)模型来说,Xt仅仅与Xt-1,Xt-2,…Xt-n,等有线性关系, at是白噪声序列。可见, AR(n)系统具有n阶动态性,因此拟合 AR(n)模型的过程就是使相关序列独立化的过程。
我们知道,随机变量 X 与Y 的协方差函数为 :
四、支持向量回归和时间序列模型在金融市场预测中的应用
结合我国股票指数的数据,利用最小二乘支持向量算法(LSSVM)和AR(n)模型进行预测,采用LSSVM直接建立非线性AR (1)模型,实验数据采用我国上证综合指数的周收盘价,所有数据均来自新浪财经,此次实验同样采用Matlab 软件和Eviews软件实现。预测精度的评价标准如表1所示:
从实验结果可以看出 LSSVM模型的预测结果要优于单纯的时间序列模型。综合来看,如果在支持向量机的基础上能够融合时间序列模型,那么在金融预测中将取得良好的应用效果。
参考文献
[1] 高铁梅.计量经济分析方法与建模.EVIEWS应用及实例.清华大学出版社,2006.
[2] 谢衷洁,王驰.用时间序列方法预测股票价格初探.数理统计与管理,2004,23(5):68 - 77.
[3] 孙德山.支持向量机分类与回归方法研究:(博士学位论文).长沙:中南大学,2004.
[4] 邓乃扬.数据挖掘的新方法—支持向量机.北京:科学出版社,2004. [5] 杨一文.基于神经网络的多变量时间序列预测及其在股市中的应用.信息与控制,2001,30(5):413-417.
[6] 王振龙,胡永宏.应用时间序列分析.北京:科学出版社,2008.
作者简介:李峰(1981-),男,山西阳泉人,硕士,现供职于河北金融学院信息管理与工程系,研究方向数据分析。