当前位置: 查字典论文网 >> 大数据的“豆形”可视化及其在资本市场中的应用

大数据的“豆形”可视化及其在资本市场中的应用

格式:DOC 上传日期:2015-08-17 17:19:59
大数据的“豆形”可视化及其在资本市场中的应用
时间:2015-08-17 17:19:59     小编:

摘要:“大数据”时代催发了可视化技术的再创新。“豆形图”以其处理海量数据的超强能力可以直观地展现大数据的结构特征,并为大数据的可视化分析奠定基础。本文首先引入“豆形图”及其可视化大数据的特征,并将其应用于资本市场中典型的金融大数据――超高频数据,构造用于可视化分析的豆形时间序列,分析数据的日内模式和动态特征,为大数据的可视化技术开辟新的方向。

关键词: 豆形图;金融大数据;可视化;超高频数据

1 引言

金融大数据的相关研究在本世纪初期开始风靡全球,在定量研究方面,世界各国学者在此领域取得卓越的成绩,对于金融市场的发展做出了杰出的贡献。观之金融大数据的定性分析,金融大数据在研究统计特征,尤其是更高频资产收益率的波动率方面作用很大,鉴于其大量的观测值,对于金融大数据的可视化方面的研究存在着不小的瓶颈。

金融数据的可视化在表现金融序列属性特征时比统计模型更为形象、直观。从原始数据中难以挖掘的规律、纯理论运算中难以得到的结论,我们可以从可视化图形中窥知一二。尤其是“大数据”时代的到来,金融大数据的可视化研究还未取得有效进展,豆形图的出现为金融大数据的可视化开辟了道路。豆形图(Beanplot)可以可视化比较组别间的单变量数据,并且可以展示密度曲线、重复观测和多峰形态分布等数据特征,这是箱形图所不能比拟的。尤其值得一提的是,豆形图在金融大数据的可视化领域展示了突出的优势,不仅克服了箱形图的不足,还能够充分展现海量数据的信息,极大提高大数据可视化的有效性和精确性。为此,本文在简单介绍数据可视化发展历史的基础上,引入豆形图及其属性特点,展示了模拟的“豆形”例子,并将其应用于实际金融大数据,构造可视化的豆形时间序列,分析金融大数据的日内模式和动态特征,为后继的金融大数据建模提供数据的属性特征。

2 金融大数据的可视化

最初,我们使用条形图可视化条形时间序列。条形图会正确显示原始趋势以及每个时间间隔内最小值和最大值。然而,此类图形中,在单一的时间间隔内,采用单一的点来绘制每个观测,致使条形图尽在存在极少点的情况下才能彰显其用途。因此,这也使其很难应用在大数据框架中。直方图在时间和空间维度上汇总数据时用处很大,因为其结构简单、灵活,能够合理、精确地描述数据基本特征的能力。然而,在多组数据比较方面,直方图的叠加会使空间变得混乱。箱形图(Turky, 1977)常用于比较组与组间分布的差异,能够揭示某一总体的几种属性:中心,范围,不对称性、离群点以及数据主要结构的变化。然而,随着观测个数增加,离群点的个数会增加,箱形图的可视能力渐弱。并且,还将忽略关于分布密度的信息,而这些密度信息在可视化金融大数据上却是极其重要的。小提琴图(Benjamini,1988)结合了密度曲线的可视化以及箱形图的优点,更好地显示了分布形状。虽然在小提琴图中可见其基本分布,但随数据量的增大,很多样本点(除了最低点和最高点)却是不可视的,难以在金融大数据的可视化方面有所展露。

本文提出用豆形图来可视化金融大数据。事实上,所有个体观测在每一个“豆”中都是可视的。豆形图会绘出每个时间点的均值(由豆形线表示)以及整体均值,这非常便于比较金融时间序列不同时间点的属性特征。另外,在豆形图中,不仅大数据密度的分布是可见的,还会显出数据存在的噪音、“波峰”、“波谷”和波动情况。由于在日内数据中,波动会代表数据的主要特征,因此豆形图对于研究金融大数据极其重要。

国外的研究中,豆形图已经逐渐被应用于金融大数据的可视化,近十年对于豆形时间序列的研究文献,已成为金融大数据可视化文献中重要组成部分。我国金融市场的稳步发展也为豆形时间序列的研究提供了数据条件。但与国外相比,我国学界在介绍以及应用豆形图对金融大数据进行可视化研究方面尚处于空白阶段。鉴于此,本文参考了国外学者的研究成果,试图对豆形时间序列作系统的介绍,目的在于揭示豆形时间序列在金融大数据可视化中的优势,以及改进我国在金融大数据可视化应用领域的不足。

3 豆形图

豆形图(Beanplot)是一个或多个豆形的图示。如图1右图所示,每个“豆”由密度曲线组成,通过镜像形成一个多边形。同时,利用一维散点线显示所有的观测值(豆形图中的散点线利用短线表示数据)。如果短线图示在密度线外,绘图的颜色就会发生变化,这样即使密度曲线外的短线有很多,

图1 随机模拟的正态分布密度曲线及其豆形图

也能使密度曲线是可见的。为了便于比较,每个图中都标出组均值和总体均值(如图2右图)。对于含有子组的情况(如男生组与女生组),我们可以绘制非对称形式的豆形图(如图4)。 3.1 豆形图的构成

豆形图由密度曲线和散点线构成。由于密度曲线形似豆荚,而散点线类似豆荚里的豆籽,所以豆形图就因此得名。密度曲线是一个对称的多边形,由序列的密度曲线及其镜像构造而成。R软件利用density程序包计算密度曲线。计算此类密度曲线,带宽的选择特别重要。通常利用Sheather-Jones方法选择每组的带宽,这样会使豆形图效果趋于最佳。为了便于组间比较,每组带宽都是相同的。但这样会使数据点较少的豆形宽度变得比较大,影响显著性的判断。为了克服这个缺点,数据点个数小于10的“豆”需要进行线性变化(如仅含3个数据点的豆形宽度,就使其带宽为正常宽度的3/10)。

密度曲线通常与一维散点线结合在一起进行图示。图1左图是R软件生成的随机模拟的正态分布密度曲线,右图是其相应的豆形图。当散点线位于多边形的外部时,图形的颜色就必须要进行改变。R软件可以利用直线插补法近似处理密度曲线与散点线的交点。如果同组中的多个观测值是相等的,它们的短线就会叠加在一起,线长就会增加,因此,重复观测也能得以显示。

箱形图大都采用中位数展现数据的集中趋势,而豆形图一般展示数据的组均值和总体均值。并且结合有效的密度曲线,均值便能提供更有效的信息。出于比较方便的目的,豆形图大都是对称的。但有时会出现组中包含两个子组的情况,比如男性组与女性组。这种情况下,每个子组分居豆形的两边,共同组成一个完整的豆形,各自呈现其独有的形状,形成非对称形式的豆形图(参见图4)。

图2 双峰、均匀和正态分布的箱形图和豆形图

注:豆形图中的绿色短线(深色)表示单个观测,紫色区域(浅色)显示分布。

3.2 豆形图的优点

我们利用R软件模拟实现几组不同类型的豆形图,显示其相对于箱形图所特有的优势。图2是利用双峰正态分布、均匀分布和单峰正态分布模拟生成的数据绘制而成的箱形图和豆形图。左边的箱形图展示的第一组数据与第二组数据的图形类似,并且其四分位值、最大最小值,以及平均水平都近乎相同。如果我们单纯从该箱形图中就做出判断的话,我们会认为这两组数据之间的属性、特征等是近乎相同的。但事实并非如此,图2右端的豆形图就充分展示了数据的实际分布特征。很显然,第一组数据与第二组数据的分布是完全不同的:第一组数据呈现出的是双峰分布,即分别有两个观测(-2,+2),在该两点附近数据出现的频率很高,而当数据趋于0时或趋于-

4、+4时,数据出现的频率近乎为0;而第二组数据呈现出的显然是一个近似均匀分布,即从-4到+4之间所有数据出现的频率近乎相等。显而易见,第一组数据与第二组数据是两组特征完全不同的数据,而我们从箱形图中却得出两者近乎完全相同的结论。就图2第三组单峰的正态分布而言,箱形图只能展示极个别的极端值,而豆形图非常清晰地显示了模拟数据所有的尾部观测。综上可见,豆形图在对于数据分布及其特征的把握上,要高箱形图一筹。

图3 不同类型歌手体重的箱形图和豆形图

图3利用R的vioplot程序包中singer数据集图示了不同类型歌手体重的箱形图(实为小提琴图,小提琴图为箱形图的一种)和豆形图。小提琴图尽管可以清晰地显示不同组歌手具有不同的体重分布,但豆形图还可以解释更多的附加信息。例如:所有观测在豆形图中都是可见的,每个组的平均体重以及所有歌手的总平均体重都清楚地列示在豆形图中。事实上,每个组的观测个数在运行结果上也是可见的。图4在一个豆形图上分组显示singer数据集中男歌手和女歌手的体重豆形图,用一种非对称形式比较解释了数据特征,直观、精确地展示了同类歌手中性别间的体重差异,彰显豆形图的优越性。

图4 男女歌手的非对称豆形图

3.3 豆形时间序列

豆形时间序列(Bean Time Series)是豆形图的另一优势所在。所谓豆形时间序列,就是指按照时间顺序排列而成的豆形图序列,图5显示了模拟而成的豆形时间序列。在图中,每一个时态区间都包含了与该区间相关的大量数据。对于时间间隔的选择,通常我们研究三种情况,即以日、周、月作为时间间隔。最终要选择哪种情况作为时间间隔需要根据所研究数据的特征进行判定。

在豆形图中,我们所要展示的变量特征有均值、极差(最大值减最小值)以及以Kernel估计量计算出来的密度曲线等,其密度曲线的估计量为

其中,K是标准正态分布。h是区间宽度的平滑参数。我们把h作为基本因素来考虑。事实上,h越大,该豆形图越不规则。因此,我们要慎重地选择带宽,特别是我们通过Sheather-Jones方法来获得该参数时更应该谨慎。

豆形时间序列展现出了数据中心(用粗短线表示)、波动大小(用极差表示)以及形状(用密度曲线表示),并借以揭示序列的复杂结构关系。特别地,在每个豆形图中,凸起部分就代表了数据最密集的数据点,并且凸起部分随着时间的变化而变化。更一般地,豆形图随着时间的变化就揭示出时间点之间的动态变化。当我们发现豆形图较之前呈现扩张趋势时,即极差扩大,通常可以理解为出现了结构性的变化(见图5)。另外,通过所有的小豆形图的变化,我们可以计算出该时间序列的变化趋势,并可选择一个合适的时间间隔,以使该趋势可视化。豆形时间序列建立之后,我们可以对其进行参数估计以及预测。尤其是当观测个数特别多(如金融大数据),对复杂的市场行为所存在的长期趋势、规律等进行分析方面,豆形图的优势就会充分显现出来。在我们所研究对象的观测个数极其多的情况下,直接进行定量时间序列预测的话,不能将数据属性特征精确的展示出来,一些异常值、离群点等也不能得到体现。而在实际工作中,要对金融大数据等进行时间序列分析,往往所涉及的数据包会包含极大量的数据,以便于总结出现象的真实特征、属性,并最终得出结论。因为,在这种情况下,定量时间序列分析就存在部分观测信息被丢失的风险。这也从一定程度上说明了用豆形图来对金融大数据进行分析以及预测的必要性。 图5 模拟豆形时间序列

进一步讲,我们之所以使用豆形图来对时间序列数据进行分析,是鉴于两点原因。首先,豆形图可以既保持时间序列的结构,同时又显示数据的重要特征;其次,我们可以通过豆形图,从大量的时间序列数据中提取出某些长期的结构特征。同样,对于其他一些复杂的研究对象,我们依然可以观察到该现象的主要结构特征。

正是由于豆形图在可视化方面的独特优势,在数据与信息如此发达的大数据时代,豆形图正慢慢以独立的形态登上统计舞台。不仅仅是豆形图的发展与信息化的发展息息相关,更是信息化的发展,特别是在金融领域大数据分析方面,更需要豆形图的发展作为强大支持,开辟出可视化的一条新研究路径,以期得到更为精确的结论。

4 金融大数据“豆形”可视化的实证分析

随着计算机存储技术的飞速发展,记录海量数据日趋便捷,且处理大规模数据的数据挖掘技术也越来越成熟,因而大数据问题日益受到学界广泛关注。特别在金融领域,鉴于中国证券市场历史短暂且发展迅速,大时间跨度的观测数据往往在可比性上不能令人信服。如果采用金融大数据,就可以在较的时间区间内产生满足分析所需要的数据量,同时可以对市场微结构模型做出恰当的验证。金融大数据通常是指以小时、分钟、秒甚至更高频单位为频率所采集的按时间先后顺序排列的金融类数据,有时也称为超高频金融数据。在金融市场中,信息是连续地影响证券市场价格的运动过程的。数据的离散采集必然会造成信息不同程度的缺失。无疑,采集频率越高,信息丢失越少;反之,信息丢失越多。所以,大数据包含更多的信息,金融大数据的研究将带来更精确的分析结果。

当前金融大数据的研究领域主要集中在市场微观结构和高频金融时间序列的模型化方法等方面,由于金融大数据属于海量存储数据系列,在数据的可视化方面一直存在着发展瓶颈。然而,豆形图的出现可以很好地推动金融大数据的可视化发展。利用豆形图可以分析金融大数据的日内模式,研究相应时段的市场微观结构,同时也可以构造日内豆形时间序列,进而利用豆形图构建金融大数据的时间序列分析模型,从可视化角度分析金融大数据的时间特征。

4.1 日内豆形图

图6展示了上证综合指数在2009年12月31日的日内股指价格、交易量和收益率豆形图,从中可以清晰地显示上证综合指数的日内行为特征。首先,股指价格属于多峰态分布,分布类型介于均匀分布和正态分布之间,且是左偏的,说明在当天股指价格大部分时间处于高位运行状态,但下滑幅度也多呈现不对称状态。其次,交易量和收益率近似服从正态分布,呈现完美的对称分布形式,但略微右偏,特别是收益率,杠杆效应倾向于正收益。最后,汇总三者的豆形图特征,我们可以得到当日股指整体趋势是上升的,但也穿插少部分下降模式。

图6 日内股指价格、交易量和收益率的豆形图

4.2 豆形时间序列

图7 股指价格、交易量和收益率的豆形时间序列

5 结论

本文在简单介绍数据可视化发展的基础上,引入豆形图及其属性特点,通过一系列案例分析解释豆形图相比于箱形图和直方图的优势和广阔使用前景。实证部分,本文将豆形图应用于金融大数据,构造可视化的日内豆形图和豆形时间序列,分析金融大数据的日内模式和动态特征,展现了金融大数据豆形可视化的可能性和重要性,为后继的豆形时间序列建模提供数据属性特征。

全文阅读已结束,如果需要下载本文请点击

下载此文档

相关推荐 更多