摘 要: 针对以往动态场景分类中需要手动提取动态特征描述符以及特征维数过高的问题,提出利用深度学习网络模型进行动态纹理特征的提取。首先利用慢特征分析法(SFA)预先学习每个视频序列的动态特征,将该特征作为深度学习网络模型的输入数据进行学习,进一步得到信号的高级表示,深度网络模型选用堆栈降噪自动编码模型,最后用SVM分类法对其进行分类。实验证明该方法所提取的特征维数低,并且能够有效地表示动态纹理。
关键词: 动态纹理分类; 慢特征分析; 深度学习; 堆栈降噪自动编码网络模型
Dynamic texture classification method based on stacked denoising autoencoding model
WANG Cai?xia, WEI Xue?yun, WANG Biao
(School of Electronics and Information Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003 China)
Abstract: To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification, a deep learning network model is proposed to extract dynamic texture features. Firstly, the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand, and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.
Keywords: dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model
0 引 言
本文试图解决动态自然场景的分类问题(例如:烟火、河流、风暴、海洋、雪花等)。在计算机视觉领域,过去采用较多的是手动提取特征来表示物体运动信息(例如:HOF、基于STIP的HOG算法等),实验表明该类方法对人体行为识别非常有效。但是由于自然环境比较复杂,动态纹理表现不稳定,易受光照、遮挡等影响,而手动选取特征非常费力,需要大量的时间进行调节,所以该类方法并不适用于动态场景分类。Theriault等人提出利用慢特征分析的方法来提取动态视频序列的特征[8]。该方法虽然能有效表示动态纹理特征,但是其提取的特征维数较高。深度学习是机器学习研究中一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,近几年深度学习网络模型在大尺度图像分类问题中成功应用使得其得到越来越多人的重视。卷积神经网络、深度置信网络和堆栈自编码网络是三种典型的深度学习网络模型,而堆栈自编码网络模型不仅对高维数据有很好的表示,而且采用非监督的学习模式对输入数据进行特征提取,这对于传统的手动提取特征。利用堆栈自编码网络模型对慢特征进行进一步学习,不仅能降低数据维度,而且还能提取出数据更有效的特征表示。 1 基于堆栈自编码网络模型的慢特征分析法
1.1 慢特征分析法
文献[9?10]中提到,慢特征分析算法的目标是从不断变化的输入信号中学习不变量,即除了无意义的常值信号外,最具不变性质的信息,其实质也就是从快速变化的信号中提取缓慢变化的信号特征,这种特征是从混合信号中提取出来的源信号的高级表示,表征信号源的某些固有属性[11]。
实验证明,慢特征分析法在人体行为识别中有很好的描述作用,这为动态纹理分类提供了一个很好的选择。慢特征分析算法的核心思想是相关矩阵的特征值分解,其本质是在经过非线性扩展特征空间对目标函数进行优化,寻找最优解的线性组合。
给定一个时域输入信号序列:
目标就是学习一组映射函数:
[minSjt] (1)
且满足以下条件:
(1) [t=0];
(2) [t=1];
(3) [?jj':yj,yj't=0]。
图1 时域输入信号慢特征的提取
输出信号各分量按照变化率从小到大排列,且互不相关,其最优解问题可以看成以下公式的解特征值问题:
[Sj:v?v?TtSj=λjSj] (2)
自动编码器模型是深度学习网络模型之一,其尽可能复现输入信号,捕捉代表输入信号的主要成分。
如图2所示,对于给定输入信号[x],根据式(2)得到输出[y],此过程为编码过程:
[y=fθx=sWx+b] (3)
式中:[sx=11+θ-x];[W]是[d′×d]维权重矩阵;[b]是偏移向量。
为了验证输出[y]是否准确表达原输入信号,利用式(2)对其进行重构,得到重构信号[z]。此过程为解码/重构过程:
[gθ′y=sW′y+b′] (4)
从输入到输出的权值记为[θ=W,b],从输出到输入的权值记为[θ′=W′,b′]。逐层进行参数[θ]和[θ′]的优化,式(5)为其目标函数:
调整参数,使得重构误差达到最小,因此可以得到[x]的第一层表示。
图2 普通DA和降噪DA
降噪自动编码器(Denoising Auto Encoder,Dae)是在自动编码器的基础上给训练数据加入噪声,编码器需要学习去除噪声而获得没有被噪声污染的输入信号,因此获得输入信号更加鲁棒的表达。堆栈自动编码模型(Sda)是将多个Dae堆叠起来形成的一种深度网络模型。利用优化后的参数[θ]得到当前层的输出[y](即下一层的输入),将得到的[y]作为新一层的输入数据,逐层进行降噪自动编码的过程,直到到达多层神经网络中间隐层的最后一层为止,算出该层输出,即为输出特征,如图3所示。
图3 多层神经网络结构图
1.3 基于Sda的慢特征分析法
基于Sda的慢特征分析方法利用慢特征分析法预先学习动态视频序列的慢特征,将该特征作为模型输入,进行多层降噪自动编码网络模型参数的学习,最后使用SVM分类器对该模型的输出特征进行分类,具体步骤如图4所示。
2 实 验
2.1 实验数据集与评估准则
图4 基于Sda的慢特征分析步骤图
图5 YUPENN动态数据库
2.2 实验结果与分析
实验选用线性SVM分类器,采用Leave?One?Out 分析法进行分类。所有视频序列全部转换成灰度视频进行慢特征分析,输出大小为4 032维的慢特征向量作为Sda网络模型的输入数据。
2.2.1 Sda网络模型大小
图6 不同网络层数和隐层大小的分类结果
2.2.2 噪声
2.2.3 混淆矩阵以及实验与现有方法的比较
图7 加入不同噪声的分类结果
图8 混淆矩阵
表1 本实验与现有方法比较
3 结 语
本文提出一种基于多层降噪自动编码网络模型的动态纹理分类方法:预先学习动态视频序列的慢特征,以此作为多层降噪自编码网络模型的输入数据进行非监督的深度学习,网络最顶层的输出即为所提取的动态纹理特征,采用SVM分类器对该特征进行分类。本文对实验中的各种影响参数如网络模型的深度、每一层的大小以及加入噪声的大小做了充分的研究,实验证明,该方法所提取的特征对动态纹理有很好的表示作用,分类效果不错,在动态场景分类问题中有很大的应用价值。
参考文献
[5] FAZEKAS S, CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis (ICCV 2005). [S.l.]: [s.n.], 2005: 37?42.
[6] ZHAO G, PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]: [s.n.], 2006: 165?177.
[8] THERIAULT Christian, THOME Nicolas, CORD Matthieu. Dynamic scene classification: learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http://www.computer.org.
[13] HUBEL D, WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol, 1959, 4: 574?591.