当前位置: 查字典论文网 >> 基于自编码器及超图学习的多标签特征提取研究

基于自编码器及超图学习的多标签特征提取研究

格式:DOC 上传日期:2017-02-06 10:52:29
基于自编码器及超图学习的多标签特征提取研究
时间:2017-02-06 10:52:29     小编:么健石

多标签学习是数据挖掘和信息检索中很重要的主题. 多标签数据中的每个样本都会对应一个标签集合, 这在实际应用中非常普遍, 比如蛋白质功能分类、图像标注以及图像情景分类等. 多标签学习面临两个重要的挑战. 首先, 传统的单标签学习中样本的分类是互斥的, 而多标签学习中的分类类型相互依赖、相互关联. 比如图像标注应用中, 一个图像可能同时具有树、雨水、彩虹以及湖水 等标签, 而另一个图则具有树、太阳、彩虹 以及沙漠 等标签, 即不同的样本可能具有部分相同的标签. 其次, 多标签数据通常具有较高维度的特征向量. 比如一张图像数据的维度可能是几兆, 一个文本的维度通常可以10 k 以上,而高维度的数据很容易导致维度灾难. 为了解决这个问题, 研究者们已经提出了一些多标签降维算法, 虽然这些算法可以在一定程度上有效地融合多个标签之间关系以实现高维多标签数据的降维, 但这些算法忽略了多标签数据内含的噪声以及样本间几何关系对于多标签数据特征空间降维的影响, 而这对于提高多标签特征提取算法的性能至关重要.

为了有效提取高维多标签数据的低维表达性能,本文首先利用去噪自编器对原始特征空间进行多层次抗干扰处理, 以便提取出比原始特征空间更鲁棒的表达; 其次, 利用超图理论来挖掘多标签特征空间样本之间的几何关系, 并有效融合多个标签对样本间几何关系的影响, 构建出完备的Laplacian 矩阵并通过矩阵的标准特征值分解获得低维特征空间.

1 相关工作

1.1 多标签学习

本文多标签学习算法中, X 表示特征空间, C与Y 表示标签空间, 并且它们都是非空有限集.传统学习机L = (X;C; T) 的目标是通过学习获得一个特征空间X 与标签空间C 的映射, 其中jCj = 1, 即单标签分类器. 大量的学者对单标签分类器进行了深入研究, 也取得了良好的分类性能, 但单标签分类器基于一个分类样本只有一个特定的标签的假设, 而这个假设在很多实际应用场景中并不成立. 因此越来越多的学者通过构建多标签学习机来处理实际应用中越来越多的多标签数据.

1.2 超图学习

传统采用图与子空间的机器学习理论通常基于流形假设. 首先, 假设存在一个低维流形空间, 在该空间上的一个较小的局部邻域内样本具有相似的性质, 建立在此流形空间上的决策函数也具有局部平滑性; 其次, 在传统图模型中, 样本之间的关系是成对的, 没有考虑多个样本之间存在一致的关联. 但在多标签数据中多个样本具有相同的性质, 即包含相同的标签, 则需要构建多条边来表达.

在超图中, 具有相同性质的多个顶点共享一条边, 因而可以使用超图来提高样本间几何关系表达的效率和可靠性. 基于超图的样本几何关系表达已经用于多种应用, 比如分类、图像分割以及信息检索.

2 基于自编码器与超图学习的多标签特征提取

2.1 自编码器

深度学习在挖掘图像潜在表达上非常有用, 已经成为计算机视觉领域的研究热点. 自编码器基于深度学习理论, 是一种无监督的特征学习方法, 自编码器的内层可以有效抽取图像的内在表达, 其学习策略可以抽象成一个最小化重构误差的凸优化问题.自编码阶段对原始多标签数据特征空间进行了特征提取, 提取的特征空间抗干扰能力更强, 但由于没有考虑标签与特征空间之间的关联, 且特征空间维度没有减小, 故在此基础上构建的多标签分类算法的学习精度和时间性能都会受到一定的制约. 基于以上考虑, 本文在自编码的基础上采用基于监督的多标签超图学习以降低多标签数据的特征维度.

2.2 基于超图的多标签特征提取

为了更加清晰地描述本文提出的方法, 首先定义几个重要的标记, 如表1 所示. 超图中每个顶点对应一个样本, 每条超边描述了多个样本的共同属性. 为了求解超图在平滑约束下的Laplacian 矩阵,可以将问题近似为一个实值函数的优化问题.

3 总结

本文提出了一个基于自编码器与超图学习的多标签数据特征提取算法. 首先该算法采用去噪自编码器提取原特征空间的鲁棒表达, 使得特征提取算法抗干扰性更强; 然后基于超图理论和PAF 框架构建每个标签产生的样本之间的几何结构, 并融合多个标签对几何结构的影响得到全局Laplacian 矩阵;最后通过Laplacian 矩阵的特征值分解得到约简的特征空间. 针对公开数据集的实验结果表明本文的算法优于对比算法, 是有效可行的.

全文阅读已结束,如果需要下载本文请点击

下载此文档

相关推荐 更多