当前位置: 查字典论文网 >> 图像自动标注方法研究综述

图像自动标注方法研究综述

格式:DOC 上传日期:2023-03-06 01:03:03
图像自动标注方法研究综述
时间:2023-03-06 01:03:03     小编:

〔摘 要〕随着Web20的逐步发展,海量用户生成的图像信息充斥于各大网络平台,图像自动标注技术逐步成为图像检索以及图像理解的关键问题之一。该文主要通过对现有图像自动标注方法的文献进行收集和整理,在比较、分析各种方法相关理论和实现技术的基础上,对图像自动标注方法研究进展进行评述;并归纳了各种方法的优势与不足。得出结论:图像自动标注方法和图像处理技术仍然需要从机器学习方面进一步的研究与改进,且可以从图像信息的标注拓展到视频信息的标注。

〔关键词〕图像信息;图像自动标注;图像检索;多示例;多分类;半监督模型

DOI:10.3969/j.issn.1008-0821.2016.03.024

〔中图分类号〕G25436 〔文献标识码〕A 〔文章编号〕1008-0821(2016)03-0144-07

〔Abstract〕With the progressive development of Web20,massive user-generated image informa-tion filled in every network platform,automatic image annotation technology gradually become one of key issues of the image retrieval and image understanding.In this paper,through collecting and organizing documents of the existing automatic image annotation method to understand the theory and analysis of the various methods,On this basis,the status of Automatic Tagging images are reviewed,and comparative analysis of the advantages of each method and insufficient.The conclusion is:automatic image annotation method and image processing technology still needs further research and improvement from the active learning,and can expand the image information from the label to label video information.

〔Key words〕image information;automatic image annotation;inage retrieval;multi-category;semi-supervised model

近年来,随着信息技术的高速发展以及摄像机、手机等图像采集设备的普及,图像信息充斥在世界的每一个角落,用其清晰、简单的方式描述着日常生活的方方面面。比如,用图像描述情感(朋友圈的图像信息),家庭影集的管理,医学图像检索,人脸识别及网络购物、旅游评论等。据微信平台统计,仅微信朋友圈每日的图像信息都超过一个亿。图像信息给日常生活带来方便的同时,也提出了巨大的挑战――在浩瀚的图像海洋中,怎样检索到用户需要的信息;怎样理解大量用户生成的图像内容的情感信息等问题吸引了很多研究者的思考。为了解决这些问题,图像自动标注技术应运而生,并逐步发展成为图像检索以及图像理解的关键问题之一。

图像自动标注是指针对图像的视觉内容,通过机器学习的方法自动给图像添加反应其内容的文本特征信息的过程。其基本思想是:利用已标注图像集或其他可获得的信息,自动学习语义概念空间与视觉特征空间的潜在关联或者映射关系,给未知图像添加文本关键词。经过图像自动标注技术的处理,图像信息问题可以转化为技术已经相对较成熟的文本信息处理问题。

图像自动标注技术的运用使得用户可以更加容易地获得海量网络图像,有效地组织、查询和浏览大规模图像。这样,网络上数以万计的图像信息就可以被很好的利用和分析。

随着Twitter,Facebook,微博等社交平台上的图片信息呈指数增长,图像自动标注技术逐渐成为图像分析、应用领域的关键技术之一,受到越来越多的国内外研究人员的关注。为了更好的了解图像自动标注方法的研究现状,本文对现有图像自动标注方法的文献进行收集和整理,在了解相关理论和分析的基础上,对图像自动标注问题研究现状进行评述;在此基础上对各种图像标注的方法进行了比较。

1 基于分类思想的图像标注方法

随着互联网的普及以及多媒体技术的快速发展,海量的图像信息因为其方便、简洁、快速的特点充斥于各大网络平台。为了更好的处理图像信息,图像标注技术受到了国内外研究者的关注,并逐渐发展成为图像、图形领域的热点问题。传统的图像标注是人工完成的,对图像的理解与标注相对准确,但是在大数据环境下的图像标注中,人工标注工作量巨大,并且容易受到主观经验的影响,对同一幅图像的标注不一致。于是,有学者利用计算机技术实现图像的自动标注。

图像自动标注技术从一开始就得到很多研究者的关注,研究人员提出了各种图像自动标注模型。其中很多模型经过不断地修改与改进,都能达到相对较高的标注精度。

早期,研究人员将语言学习领域的方法引入图像标注,通过理解高层语义,将图像特征翻译为对应的文本关键词,这样就实现了从图像到文本的转化。

要想将图像翻译为文本,就需要寻找图像的构成单元。所以研究人员首先将图像进行分割,然后再统计文本与关键词之间的共生关系,实现图像标注。Mori等人在1999年提出了共生模型(Co-occurrenceModel)[1],从此越来越多的研究人员开始关注图像自动标注领域。共生模型的基本思想是先将图像划分成规则的区域,对分割的图像区域进行分类,然后统计图像区域与关键词的共生概率,用共生概率大的关键词标注图像。此后,Duygulu等人提出了翻译模型(Translation Modal,简称TM)[2],利用传统的语言统计翻译模型将语义概念翻译为由图像区域聚类产生的blobs。该模型也需要分割图像并对图像区域进行聚类。Jeon等人基于图像分割提出了跨媒体相关模型(Cross-Media Relevance Model,CMRM)[3],主要是以底层特征(例如颜色,形状)对图像区域进行聚类。图像区域本身与底层特征没有密切联系,所以图像标注的准确率不高。 早期的这些方法都是通过图像分割、区域分类和统计共生概率的方法进行图像自动标注。这些方法比较简单,高层语义关键词与图像底层视觉特征之间没有一一对应。早期的方法虽然对于图像标注的正确率不高,但是建立图像和语义概念的统计概率模型,开启了图像自动标注的研究,吸引了许多学者的关注,为后续图像自动标注方法提供了参考。

11 相关概念

基于分类的图像标注模型是一种有监督的机器学习方法。分类器训练过程会不断地通过反馈信息调整分类器,使得分类器达到某个精度。分类模型的基本思想是:先对图像进行分割,过滤噪声和过分割部分,把每一个语义概念当作一个类别,对分割后的图像进行分类。图像的自动标注实际上可以看作图像分类问题来处理。

图像分类不同于传统的分类问题,每幅图像由多个分割区域组成、同时属于多个语义类别,所以必须用含有该幅图像语义的多个特征词标注。比如,一幅图像中有飞机、老虎、草坪等信息,这幅图像就同时属于这几个语义类别,图像的标注关键词就为飞机、老虎、草坪。分割区域图像分类结束,图像自动标注问题也就解决了。

这种图像自动标注方法的重点在分类,分类器的好坏直接影响着图像标注的结果,其代表方法有SVM方法、贝叶斯方法、k-近邻方法、决策树方法等。提高分类器的精度,图像标注的准确性就会提高。

从基于分类的图像自动标注基本思想可知,对一幅图像进行自动标注,主要分为两个阶段:标注模型训练阶段(用大量的已分类图像训练分类器)和图像标注阶段。如图1所示。

12 经典分类标注方法

121 多示例多标记标注

一幅图像由多个区域组成,不同的区域对应不同的语义关键字。比如一幅图像中有蓝天、白云、草坪,马等语义,其中的任何一个语义只是存在于图像中的某个区域,并不是图的全局都包含这些语义。所以全局特征不能很好的表示图像的高层语义。多示例学习问题被引入解决图像标注的有歧义问题。Dietterich[4]等人首先用多示例学习模型来研究药物活性问题,通过训练正包和反包生成模型,对未知图像包进行标注。在此多示例图像标注研究的基础上,Yang C等人[5]提出了多示例学习领域经典的多样性密度(Diverse Density)算法来解决标注问题。算法的基本思想是[5],如果特征空间中某点最能表征某个给定关键词的语义,那么正包中应该至少存在一个示例靠近该点,而反包中的所有示例应该远离该点。因此该点周围应当密集分布属于多个不同正包的示例,同时远离所有反包中的示例。特征空间中如果某点附近出现来自于不同正包中的示例越多,反包中的示例离得越远,则该点表征了给定关键词语义的概率就越大。用多样性密度来度量这种概率,具有最大概率的点即为要寻找的目标点。

一般来说,一幅图像由多个示例组成;同时,一幅图像也属于多个语义关键词,这样图像标注问题就属于多标记问题。Tang J,Cusino C等人[6-7]用多标记学习问题的思路解决图像标注问题,在多标记学习过程中,先将多标记学习问题转化为多个单标记学习问题,提出了基于支持向量机的自动图像标注算法。

多示例多标记的图像标注方法,只是提供了图像底层特征与高层语义之间的更好的对应的新思路,对于提取出来的特征向量仍然需要训练分类模型进行分类。

122 多分类标注

为了进一步提高图像标注的准确率,很多研究者提出了多分类模型。Carnerio提出了一种有监督的多分类标注方法(Supervised Multiclass Labeling,简称SML)[8],这种方法将每个关键词看作是一个类,通过机器学习中的多示例学习方法来为每个类生成对应的条件密度函数,并将训练图像看作是与它相关的标注关键词所对应的条件密度函数的一个高斯混合模型。路晶,金奕江等人[9]提出了使用基于SVM的否定概率和法的图像标注的方法,此标注方法的基本思想是:先建立小规模图像库为训练集,库中每个图像标有单一的语义标签,再利用其底层特征,以SVM为子分类器,“否定概率和”法为合成方法构建基于成对藕合方式(PWC)的多类分类器,并对未标注的图像进行分类,结果以N维标注向量表示。臧淼[10]等人提出了Bayes多分类模型,将图像标注看做多分类问题,然后选择条件概率密度高的作为图像标注词。吴伟等人[11]改进了支持向量机多分类模型,其中把直方图交叉距离作为核函数,传统支持向量机的输出值变换为样本到超平面的距离,选择图像特征中冗余较小的视觉特征,建立分类器,用距离大小来判断类别。

123 其它分类方法

除了以上提到的方法,还有很多分类模型被引入到了图像自动标注领域,如基于聚类、决策树、K-means、贝叶斯模型等。Wanglei等人[12]提出采用基于子空间的聚类算法,用K-means算法生成blob-token,并通过统计token和key-word之间关联,建立模型,实现图像的标注。Yeung等人[13]则通过利用相关反馈技术构造一个语义模板,把视觉特征和高级语义概念相关联,用于图像的标注。Li Wei等人[14]用分类的方法在visual terms和keyword之间建立关联,以此构建分类器,将分类器用于后续图像的标注。

以上这几种聚类方法,通常都是基于视觉特征,将具有视觉特征的区域划分为同一类别,只要视觉特征相同就可以归为一类,不管其语义特征是否相同,都用相同的关键字,所以这种分类方法的图像标注的准确率不是特别高。很多研究者提出了基于语义的聚类来提高图像标注的准确性。张元清,包骏杰等人[15]从语义约束的聚类算法方面对图像区域进行聚类,然后进行图像标注。在图像标注阶段,他们使用贝叶斯理论进行标注。在这种方法中,对于给定的一幅图像,计算语义概念的后验概率。由于聚类区域彼此之间存在着依赖关系,不相互独立,影响概率的计算方法,他们提出贪心选择连接(GSJ)算法计算出聚类区域的独立子集。经过贪心选择连接算法后,使用贝叶斯理论进行语义标注。刘咏梅等人[16]提出了一种场景语义树图像标注方法(SSTM),采集标注字信息,利用PLSA(Probability Latent Semantic Analysis)模型进行场景聚类,高斯混合模型(GMM)建立视觉场景空间,对特定场景的图像建立一种树型结构用于标注该场景下的待标注图像。 Hinton[17]提出了深度信念网,它由一组受限玻尔兹曼机(RBM)组成,可以实现自主地进行特征学习,这一发现促使了对深度学习[18]领域的研究,并将这项技术应用于图像分类标注领域中。2011年,Marc Aurelio Ranzato等人[19]利用深度学习的思想,设计实现了深度生成模型完成特征学习,并将该模型应用于图像识别和分类工作中。深度学习的兴起,促进了基于图像分类的图像标注领域的进一步完善。

2 相关模型图像自动标注

相关模型图像自动标注方法是基于早期的概率关联模型而来,不同于概率关联模型的地方是它不仅仅简单地统计图像区域与关键词出现的共生概率,而是建立图像与语义关键词之间的概率相关模型。通过关联模型,给待标注图像找到与其相关性概率最大的一组语义关键词来标注图像。

早期Jeon等人的概率统计模型标注效率低,正确性低。很多研究者都通过改进相关模型来提高图像标注的准确性。2003年Lavrenko在CMRM模型的基础上改进并提出了连续特征相关模型(Continuous-space Relevance Model,简写CRM)[20]。随后,Feng S,Lavrenko等人又在CMRM和CRM模型的基础上改进而形成了多伯努利相关模型(Multiple-Bernoulli Relevance Model,简写MBRM)[21],此模型仍然采用规则的网格划分图像,但是标注关键词的概率分布是通过MBRM来估计的。Pan等人采用了EM算法来估计图像区域与关键词的关系[22]。包翠竹在跨媒体相关模型的基础上改进了词汇平滑处理的方法,通过简洁的图像特征表示方法和相似度计算方法更准确地度量了图像与图像之间的相关性[23]。该方法可以快速的进行图像标注,不仅提高了图像标注的正确率,而且提高了速率。

2007年,芮晓光,袁平波等人[24]结合相关模型,提出了一种比较新颖的自动图像标注框架。其主要思想是对已经标注过的图像集进行分割,使其成为比较小的图像区域,再利用软约束的半监督图像聚类算法对已经分割好的图像区域进行语义聚类,实现图像集在视觉特征空间中的量化表示,每个子类称为blobs。然后再结合概率相关模型和Manifold排序学习算法,建立语义概念和blobs之间的概率关系。当有未标注的图像时,通过判断其区域所属的blob,即可利用此概率关系进行自动标注。

以上相关模型的自动图像标注方法,都是先对图像进行分割,对分割后的图像子区域与特征关键词利用关联模型求联合概率,然后对图像进行标注。在这个过程中,图像标注的好坏受到图像分割技术的影响。而目前图像分割问题尚没有得到很好的解决,因此相关模型的准确率和可信度都不是特别高。

为了避免图像分割造成的图像信息丢失,提高图像标注的准确率。郭玉堂,韩昌刚提出基于典型相关分析和高斯混合模型的自动图像标注方法[25]。其主要思想是:使用典型相关分析(CCA)对融合后的特征进行图像标注,同时利用高斯混合模型(GMM)估计每一个关键词的先验概率分布,使用GEM算法估计GMM中的参数。最后利用贝叶斯分类器进行图像标注,选出概率最大的R个关键词作为图像的标注词,并利用词间语义关系来优化标注结果。周全等人提出基于多尺度上下文的图像标注方法[26],先对每层分割后的图像进行识别,然后再利用贝叶斯定理,通过线性加权,然后对每层识别的结果进行融合,从而达到对整幅图像的自动标注。改善了因为图像分割造成的图像信息丢失,提高图像标注的结果。刘凯等人[27]结合深度玻尔兹曼机与典型相关分析的特点,提出了DBM-CCA算法,利用玻尔兹曼机实现从低层图像特征向稀疏高层语义转换,然后通过典型相关分析建立子空间的映射关系,从而实现图像标注。与典型相关分析和高斯混合模型的图像标注方法相比,查全率和查准率都有明显提高。

3 半监督模型图像自动标注

31 相关概念

半监督模型图像自动标注是一种重要的机器学习方法,已经标注的图像信息和未被标注的图像信息都要参与到机器的学习过程中,与前面提到的基于分类的有监督机器学习方法不同,在学习过程中可以利用的图像信息更多,对信息的了解更加清楚,它适用于图像信息总量大,而已被标注的图像信息很少的情形。这种图像标注方法在大数据环境下可以得到很好地推广。

图学习模型是一种重要的半监督模型图像标注技术之一[28]。基于图学习算法的具体步骤是:图节点可以用每幅图像或者标注关键词表示,边可以用标注关键词之间或者图像之间的相似关系来表示,通过图学习算法来实现标注,即信息从训练图像上传递到待标注图像上,以此来完成标注任务。

基于图学习的标注算法,就是想通过图像间关系、词间关系、图像和关键词的关系这3种关系合作的方式,互相配合、互相补充,实现信息在图像视觉层次和高级语义关键词之间传递。一般来说,关键词和图像之间有以下几种关系[28]:

(1)图像间关系,即两幅图像之间由视觉特征所决定的相关性;

(2)词间关系,即两个词对于一幅图像的适合程度;

(3)图像到词的关系,即通过图像产生语义关键词的可能性,一般通过某种模型来进行训练的基础上估计产生;

(4)词到图像的关系,即通过给定的语义关键词来取得产生图像的后验概率。

32 半监督模型方法

Pan首先将图学习模型应用于图像标注领域,提出了一种基于图模型的自动图像标注方法(Graph-based Automatic Caption,GCap)[29],该方法的主要思想是:将图像、图像区域以及标注词分别作为3种不同类型的图的节点,并根据它们之间的相关性来连接构造图。这种方法初步提出了图模型标注的基本思想,对于图像节点之间的权值问题以及标注词与标注词、图像与图像之间的相关性问题考虑的较少。图像标注结果不理想。 在Pan提出的图像标注方法基础上,还有其他一些改进方法,如Liu提出了一种自适应的基于图模型的图像标注方法(Adaptive Graph-based Annotation method,AGAnn)[30],该方法综合考虑了图像与图像之间的关系、图像与标注词之间的关系以及标注词与标注词之间的关系,并提出了用WordNet获得词间的关系来为图剪枝,设计了基于流形排序算法(Manifold-Ranking)的自适应相似图来对这些信息进行传播,最终实现图像标注。在该框架下,基于图的图像标注被分为两个阶段来完成,即基本图像标注与图像标注改善。Tong H等人[31]提出的通过视觉相似度来标注关键词,但是只考虑了图像间的相似度,构建k-NN相似图,没有考虑关键词间的相关性。Liu等人[32]在2006年提出的自适应图模型标注方法的基础上提出了一个基于图模型的最近邻生成链(Nearest Span-ning Chain,NSC)方法来标注图像,在该模型中给出了图像相似性的统计估计。将基于图学习的图像标注技术向前推动了一步。

除了基于图学习的半监督图像标注的方法,其他半监督学习的方法也得到关注,Zhu[33]总结了半监督学习的一些方法,其中基于图拉普拉斯的半监督学习方法得到了很多关注,许多相关算法被用于网络图像标注。Ma等人[34]提出了一个基于稀疏结构化特征选择的网络图像标注方法,主要应用了图拉普拉斯半监督学习的方法,同时进行特征选择,考虑了不同特征之间的关联。

尽管图拉普拉斯有比较好的性能,获得了较广泛的应用,Kim等人[35]指出图拉普拉斯的恒定零空间导致其解偏向一个常函数,对于动态的情况,具有较差的推断能力。并提出了二阶Hessian能,它可以使函数值随着测地距离线性变化,而不是恒定为某一值,同时更好地保持局部流形结构。该种方法提出后得到了广泛的应用。在此基础上,Lu等人[36]提出了基于二阶Hessian能的主动学习算法HOD进行最优化设计。Zheng等人[37]改进了Lu等人的工作,提出了Hessian稀疏编码。

面对网络平台图像信息的大量增长,很多研究人员开始关注Web20大规模的图像信息标注。史彩娟等人提出了一种基于I2,1/2矩阵范数和共享子空间的半监督稀疏特征选择算法(即SFSLS)[38]。基于图拉普拉斯的半监督学习,应用I2,1/2矩阵范数来选择稀疏矩阵和特征,学习不同图像特征之间的关联信息,同时利用了有标签图像信息和无标签图像信息,设计迭代算法来最优化目标函数,使得该方法更加适用于大规模图像标注。大规模的图像信息是存在很多噪声的,与小范围的、明确的图像标注又有差别。田n等人提出一种基于概率距离尺度学习的图像标注方法[39]。该方法利用距离尺度的方法得到语义上的距离尺度,将概率主题模型的方法用于挖掘网络中大量模糊的,潜在的但是不确定的相关信息,改进了图像标注的性能。

4 图像标注方法比较

对图像自动标注方法进行研究、分析后发现图像自动标注方法研究是当前热点问题之一。在图像标注方法研究方面,研究者们做出了很多努力,对图像自动标注领域做出了贡献。但是现阶段,图像标注的方法仍然需要不断的改进与创新。

早期的图像标注方法,虽然标注的准确率不高,但是为图像标注领域的发展提供了很好的方法和思路,开启了图像信息处理崭新的一步。

基于分类的图像标注,国内外学者提出很多方法,一大部分是通过先提取训练图像的底层特征,然后在底层特征和关键词分类器之间建立分类模型,再对未标注的图像集运用这个模型进行分类,完成图像标注。早期的分类器只能实现图像与关键词之间的一对一标注,后来经过对分类器的改进,可以实现一对多的分类。但是基于分类的图像标注,无论是一对一的分类方式还是一对多的分类方法,都在不同程度上受到分类器个数的约束和限制,对于大数据环境下的图像或者大量关键词的标注情况不适用。但是,基于分类模型的图像标注在图像识别和检索方面有很明显的优越性。

相关模型的图像标注方法是通过构建一个概率统计模型来计算图像内容和标注关键词之间的联合概率。图像底层特征与标注关键词之间不是一一对应的,联系不是太紧密。与分类模型相比少了图像底层特征的提取,标注过程相对简洁。但是要想准确得到图像内容与标注词之间的联合概率,就要分析语义关键词之间存在的共生概率关系,语义关键词之间的不独立性,会造成计算得到联合概率不准确,而影响标注结果。

基于半监督模型图像标注方法的优点是在学习阶段可以利用更多的数据,更加适合于已标注的训练数据量相对较小、总数据量较大的情况。这种图像标注方法在大数据环境下可以得到很好地推广。但是该种标注方法也有缺点,在标注的过程中必须考虑图像间的权值问题,以及图像与图像之间,词与词之间,图像与词语之间的相关性问题,而这些问题也是基于图像标注过程中的关键点与难点。

基于分类模型的图像标注方法是一种有监督的图像标注方法,需要根据反馈信息调整分类器,虽然正确率有一定的提高,但是要花大量的人力、物力,标注成本较高。相关模型的图像标注方法是一种无监督的图像标注方法,人力成本低,但是图像底层特征与高层语义之间的鸿沟以及语义之间的不独立性,会导致联合概率计算的不准确。半监督模型的图像标注方法利用有标注的图像信息和未标注的图像信息进行学习,增加参与学习的图像数量。但是高层语义与底层视觉特征之间存在“语义鸿沟”,单纯地用增加学习的图片数量,不能提高图像标注的准确率。

文中提到的图像标注方法,都在一定程度上解决了语义鸿沟的问题。但是图像处理技术方面的欠缺,也对图像自动标注技术的研究与发展有一定的影响。比如,为了对图像区域进行分类,提取图像的颜色、纹理、形状等底层特征,原来的图像特征会急剧下降;图像分割技术尚不成熟,在很大程度上会影响语义关键词的提取;语义映射机制是基于先验知识的,往往需要人机交互;建立能够表示高层语义与底层特征的模型是很困难的。图像自动标注方法有待于进一步的研究与改进。 5 结束语

近年来,随着机器学习的出现,越来越多的机器学习方法被用于图像标注,无监督学习、有监督学习与半监督学习的图像标注技术都存在不足。研究者们在图像标注领域仍然需要花费大量的时间进行研究。在未来,随着信息技术的不断发展,机器学习是图像标注领域的重要研究方向。

无监督学习直接通过模型统计,得到底层特征与高层语义之间的联合概率来标注图像。语义与图像之间没有一一对应的关系,很多时候得到的结果说服力不强。有监督学习需要花费大量的人力、物力来训练分类器,并且还会受到分类器的限制;半监督学习模型,有标注的图像类别和未标注的图像类别都将被用来学习,但是高层语义与底层视觉特征之间存在“语义鸿沟”[40];如果机器学习可以主动的选择一部分价值很高的无标签样本,进行人工标注,这无疑会增加图像标注的性能。主动学习的方法虽然已经在几年前提出,但是在图像自动标注的应用方面仍未得到推广。如何利用少量的已知标签样本来提高分类模型的泛化性能是目前主动学习算法中需要克服的技术难点[41],有待于进一步改进,以提高图像标注的准确率。

随着微信等网络社交平台的推广、普及,社交网络用户量不断增加,图像、视频等多媒体信息已经逐渐出现在我们的日常交流中,图像标注将朝着动态画面标注的方向发展。可以将图像自动标注的方法用于视频的标注,这也是我们团队下一步的主要研究方向。

参考文献

[1]Mori Y,Takahashi H,Oka R.Image-to-word transformation based on spaniding and vector quantizing images with words[C].In MISRM99 First International Workshop on Multimedia Intelligent Storage and Retrieval Management,1999.

[2]Duygulu P,Barnard K,Freitas N,DAForsyth.Object recognition as machine translation:learning a lexicon for a fixed vocabulary[C].Proceeding of European Conference.On Computer Vision(ECCV.02).Copenhagen,Denmark,2002:97-112.

[3]Jeon J,Lavrenko V,Manmatha R.Automatic image annotation and retrieval using cross-media relevance models[C].Proc.of Int.ACM SIGIR Conf.on Research and Development in Information Retrieval(ACM SIGIR.03).Toronto,Canada,2003:119-126.

[4]Dietterich T G,Lathrop R H,Lozano-Pérez T.Solving the multiple instance problem with axis-parallel rectangles[J].Artificial Intelligence,1997,89(1-2):31-71.

[5]Yang C,Dong M,Fotouhi F.Region-based image annotation through multiple instance learning[C]∥Proc.of ACM Conf.on Multimedia(ACM MM05).Singapore,Nov.2005:435-438.

[6]Tang J,Lewis P H.A study of quality issues for image auto-an-notation with the Corel dataset[J].IEEE Trans.on Circuits and Systems for Video Technology,2007,17(3):384-389.

[7]Cusano C,Ciocca G,Schettini R.Image annotation using SVM[C]∥Proc.of Int.SPIE Conf.on Imaging IV.San Jose,CA,USA,Feb.2004:330-338.

[8]Carneiro G,Chan A B,Moreno P J,Vasconcelo N.Supervised Learning of Semantic Classes for Image Annotation and Retrieval[J].IEEE Transactions On Pattern Analysis and Machine Intelligence,2007,29(3):394-410.

[9]路晶,金奕江,马少平,等.使用基于SVM的否定概率和法的图像标注[J].智能系统学报,2006,(1):62-66.

[10]臧淼,张永梅,李金泉.基于Bayes的自动图像标注[J].北方工业大学学报,2014,26(1):7-9.

[11]吴伟,聂建云,高光来.一种基于改进的支持向量机多分类器图像标注方法[J].计算机工程与科学,2015,37(7):1338-1343.

[12]Wang lei,Liu Li,Latifu.Automatic image annotation and retrieval using subspace clustering algorithm[C]∥Proceedings of the 2nd ACM International Workshop on Multimedia Databases,2004:263-274. [13]Yeung M M,Boon-Lock Y,Bouman C A.Apply semantic template to support content-based image retrieval[C]∥Proceedings of SPIE Storaee and Retrieval for Media Databases,2000:442-449.

[14]Li Wei,Sun Mao-song.Automatic image annotation based on WordNet and hierarchical ensembles[C]∥LNCS 3878:CICLing2006.Berlin Heidelberg:Springer-Verlag,2006:417-428.

[15]张元清,包骏杰,况夯,等.基于贝叶斯理论的图像标注和检索[J].计算机科学,2008,35(8):229-231.

[16]刘咏梅,杨帆,于林森.场景语义树图像标注方法[J].中国图像图形学报,2013,18(5):529-536.

[17]Geoffrey Hinton.A Practical Guide to Training Restricted Boltzmann Machines[M].Neural Networks:Tricks of the Trade.Springer Berlin Heidelberg,2010:599-619.

[18]Itamar Arel,Derek C.Rose,Thomas P.Karnowski.Deep Machine Learning-A New Frontier in Artificial Intelligence Research[C].IEEE Computational intelligence Magazine,2009:13-18.

[19]MarcAurelio Ranzato,Joshua Susskind,Volodymyr Mnih,Geoffrey Hinton.On deep generative models with applications to recognition[C].Computer Vision and Pattern Recognition(CVPR),2011 IEEE Conference on.IEEE,2011:2857-2864.

[20]Lavrenko V,Manmatha R,Jeon J.A model for learning the semantics of pictures[C].Proc.of Advances in Neural Information Processing Systems(NIPS.03).Vancouver,Canada,2003:553-560.

[21]Feng S,Manmatha R,Lavrenko V.Multiple bernoulli relevance models for image and video annotation[C].Proc.of IEEE Int.Conf.on Computer Vision and Pattern Recognition(CVPR.04).Washington DC,USA,2004:1002-1009.

[22]Pan JiaYu,Yang Hyung Jeong,Duygulu Pinar,Christos Falousos.Automatic image captioning[C].The 2004 IEEE Intl Conf on Multimedia and Expo(ICME04),Taipei,Taiwan,2004.

[23]包翠竹,宋海玉,牛军海,等.快速图像标注的改进跨媒体相关模型[J].计算机应用,2014,34(5):1439-1441.

[24]芮晓光,袁平波,何芳,等.一种新的基于语义聚类和图算法的自动图像标注方法[J].中国图象图形学报,2007,12(2):239-244.

[25]郭玉堂,韩昌刚.基于CCA子空间和GMM的自动图像标注[J].计算机工程,2013,39(6):277-282.

[26]周全,王磊,周亮,等.基于多尺度上下文的图像标注算法[J].自动化学报,2014,40(12):2944-2949.

[27]刘凯,张立民,孙永威,等.利用深度玻尔兹曼机与典型相关分析的自动图像标注算法[J].西安交通大学学报,2015,49(6):33-38.

[28]卢汉清,刘静.基于图学习的自动图像标注[J].计算机学报,2008,31(9):1629-1639.

[29]Pan J Y,Yang H J,Pinar D.Automatic multimedia cross-modal correlation discovery[C]∥The Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004,(8):653-658.

[30]Liu J,Li M J,Ma W,Liu Q,Lu H.An adaptive graph model for automatic image annotation[C]∥Eighth ACM International Workshop on Multimedia Information Retrieval,2006:61-70.

[31]Tong H,He J,Li M,Ma W,Zhang H J,Zhang C.Manifold-ranking based keyword propagation for image retrieval[J].EURASIP JAppl.Signal Process.Spec.Issue Inf.Min.Multimedia Database,2006,21:1-10. [32]Liu J,Li M,Liu QS,Lu HQ,Ma SD.Image annotation via graph learning[J].Pattern Recognition,2009,42(2):218-228.

[33]Zhu Xiaojin.Semi-supervised learning literature survey,technical report 1530[R].Madison:University of Wisconsin,2007.

[34]MA Zhi-gang,NIE Fei-ping,YANG Yi,N Sebe.Discriminating joint feature analysis for mul-timedia data understanding[J].IEEE Trans on Multimedia 2012,14(6):1662-672.

[35]KIM K I,STEINKE F,HEIN M.Semi-supervised regression using Hessian energy with an application to semi-supervised dimensionality reduction[C]∥Pros of Annual Conference on Neural Information Processing Systems,2009:979-987.

[36]LU Ke,ZHAO Jin-dong,WU Yue.Hessian optimal design for image retrieval[J].Pattern Recongnition,2011,44(6):1155-1161.

[37]ZHENG Miao,BU Jia-jun,CHEN Chun.Hessian sparse coding[J].Neurocomputing,2014,123(10):247-254.

[38]史彩娟,阮秋琦.基于增强稀疏性特征选择的网络图像标注[J].软件学报,2015,26(7):1800-1811.

[39]田,郭智,黄宇,等.一种基于概率距离尺度学习的图像标注方法[J].理论与方法,2015,34(7):19-23.

[40]鲍泓,徐光美,冯松鹤,等.自动图像标注技术研究进展[J].计算机科学,2011,38(7):35-41.

[41]Culotta A,McCallum A.Reducing labeling effort for structured prediction tasks.In Proceedings of the National Conference on Artificial Intelligence(AAAI),2005:746-751.

 

全文阅读已结束,如果需要下载本文请点击

下载此文档

相关推荐 更多