[摘 要] 通过分析2003年至2016年中国知网发表的“图书情报与数字图书馆”领域关于协同过滤推荐的82篇文献,总结我国学术数据库协同过滤资源推荐的研究现状。通过对文献样本进行分类,发现目前该领域的研究重点主要集中于对学术数据库协同过滤推荐的推V和对推荐算法本身的完善两个方面,且后者主要集中于对数据稀疏性问题和可扩展性问题的解决。通过进一步分析,发现国内研究人员主要通过结合基于内容的推荐、空值填补和推荐结果融合三种方法缓解数据稀疏性问题;通过聚类的方法缓解可扩展性问题。
[关键词] 学术数据库 协同过滤 资源推荐
[中图分类号] G230 [文献标识码] A [文章编号] 1009-5853 (2017) 04-0011-05
The Literature Review of Collaborative Filtering Recommendation in Chinese Academic Databases
Sun Mengting Yuan Xiaoqun
(School of Information Management, Wuhan University, Wuhan, 430072)
[Abstract] By studying 82 papers published in the CNKI from 2003 to 2016 on collaborative filtering of Information and Digital Library, we investigate the hottest topics of current and history on collaborative filtering of Information and Digital Library. By classifying these papers, we discover that domestic researchers are engaged in either propagating the collaborative filtering technique in academic databases or improving the algorithm, in which the main problems are data sparseness and extensibility. By analyzing the papers further, we discover that researchers prefer to combine the content-based recommend technique, custom data or different recommend results to solve the data sparseness problem, and turn to the clustering technique to solve the problem of extensibility.
[Key words] Academic database Collaborative filtering Information recommendation
1 引 言
近年来,学术资源数据库出版的信息数量呈几何增长,“信息超载”[1]现象越来越严重,“以用户为中心”的互联网理念要求出版商从不同的角度挖掘用户的显性及隐性需求,为用户提供个性化信息服务,节约用户的信息搜索成本。因此,如何利用互联网技术高效精准地为用户提供个性化信息服务,成为目前学术出版领域的研究重点之一。其中,协同过滤推荐技术就是解决这一问题的有效方法之一。近10年来,研究人员对如何完善协同过滤推荐技术以及如何将其应用于学术数据库展开了大量工作,但相应的文献总结较少。因此,本文通过分析2003年至2016中国知网发表的“图书情报与数字图书馆”领域关于协同过滤推荐的82篇文献,对我国学术数据库协同过滤资源推荐研究进行详细调研,旨在总结目前我国学术数据库出版协同过滤资源推荐的研究情况和研究重点,厘清学术数据库协同过滤的研究脉络,为后续研究提供参考,以促进我国学术数据库个性化信息服务的可持续发展。
2 协同过滤推荐
2.1 协同过滤概念
协同过滤推荐是目前最常见的推荐技术之一,广泛应用于电子商务、电影网站、音乐社区等领域。“协同过滤”这一概念首先由戈德堡(Goldberg)等人提出[2],它基于如下假设:如果用户对某些项目的评分相近,那么他们对其他项目的评分也会相近[3]。传统的协同过滤推荐分为3个步骤:(1)建立用户-项目评分矩阵;(2)寻找相似邻;(3)对用户未访问的信息项目进行评分预测并产生推荐,预测和推荐的主要特征是[4]:(1)推荐的内容是相似用户喜欢的项目,而非与用户历史偏好相似的项目;(2)计算的是用户的相似度,而非推荐内容的相似性;(3)一个纯粹的协同过滤系统并不分析所推荐项目的内容本身。显然,与其他的个性化推荐技术相比,协同过滤通过抓取用户之间的社会化联系进行推荐,不仅适应互联网时代人际联系日益增强的趋势,还回避了对领域知识、非结构化推荐项目等复杂因素的分析。这使得协同过滤推荐具有如下优势:(1)可以发掘用户的潜在需求;(2)适用范围广,无需考虑被推荐项目的内容;(3)回避了对复杂因素的分析,易于实现。
但由于只考虑人与人之间的相互推荐,协同过滤也存在如下缺陷:(1)数据稀疏性:用户评分的项目数量过少导致用户-项目评分矩阵的极度稀疏,对相似度的计算造成极大干扰;(2)冷启动:新用户进入推荐系统后,由于其尚未与系统产生交互,系统无法获取偏好数据而导致推荐功能失效;(3)数据空间的可扩展性:系统的原始数据中除性别、年龄等数据的维度较小,其他如浏览、收藏、点击等系统交互行为数据的维度都较大,对算法的运行效率和存储空间提出了挑战。 2.2 协同过滤对学术出版的意义
根据2015年10月发布的《2014年度中国出版业发展报告》,2014年我国数字出版营业收入为3387.7亿元,同比增长33.4%,占全行业营业收入的17.0%,总体经济规模超过出版物发行,位居行业第二。其中,互联网期刊和电子书行业增长18.2%,增L速度远高于新闻出版业的总体水平[5]。数字出版的蓬勃发展为学术数据库领域的发展提供有力支持的同时,也对其资源服务的质量和效率提出了更高要求。因此,将协同过滤推荐技术应用于学术数据库,创建智能化推荐系统,对促进学术数据库个性化信息服务有着重要意义。
(1) 挖掘用户潜在需求。相比于其他的出版类型,学术出版领域中用户群体特征和规模相对稳定的特点,有助于提高协同过滤推荐的性能。协同过滤推荐通过挖掘用户的显性信息(如注册信息、评分信息等)和隐性信息(如点击、收藏、页面停留时间等系统交互行为信息),刻画用户的需求偏好,根据相似用户的信息行为挖掘和引导目标用户的信息需求,以此发掘并适应用户的潜在需求,提高学术数据库的信息服务质量。
(2)提高学术资源利用率。随着细分学科和跨专业学科的增加,学术数据库信息资源呈几何式海量增长,这导致用户受到过多不相关信息的干扰,难以抓取真正有用的信息。协同过滤推荐充分利用用户-项目的协同驱动,通过相似性分析将用户与待推荐项目相匹配,高效精准地进行个性化信息服务,以此提高学术数据库信息资源利用效率。
(3)扩展学术数据库的知识服务功能。协同过滤推荐不仅可以为用户提供需要的信息,推荐其需要但还未获取的有用资源;还可以通过构建用户偏好模型,结合相似用户信息行为的协同驱动,挖掘用户的潜在需求,扩展用户获取信息的范围,使信息服务功能更加主动化和自动化,实现学术数据库信息服务向知识服务的转变。
2.3 协同过滤研究现状
自1992年第一个推荐系统 Tapestry [6]提出以来,协同过滤推荐技术受到业界和学术界的广泛关注。至今,该技术已经从最初的邮件过滤[7],推广到新闻、电影[8]、电子商务、电子政务等社会各行各业。同时,学界的研究也从最初对协同过滤算法本身的完善,发展到当前结合多领域知识解决数据稀疏性等问题的研究[9-14]。
近年来,随着机器学习、大数据和社会网络的快速发展,学者们还通过结合机器学习技术等建立更精准的用户偏好模型、协同过滤系统的性能评价指标研究、推荐结果解释性研究等角度对协同过滤展开研究[15-16]。
3 我国学术出版领域协同过滤研究现状
虽然目前协同过滤推荐技术已经较成熟,但在我国学术出版领域的运用尚处于实践探索阶段,缺乏系统研究。鉴于此,本文以中国最大的学术数据库“中国知网”为对象,收集其中发表的2003年至2016年“图书情报与数字图书馆”领域关于协同过滤推荐的82篇文章,并以这82篇文章为样本,详细调研我国学术出版关于协同过滤资源推荐的研究情况。结果表明,我国在该领域的研究仍比较薄弱。
3.1 协同过滤研究重点
在调研过程中,本文根据学术数据库协同过滤资源推荐领域不同的研究重点,将82篇文献分为以下几类,如图1所示:(1)推广:介绍学术数据库(学术出版)中协同过滤技术类文献。(2)系统架构研究:构建以协同过滤推荐技术为核心的学术数据库推荐系统。这类文献主要是从系统架构角度研究如何将协同过滤技术应用于学术数据库,往往不涉及具体的算法细节。(3)数据稀疏性问题研究:解决协同过滤推荐算法中存在的数据稀疏性问题。(4)可扩展性问题研究:解决协同过滤推荐算法中存在的可扩展性问题。(5)因子研究:为更精准地描述学术出版领域的用户偏好,对用户偏好影响因子进行研究。(6)其他:包括针对不同类型的协同过滤推荐技术进行性能比较,协同过滤推荐方法性能评价指标研究等。
由图1可知,2003年至2016年协同过滤推荐在学术数据库领域的研究不断增加,尤其是在2007年至2016年10年间,研究成果增加明显。由图1可以看出,除2004年,每年均有推广性的研究成果,且呈上升趋势,说明将协同过滤推荐推广至学术数据库领域是一个研究热点。但以推荐系统架构为主题的文献数目较少且分布稀疏,也表明协同过滤推荐在学术数据库中的实际应用还比较薄弱,推广工作尚待加强。此外,图1还表明另一个研究重点是对协同过滤推荐算法本身的完善,具体表现在近10年关于数据稀疏性问题、可扩展性问题和因子选择问题的研究有所增加,其中对数据稀疏性问题的研究占了较大比重。
总体而言,目前学界在加强推广学术数据库协同过滤推荐技术的同时,重点研究算法的完善,且主要集中于数据稀疏性问题和可扩展性问题的研究。因此,下文将对这两个研究重点分别进行论述。
3.2 数据稀疏性问题
数据稀疏性问题是指协同过滤推荐算法中,用户评分的项目数量过少造成用户-项目评分矩阵的极度稀疏,导致相似度计算不准确的问题。事实上,网站运行过程中项目数量庞大且不断增加,而用户通常只对少量项目进行评分,这导致用户评分数据稀疏,进而影响协同过滤的推荐质量。
如图2所示,本文将样本文献中解决数据稀疏性问题的方法总结为以下三种:(1)结合基于内容的推荐,占总样本的67.5%;(2)空值填补,占总样本的15.0%;(3)推荐结果融合,占总样本的12.5%。
3.2.1 结合基于内容的推荐
结合基于内容的推荐方法[17]通过结合基于内容的推荐来丰富用户的偏好信息,在改善协同过滤推荐对用户评分信息过度依赖问题的同时,通过结合基于内容的推荐对用户偏好进行更精准的描述,以此缓解数据稀疏性问题。
孔繁超[18]考虑用户偏好随时间变化的特性,在用户-项目评分矩阵中引入时间维,并使用自组织映射技术对用户信息进行聚类处理,根据用户的需求行为将其划分为不同的簇,降低数据稀疏性对信息推荐造成的影响。邱均平、张聪[19]同样考虑时间因素,使用借阅时间计算用户的偏好值,并辅助使用用户评分对该值进行调整。周之诚[20]通过运用K-means算法,对资源类别意图特征值相似的用户进行聚类,以此提高推荐的实时性,缓解数据稀疏性问题。徐伟芬[21]依据中图法对用户兴趣进行建模,并通过关联规则算法挖掘信息资源各类别间的关联,然后通过基于模糊C均值的聚类算法对用户进行聚类,在得到用户在各聚类中的隶属度后计算用户之间的相似度,从而得到目标用户的最近邻居集。毕强、刘健[22]以关联语义链为基础建立数字文献资源的关联语义链网络, 计算数字文献资源之间关联的权重,然后将其引入皮尔森(Pearson)相关性公式中计算用户相似度,以此预测评分并进行推荐。马丽等人[23]为了体现用户的多兴趣特点,利用模糊聚类技术对用户进行聚类,在得到用户在各聚类中的隶属度和各聚类的聚类中心后,为目标用户寻找最近邻居集。张付志等人[24]引入文本聚类技术,结合图书资源的特征对同类资源进行聚类,使读者评价过的资源集中到聚类生成的某一个或多个簇类文档中,并在其中进行相似度计算。 3.2.2 空值填补
空值填补方法利用预测方法来填补用户-项目评分矩阵中的缺失项,从而提高评分矩阵中的数据密度,缓解数据稀疏性问题。
李卫华等人[25]提出一种计算群体兴趣偏向度的方法来预测用户-项目评分矩中的空缺值。王代琳等人[26]通过计算用户对项目评分之间的平均差异度来预测用户对未评分项目的评分:通过计算两个项目评分的平均比值得到两个项目之间的平均差异度,并根据平均差异度来预测目标用户对目标项目的评分。张闪闪等人[27]通过建立自动化评分规则来计算并填补评分矩阵中的缺失项。
3.2.3 推荐结果融合
推荐结果融合方法通过不同的方法计算用户对项目的偏好,并将各计算结果融合以改善数据稀疏性问题。在本文的样本集中,最常使用的推荐结果融合方法是将聚类算法和协同过滤算法相结合。
刘飞飞[28]提出一种能够同时考虑用户和项目之间相似性的协同过滤方法,即利用双聚类技术对行和列同时进行聚类,同时完成用户和项目的相似性分组。刘剑涛[29]通过计算相对点击和评分差的海明距离得到每个用户的候选邻居集,结合多态相似度对邻居集二次聚类,由最邻近用户预测当前用户的需求度,选择前N条生成推荐列表。刘如娟[30]通过统计每个用户最常用的标签,计算选中的标签与全部资源的相似性,然后以标签聚类作为桥梁,计算资源和用户之间的相关度,并对结果进行线形加权,计算用户对资源的兴趣值,生成推荐列表。
对比以上三种方法,首先,结合基于内容的推荐方法通过引入内容描述信息刻画用户偏好,缓解了数据稀疏性问题,但由于引入基于内容的推荐方法,也存在受领域知识及非结构化的内容限制等缺陷。其次,空值填补方法利用用户已有评分数据填充评分缺失值,具有直观、操作简单等优点,但空值填补本身是对评分缺失值的一种预测,预测偏差会对最后的推荐精度产生影响。最后,推荐结果融合方法将不同方法计算出的用户偏好进行综合,可以对高维稀疏的数据进行更加充分的挖掘,产生更高的推荐精度。同时,聚类、神经网络等离线机器学习方法的引入还能够改善推荐的运行效率和对海量数据的处理能力。但该方法也存在操作复杂、结果的可解释性差以及需要考量不同技术间的融合机制等缺陷。
3.3 可扩展性问题
为了更精准地描述用户偏好以提高推荐精度,协同过滤推荐中往往引入除评分以外的其他因子,加之实际运用过程中用户和项目的信息数量通常可达到上百万,协同过滤算法的可扩展性受到严峻挑战,这也是目前学术数据库协同过滤资源推荐领域的一个研究重点。在如何解决可扩展性这一问题方面,本文分析的82篇文献样本中多采用聚类的方法,如图3所示,聚类方法占总样本的69.2%。
张付志等人[31]将K-means技术和分层技术相结合对图书资源进行聚类,缩小了近邻搜索的范围和需要预测的图书资源数目。周之诚[32]同样通过运用K-means算法对资源类别的意图特征值相似用户进行聚类,提高推荐的实时性。张玉霞[33]利用改进的粒子群优化算法对文献进行聚类,使目标文献的大部分邻居实际上可以在目标文献相似度最高的几个聚类中找到。郑丽姣[34]在进行协同过滤推荐之前,首先使用聚类对数据集进行降维处理。孙守义等人[35]利用模糊聚类技术对用户进行聚类,在得到用户在各聚类中的隶属度和各聚类的聚类中心后,为目标用户寻找最近邻居集进行推荐。
除此以外,研究人员用于解决可扩展性问题的方法还包括引入神经网络、矩阵压缩、分类等。如周朴雄等人[36]采用反向传播神经网络对情境属性向量进行处理,生成用户在该情境下对阅读项目的偏好程度。刘海鸥[37]使用MapReduce化的蚁群神经网络权值训练方法来训练数据集。罗琳等人[38]利用稀疏向量的表示方法来表示输入矩阵中的每个资源,以压缩稀疏矩阵存储。
4 总 结
作为个性化服务的重要手段,协同过滤推荐技术在为用户提供有效信息、节约搜索成本等方面发挥着重要作用。本文通过文献样本分类,发现目前该领域的研究重点集中于学术数据库协同过滤推荐的推广和对推荐算法本身的完善上,且后者主要针对数据稀疏性问题和可扩展性问题的研究。通过研究趋势分析和详细论述,本文总结目前我国学术数据库出版协同过滤资源推荐的研究情况和研究重点,旨在厘清该领域的研究脉络,为后续研究提供参考。
注 释
[1]Borchers A,Herlocker J,Konstan J,et al.Ganging up on Information Overload[J]. Computer,1998,31(4):
106-108
[2][6][7]Goldberg D,Nichols D,Oki B M,et al. Using Collaborative Filtering to Weave an Information Tapestry[J].Communications of the ACM,1992,35(12):61-70
[3][9]Breese J, Hecherman D, Kadie C. Empirical analysis of predictive algorithms for collaborative filtering[C]. In: Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence (UAI’98),1998,43-52
[4]毛颖,周源远,王继成,等.信息过滤技术研究[J].计算机科学,2003(8):10-12
[5]《中国出版年鉴》杂志社有限公司.中国出版年鉴[M].北京:《中国出版年鉴》杂志社有限公司,2015:449-452