摘 要: 为解决数据库从高维单词空间映射至低维隐含语义空间中,无法有效实现数据库访问语义指向性分析的问题,提出基于主题模型的数据库访问语义指向性算法,建立PLSA主体模型并对其进行求解,通过PLSA主题模型获取理想的潜在语义主题,在数据库访问关键词上分布以及文档在潜在语义主题上的分布,将其应用于数据库访问语义指向性分析中,针对数据库表现出来的文本特征和结构特征建立PLSA主题模型,通过自适应不对称学习算法对不同的PLSA主题模型进行集成和优化,以实现数据库访问语义指向性分析,使数据库访问结果更加准确。仿真实验结果表明所提算法具有很高的数据库访问效率及精度。
关键词: PLSA主题模型; 数据库访问; 语义指向性算法; 主题模型优化
中图分类号: TN926?34; G350 文献标识码: A 文章编号: 1004?373X(2016)16?0112?04
Abstract: To solve the problem that the database is mapped from high?dimensional word space to low?dimensional implied semantic space, and can not effectively implement semantic directivity analysis of database access, the database access semantic directivity algorithm based on theme model is proposed, the PLSA subject model is established and is solved, by which the ideal latent semantic theme is obtained. The key distribution on the database access and document distribution on latent semantic subject are applied to the database access semantic directivity analysis to set up PLSA theme model according to the text feature and structure feature showed by database. The different theme PLSA models are integrated and optimized by adaptive asymmetry learning algorithm to realize the semantic directivity analysis for database access and make the database access results more accurate. The simulation results show that the proposed algorithm has high database access efficiency and accuracy.
Keywords: PLSA theme model; database access; semantic directivity algorithm; theme model optimization
0 引 言
数据库访问语义指向性分析是信息推荐和数据挖掘领域的研究热点[1]。在当前数据库访问环境下,信息内容具有动态交互和随机性的特点。只有创新数据库访问语义指向性算法,才能提高内容主题描述的准确性。近年来,语义指向性算法受到相关专家学者的广泛关注[2?4]。
目前,数据库访问语义指向性算法的研究取得了一定的成果。文献[5]提出一种基于MER 和文本聚类相融合的数据库访问语义指向性算法,在MER模型的基础上,引入文本聚类分析,以实现数据库访问语义指向性分析,但该方法仅反映了主题内容,未考虑用户的个性化特征;文献[6]提出基于语法解析和路径分析技术的数据库访问语义指向性算法,首先对关键词进行解析,依据解析结果实现数据库访问页面文档的语义指向性分析,但该方法实现过程复杂,不适用于实际应用;文献[7]提出基于领域本体和主动学习法的数据库访问语义指向性算法,通过主动学习法对数据库访问页面的内容进行学习,依据学习结果建立数据库访问语义指向性模型,实现数据库访问语义指向性分析,该方法耗时长,效率较低;文献[8]提出基于集成学习和二维关联边条件随机场的数据库访问语义指向性算法,通过训练数据库访问页面的特征统计与采集的先验知识融合,建立数据库访问指向性模型,该算法需要大量资源支撑,运行成本过高;文献[9]提出基于数据挖掘的数据库访问语义指向性算法,通过领域本体及数据挖掘技术对数据库访问页面文本信息的语义进行挖掘,利用聚类法实现数据库访问语义指向性的分析,但该方法未考虑数据库访问过程中的随机性和动态性,误差较大。
1 基于主题模型的数据库访问语义指向性算法
1.1 PLSA主题模型及求解过程
数据库访问语义指向性即文本中句法结构的某一成分在语义上和其他成分相匹配的概率,而这种匹配概率可通过PLSA(Probability Latent Semantic Analysis)主题模型进行描述,利用PLSA主题模型获取理想的潜在语义主题,在数据库访问关键词上分布以及文档在潜在语义主题上的分布,从而实现数据库访问语义指向性分析,使数据库访问结果更加准确。
1.1.1 PLSA主题模型构建及参数调整
在PLSA主题模型中,文本可通过共现矩阵[d,w]进行描述。其中,[di,wj]用于描述文档[di]和单词[wj]共同出现,即文档标号为[i]的文档里面出现了单词[j]。可用[ndi,wj]描述文档[di]中单词[wj]出现的频数。以此可以描述语料库的共现矩阵:行代表文档,列代表单词。假设隐含语义空间(即主题)用隐含变量[z=z1,z2,…,zk]进行描述,则定义以下几个概率:[Pdi]用于描述从文档中选中文档编号为[i]的文档的概率;[Pzkdi]用于描述在给定文档[di]的条件下,文档属于第[k]个主题的概率;[Pwjzk]用于描述给定第[k]个主题的概率条件下,第[j]个单词出现的概率,即第[j]个单词对第[k]个主题的指向性程度。 通过上述定义的概率,构建基于概率的共现矩阵,也就是PLSA主题模型:
[Pdi,wj=PdiPwjdi=Pdik=1KPwjzkPzkdi] (1)
式中:[Pdi]代表以该概率选择一篇文档[di];[Pzkdi]代表以该概率选择一个主题;[Pwjzk]代表以该概率选择一个单词。
通过对式(1)的分析可知,PLSA为混合模型,针对给定的数据库访问主题[z],单词[w]满足一个多项分布,而针对给定的文档[d],主题[z]则满足另一个多项分布,即该模型的参数为[Pwz]和[Pzd],通过极大似然准则对这两个参数进行调整,就能使该模型数据库访问语义指向性分析达到最佳。
极大似然准则函数对数可描述成:
[L=i=1Nj=1Mndi,wjlogPdi,wj =i=1NndilogPdi+j=1Mndi,wjndilogk=1KPwjzkPzkdi] (2)
式中,[ndi]为文档[di]中全部单词的数量。该目标函数也可看作是使[Pwjdi]和[ndi,wjndi]两个分布之间的容差性达到最小,因为[ndi,wjndi]已知,所以[Pwjdi]能够更加有效地描述共现矩阵的实际分布。
1.1.2 模型的求解
通过对PLSA主题模型进行分析发现:[ndi]并非模型参数,因此,对式(2)进行约简,有:
[L∝i=1Nj=1Mndi,wjlogk=1KPwjzkPzkdi] (3)
通过对式(3)分析可知,仅需分析模型参数[Pwjzk]和[Pzkdi]对[L]的影响就能实现期望最大化算法对模型参数进行求解。
期望最大化算法由E步和M步实现,其中E步主要负责对隐含变量关于观测变量的后验概率进行计算;M步将隐含变量看作是观测变量,对隐含变量进行修正,使目标函数达到最大。
E步的计算公式如下:
[Pzkdi,wj=PwjzkPzkdii=kKPwjzkPzkdi] (4)
式中,[Pzkdi,wj]用于描述出现编号为[i]的文档、编号为[j]的单词的概率条件下,出现编号为[k]的主题的概率,也就是给定数据库访问主题[z],第[i]个文档的编号是[j]的单词对主题的指向性程度。
M步的计算方法如下:
M步需对两个模型参数[Pwz]和[Pzd]进行估计,公式描述如下:
[Pwjzk=i=1Nndi,wjPzkdi,wjm=1Mn=1Nndi,wmPzkdi,wm] (5)
式(5)主要负责单词[w]对隐含主题[z]的语义指向性进行计算,有:
[Pzkdi=j=1Mndi,wjPzkdi,wjndi] (6)
式(6)主要负责第[i]个文档对隐含主题[k]的语义指向性进行计算。
通过对EM算法进行分析可知,每次迭代首先利用E步骤求出[Pzkdi,wj]矩阵,再将新的[Pzkdi,wj]矩阵代入M步中,求出参数矩阵[Pwz]和[Pzd]。反复进行,直至迭代次数大于设定阈值,或目标函数达到既定阈值时,停止迭代,将迭代结果定义为PLSA主题模型的解。
1.2 结合数据库特征的算法实现过程
数据库特征主要包括文本特征和结构特征。本文将建立的PLSA主题模型与数据库表现出来的文本特征和结构特征相结合,通过自适应不对称学习算法对不同的PLSA主题模型进行集成和优化,实现数据库访问语义指向性分析。
假设数据库访问页面的训练集为[D=d1,c1,d2,c2,…,dN,cN],用[SD=s1,s2,…,sN]描述数据库访问页面的结构特征集;用[C=C1,C2,…,CN]描述数据库访问页面训练集的文本特征集,则基于PLSA模型的数据库访问语义指向性算法的实现过程如下:
(1) 针对任意数据库访问页面中的文档[di]进行结构解析和文本信息提取,得到描述结构信息的特征向量[sdi]与描述文本信息的特征向量[cdi];
(2) 通过[sdi]与[cdi]分别建立PLSA主题模型,得到和结构信息与文本信息相应的主题分布[Pssα]、[Pssd]和[Pccβ]、[Pcβd];其中,[α],[β]用于描述主题;
(3) 依据结构特征与文本特征对理解数据库访问页面的重要程度,获取两个PLSA主题模型集成和优化的权重,通过式(4)完成PLSA主题的集成,得到新的主题分布:
[Pzkdi=ωsiPsαφdi, φ=1,2,…,mωciPcβφ-mdi, φ=m+1,m+2,…,m+n] (7)
式中:[ωsi,][ωci]分别用于描述结构特征与文本特征在数据库访问页面文档[di]中的权重;[m,][n]分别用于描述和结构特征与文本特征相应的主题个数,[φ=m+n];
(4) 依据集成后的主题分布[Pzdi],通过式(5)、式(6)对[Psz]和[Pcz]进行描述;
(5) 依据描述结果,针对新数据库访问页面的文档[dnew]进行步骤(1);
(6) 通过对[sdnew]与[cdnew]进行训练得到[Psnewz]与[Pcnewz],获取该数据库访问页面文档[dnew]的主题分布,也就是语义指向性[Pzdnew];
(7) 求出结构特征关键词与文本特征关键词的后验概率:
[Psdnew=n=1NPszkPzkdnew] (8)
[Pcdnew=n=1NPczkPzkdnew] (9)
(8) 反复进行上述步骤,直至迭代次数大于设定阈值,或目标函数达到设定阈值时,停止迭代。
最后,通过后验概率对语义指向性[Pzdnew]进行约束,实现数据库访问语义指向性分析。 2 仿真实验分析
为了验证本文提出的基于主题模型的数据库访问语义指向性算法的有效性,需要进行相关的实验验证。将采集到的若干领域的真实数据集作为研究对象,将传统LDA算法作为对比进行分析。
2.1 两种算法性能分析
在只采用结构信息、只采用文本信息和综合采用结构信息及文本信息的情况下建立模型,将查全率和查准率作为性能评价指标对两种算法的性能进行比较分析,得到的结果分别如表1~表3所示。
表1 只采用结构信息情况下两种算法性能分析 %
表2 只采用文本信息情况下两种算法性能分析 %
综合分析表1~表3可知,本文算法和LDA算法在综合采用文本信息和结构信息的情况下,性能均优于只采用文本信息或只采用结构信息的情况,但本文算法的性能增加幅度更高,且本文算法的综合性能明显优于LDA算法,因为LDA算法不能充分全面地分析所有信息,容易受到数据库访问页面随机性和动态性的影响,造成语义指向性分析发生偏差,影响算法性能。
2.2 效率分析
为了进一步验证本文算法的有效性,对本文算法和LDA算法的效率进行比较分析,结果如图1所示。
分析图1可知,采用本文算法完成一次实验的时间明显低于LDA算法,同时本文算法的时间曲线较LDA算法更加平稳,说明本文算法不仅具有较高的效率,而且具有较高的稳定性,进一步验证了本文算法的有效性。
3 结 论
本文提出一种基于主题模型的数据库访问语义指向性算法。仿真实验结果表明,所提算法具有很高的数据库访问效率及精度,稳定性好,具有较强的实用性。
注:本文通讯作者为陈志伟。
参考文献
[1] 潘现伟.基于内容和语义相似性的文献网络构建方法的比较与评价[D].沈阳:中国医科大学,2014.
[2] 王云英.基于PLSA模型的Web页面语义标注算法研究[J].情报杂志,2013(1):141?144.
[3] 谭论正,夏利民,黄金霞,等.基于pLSA模型的人体动作识别[J].国防科技大学学报,2013,35(5):102?108.
[4] 康南南.基于主题模型和图核模型的图像分类算法的研究与应用[D].重庆:西南大学,2014.
[5] 罗远胜.跨语言信息检索中双语主题模型及算法研究[D].南昌:江西财经大学,2013.
[6] 冶忠林,贾真,杨燕,等.基于语义扩展的句子相似度算法[J].山西大学学报(自然科学版),2015,38(3):399?405.
[7] 张瑞杰,李弼程,魏福山.基于多尺度上下文语义信息的图像场景分类算法[J].电子学报,2014(4):646?652.
[8] 赵伟.基于并行计算的概率潜在语义分析算法研究[J].安徽职业技术学院学报,2014(3):1?3.
[9] 丁宇新,燕泽权,冯威,等.基于有监督主题模型的排序学习算法[J].电子学报,2015(2):333?337.