摘要:
针对垃圾短信分类问题,提出一种计算词分类权重的方法,并以此为基础通过降维来得到分类特征词集合。提出了短信分类隶属度概念,通过计算短信分类隶属度和分类隶属度密度的方法来实现分类。为了提高分类的准确性,还对特征词进行了分类权重的迭代学习,从而保证了词分类权重取值的合理性。实验结果表明,该分类模型具有良好的分类效果和较低的时间复杂度。
关键词:
垃圾短信;特征词;文本分类;降维;权重学习
0引言
短信作为一种重要的交流手段,在人们的日常生活中正发挥越来越重要的作用。伴随着短信的广泛使用,垃圾短信也严重困扰着人们的生活。因此研究高效实用的垃圾短信分类方法很有必要。
4结语
本文所提出的算法考虑了词在不同分类中的权重差别,并认为每一类垃圾短信存在一个特征词集合,在此基础上实现了垃圾短信分类算法。实验结果表明,该方法在准确度和时间复杂度都达到了较好的效果。但是由于实验样本中没有足够的正常短信样本,可能会导致正常短信误分率较高,因此结合行为进行分类可能会提高算法的精确度和实用性,如考虑一个时间间隔中从某一个号码发出多条短信被认为是疑似垃圾短信,然后采用本研究的算法进行二次分类。另外,考虑词语语义相似度对分类权重的影响是下一步要研究的目标。
参考文献:
[1]
[2]
[3]
李慧,叶鸿,潘学瑞,等.基于SVM的垃圾短信过滤系统[J].计算机安全,2012,13(6):34-38.
[4]
冯鸥鹏.垃圾短信过滤中字特征与词特征对过滤效果的比较研究[D].北京:北京邮电大学,2011.
[5]
徐易.基于短文本的分类算法研究[D].上海:上海交通大学,2010.
[6]
[7]
[8]
陈功平,沈明玉,王红,等.基于内容的短信分类技术[J].华东理工大学学报:自然科学版,2011,37(6):770-774.
[9]
[11]
[12]
[13]
UYSAL A K, GNAL S, ERIGIN S, et al. Detection of SMS spam messages on mobile phones[C]// SIU: The 20th Signal Processing and Communications Applications Conference. Piscataway: IEEE Press, 2012:1-4.
[14]
[15]
GUNAL S, ERGIN S, GUNAL E S. Detection of SMS spam messages on mobile phones [C]// The 20th Signal Processing and Communications Applications Conference. Piscataway: IEEE Press, 2012: 1-4.
[16]
HAN K, RRIM H, SUNG H M. Some effective techniques for Naive Bayes text classification [J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(11):1457-1466.
[17]
[18]
张玉芳,彭时名,吕佳. 基于文本分类TFIDF方法的改进与应用[J]. 计算机工程,2006,32(19):76-78.
[19]
雷杨.基于集成学习的垃圾短信多级分类技术研究[D].成都: 电子科技大学,2011.
[20]
刘金岭. 基于上下文的短信文本分类方法[J].计算机工程,2011,37(10): 41-43.
[21]