当前位置: 查字典论文网 >> 基于相似度的多数据库分类

基于相似度的多数据库分类

格式:DOC 上传日期:2023-07-27 00:01:47
基于相似度的多数据库分类
时间:2023-07-27 00:01:47     小编:

摘 要:许多大型组织拥有大量的子公司,进行事务处理时会产生大量的多源数据库,然而现有的数据挖掘只致力于对单个数据库的挖掘,由此,提出了多数据库挖掘技术。为了减少寻找相关数据的检索代价,在对多数据库进行挖掘和分析之前,首先要对多数据库进行分类。由于多数据库中包含大量数据,现有的分类算法GreedyClass的时间复杂度可达到O(m4),所需代价非常大。由此提出了IdentifyCompleteclass算法用于对多数据库分类,其时间复杂度降为O(m3),并提出了相应的寻找最优完全分类算法IdentifyBestClassification,实验证明改进后的算法有较高的运行效率。

关键词:多数据挖掘;多数据库分类;IdentifyCompleteclass算法;IdentifyBestClassification算法

中图分类号:TP311.13

然而现有独立于应用的多数据分类算法存在着一些问题。例如算法时间复杂度高[3,5],不一定能得到最优分类[3],浪费存储空间[4]等。本文针对以上问题提出了可行性的改进算法,使得对多数据库的分类更快、更准、更节省空间。

1 相关概念

文献[3-5]中对多数据库分类提出了相关理论概念并进行了理论证明,下面给出相关定义。

(2)若∨CDi∈classxα,∨CDj∈classyα(x≠y,1≤x,y≤n),则classxα∩classyα=且sim(Di,Dj)

全文阅读已结束,如果需要下载本文请点击

下载此文档

相关推荐 更多