 当前位置: 查字典论文网 >> Frame页面网络日志数据挖掘预处理方法

Frame页面网络日志数据挖掘预处理方法

格式：DOC 上传日期：2023-05-01 00:58:34

时间：2023-05-01 00:58:34 小编：吕必俊

摘要

本文结合网络日志数据挖掘技术，通过对Frame页面和SubFrame页面进行分析，提出基于改进的Frame页面数据挖掘预处理方法。该方法从SubFrame页面信息着手，从而提高预处理过程中的信息识别能力。实验表明，该方法在网络日志的数据挖掘预处理过程中，有效提高了信息的精准度。

【关键词】数据挖掘 Frame页面 SubFrame页面

1 引言

随着互联网技术的迅猛发展，简单的信息搜索技术已经不能满足现阶段网络信息获取的需求。网络日志数据挖掘技术是结合网络日志用户的访问行为规律、兴趣需求等信息，加以分析，优化网络内容与网络文本文档的组织结构，以此提高网络站点的竞争力。我们发现网络日志记录往往十分庞大，传统的预处理方法，并不能很好解决日志页面对站点组织结构的影响。因此，进行网络日志预处理方法的研究，具有一定的现实意义。

对于传统的网络日志的数据挖掘，预处理阶段的Frame页面和SubFrame页面在用户会话文件出现的概率很高，这就降低了会话识别的兴趣度。因此，必须消除Frame页面对网络日志数据挖掘的影响。我们将Frame页面以及其SubFrame页面被看为一个整体，用Frame页面代替通过会话文件寻找Frame页面和Subframe页面，并剔除多余的页面，以提高日志数据挖掘的兴趣性。

2 改进的Frame页面数据挖掘预处理方法

通过对Frame页面过滤方法，结合实际情况分析，我们利用ID3决策树算法，提出基于改进的Frame页面过滤方法，以提高网络日志数据挖据的效率。该方法如下：

输入：FS表（pidframne ， pidsubframe）所对应的集合；集合属性包括 {index.html，top.html，left.html，main.html，…}

输出：判定策略

For each users session

{

currentframe=null

make_node（web）

if（（cerrenframe， pid， ∈FS） make_tree（currentframe，web_left）

Else if pid， ∈dom（FS）

{curremtframe pidi make_decition_tree（currentframe，web_left}

else make_decition-tree（currentframe，web_rleft

if attribute_list=null{make_decition_tree（currentframe，web_right）；}

else if（one ofattribute_list）>allgain

currentframe=test-attribute；

make_decition（ai，web_left）

Else generate_decision_tree（ai，web_right）

}

上述策略认为，访问站点的页面为根节点，具有信息增益最高的特征，currentframe变量记录web当前页面pidi。若当前页面pidi不属于frame页面，则归类左子树，反之当前页面pidi归入右子树。即pid，∈DOM（FS）。而frame页面的subframe页面归类左子树。这样一来，frame页面为决策树右树，subframe页面为决策树左树，subframe页面在会话识别阶段得到保留，以便后续路径补充。该方法优化了站点的组织结构，较好提升了网络日志数据预处理效率。

3 实验分析

我们通过Frame页面过滤预处理方法实验，验证本文提出的改进方法。实验提取700个日志所记录的访问页面，共20万条日志文件，结合本文提出的改进Frame页面网络日志数据挖掘预处理方法，与传统页面预处理方法进行对比测试。结果如表1所示。

在表1中，绝对支持度表示用户频繁访问页面的最小会话数，FSi表示用户频繁访问页面集合数，*为用户不感兴趣的页面集，△表示页面集是用户感兴趣的，△△表示页面集用户感兴趣程度加强。实验表明，改进Frame页面过滤方法相比传统方法，预处理结果得到提高，因此，网络日志的数据挖掘效率得到加强。

4 小结

本文通过对网络日志数据挖掘预处理技术进行分析，结合预处理过程中的实际情况，着重考虑SubFrame页面剔除对站点组织结构的影响，提出了改进的Frame页面网络日志数据挖掘预处理方法，实验表明，该方法较好的提高了网络日志数据挖掘的预处理精度和效率。

参考文献

[1]方元康等.一种改进的Web日志会话识别方法[J].计算机技术与发展，2008，18（11）：214-216.

[2]朱明.数据挖掘[M].合肥：中国科技大学出版社，2008：13-56.

[3]朱志国等.持久偏爱的Web用户访问路径信息挖掘方法[J].情报学报，2010，29（2）.

[4]凌海峰等.基于混合蚁群算法的web用户会话聚类[J].计算机工程与应用，2013（22）.

[5]韩法旺.Web日志挖掘数据预处理过程研究[J].南京工业职业技术学院学报，2012（2）.

[6]凌海峰等.基于聚类的web用户会话识别优化方法[J].计算机应用研究，2012（8）.

全文阅读已结束，如果需要下载本文请点击

Frame页面网络日志数据挖掘预处理方法

相关推荐更多

1 如何对幼儿进行德育教育论文幼儿园关于德育教育之类的论文 2023-08-24

2 科学小论文自然现象的作文科学小论文作文300字三篇 2023-08-06

3 幼儿礼仪教育论文幼儿礼仪教育论文内容总结 2023-07-22

4 分子生物学论文2000 分子生物学论文参考文献 2023-08-06

5 肉牛高效养殖技术要点分析 2023-08-05

6 浅析推广绿色畜牧养殖技术意义 2023-08-26

7 肉羊养殖技术现状及措施探讨 2023-08-05

8 应急管理财政政策国际经验与启示 2023-08-07

9 谈事业单位财政税收问题与对策探 2023-08-05

10 财政专项资金审计现状及对策探讨 2023-08-06

1 洗衣机水位检测电路的设计 2023-08-13

2 智能家居中PLC控制系统分析 2023-08-22

3 电气自动化控制中人工智能技术应用探究 2023-01-28

4 中短波发射台自动化的设计 2023-02-01

5 高增益超外差信道的设计与实现 2023-02-16

6 CALDER超声波影片水洗机的性能研究 2022-11-30

7 基于LED的城市道路照明与节能研究 2023-08-05

8 单轴定位仪控制系统开发 2022-09-29

9 用CUDA加速多波束测深系统波束形成 2016-10-14

10 移动设备人机交互眼动跟踪方法分析 2022-10-21

11 浅议电子技术在电视媒体中的影响和应用 2023-01-10

Frame页面网络日志数据挖掘预处理方法

相关推荐 更多

1 如何对幼儿进行德育教育论文 幼儿园关于德育教育之类的论文 2023-08-24

2 科学小论文自然现象的作文 科学小论文作文300字三篇 2023-08-06

3 幼儿礼仪教育论文 幼儿礼仪教育论文内容总结 2023-07-22

4 分子生物学论文2000 分子生物学论文参考文献 2023-08-06

5 肉牛高效养殖技术要点分析 2023-08-05

6 浅析推广绿色畜牧养殖技术意义 2023-08-26

7 肉羊养殖技术现状及措施探讨 2023-08-05

8 应急管理财政政策国际经验与启示 2023-08-07

9 谈事业单位财政税收问题与对策探 2023-08-05

10 财政专项资金审计现状及对策探讨 2023-08-06

1 洗衣机水位检测电路的设计 2023-08-13

2 智能家居中PLC控制系统分析 2023-08-22

3 电气自动化控制中人工智能技术应用探究 2023-01-28

4 中短波发射台自动化的设计 2023-02-01

5 高增益超外差信道的设计与实现 2023-02-16

6 CALDER超声波影片水洗机的性能研究 2022-11-30

7 基于LED的城市道路照明与节能研究 2023-08-05

8 单轴定位仪控制系统开发 2022-09-29

9 用CUDA加速多波束测深系统波束形成 2016-10-14

10 移动设备人机交互眼动跟踪方法分析 2022-10-21

11 浅议电子技术在电视媒体中的影响和应用 2023-01-10

相关推荐更多

1 如何对幼儿进行德育教育论文幼儿园关于德育教育之类的论文 2023-08-24

2 科学小论文自然现象的作文科学小论文作文300字三篇 2023-08-06

3 幼儿礼仪教育论文幼儿礼仪教育论文内容总结 2023-07-22