当前位置: 查字典论文网 >> 面向异常流量检测的自适应抽样算法的探究

面向异常流量检测的自适应抽样算法的探究

格式:DOC 上传日期:2023-08-06 00:12:20
面向异常流量检测的自适应抽样算法的探究
时间:2023-08-06 00:12:20     小编:黄作明

0 引言

随着高速网络技术和栅格技术的快速发展,网络链路速率在不断提高,网络带宽和网络流量规模也在不断扩大,这使得对网络骨干链路上的流量进行实时在线的全采集测量变得越来越困难。同时,对海量流量数据库进行维护和对数据进行分析处理也相当困难,并且开销很大。为了解决上述问题,流量抽样技术研究已经成为当前甚至今后高速动态网络流量测量的研究重点之一。

抽样测量主要应用于网络异常流量检测和网络管理两方面,但其对前者的影响远远超过了后者。这主要是因为异常流量检测的网络环境复杂,可能存在网络攻击和正常突发访问等情况,将会同时涉及正常流量和异常流量以及各种检测指标等多个因素,抽样过程对这些因素的特征和行为影响颇大。在面向异常流量检测的抽样测量中,一方面,抽样数据流量必须逼近于真实数据流量,一般而言,抽样数据流量相对于真实数据流量分布必然存在着偏差,抽样获得的流量数据越多,网络异常流量检测的难度越小,检测结果也越可信; 另一方面,为了实现高速、海量信息的快速准确检测,人们希望需要分析处理的流量数据越少越好。如何有效地缓解异常流量检测准确性与实时性之间的失衡是目前流量抽样技术研究面临的巨大挑战。

1 抽样技术分类

面向网络异常流量检测的抽样方法多种多样,大致可分为静态抽样、自适应抽样、基于流的抽样和BF( bloom filter) 抽样四种。

1. 1 静态抽样技术

1993 年,网络流量抽样技术首次得到应用,针对NSFNET主干流量测量中流量大的问题,Claffy 和Polyzos 采用了基于事件和时间驱动的两种经典静态抽样方法。静态抽样技术也称传统抽样技术,主要有系统抽样、分层随机抽样和随机抽样三种静态抽样方法。假设样本容量为N,抽样间隔为K,每个抽样间隔内有相等的样本数,系统抽样是抽取每个固定抽样间隔内的第一个样本,分层抽样是从每个固定抽样间隔内随机抽取一个样本,随机抽样是直接从样本容量中随机抽取K 个样本。静态抽样方法简单且易实现,缺点是抽样比率保持不变,抽取的样本无法准确地刻画网络流量特征。

1. 2 自适应抽样技术

自适应抽样是一种利用网络流量状态实时自动地调整抽样策略或参数的抽样方法。在允许的误差范围内,该方法能更好地捕捉到网络流量和行为特征及网络行为特征,有效提高了异常流量抽样检测的准确性。

文献提出一种抽样可编程框架FlexSample,实现了通过设置条件来调整对特定流量包的抽样率,但由于抽样条件的设置范围较大,造成实用性较差。文献提出一种分层抽样算法,在根据数据流的时间和空间异质性进行分层后,对每个分层单元的内部采取不同的抽样方法,该方法便于模块化设计和管理,但是需要引入先验知识来估计异常流量的分布和行为特征,额外增加了系统开销。文献提出一种基于网络流长分布的自适应抽样算法( FSAS) ,根据统计的流长与设定的阈值空间比较,短流、中流和长流分别采取不同的抽样概率,提高了异常流量检测的有效性。文献建立了一种模糊自适应抽样模型,用于预测网络环境,以便动态调整抽样间隔,从而提高抽样准确度。但是该抽样模型中的隶属函数的参数是静态

设定的,可操作性较差。

1. 3 流抽样技术

网络流是指在一个给定时间段内流经某条链路的具有相同属性的报文集合,流数就是报文集合的数量,流长指流中包含的报文数。这里提到的相同属性是指报文中的源IP( SrcAddr)、宿IP( DestAddr) 、源端口( SrcPort) 、宿端口( DestPort) 和协议( protocol) 这五个字段或其中的若干个字段相同,其中最典型的流标志方法是采用五元组( SrcI、DestIP、SrcPort、DestPort、protocol) 。流特性反映了某一类应用、子网或协议的特性,许多网络攻击事件如分布式拒绝服务攻击( DDoS) 、端口扫描和蠕虫传播等都与流特性息息相关,对流进行抽样和分析,不仅可以避免对复杂报文内容的细节分析,而且采用流记录结果可以有效节省存储空间。

Mandies 等人比较了分组抽样和流抽样对异常流量检测的影响,并得出流抽样比分组抽样更能反映真实网络流量分布和行为特征。抽样一般是对每个流采用相同的抽样概率,没有区分短流和长流,但在现实网络流量中,异常攻击流量大多是短流,这种抽样方法降低了短流的抽样精度,无法确保后续异常流量检测的有效性。

1. 4 基于BF 的抽样技术

BF 是由Burton Bloom 在1970 年提出的,它是一种用于表示集合的数据结构,支持成员查询和随机存储等功能,并且存储空间较少。BF 结构最初在数据库应用中广泛使用,近年来,随着网络流量的急剧增长,BF 在网络流量抽样中也备受关注。在流抽样中,BF 主要用于流信息识别,另外还可以保证抽样样本的随机性和存储的高效性,但是BF 结构存在某个对象不属于集合却被认为属于该集合的现象,具有一定的误判率。

2性能分析

基于ASTUTE 模型的异常流量粗粒度检测方法无须训练历史数据,有效降低了系统开销,且避免了由于训练数据异常带来的误检和漏检问题。此外,该方法在检测出流量异常之后还能为异常流的提取提供比较准确的参考信息。但在异常流量粗粒度检测方法中,引入ASTUTE 模型的前提是链路处于非饱和状态,且时隙足够小。但由于存在某些流成组出现( 比如一个用户从服务器下载了一个网页后,可能会打开其他服务器的连接下载该网页中包含的对象) 和网络阻塞( 此时,不同的流因共享路由器中的队列而具有相关性) 等特殊情况,任一较短时隙内的流都有不满足独立性和稳定性的可能性,所以存在一定的误检率,但几率非常小,对之后的自适应抽样影响甚微。

结束语

本文提出了一种基于异常流量粗粒度检测的自适应抽样方法。在异常检测阶段无须对历史数据进行训练,避免了额外开销和不确定性,如训练数据中存在异常流量。在流量抽样过程中,抽样概率可以自动根据异常检测的结果进行调整,不仅对海量数据进行了大幅度约减,还有效提高了短流的抽样精度,放大了疑似异常流量的特性,为下一步细粒度的异常攻击流量检测提供了理论参考和技术支持。

全文阅读已结束,如果需要下载本文请点击

下载此文档

相关推荐 更多