有关基于聚类的二次异常入侵检测算法毕业论文写作资料-论文写作网

简介:关于本文可作为检测数据方面的大学硕士与本科毕业论文检测数据论文开题报告范文和职称论文论文写作参考文献下载。

检测数据论文范文

1.入侵检测中应用聚类算法
1.1聚类原理
1.2数据预处理
1.3聚类检测算法
1.)初始化类别数等于样本数,Num一cluster等于 Num _sample
2.)计算样本两两距离,获得相似度矩阵,将距离最小的一类或几类合并成为一类
2.实验
2.1样本集描述及选取
2.2实验结果
3.结论
检测数据英文:进气压力传感器原理与检测数据流波形分析万用表检测

王飞,钱玉文,王执铨

（南京理工大学自动化学院,江苏南京210094）

摘要：针对应用聚类方法检测入侵中参数人为指定的问题,提出了一种新的基于无监督的聚类算法.算法通过比较无类标训练集样本间的距离,根据距离最近的样本首先论文范文成类的特性,在每一步聚类结束时,先预判找出疑似入侵类,然后再对疑似入侵通过比较距离及计算类内样本数占总样本数比率来做二次检测最终确定异常类.该方法不需要人为试参数且不受数据输入顺序的影响,类的形状是任意的,能较真实的反映数据分布的真实性状.最后实验仿真结果表明该算法是有效的.

关键词：无监督聚类；入侵检测；无类标数据

中图分类号：TP393.08文献标识码：A

0引言

在网络安全问题日益突出的今天,如何快速有效的发现各类新的入侵行为,对于保证系统和网络资源的安全变得十分重要.入侵检测系统( IDS)是网络安全中的重要研究课题,是继防火墙技术,数据加密等众多信息安全防范技术之后的重要的信息安全保障措施.侵检测技术一般分为两类：1）误用检测；2）异常检测.异常检测可不依赖标记的数据样本对入侵进行有效检测.聚类检测是一种异常检测技术.Portnoy et al(2001)和Eskin et al.(2002)提出了基于聚类的异常检测算法,算法通过训练数据集生成聚类,再根据生成聚类的大小自动标示“正常”和“异常”,然后通过标示过的类来分类网络数据.

在已知的无监督方法中大都存在以下不足：1）难以确定参数（阈值）且检测结果对参数敏感；2）包含样本数越少的类越可能是异常类的假设不是很合理.基于以上原因提出一种新的聚类算法,该算法可以动态生成聚类,聚类数可以根据需要选择,而不是人为设置参数；样本的数量不再是异常类判定的决定因素.

1.入侵检测中应用聚类算法

1.1聚类原理

粗略的说,聚类是基于整个数据集内部存在若干个“分组”或“聚类”为出发点而产生的一种数据描述方法,每个子集中的点具有高度的相似性.其数学集合描述为：给定一个数据集x等于{X1,X2,L,xn),将其划分为k个相似的子集类{c1.C2,L．Gk},其中C.∈x且.由聚类生成的类或簇是一组数据对象的集合,同类中的对象彼此相似,而不同类之间的对象彼此相异.数据对象间的相似度是基于对象间的距离来度量的.距离计算方法包括欧几里德距离、Manhattan距离、Minkowski距离.通常选择欧几里德距离作为距离的度量,其定义如下：

聚类分析是一种无监督的学习方法.它的输入是一组未标记的数据,这些数据的分类情况是未知的,通过聚类分析将数据划归到不同的类中,类之间的差别尽可能的大,而类内的差别尽可能的小.聚类分析有多种方法,集中表现为两类：划分的方法和分层的方法.基于划分的方法需要指定参数,不能自动的增减新类,这是此类方法的缺点.另外,此类方法对于差别很大带有孤立点数据类的聚类效果不是很好,且对初始值的选取较为敏感.K-均值法是这类方法中的典型代表.基于层次的方法主要以样本间的相似度为基础,根据相似度的大小对不同的类进行合并或分类,来逐步完成对数据的聚类.除此之外还有其它的诸如基于网格的方法,基于密度的方法等.

检测数据英文:进气压力传感器原理与检测数据流波形分析万用表检测

1.2数据预处理

数据预处理对于提高聚类算法的有效性和快速性都起着重要的作用.KDDCUP99数据集是入侵检测领域中比较权威的测试数据,数据集的每条记录总共包含41个特征值,其中有34个数字形式特征值和7个表示分类属性特征离散形式的特征值.根据实际应用需要对数据集进行处理,数据的预处理主要包括以下几个方面：1）表示分类属性特征的量化及连续化；2）数据的标准化处理；3）PCA降维处理.

对于数据的量化及连续化处理应用论文中的方法,处理后数据维数比原来有所增加,为提高算法效率需要对数据做降维处理.在对数据做降维处理前,数据的标准化处理是必不可少的步骤.应用欧几里德距离进行距离计算的时候若某一维上的数值远大于其它维,则容易发生大数吃小数的情况.例如：给定一组向量x1∈x,不妨设x等于【1000.1,2】,xf等于 [2000,2,l],则计算该向量间的欧式距离：

显然整个特征完全被第1位的属性特征所掩盖.因此需要对数据做标准化处理.

数据标准化处理选择z-score方法：

计算均值：

计算平均的绝对偏差( mean absolute deviation)论文范文：

1.3聚类检测算法

基于无监督聚类的入侵检测建立在两个假设之上：一是在训练数据中代表正常活动的事件记录数量必须比入侵事件记录数量大很多；二是异常记录与正常记录应该存在本质的不同.由于网络环境绝大部分时间处于正常状态,网络环境中正常行为是主流,而入侵表现为个别现象,正常实例的规模远大于入侵行为数目,因此这两个假设在现实网络环境中是较容易满足的.

本文算法包括了三部分：初始化,数据处理和检测部分.其流程图如下：

基于聚类的检测算法描述如下：

1.)初始化类别数等于样本数,Num一cluster等于 Num _sample

2.)计算样本两两距离,获得相似度矩阵,将距离最小的一类或几类合并成为一类

(1)对所有非单个元素类统计各类内样本数目,剩下的所有单个元素的类合并看作一个类,所有类按类内样本数目进

其中式(6)中d(ci.cj)表示两个类间的距离,以类质心的距离来表示.异常类的标定通过设定一个比例数,7,数据量低于ηxN的类认定为异常类,通常η为O—1之间的一个常数,本文取η等于 O.OI.

该方法的有效性与正常行为的聚类数目有密切关系,但它可以比较简单的标识出异常类.由于异常数据类仅仅是在聚类的过程中出现,初始的时候,每个数据看作单独的类,此时无法确定哪些是正常,哪些属于异常,但是随着数据论文范文,非单个数据类出现,此时可以根据上面提出的检测方法来识别异常类,实现检测目的.

2.实验

2.1样本集描述及选取

选用的样本数据集是入侵检测中最广泛应用的数据集KDDCUP99,入侵主要分为四类：拒绝服务类型DOS,远端机器未授权登录访问R2L；未经授权且试图获取超级用户和root权限类型U2R；对弱点的监视或其他探测类型PROBE.

由于该数据集是专门用来做入侵检测评估的,其中包含过多的入侵数据,与网络的实际情况并不相符合.为了满足检测算法的两个假设,需要对数据集作一些过滤.实验从数据集中随机提取出15137条数据作为训练样本集,又随机选取18188条数据作为实验样本集,样本集都包含了上面提到的4类入侵方式,其中异常数据大约占总数据的1%,符合检验算法的第一条假设.实验数据集详见表1：

数据选取后,按照前面所述方式处理：量化、连续化及标准化.针对网络入侵的特性,将协议和服务两个特征属性拿出,不列入PCA处理对象,剩余的做PCA处理.经过PCA

处理后,为了尽量多的保留信息最终选择贡献值大于90%的属性特征,保留了15个特征,再将协议和服务的特征添加入数据集组成最后的应用数据集.

2.2实验结果

针对4类入侵及混合入侵通过实验得到曲线如下：

实验曲线图直观的显示出聚类的类别数、检测率与距离的变化走势,检测率以实际检测值乘以1000给出,给出以方便显示,其中图6检测率以实际检测值乘以10000给出以方便显示.可以看到,聚类的最初阶段,在很小的距离下,类大量生成,包括异常类的迅速论文范文,因此,检测率快速增长,但因为此时仅为聚类的初始阶段,因此也有相当部分的异常数据被划归为正常,所以误报率也比较高.随着聚类的继续进行,越来越多的论文范文类出现,某些包含小数据量的正常类,这些正常类一方面由于其包含数据量少,另一方面虽然是正常类但由丁其特性偏离大多数正常类而更显得接近异常,这干扰了检测的准确性,使得检测率增幅趋于平缓.当聚类进行到某个阶段的时候,异常类基本论文范文出现,此时计算样本间距离,可看到在一个距离区段内,异常类保持其自身的完整性,不与正常类相论文范文,根据算法此时获得检测率最高,误报率则保持比较地的水平.当聚类进一步发展,异常类逐渐与正常类相论文范文导致检测率迅速降低,误报率开始升高,最终聚类结束时检测率为零,误报率100%.通过算法,可获得聚类过程中检测率的变化走势,在异常类与正常类区分最明显的时候选择对应的类别数即可以获得最高的检测率.表2给出了各类入侵方式在获得最高检测率时对应的类别数及样本距离.

通过以上实验结果可以看到大部分的入侵方式都能获得比较高的检测率和相对较低的误报率.在所有的入侵中,DDOS和PROBE攻击相对容易检测,因为这些攻击出现的频率比较高；相对的,U2R和R2L攻击由于其攻击模式的多样性及行为模仿正常行为,因此检测相对较难,造成检测率偏低.

为进一步检验算法的有效性,同其他人侵检测方法进行对比实验.表3是本算法在获得最高检测率时对应的类别数及样本距离,以及与之相对照的4种算法的检测率和误报率.

从Table 3中可以看出本文算法对网络入侵的检测效果要比文献[4-7]的算法的检测结果好,不论是检测率及误报率都获得了比较好的效果,这说明该算法是有效的.

3.结论

实验结果表明本文所提出的入侵检测算法是有效的,和现有的无监督聚类算法相比,该算法聚类过程是动态的,其变化直观,可以清晰地获得在达到的最高检测率所对应的类别数,且该算法可以有选择的去选取类数,以获得最高的检测率,而不需要人为的尝试参数或者阈值,既减少了工作量也增加了选择.然而,我们仅根据距离进行聚类,对攻击特征刻画不够,所以在聚类表示时会将入侵标为正常,造成检测率降低,因此检测方法还有待进一步完善.（责编张岩）

参考文献：

[1]Portnoy L,Eskin E,Stolfo S J.Intrusion Detection with UnlabeledData using Clustering[C]. In: Proc. ACM CSS Workshop on Data MiningApplied to Security, Philadelphia, PA:November 5—8,2001.

[2] Eskin E,Arnold A,Prcrau M, et al.A Geometric Framework forUnsupervised Anomaly Detection: Detecting Intrusions in UnlabeledData[A]. In: Proc. Data Mining for Security Applications. Boston USA:Kluwer Acaderruc Publishers 2002. 78-99.

[3] Jiang Sh Y,Song X Y, Wang H, et al.A clustering-based method forunsupervised intrusion detections. Pattern Recognition Letters.2006, 27(7)：802-810

[4]罗敏,王丽娜,张焕国．基于无监督聚类的入侵检测方法[J].电子学报,2003, 31(11)：1713-1716.

[5]马晓春,高翔,高德远聚类分析在入侵检测系统中的应用研究[J]微电子学与计算机,2005, 22(4)：134-136.

[6]梁铁柱,李建成,王晔,一种应用聚类技术检测网络入侵的新方法[J]．国防科技大学学报,2002, 24(12)：59-63.

[7]向继,高能,荆继武聚类算法在网络入侵检测中的应用[J]．计算机工程,2003,29( 16)：48-49.

[8] Jiawei Han, Micheline Kamber数据挖掘概念与技术[M]．北京：机械工业出版社．2001.

作者简介：王飞（1977-）,男,博士研究生,主要研究方向：信息安全,模式识别；钱玉文（1975-）,男,博士研究生,主要研究方向：信息隐藏,模式识别：王执铨（1939-）,男,博士生导师,主要研究方向：容错控制,模式识别.

总结：该文是关于检测数据论文范文，为你的论文写作提供相关论文资料参考。

检测数据英文引用文献: