你好 今天,我们继续分享专门用于启动
“网络工程师”课程的资料,该课程已于3月初开始。 我们看到许多人对
文章 “检测网络DDoS攻击的机器联合方法”的
第一部分感兴趣,今天,我们想与您分享第二部分-最后一部分。
3.2异常检测问题中的图像分类下一步是解决所得图像的分类问题。 通常,解决图像中的类(对象)检测问题的解决方案是使用机器学习算法构建类模型,然后使用算法搜索图像中的类(对象)。

建立模型包括两个阶段:
a)类的特征提取:绘制类成员的特征向量。

图 1个
b)训练获得的模型特征以用于后续的识别任务。
使用特征向量描述类对象。 向量由以下形式形成:
a)颜色信息(定向梯度直方图);
b)上下文信息;
c)有关物体各部分的几何排列的数据。
分类(预测)算法可以分为两个阶段:
a)从图像中提取特征。 在此阶段,执行两项任务:
- 由于图像可能包含许多类的对象,因此我们需要找到所有代表。 为此,您可以使用一个滑动窗口,该窗口从左上方到右下方穿过图像。
- 缩放图像是因为图像中对象的比例可以更改。
b)将图像与特定类别相关联。 该类的形式描述,即由其测试图像突出显示的一组功能,被用作输入。 基于此信息,分类器确定图像是否属于该类,并评估结论的确定性。
分类方法。 分类方法的范围从主要是启发式方法到基于数学统计方法的正式程序。 没有公认的分类,但是可以区分几种图像分类方法:
- 基于细节的对象建模方法;
- “一句话袋”的方法;
- 匹配空间金字塔的方法。
对于本文中介绍的实现,作者出于以下原因选择了“单词袋”算法:
- 基于细节建模和匹配空间金字塔的算法对描述符在空间中的位置及其相对位置很敏感。 这些类型的方法在检测图像中的对象的任务中很有效。 然而,由于输入数据的特征,它们不适用于图像分类问题。
- “词袋”算法已经在其他知识领域得到了广泛的测试,它显示出良好的结果并且易于实现。
为了分析从交通中投射的视频流,我们使用了朴素的贝叶斯分类器[25]。 它通常用于使用单词袋模型对文本进行分类。 在这种情况下,该方法类似于文本分析,而不是仅使用描述符的单词。 该分类器的工作可以分为两个部分:训练阶段和预测阶段。
学习阶段 。 每个帧(图像)被馈送到描述符搜索算法的输入,在这种情况下,是尺度不变特征变换(SIFT)[26]。 之后,执行帧之间的奇异点相关的任务。 对象图像中的特定点是可能出现在该对象的其他图像上的点。
为了解决比较不同图像中的对象的特殊点的问题,使用了描述符。 描述符是一种数据结构,是一个将其与其他点区分开的奇异点的标识符。 关于对象图像的变换,它可以不变或可以不变。 在我们的情况下,描述符相对于透视变换(即缩放)是不变的。 使用手柄可以将一个图像中的对象的特征点与该对象的另一图像中的相同特征点进行比较。
然后,使用k-means聚类方法通过相似性将从所有图像获得的描述符集分为几组[26,27]。 这样做是为了训练分类器,它将对图像是否代表异常行为给出结论。
以下是训练图像描述符分类器的分步算法:
第一步 从具有攻击和不具有攻击的集合中提取所有描述符。
第二步 使用k-means方法将所有描述符聚类到n个聚类中。
第三步 矩阵A(m,k)的计算,其中m是图像数,k是聚类数。 元素(i; j)将存储第j个簇的描述符在第i个图像上出现的频率值。 这样的矩阵将被称为出现频率的矩阵。
第4步 通过公式tf idf [28]计算描述符的权重:

此处tf(“项频率”)是此图像中的描述符出现频率,并定义为

其中t是描述符,k是图像中描述符的数量,nt是图像中描述符t的数量。 另外,idf(“文档反转频率”)是样本中具有给定描述符的图像反转频率,定义为

其中D是样本中具有给定描述符的图像数,{di∈D,t∈di}是D中的图像数,其中t是nt! = 0。
第5步 用相应的权重代替矩阵A中的描述符。
第6步 分类。 我们使用朴素贝叶斯分类器(adaboost)的放大。
步骤7 将训练后的模型保存到文件中。
步骤8 培训阶段到此结束。
预测阶段 。 训练阶段和预测阶段之间的差异很小:从图像中提取描述符,并将其与现有组相关联。 基于该比率,构建向量。 该向量的每个元素都是图像中该组描述符的出现频率。 通过分析该向量,分类器可以以一定概率进行攻击预测。
下面介绍了基于一对分类器的一般预测算法。
第一步 从图像中提取所有描述符;
第二步 聚类结果描述符集;
第三步 向量的计算[1,k];
第4步 根据上述公式tf idf计算每个描述符的权重;
第5步 用权重代替向量的出现频率;
第6步 根据先前训练的分类器对结果向量进行分类;
步骤7 根据分类器的预测得出的关于被观察网络中存在异常的结论。
4.评估效率通过实验解决了评估该方法有效性的任务。 在实验中,使用了实验建立的许多参数。 对于群集,使用了1000个群集。 生成的图像具有1000 x 1000像素。
4.1实验数据集为了进行实验,安装了组装件。 它由通过通信通道连接的三个设备组成。 安装框图如图2所示。

图1
SRV设备充当攻击服务器(以下称为目标服务器)。 表1中列出的带有SRV代码的设备被顺序用作目标服务器。 第二个是设计用来传输网络数据包的网络设备。 表1中的代码ND-1显示了该设备的特性。
表1.网络设备规格

在目标服务器上,网络数据包已写入PCAP文件,以供以后在发现算法中使用。 tcpdump实用程序用于此任务。 数据集在表2中进行了描述。
表2.截获的网络数据包集

在目标服务器上使用了以下软件:Linux发行版,nginx 1.10.3 Web服务器,postgresql 9.6 DBMS。 编写了一个特殊的Web应用程序来模拟系统引导。 该应用程序请求具有大量数据的数据库。 该请求旨在最大程度地减少各种缓存的使用。 在实验过程中,生成了对此Web应用程序的请求。
该攻击是使用Apache Benchmark实用程序从第三台客户端设备(表1)发起的。 表3列出了攻击期间和其余时间的背景流量结构。
表3.后台流量功能

作为攻击,我们实现了HTTP GET Flood的分布式DoS版本。 实际上,这种攻击是从CD-1设备生成恒定的GET请求流。 为了生成它,我们使用了apache-utils包中的ab实用程序。 结果,接收到包含有关网络状态信息的文件。 这些文件的主要特征如表2所示。攻击情形的主要参数如表4所示。
从接收到的网络流量转储中,获取生成的图像集TD#1和TD#2,这些图像在训练阶段使用。 样本TD#3用于预测阶段。 表5列出了测试数据集的摘要。
4.2绩效标准在这项研究中评估的主要参数是:
表4. DDoS攻击的功能

表5.测试映像集

a)DR(检测率)-检测到的攻击次数与攻击总数的关系。 此参数越高,ADS的效率和质量越高。
b)FPR(误报率)-被错误分类为攻击的“正常”物体的数量,相对于“正常”物体的总数。 该参数越低,异常检测系统的效率和质量越高。
c)CR(复杂率)是一个复杂的指标,考虑了DR和FPR参数的组合。 由于在研究中参数DR和FPR的重要性相同,因此复杂指标的计算如下:CR =(DR + FPR)/ 2。
将标记为“异常”的1000张图像提交给分类器。 根据识别结果,根据训练样本的大小计算DR。 获得以下值:对于TD#1 DR = 9.5%,对于TD#2 DR = 98.4%。 此外,图像的后半部分(“正常”)被分类。 根据结果计算FPR(TD#1 FPR = 3.2%,TD#2 FPR = 4.3%)。 因此,获得了以下综合性能指标:TD#1 CR = 53.15%,TD#2 CR = 97.05%。
5.结论与未来研究从实验结果可以看出,提出的异常检测方法在检测攻击方面显示出很高的效果。 例如,在一个大样本中,综合绩效指标的值达到97%。 但是,此方法在应用中有一些限制:
1. DR和FPR的值表明算法对训练集大小的敏感性,这是机器学习算法的概念性问题。 增加样品可以提高检测性能。 但是,并非总是可能为特定网络实施足够大的训练集。
2.所开发的算法是确定性的,每次对相同的图像进行分类,结果相同。
3.该方法的有效性指标足以确认该概念,但误报的数量也很大,这可能会给实际实施带来困难。
为了克服上述限制(第3点),应该将朴素的贝叶斯分类器更改为卷积神经网络,据作者所述,这应该提高异常检测算法的准确性。
参考文献1. Mohiuddin A.,Abdun NM,Jiankun H .:网络异常检测技术的调查。 于:网络与计算机应用杂志。 卷 60页 21(2016)
2. Afontsev E .:网络异常,2006
nag.ru/articles/reviews/15588 setevyie-anomalii.html
3. Berestov AA:基于生产系统的智能代理的体系结构,可防止Internet上的病毒攻击。 在:第十五届全俄科学大会上,高等学校系统中的信息安全问题,第pp。 180?276(2008)
4. Galtsev AV:对流量进行系统分析以识别异常网络状况:技术科学候选学位论文。 萨马拉(2013)
5. Kornienko AA,Slyusarenko IM:入侵检测系统和方法:当前状态和改进方向,2008年
citforum.ru/security互联网/ id概述/
6. Kussul N.,Sokolov A .:使用可变阶数的马尔可夫链在计算机系统用户行为中的自适应异常检测。 第2部分:检测异常的方法和实验结果。 在:信息学和控制问题。 第4期,第 83?88(2003)
7. Mirkes EM:神经计算机:标准草案。 科学,新西伯利亚,pp。 150-176(1999)
8. Tsvirko DA使用生产模型方法预测网络攻击路径,2012年academy.kaspersky.com/downloads/academycup参与者/ cvirko d。 ppt
9. Somayaji A。:使用系统调用延迟的自动响应。 在:USENIX安全专题讨论会2000,pp。 185-197,2000年
10. Ilgun K。:USTAT:用于UNIX的实时入侵检测系统。 于:加利福尼亚大学IEEE安全与隐私研究专题讨论会(1992)
11. Eskin E.,Lee W.和Stolfo SJ:建模系统要求使用动态窗口大小进行入侵检测。 在:2001年6月,DARPA信息生存力会议暨展览会(DISCEX II)
12. Ye N.,Xu M.和Emran SM:具有用于异常检测的无指向链接的概率网络。 在:2000年纽约州西点市信息保障和安全IEEE研讨会上(2000)
13. Michael CC和Ghosh A。:两种基于状态的方法,用于基于程序的异常检测。 在:ACM信息和系统安全事务中。 不行 5(2),2002年
14. Garvey TD,Lunt TF:基于模型的入侵检测。 在:第14届全国计算机安全会议上,马里兰州巴尔的摩(1991)
15. Theus M.和Schonlau M .:基于结构零点的入侵检测。 在:统计计算和图形通讯。 不行 9(1),第 12?17(1998)
16. Tan K。:神经网络在UNIX计算机安全中的应用。 在:IEEE神经网络国际会议上。 卷 1页。 476?481,澳大利亚珀斯(1995)
17. Ilgun K.,Kemmerer RA,Porras PA:状态转换分析:基于规则的入侵检测系统。 在:IEEE Trans。 软件工程师。 卷 21号 3,(1995年)
18. Eskin E .:使用获悉的概率分布对嘈杂数据进行异常检测。 在:第十七届国际会议。 关于机器学习,pp。 255?262。 摩根考夫曼,加利福尼亚州旧金山(2000年)
19. Ghosh K.,Schwartzbard A.和Schatz M .:学习用于入侵检测的程序行为配置文件。 在:第一届USENIX入侵检测和网络监控研讨会,第pp。 51?62,加利福尼亚州圣克拉拉(1999)
20. Ye N .:用于异常检测的时间行为的马尔可夫链模型。 在:2000 IEEE系统,人与控制论,信息保证与安全研讨会(2000)
21. Axelsson S .:基准速率谬误及其对入侵检测难度的影响。 在:ACM会议上的计算机和通信安全,页。 1?7(1999)
22. Chikalov I,Moshkov M,Zielosko B。:基于动态规划方法的决策规则优化。 在下诺夫哥罗德Lobachevsky国立大学的Vestnik中。 6页。 195-200
23. Chen CH:模式识别和计算机视觉手册。 美国马萨诸塞州达特茅斯大学(2015)
24. Gantmacher FR:矩阵理论,p。 227.科学,莫斯科(1968)
25. Murty MN,Devi VS:模式识别:一种算法。 Pp。 93-94(2011)
传统上,我们一直在等待您的评论,我们邀请每个人参加
开放日 ,该
开放日将在下周一举行。