态势提取的前置基础技术:数据集成、数据规约、数据融合

时间:2020-02-16 11:28:04   收藏:0   阅读:105

笔者按

2020和主要研究课题:

废话不多说,笔者在2020年,会围绕模糊性理论、概率推断理论、自然语言处理、编程语言向量化处理,这几个方面展开安全智能的课题研究,希望能对全行业和社会带来0.0001%的贡献,前进一小步也是前进。

 

1. 数据集成

态势感知中,日志是一个最底层基础的组件。在网络安全领域,时时刻刻发生的网络数据量非常巨大,并且常常来自于多个异种数据源,数据的复杂度和”肮脏“程度更甚。没有高质量的数据就没有高质量的数据分析结果,高质量的决策必须依赖高质量的数据。

多源异构数据的不一致性也是常见的引起数据错误的原因。为了减少数据集的不一致性和冗余,我们需要对数据进行集成,也就是对来自多个数据存储的数据进行合并处理、解决语义模糊性的过程。

所谓数据集成,就是将若干个分散的数据源中的数据,逻辑地或物理地集成到一个统一的数据集合中,其核心任务是要将互相关联的分布式异构数据源集成到一起,提供统一的数据结构。

0x1:数据集成的难点

数据分析之前常常需要进行数据集成。数据集成即将多个数据源中的数据合并,存放在一个一致的数据存储中,如存放在数据仓库或大数据平台中。网络安全态势感知的数据源可能包括:

数据集成的难点主要体现在以下方面:

1. 异构性

被集成的数据源来自多个渠道,数据模型异构给集成带来很大困难。这些异构性主要表现在

语法异构和语义异构的区别可以追溯到数据源建模时的差异:

2. 分布性

数据源是分布在不同系统和设备中的,需要依靠网络进行数据传输,这就涉及网络传输性能以及如何保证安全性等问题。

3. 自治性

各个数据源有很强的自治性,可以在不通知集成系统的前提下改变自身的结构和数据,这就给数据集成系统的鲁棒性提出挑战。

0x2:数据集成类型层次

数据集成可以分为以下4个类型层次。

1. 基本数据集成

在基本数据集成的过程中会遇到很多问题,其中最难的问题之一就是通用标识符问题,当同一”业务实体“存在于多个系统源中,并且没有明确的办法确认这些实体是同一实体时,就会产生这类问题。处理该问题的典型办法有:

2. 多级视图集成

多级视图主要用于对数据源之间的关系从低层次向高层次进行集成:

视图的集成化过程为两级映射:

3. 模式集成

模式集成理论属于数据库设计问题。

4. 多粒度数据集成

多粒度数据集成是异构数据集成中最难的部分,理想的多粒度数据集成模式应当是自动逐步抽象。

多粒度数据集成包括数据综合和数据细化两个方面:

 

2. 数据归约

网络安全数据归约属于数据融合的范围,其大致过程为:按照数据的来源、类别、属性、时间等进行融合,形成来源明确、类别统一、属性一致、时间有序的数据源

结合IP特征、流量特征、行为特征等,对同类特征指标、同类行为规律的数据进行融合处理,形成在表达的内容、反映的效果、目标的指向上具有共性的数据族。

0x1:什么情况需要数据归约

从大的方面来看,如下几个方面需要数据归约:

0x2:数据归约的常用策略

1. 特征归约(特征选择)

用于分析的数据集可能包含数以百计的特征(或属性),其中大部分特征可能与网络安全态势感知任务不相关或者是冗余的。

特征归约是从原有的特征中删除不相关的、弱相关或冗余的特征、或者通过对特征进行重组来减少特征的个数,进而找出最小特征集,即所谓的特征选择,在信息论中,这被称为充分统计量

最小特征集的概率尽可能地接近使用原始所有特征得到的原分布。其原则是在保留甚至提高原有判别能力的同时,尽可能地减少特征向量的维度。

特征归约算法的输入是一组特征,输出的是该组特征的一个子集。

关于特征选择话题的更多讨论,可以参阅这篇文章

2. 维归约(降维)

维归约,即所谓的降维。不同于特征归约,维归约的主要目的是减少所考虑的随机变量或属性的个数。

维归约的常用方法有小波变换主成分分析,它们都是通过把原始数据变换或投影到较小的空间,来对数据进行降维。

关于降维方面的讨论,可以参阅这篇文章

3. 样本归约(数据取样)

样本都是已知的,通常数目很大,质量或高或低,可能有或者没有关于实际问题的先验知识。

所谓样本归约,是指从完整的数据集中选出一个有代表性的样本子集。所选的子集大小的确定要以计算成本、存储要求、估计量的精度以及其他一些与算法和数据特性作为衡量因素。

数据分析的初始数据集描述了一个极大的总体,而采用样本归约后,对数据的分析只能基于样本的一个子集,这个子集通常被称为”估计量“,它的质量依赖于所选取样本子集中的元素。

数据取样过程中总会造成取样误差,这对所有的方法和策略来讲都是不可避免的,当样本子集的规模变大时,取样误差一般会降低,所以数据集越大,采用样本归约的效果越好,也即所谓的大数效应。

4. 数量归约(数据统计抽象)

数量归约是指用可替代的、较小的数据表示形式来替换原数据。

数据归约可以是有参的,也可以是无参的,

从某种程度上来说,数量归约属于”信息压缩“的一种技术,数量归约的最核心目的在于压缩原始样本集,同时还要尽量保留原始数据集中蕴含的信息熵。

5. 数据压缩

数据压缩通过采用一定的变换方法和技术,对原始数据进行归约或”压缩“表示。

通常,维归约和数量归约也可以视为某种形式上的数据压缩。

 

3. 数据融合

0x1:数据融合与态势感知

数据融合与整个态势感知过程的关系都极为密切,不仅仅在态势提取阶段,在态势理解和预测阶段也会用到大量的数据融合算法模型。数据融合不仅仅是一种数据处理方法,更是一门学科。

早在20世纪70年代军事领域就提出了”多源数据融合“的概念,多源数据融合就是模仿人和动物处理信息的认知过程。

人或动物首先通过眼睛、耳朵和鼻子等多种感官对客观事物实施多种类、多方位的感知,获得大量互补和冗余的信息,然后由大脑对这些感知信息依据某种未知的规则进行组合和处理,从而得到对客观对象统一于和谐的理解和认识。

人们希望用机器来模仿这种由感知到认知的过程,于是产生了新的学科 -- 数据融合。数据融合也称为信息融合,是指对多源数据进行多级别、多层次、多方面的集成、关联、处理和综合,以获得更高精度、概率或置信度的信息,并据此完成需要的估计和决策的信息处理过程。

数据融合技术起源于军事领域,也在军事领域得到广泛应用,其应用范围主要有:

态势感知过程以态势数据的融合处理为中心,态势感知模型的建立大多以数据融合模型为基础,态势感知过程的数据处理流程也与数据融合模型的处理流程非常相似。

最早提出”网络空间态势感知“概念的Tim Bass设计的基于多传感器数据融合的入侵检测框架,就是将数据融合领域中的JDL模型应用到网络安全态势感知领域的结果。由此可见,网络空间态势感知从诞生之初就与数据融合技术密不可分。

数据融合技术是态势感知技术的基础,态势感知需要结合网络中各种设备的多种多样信息以得到一个综合结果,对数据的处理和融合是态势感知过程的中心。

网络环境中的各种设备信息、安全告警信息以及网络流量信息等繁杂多样的信息构成了网络中的多源异构数据,态势感知的目的是对这些数据进行融合处理并得到网络的总体态势。

数据融合技术能有效融合所获得的多源数据,充分利用其冗余性互补性,在多个数据源之间取长补短,从而为感知过程提供保障,以便更准确地生成网络空间态势信息。

0x2:数据融合的层次分类

数据融合作为一种多级别、多层次的数据处理,作用对象主要是来自多个传感器或多个数据源的数据,经过数据融合所做的操作,使得通过数据分析而得到的结论更加准确与可靠。

按照信息抽象程度可以把数据融合分为3个层次,从低到高依次为数据级融合、特征级融合、决策级融合。

0x3:数据融合相关算法

数据融合继承自许多传统学科并且运用了许多新技术,是一种对数据进行综合处理的技术。

按照方法论维度分类,可以将数据融合方法分为三大类:

按照学术发展脉络,可以将数据融合方法分为两大类:

接下来我们来分别讨论,

1. 经典方法

1)加权平均法

加权平均法是最简单直观的数据融合方法,它将不同传感器提供的数据赋予不同的权重,通过加权平均生成融合结果。

2)卡尔曼滤波法

卡尔曼滤波法常用于实时融合动态底层冗余传感器数据,用统计特征递推决定统计意义下的最优融合估计。

3)贝叶斯推理法

贝叶斯推理法基于贝叶斯推理法则,在设定先验概率的条件下利用贝叶斯推理法则计算出后验概率,基于后验概率作出决策。

4)D-S证据理论

D-S证据理论的特点是允许对各种等级的准确程度进行描述,并且直接允许描述未知事物的不确定性。

在D-S证据理论中使用一个与概率论相比更加弱的信任函数,信任函数的作用就是能够准确地把不知道和不确定之间的差异区分开来。

2. 现代方法

1)聚类分析法

聚类分析法是一组启发式算法,通过关联度或相似性函数来提供表示特征向量之间相似或不相似程度的值,据此将多维数据分类,使得同一类内样本关联性最大,不同类之间样本关联性最小。

2)粗糙集理论

粗糙集理论的主要思想是在保持分类能力不变的前提下,通过对知识的约简导出概念的分类规则。它是一种处理模糊性和不确定性的数学方法,利用粗糙集方法分析决策表可以评价特定属性的重要性,建立属性集的约简以及从决策表中去除冗余属性,从约简的决策表中产生分类规则并利用得到的结果进行决策。

3)模版法

模版法应用”匹配“的概念,通过预先建立的边界来进行身份分类。

它首先把多维特征空间分解为不同区域来表示不同身份类别,通过特征提取建立一个特征向量,对比多传感器观测数据与特征向量在特征空间中的位置关系来确定身份。

模版法的输入是传感器的观测数据,输出的是观测结果的身份,其缺点是边界建立时会互相覆盖从而使身份识别产生模糊性,同时特征的选择和分布也会对结果有很强的影响。

4)模糊理论

模糊理论是基于分类的局部理论,建立在一组可变的模糊规则之上。

模糊理论以隶属函数来表达规则的模糊概念和词语的意思,从而在数字表达和符号表达之间建立一个交互接口。它适用于处理非精确问题,以及信息或决策冲突问题的融合。

由于不同类型的传感器识别能力不同,模糊理论中考虑了信源的重要程度,更能反映客观实际,提高了融合系统的实用性。

5)人工神经网络

人工神经网络是模拟人脑结构和智能特点,以及人脑信息处理机制构造的模型,是对自然界某种算法或函数的逼近,也可能是对一种逻辑策略的表达。

人工神经网络在数据融合方面应用广泛,如前向多层神经网络及其逆推学习算法、对向传播神经网络等。

神经网络处理数据容错性好,具有大规模并行规模处理能力,具有很强的自学习、自适应能力,某些方面可能替代复杂耗时的传统算法。

6)专家系统

专家系统也称为基于知识的系统,是具备智能特点的计算机程序,该系统具备解决特定问题所需专门领域的知识,是在特定领域内通过模仿人类专家的思维活动以及推理与判断来求解复杂问题。其核心部分为知识库和推理机。

专家系统可用于决策级数据融合,适合完成那些没有公认理论和方法、数据不精确或不完整的数据融合

7)关联分析

关联分析这个方法很适合网络安全数据的融合处理。常见的有:

通过上述数据关联,可将原始数据进行重新组织,以梳理出数据的流向、行为、脉络、层次等关系,形成数据关系图谱。

 

原文:https://www.cnblogs.com/LittleHann/p/12303504.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!