找回密码
 注册创意安天

基于行为组件的恶意软件表征 【非官方中文译文•安天技术公益翻译组译注】

[复制链接]
发表于 2015-7-20 15:54 | 显示全部楼层 |阅读模式
基于行为组件的恶意软件表征
非官方中文译本 • 安天实验室 译注
     
  
文档信息
  
  
论文题目
  
  
Malware Characterization using Behavioral
  
Components
  
  
论文作者
  
  
Chaitanya Yavvari, Arnur Tokhtabayev,  Huzefa Rangwala, and Angelos Stavrou
  
  
发布单位
  
  
DARPA Cybergenome
  
  
原文链接/出处
  
    
  
论文发布日期
  
   2014/9/25  
译文发布日期
  
   
2014/10/8
   
  
论文摘要&关键词
  
  
内容摘要:在本文中,我们引入一种新的恶意软件行为共性分析框架,该框架引入了基于组件的分类,即所谓的行为映射。我们努力尝试揭示出恶意软件行为关系并超越把一个恶意软件归类到一个家族的简单做法。为此,我们实现了一种识别软件聚类和揭示共享恶意软件组件和特性的方法。我们证明了一种恶意软件样本可以属于几个组(聚类),这意味着它可以与聚类中其他的样本分享各自的组件。我们采用现实世界中恶意软件数据集的大型语料库进行实验并且我们成功揭示了现有恶意软件家族及其变种间的组件关系。。
  
关键词:行为聚类;恶意软件组件分析
  
  
译者
  
安天技术公益翻译组
  
校对者
  
  
安天技术公益翻译组
  
  
免责声明
  

•       本译文译者为安天实验室工程师,本文系出自个人兴趣在业余时间所译,本文原文来自互联网的公共方式,译者力图忠于所获得之电子版本进行翻译,但受翻译水平和技术水平所限,不能完全保证译文完全与原文含义一致,同时对所获得原文是否存在臆造、或者是否与其原始版本一致未进行可靠性验证和评价。
•       本译文对应原文所有观点亦不受本译文中任何打字、排版、印刷或翻译错误的影响。译者与安天实验室不对译文及原文中包含或引用的信息的真实性、准确性、可靠性、或完整性提供任何明示或暗示的保证。译者与安天实验室亦对原文和译文的任何内容不承担任何责任。翻译本文的行为不代表译者和安天实验室对原文立场持有任何立场和态度。
•       译者与安天实验室均与原作者与原始发布者没有联系,亦未获得相关的版权授权,鉴于译者及安天实验室出于学习参考之目的翻译本文,而无出版、发售译文等任何商业利益意图,因此亦不对任何可能因此导致的版权问题承担责任。
•       本文为安天内部参考文献,主要用于安天实验室内部进行外语和技术学习使用,亦向中国大陆境内的网络安全领域的研究人士进行有限分享。望尊重译者的劳动和意愿,不得以任何方式修改本译文。译者和安天实验室并未授权任何人士和第三方二次分享本译文,因此第三方对本译文的全部或者部分所做的分享、传播、报道、张贴行为,及所带来的后果与译者和安天实验室无关。本译文亦不得用于任何商业目的,基于上述问题产生的法律责任,译者与安天实验室一律不予承担。
  

基于行为组件的恶意软件表征

Chaitanya Yavvari,Arnur Tokhtabayev, Huzefa Rangwala, and Angelos Stavrou
美国,弗吉尼亚州,费尔法克斯,乔治梅森大学,计算机科学系
{fcyavvari,atokhtab,astavroug}@gmu.edu,rangwala@cs.gmu.edu

摘要:在过去的几年中,我们经历了二进制恶意软件数量和复杂性飞速增长的时代。这种变化是由恶意软件生成工具和不同的恶意软件重用模块的引入导致的。目前恶意软件呈现了高度模块化和功能多样化的趋势。这种来自不同的恶意软件类型组成的“结构”的一个副作用就是越来越多的新型恶意软件样本不能被反病毒供应商按照传统病毒类别明确分配定义出来。实际上,聚类技术只能捕获某一恶意软件组件的主要行为,而无法揭示恶意软件间彼此依存的相似性,非主要组件以及其它进化特征。在本文中,我们引入一种新的恶意软件行为共性分析框架,该框架引入了基于组件的分类,即所谓的行为映射。我们努力尝试揭示出恶意软件行为关系并超越把一个恶意软件归类到一个家族的简单做法。为此,我们实现了一种识别软件聚类和揭示共享恶意软件组件和特性的方法。我们证明了一种恶意软件样本可以属于几个组(聚类),这意味着它可以与聚类中其他的样本分享各自的组件。我们采用现实世界中恶意软件数据集的大型语料库进行实验并且我们成功揭示了现有恶意软件家族及其变种间的组件关系。

关键词:行为聚类;恶意软件组件分析

1.    引言

最近,Stuxnet[4]和Flame[9]等复杂的恶意软件的发现证明了恶意软件的主流技术正向隐蔽性方向发展。这些精准的网络武器主要的目的在于破坏重要的基础设施和窃取敏感信息。为了绕过反病毒软件并干扰检测系统,敌人利用代码的多态性和变质性技术来迷惑对手以掩盖他们的恶意进攻。与此同时,一个新的恶意软件生成工具通过提供定制功能而广泛传播。随着恶意软件源码的泄露,恶意软件组件的使用愈发明显。(如:SpyEye[6]和Zeus[16]),它指出了恶意软件模块化结构的开发过程,一个新的恶意软件是由多个独立的组件构建的。这个观察结果显示出两种含义(i)现在的恶意软件应该被看成一组功能部件。(ii)功能不同的组件被恶意软件使用的数量和种类往往有限。目前,AV产业对恶意软件的分类主要基于它们的攻击活动,如:病毒、蠕虫、间谍软件、伪抗毒软件和恶意广告软件。因此,恶意软件样本被标记和分组主要基于一个组件,例如:一个最具有威胁性的行为(KasperskyAV) [10]。在不断探寻的恶意软件散播过程里的行为变化的尝试中,一些主要的AV公司采用了更多详细的、基于树形结构的恶意软件分类分析方式。不幸的是,即使采用这种分析方式仍旧不足以将现有的具有多个组件的恶意软件进行标记并归类于分类树下固定类别之中。例如,机器人框架应用能广泛覆盖从自我复制到键盘记录器和后门等恶意功能,从传统意义而言,这属于不同的恶意软件类型.因此,MAEC项目中,提出了通用的恶意软件分类新举措,倡议标记和分组恶意软件应该基于独立的行为(组件),以避免类成员不一致[12]。另外,研究人员已经提出了利用多种机器学和分类算法对恶意软件分类的方法[8,2,15,1]。尽管这些分类方法可以把恶意软件精准地归类到一个家族之中,但是遇到模块化恶意软件时,这些方法就功亏一篑了:他们获得硬(精确)聚类意味着每个样本属于一个聚类(组)。从本质上讲,这些聚类方法是按照“恶意软件样本整体行为”和“捕获一个组件的唯一可能表现出的主导行为”的规则对恶意软件进行分类的。然而,在实践中,恶意软件样本可能与相对较小的行为痕迹(脚印)分享组件。典型的聚类不能揭示出相对较小但是可能同样重要的被共享的恶意组件。特别是,它可能来自旧的恶意软件和新的混合样本短暂暴露出的关系。

在这篇文章中,我们对解决基于组件的恶意软件分组难题提出了挑战。为了实现基于组件的恶意软件分类,我们开发了一种新型的软聚类方法,可以揭示能够反映组件特定的共性行为。在我们的方法中,一个恶意软件样本被分解为行为确定的多个组件,从而它可以属于多个组(聚类)。

图1说明了基于组件的恶意软件分组概念的软聚类的优势。该图描述了2个样本,每个样本包含2个组件。可以看出,硬聚类不能对譬如“含有多个组件的样本1和3可以与样本2共享组件,但是样本1和样本3却不能相互共享组件”这种情况的样本进行准确的分类。这种样本1和样本3的分量正交性使得硬聚类变得不适用(例如:样本1和2都聚类在一起,但样本3除外)。相反,软聚类允许样本适当的根据它们行为相似性进行分组,如图上被虚线圈起来的区域。


1.jpg


图1:典型的组件聚类。典型的聚类利用整体恶意软件样本的共性行为创建出“硬聚类”,它不能捕捉较小的特征和行为共享。另一方面,“软聚类”旨在揭示所有行为的相似性,即便是很小的行为相似性。

从高层面来说,我们这种方法背后的主要概念就是所谓的行为映射,一种可以快速对恶意软件大数据集中的各恶意软件行为痕迹之间共性进行分析的方法。一个恶意软件样本的行为映射,是由“其观察到的运行时的行为”映射到“另一个相关的恶意软件样本运行时的行为”上产生的。映射在本质上是由行为的投影和多个被分析样本的共性共享的可视化机制所定义的一个特征空间。在我们的分析中,我们生成恶意软件行为映射和使用一组特征空间形成软聚类从而体现出样本之间的行为共性。

总之,本文做出了以下贡献:

1. 基于组件的恶意软件分组。我们开发出一种面向组件,基于恶意软件聚类行为的新研究方法。我们将其称之为“软聚类”,并利用它去捕捉恶意软件之间所有观察到的共性行为复杂的关系。

2. 共性分析和可视化。我们提出了一种行为映射技术可以快速进行共性鉴定、分析和可视化,同时可以得到样本聚类特征空间映射。

3.评价与真正恶意软件关系之间的解读。我们评估出我们在现实世界系统中独有的恶意软件样本有1727个。实验证明,现有的分类方法主要基于恶意软件的主导功能,即AV标签。而没有揭示出发生共享活动之间的恶意软件的真实关系。使用我们这种“软聚类”方法,我们能够发现恶意软件之间的关系超越了基本的家族类别。

2.    恶意软件聚类使用的行为映射

2.1 行为映射

行为映射是分析恶意软件间行为线索共性的过程。行为线索是从恶意软件运行观测收集来的系统事件的后果。这些线索是通过样本之间共享子序列识别共享性的目标分析得到的。

一个映射行为分为3个步骤:

(i) 投影: 恶意软件的痕迹序列被投射到一个给定参考域上。这个参考域可以是另一个样本的映射或者是分析家感兴趣的一个构造序列。投影形成一个二进制长度等于参考长度的特征向量。它代表了一个相关样本和映射样本之间共同行为序列。

(ii) 软聚类: 多个样本被聚类在一个由参考域映射定义出的特征空间中。这提供了一个多样本的序列同时按照样本映射之间的相似性对样本进行分组。

(iii) 可视化: 行为映射表现为一个包含多映射的位图,它被视为恶意软件之间的共同点,用行和聚类排列表现出来。每一行展现一个恶意软件样本和它的参考样本的同享行为(阴影矩形)。我们也可以通过行为映射上的一个额外的列看出有多少个被观察样本的行为与相关样本分享组件。

值得一提的是,这种映射方法可以用来分析与抽象程度无关的任何行为序列数据。在本研究中,我们仅选择了windows系统事件,这些事件可以通过ETW(Windows事件追踪设备)进行追踪。常见的行为序列用基于su-xtree的方法来鉴别,行为映射的审查能够揭示样本共享和相似性的有趣的特性。

2.2通过迭代行为映射进行共性分析

在对一对恶意软件样本分析时,单一的行为映射不足以显示出所有存在于样本集中的组件。在单一的参考样本中,所有样本都与参考样本具有相似性或者它们与一个组中的参考样本分享一个重要共性组件。但是其余那些具有低覆盖面的样本大部分还有待开发,它们可能具有它们之间共享的成分,但不是与参考样本之间共享。因此,这些样本应该映射到一个新的参考样本上。

为了解决未知样本和识别所有样本间的共性,我们开发出一个利用软聚类对共性分析和识别的迭代行为映射方案。为此,将样本用一种模糊方法分配给聚类(即:多个聚类通过多次迭代作业进行共性识别)。这类聚类表现出的共性能够使用组件进行识别,譬如:通过额外的语义分析。样本共性识别的量化过程,我们遵照以下示例的指示:

(i)由映射定义得出样本行为与参考样本行为共享的样本覆盖率(%)。
(ii)由映射定义出参考样本与样本行为共享的参考样本覆盖率(%)。图2显示了实现我们方法的程序流程图。


2.png


图2:迭代行为映射流程图

该程序的表达形式采用了算法1。在每一次迭代中,从剩余的样本库中随机抽取一个样本作为下一个参考样本。接下来我们用每一个样本和选择出的参考样本做出映射。之后,把这些映射按照层次聚类后的结果组织排序。样本的顺序与由层次聚类法产生出的树形结构的叶子结点的顺序相同。为了对映射进行排序(步骤3),我们首先要生成一个所有映射的两两距离矩阵,为此,我们使用一个称为共享字符串度量(SSM)的度量标准定义每对样本之间的映射,如下所示:

SSM[A, B] =1-2*AND Similarity (A, B)/ (L (A) +L (B))     (1)

其中L(A),L(B)是A、B分别与参考样本的所有共享字符串的长度的和。

AND Similarity(A,B)= 由A和B与相关样本共同享有的所有字符串长度的和

这个测量标准捕获出两个映射和针对一个参考域的参考样本相似之处。它在相应的投影矢量上进行了与运算,每个矢量的基准长度都与参考样本相同。接下来,使用凝聚层次聚类法(HAC)对SSM距离矩阵进行聚类。我们使用聚合算法与病房联动法。凝聚算法开始用每n个样本作为一个单独的聚类,并在n-1次步骤中迭代合并两个最近的聚类,以产生一个单一的层次聚类。联动病房方法优于其它的联动方法,是因为它在我们研究实验中对输入的距离矩阵,获取了更高的同表象相关。

算法1 迭代行为映射
输入:
  
S:样本
  
Ts:样本覆盖率阈值

定义:  

P:剩余的样本库  
R:参考样本列表  
clji:第i次迭代中的第j个聚类  
Pri:i次迭代样本映射的集合  
Coi:i次迭代中样本的覆盖率  
Coki:i次迭代中样本k的覆盖率  
Cci:迭代到第i次的样本累计覆盖率  
Ccki:样本k在i迭代中覆盖率  
ri :在i次迭代的参考样本  
si:i次恶意软件样本  
pki :  i次迭代中k个样本映射  
初始化:
  


3.png


在步骤4中,步骤3中产生的聚类被划分为不同的聚类中。这些聚类的映射基本上代表了相应样本的软聚类。把这些映射区分为不同的聚类(步骤4),我们使用动态混合树切割法[13]把最小的聚类大小设置为1。在把一个聚类分析结果区分为不同聚类时,动态混合树切割法比固定高度切割法更有优势,因为它是结合了树结构信息的区分方法。区分后,每个聚类的样本都具有相当于参考样本的覆盖范围,并显示出重新排序后的行为映射。但是不能保证样本覆盖范围的一致性(例如:映射之间看起来相似,但是样本自身却没有相似性)。在最后的步骤中,我们评估每一个样本的覆盖范围和剔除从再次迭代中得到的覆盖范围高的样本。基于算法1中阀值TS的设定,我们删除所有覆盖范围在阀值以上的样本。这个步骤为下的次迭代计算减少了样本数量。

3.    评价

我们评估我们的方法使用来自现实世界中7个家族的1727个样本的数据集,表1显示了根据卡巴斯基AV家族标签的样本集中样本分布。我们在3.1节中提出了两列行为映射使用一个家族变异分别对多个家族进行分析。在第3.2节中提出了迭代映射评价的方案。

表1:卡巴斯基家族恶意软件分布

4.png

3.1 行为映射的使用案例

家族内部映射:在这个实验中,我们使用行为映射来说明一个家族中变种的属性。由于所有样本同属于一个家族,因此我们称之为家族内部映射。图3显示了Jorik木马家族(由Kaspersky AV 定义)92个样本的行为映射。我们随机选择了jorik木马家族中的Trojan.win32.jorik.spyeyes.pq作为参考。相邻列的映射代表样本覆盖率。这些映射根据它们的相似性被聚类成7类。

从标签(Y轴)中,我们可以得知行为映射所显示的聚类样本与卡巴斯基AV标签是一致的(即属于同一变种的样本聚类在一起)。我们也观察到这些共享行为的长度不随样本特性而改变,并且可能由共用组件组成。从图中,我们可以观察到一部分组件并不仅仅属于某些变种。在图3中可以看出,标记为C1的组件发生于大部分样本中,只有Fraud变种以及标记为C2 的组件不存在于Gbot变种中。从显示样本覆盖率的柱表中,我们可以观察到具有最大覆盖率的样本与参考样本是属于同一变种(SpyEyes). 从其他低覆盖率的样本中我们可以推断,其表现出不与SpyEyes变种共享的行为。

家族内部映射的综合参考样本:在这个实验中,我们生成一组由337个样本组成的行为映射,这些样本由七个具有代表性的家族构成。我们利用此映射图中的综合参考样本来分析样本中的家族关系。综合参考样本是构建在监督形式上并通过随机从样本集映射的6个家族中选择样本。图4给出了已生成的行为映射。

5.png

图3:Jorik家族变种的行为映射

如图4所示,一些样本被高度覆盖于共同点中。高样本覆盖率和高共性密度表明样本和参考样本是高度相似的(例如聚类4)。对于高覆盖率样本,其共性本身是短暂且分散的,则可以预测这些样本没有实行真正的恶意组件,而只是表露出典型(正常)的系统活动(例如DLL加载),而从聚类的角度来看,我们把这些活动看作噪音(如聚类11和12)。低样本覆盖率表明这些样本与参考样本间并不存在太多共享行为且应被映射到另一个样本中(例如聚类6)。

如图4所示,该图为样本间的共性分析提供了显著的视觉信息和结构信息。而从主观上看,从样本集中的每个映射的结果是根据选定的参考样本测得的;从分析法的角度来看,通过不同参考样本生产多个映射或综合参考样本技术的运用将提升一个专家的价值。在图4中,垂直线分开6个个体行为序列。从这个角度可以看到聚类7中的所有样本与其它来自不同家族的各种样本间存在共性。同时,聚类1中的所有样本与参考样本II之间几乎共享了所有观察到的行为,这也就意味着他们是属于一个单一的且高度一致的家族。

6.png

图4:综合参考样本的聚类的共性映射


3.2 共性分析(迭代聚类)

在这一部分,我们采用本文提出的迭代映射方法(算法1)对恶意软件的1727个样本集进行共性分析。在实验中,我们设置阀值的范围为90%,这表明计算程序必须处理不少于90%的样本行为。虽然,阀值的覆盖率很高,但是采用这种算法只用了38次迭代和识别了303次共性聚类(软聚类)。

在图5中,我们总结了一个样本子集中整个迭代过程的结果(但受限于可视化空间)。X轴表示了整个迭代递增的顺序级联的所有共性。Y轴显示了337个按迭代的数量排序且用于寻获行为的样本,即实现覆盖的阈值。垂直分区表示迭代结束标记。从图中可以看出,较早的迭代揭示更多的共性,但共性的数量在随后的迭代会减少。由于较高的样本数,共性也发生在早期迭代中的较大群体里。实质上,这张图大致地归纳了整个迭代的过程,同时也揭示了存在共性及覆盖在一起的样本组数。
7.png

图5:所有迭代的共性

图6给出了一张热图,该图描绘了存在于1727套恶意软件样本中的各种恶意软件家族样本间的共性共享(聚类组成)。热图中的列表示了整个迭代的共性。行则按照家族的标签对各个相关的样本组进行划分。灰色地域则代表恶意软件家族共享的纯度。、颜色为黑色的单元格表示组件完全不存在于相应的家族中。另一方面,白色则表示组件是家族独有的。中间的灰色色调表示家族组件共享的不同比例。同时,同样的信息则通过横向线进行表示。

通过观察,我们可以得知一些共性为特定的家族独有,而其它共性则是所有家族共享的。这表示了不同家族的组件共享性。例如,从图中可以看出,来自Trojan.win32.Refroso及Trojan.win32.Buzus的家族样本可能分享了某些组件(表现为共性)。同时,来自Tro-jan.win32.Refroso及Trojan-Spy-win32.Zbot的家族样本则可能分享了其他组件。

8.png

图6:家族内部的共性共享

在图7中,我们提出了基于图表的聚类分析结果可视化方法。从共性的角度来看,图中显示了样本之间的结构关系。该图显示了两种类型的节点:(1)样本 (2)整个迭代参考样本图。 其中,样本节点根据卡巴斯基杀毒标签标注颜色。参考样本被绘制成红色。在语义上,图表显示了涉及共享行为(组件)的聚类成员与成员间的接近度。而组合在一起的样本被连接到共性共享的参考样本上。在图中,参考样本间的距离与2.2节中的SSM相似性成正比例。样本与相应参考样本间的间距与它们的覆盖度成正比例(高样本覆盖率表示低距离)。

为清楚起见,出于最重要组件的考虑,我们尽量减少图7中的链接数量。可以看出,一些样本与参考样本保持同一距离,且均匀着色。这些样本是彼此相似的,同时属于同一卡巴斯基家族。另一方面,其他聚类有来自不同家族的样本,这也显示了家族间的共享属性行为。同时,这些聚类有着与各自参考样本保持不同距离的样本,这就意味着他们彼此间存在不同程度的共性。

9.png


图7:基于图形的聚类可视化

最后我们通过评估行为映射的聚类性能来总结我们的研究结果。在对比几种对软聚类提供总覆盖率的映射,我们仅通过运用一个能够提供足够样本覆盖率的映射来建立硬聚类。为此,不包括在任何迭代最小覆盖范围内的样本保持未赋值状态且继续为下一次迭代保留在样本库内。我们观察到,在任何单一的迭代中依然存在许多末能覆盖超出阈值且因此末能分配给任何硬聚类的样本,但是,通过软聚类方法,同样的样本几乎完全被覆盖且被分配到多个组中。这说明了样本聚类的一对一(成对)比较。尽管这里存在组件共享,但共享行为并不能通过两两比较而获得。实验表明,样本的行为序列确实是由不同行为的子序列(共性)构成,此子序列与其他样本共享。所有的这些共性不能通过任何单一的成对比较共同提取得到。最后,迭代行为映射方案避免了用于提取所有样本间O(N2)的共性的比较。本文利用了38个映射迭代来揭示共性,组合了1727个恶意软件样本, 并且对绝大多数在前10次迭代中的样本进行了聚类分析。

4.    相关研究

人们对动态恶意软件分析技术发展进行了广泛的研究。Rgele等[3]提供了对各种现存的动态恶意软件分析系统的具体性研究以及对这些系统的分析输入和能力的比较。Jacob等[7]展现了根据它们利用推理技术进行动态检查方法的分类系统。然而动态恶意软件分析考虑到要提取样本的行为,我们的工作就是要去实践这些行为。集中在行为范围内的恶意软件出现在各种出版物中[8]、[2]、 [15]、 [1] 和 [14]。大多被推荐的方法利用标准聚类算法并专注于相当特征空间和距离度量的选择。究其本质,这样的聚类方法有局限性,被称作“占优”等。因此聚类法不会揭示出更小的对象而是同等重要的恶意成分。Bayer[2]、 Rieck[15]和Jang[8]等都是通过处理执行报告的行为程序来运行的,并生成特征集。这些工作专注于通过混合合适的近似值进行可升级聚类。BitShred[8]通过执行特征散列法和共簇法去展示家族间的语义关系。他们的方法需要预选特征提取并执行矢量数据。并且,因为共簇不能被利用在规则的序列数据里做语义分析。我们的系统特性就是命令敏感并保存,考虑到直接分析行为数据,例如运行动态长度数列。

Rieck[15]和Trinius[17]等从CWSandbox报告中提取恶意软件样本。它们从这些报告中生成基于n-gram的特征矢量并聚类到nd组(分类发现)和分类指南(使用SVM)去分配不为人知的恶意软件使其被认识。因为我们的系统不是基于n程序特征空间,不考虑字母大小,它可以在任意数列数据中进行升级。Trinus[17]等使CWSandbox以重测图和线形图的形式形成图像报告,他们对恶意软件进行样本聚类产生树状图并对AV标签进行评估。Wagener[19]和Bailey[1]等处理了基于使用正常压缩距离量度(NCD)的行为分析的恶意软件分类指南的自动化的问题。Ye[20]等提出了利用散开的恶意软件的数据特征来生成统一倍数组的一致办法。

5.    结论

恶意软件分类技术并不新鲜,包括AV软件的供应商在内的很多机构或个人都在进行把恶意软件样本归类到已经被识别了的恶意软件家族之中的研究工作。我们关注的是面向恶意软件组件的问题。我们使用我们软聚类的方法去揭示被传统分类方法定义出的属于不同家族的恶意软件样本组件的共性。我们的实验表明,现有的对恶意软件分组的方法主要基于恶意软件的主要功能和固定的分类树,这种方法被应用于AV产业之中,但是它不能揭示出恶意软件共享行为的关系。我们介绍了行为映射途径,这种途径可以迭代地建立一系列特性从而形成代表组件特性的软聚类方法。此外,我们使用一组样本的可视化方法来描述AV家族结构共性分布。最后,我们采用1727个恶意软件样本进行真实操作,实验显示出我们的组件分析方案的可扩展性和计算效率。

致谢

这项工作是DARPA Cybergenome项目的一部分,项目编号:FA8750-10-C-169,这些都是作者的观点,与官方政策、国防部的立场、美国政府无关。

参考文献

1. Michael Bailey, Jon Oberheide, Jon Andersen,Z Morley Mao, Farnam Jahanian, and Jose Nazario. Automated Classification and Analysis of Internet Malware.2007.
2. Ulrich Bayer, Paolo Milani Comparetti,Clemens Hlauschek, Christopher Kruegel, and  Engin Kirda. Scalable , Behavior-Based Malware Clustering. NDSS, 2009.
3. Manuel Egele, Theodoor Scholte, EnginKirda, and Christopher Kruegel. A survey onautomated dynamic malware-analysis techniques and tools. ACM Comput.Surv.,44(2):6:1-6:42, March 2008.
4. Nicolas Falliere, Liam O Murchu, and EricChien. W32.stuxnet dossier.www.symantec.com White paper 2011.
5. Dan Gusfield. Algorithms on Strings, Trees, and Sequences - Computer Science andComputational Biology. Cambridge University Press, 1997.
6. IOActive. Reversal and Analysis of Zeus and SpyEye Banking Trojans. Technicalreport, IOActive, 2012.
7. Gregoire Jacob, Herve Debar, and EricFiliol. Behavioral detection of malware: froma survey towards an established taxonomy. Journal in ComputerVirology,4:251-266, 2008. 10.1007/s11416-008-0086-0.
8. J. Jang, D. Brumley, and S. Venkataraman. Bitshred: feature hashing malware for scalabletriage and semantic analysis. In Proceedings of the 18th ACM conference onComputer and communications security, pages 309-320. ACM, 2011.
9. The flame: Questions andanswers. www.securelist.com Online; May 2012.
10. New malware classificationsystem. www.securelist.com Online; Accessed June,2012.
11. Rules for namingdetected objects. www.securelist.com Online; accessed 2012.
12. I. Kirillov, D. Beck, P. Chase, and R.Martin. Malware attribute enumeration andcharacterization.
13. Peter Langfelder, Bin Zhang, and SteveHorvath. Defining clusters from ahierarchical cluster tree: the dynamic tree cut package for r. Bioinformatics, 24(5):719-720,2008.
14. Peng Li, Limin Liu, Debin Gao, and MichaelK Reiter. On Challenges in Evaluating MalwareClustering. In Sciences-New York. Springer-Verlag, 2010.
15. K. Rieck, P. Trinius, C. Willems, and T.Holz. Automatic analysis of malware behaviorusing machine learning. Journal of Computer Security, 19(4):639-668,2011.
16. RSA. The Current Stateof Cybercrime and What to Expect in 2012. Technical report, RSA,2012.
17. Philipp Trinius, Thorsten Holz, Jan Gobel,and Felix C. Freiling. Visual analysis ofmalware behavior using treemaps and thread graphs. 2009 6th International Workshopon Visualization for Cyber Security, pages 33{38, 2009.
18. Esko Ukkonen. Constructing suffix trees on-line in linear time. In IFIP Congress(1),pages 484-492, 1992.
19. Gerard Wagener, Radu State, and AlexandreDulaunoy. Malware behaviour analysis.Journal in Computer Virology, 4(4):279{287, December 2007.
20.Yanfang Ye, Tao Li, Yong Chen, and Qingshan Jiang. Automatic malware cate-gorization using cluster ensemble. In Proceedingsof the 16th ACM SIGKDD in ternational conference on Knowledge discovery anddata mining, KDD '10, pages95-104,New York, NY, USA, 2010. ACM.

英文原文报告下载: Malware Characterization using Behavioral Components.pdf (3.02 MB, 下载次数: 68)
安天公益翻译(非官方中文译本): 基于行为组件的恶意软件表征[非官方中文译本 • 安天实验室译].pdf (1.04 MB, 下载次数: 62)
您需要登录后才可以回帖 登录 | 注册创意安天

本版积分规则

Archiver|手机版|小黑屋|创意安天 ( 京ICP备09068574,ICP证100468号。 )

GMT+8, 2024-12-22 13:06

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表