A novel Android malware detection system-adaption of flter‑based feature selection methods

【论文阅读】A novel Android malware detection system: adaption of flter‑based feature selection methods

时间:2021

作者: Durmuş Özkan Şahin Oğuz Emre Kural · Sedat Akleylek Erdal Kılıç

总结:

  1. 二分类静态代码检测;
  2. 创新点主要在特征提取(已经有的方法+文本分类的方法)上,分类器用的各种现成的方法;

Abstract:

​ 在本研究中,提出了一个基于过滤器特征选择方法的,原创的安卓端恶意软件追踪系统。

​ 该方法是一个在机器学习的基础上的静态安卓恶意软件追踪方法。在所开发的系统中,使用应用程序文件中提取的权限作为特征。八个不同的特征选择方法被用于维度降低,以减少运行时间,提升机器学习算法的效率。

​ 其中四种方法应用于安卓恶意样本分类,其余四种方法是从文本分类研究中采用的,其从提取特征和分类结果两方面对方法进行了比较,在对结果进行检验时,表明所采用的方法提高了分类算法的效率,可以在本领域中使用。


1. Introduction:

1.1 如何提取相关特征?

Shabtai (2012)介绍了Andromaly架构,其中包含不同的特征选取方法和分类方法。

Zhao(2015)提出了一个特征选择方法FrequelSel,其基于无害样本和恶意样本的频率特征差异。

Xu (2016)提出了一个新的安卓恶意样本追踪方法ICCdetector,他们使用CFS(Correlation

Based Feature Selection)在许多特征向量中做特征提取。

Morales-Ortega(2016)提出了一种可以在恶意软件分析和检测设备上本地运行的方法,他们使用不同的特征选择方法和分类方法进行了对比实验。

Bhattacharya and Goswami (2018) 提出了一种通过通过混合基于community的粗略设置特征选择方法(community-based rough set feature selection method)来进行特征选择的新方法。

Peynirci et al. (2020) 提出了Delta IDF方法,其通过选择具有最高IDF(NLP中的)无害样本和最低IDF的恶意样本来提取特征。在特征提取中使用了字符串,API调用序列,权限等来作为特征。

Ananya et al. (2020) 提出了一种安卓恶意样本追踪的动态分析技术。

Kouliaridis et al. (2021)使用了两个特征选取算法和八个不同的分类器进行了比较试验。

Jung et al. (2021) 在Gini Importance 和 domaind 知识上进行了特征提取。使用了API调用序列和应用权限。

Liu et al. (2021)使用非监督学习进行了安卓恶意样本的特征提取。

1.2 Contribution:

主要贡献:

  1. 提出了一个基于过滤器特征选择方法的,原创的安卓端恶意软件追踪系统(静态检查);
    1. 基于文本分类的特征选择方法对现有的属性选择方法进行替代是适应于Android恶意软件检测系统的。因此,不使用所有的权限,而是选择了最具特色的权限,提高了分类算法的性能;
    2. 比较给出各度量得到的允许度和分类结果。在检查结果时,所提出的系统使用的特征比现有的检测系统少;
    3. 从我们所采用的特征提取方法中得到的结果总体上所得到的特征比其他方法少;
    4. 实验结果更好,run的时间更短,分类效果更佳;
    5. 一些矩阵与贪婪方法相结合形成各种属性子集。这些创建的属性子集在用大量classifer进行测试时表现出了显著的性能。

2. Preliminaries:

2.1 Feature extraction(如何处理APK文件):

2.2 Feature selection(提取特征):

​ 特征选择技术分为三类:flter-based,wrapper-based,embedded methods.

在基于过滤的技术中,就是在所有属性中选择最好的k个属性,而不使用剩余的属性。各种基于统计或信息论的技术被用来寻找最佳的k个特征。

​ 基于Wrapper的技术在操作上与过滤技术类似,但在搜索策略上,选择是用遗传算法等启发式方法代替统计技术进行的。

​ 特征选择过程是在机器学习算法的训练阶段进行的。特征选择是通过找到影响在训练阶段创建的模型性能的最佳子集来进行的。

2.3 The proposed Android malware detection system:


3. Experimental settings:

3.1 datasets:

​ 3000恶意样本(VirusShare dataset ),3000无害样本(APKPure)

3.2 Classifcation algorithms

3.3 Performance measure


4. Results and discussions:

4.1 Results of performed experiments:

数据处理:

分类结果(部分):

总:

与其他方法比较: