HydraText-Multi-objective Optimization for Adversarial Textual Attack

十一月 14, 2021 Paper 本文总阅读量次

HydraText: Multi-objective Optimization for Adversarial Textual Attack

作者：Shengcai Liu，Ning Lu，Cheng Chen，Chao Qian，Ke Tang

时间：2021

ABSTRACT

文字(text)（word-level）对抗样本黑盒攻击。在这项工作中，同时考虑攻击效率+可辨认性，并提出一种新的具有可证明性能保证的多优化方法(称为HydraText )，以实现具有高隐蔽性的成功攻击。

为了测试HydraText的功效，我们在score-based 和decision-based的黑盒攻击下，使用5个NLP模型+5个数据集。

（PS：[论文总结] Boundary Attack - 知乎 (zhihu.com)）

一项人类观察评价研究表明，Hydra Text制作的对抗样本很好地保持了有效性和自然性。最后，这些实例还表现出良好的可迁移性，可以通过对抗训练给目标模型带来显著的鲁棒性提升。

INTRODUCTION

我们仔细地设计了目标函数，并进一步构建了一个多目标优化问题（multi-objective optimization problem，MOP），该问题一旦被解决，将产生与原始文本相似度高的单个成功对抗样本。

然后我们原创了一个多目标优化方法（ multi-objective optimization approach），叫做HydraText。这个名字的灵感来自于海蛇许德拉，这是一种神话动物，它使用多个头部攻击对手。它可以同时用在score-based 和decision-based的黑盒攻击下。

METHODS

基于word-level 的替换操作。每个单词有一个自己的候选表，然后将每个单词与候选表中被选中的词替换（也可以不选，原单词不变）。

但这样的方法有个问题，如下图：

如图所示，句子的语义与替换的单词数量是成反比的，上文需要考虑的准确率+可辨认性二者其实是互相矛盾的。为了解决这个问题，我们在生成的过程中也考虑X~~adv~~的修改率，使用MOP来解决它。

1.The HydraText Approach

EXPERIMENTS

1. Datasets and Target Models

**模型种类：**文本分类和文本推理

三个数据集：AG News，IMDB ， Movie Reviews，Stanford Natural Language Inference，multi-genre NLI corpus（前三个文本分类，后三个文本推理）

两个模型：WordCNN，WordLSTM，BERT base-uncased，ESIM ，Infersent ，BERT base-uncased(前三个文本分类，后三个文本推理)

2.Baselines and Algorithm

**攻击方法：**PSO,GA,TextFooler,PWWS,GADe(baseline)

3.Evaluation

以攻击成功的百分率来判定攻击能力。

以修改百分率和语义相似性来判定攻击的可辨识性。