胶囊网络显神威:Google AI和Hinton团队检测到针对图像分类器的对抗...-技术圈

新智元报道

来源：VB编辑：范媛媛，元子

【新智元导读】对抗攻击正越来越多地被有"防御意识"的新攻击打破。实际上，大多数声称检测对抗性攻击的方法在发布后不久就被证伪了。为了打破这个魔咒，加州大学圣地亚哥分校和Google Brain的研究人员，包括图灵奖获得者Hinton，最近在arXiv上发布的一篇新论文中描述了一种转移计算机视觉领域攻击的新框架。「新智元急聘主笔、编辑、运营经理、客户经理，添加HR微信（Dr-wly）或扫描文末二维码了解详情。」

对抗攻击（Adversarial Attack，指的是通过恶意输入欺骗模型的技术）正越来越多地被有"防御意识"的新攻击打破。实际上，大多数声称检测对抗性攻击的方法在发布后不久就被证伪了。
为了打破这个魔咒，加州大学圣地亚哥分校和Google Brain的研究人员，包括图灵奖获得者Geoffrey Hinton，最近在arXiv上发布的一篇新论文中描述了一种转移计算机视觉领域攻击的新框架。
其所提出的框架包括对来自数据集的各种输入图像进行分类的网络，以及根据预测胶囊的参数来重构输入的网络。该框架要么准确地检测攻击，要么对未检测到的攻击施加压力，迫使攻击者生成与目标图像类相似的图像。
从胶囊网络发展史，了解其对图像分类网络的影响和解决措施

Hinton团队在2017年的NIPS会议上提出的胶囊网路，基于一种新的结构，通过与现有的卷积神经网络（CNN）相结合，在一些图像分类的数据上取得了非常优越的性能，成为了2018年的发展新趋势。
2018年4月，Hinton 团队发布《Large Scale Distributed Neural Network Training Through Online Distillation》，通过online distillation进行大规模分布式神经网络训练。该工作提出了Codistillation的概念，通过大规模实验，发现codistillation方法提高了准确性并加快了训练速度，并且易于在实践中使用。
11月发表的《DARCCC:Detecting Adversaries by Reconstruction from Class Conditional Capsules》中，Geoffrey Hinton团队提出重构网络可以视作检测对抗性攻击的非常有效的方法：从获胜的顶层胶囊的身份和姿态参数中重构输入，以验证网络能够感知我们期望它从某个类的典型样例中感知的东西。
简而言之，一个胶囊网络通过几何解释物体的组成部分来理解图像中的物体。负责分析各种对象属性(如位置、大小和色调)数学函数集，胶囊网络被附加到一种经常用于分析视觉效果的AI模型上。部分胶囊的预测被重用以得到组成部分的表征，由于这些表征在整个分析过程中保持完整，故即使部分的位置被交换或转换，胶囊系统也可以利用它们来识别对象。
众所周知，胶囊网络（CapsNet）一直致力于克服CNN（卷积神经网络）在图像识别方面多年来一直处于事实标准的缺点。当喂食他们的图像与训练期间使用的图像相似时，CNN是很好的。但是，如果要求他们识别具有旋转，倾斜或一些错位元素的图像，则CNN的性能较差。胶囊网络解释了图形元素之间的空间关系，并理解了人类直观掌握的自然几何图案。无论从哪个角度或观点来看，他们都可以识别物体。
胶囊网络的另一个独特之处：注意力机制
与所有深层神经网络一样，胶囊的功能排列在相互连接的层中，从输入数据传输"信号"，并慢慢调整每个连接的突触强度(权重)，这就是他们提取特征并学习预测的方式。但就胶囊网络而言，其权重是根据前一层函数预测下一层输出的能力动态计算的。
那么，胶囊网络如何让将三种基于重构的检测方法结合起来，对图像分析器的对抗攻击进行检测？

首先，"全局阈值检测器"发现当输入图像受到反向扰动时，对输入图像的分类可能是不正确的，但重建结果往往是模糊的。
其次，局部最佳检测器从重构误差中识别出"干净"的图像，当输入是一个干净的图像，最优胶囊的重建误差小于次优胶囊的重建误差。
最后一种称为周期一致性检测器的技术，如果输入的类别与最优胶囊的重建类别不同，则会将其标记为对抗类别。

该团队报告称，在实验中，他们能够基于三种不同的距离度量标准，以对SVHN和CIFAR-10的低误报率来检测标准的对抗攻击。"我们的模型使很大一部分未被发现的攻击转向类似于对抗性目标类，并且不再是对抗性的了，"他们称，"这些攻击图像不能再被称为'对抗性的'，因为我们网络的分类方式和人类一样。"
论文地址：https://arxiv.org/pdf/1909.11764.pdf