外媒称对抗性机器学习存漏洞 黑客攻击轻而易举( 二 )


安塞也自己的研究旨在使对抗性攻击更加健壮 。 一些被归为“标准”的攻击只从特定的角度进行,而另一些攻击则不管神经网络从什么角度观察物体或图像都可以进行 。 “标准的对抗性例子是通过微调图像中的像素,从而将神经网络对目标图像的分类转移到其它类别——比如说把猫的图像归类为鳄梨沙拉酱 。 ”他说,“一次又一次地重复这个过程,做出微小的改变,结果是有可能制作出一幅对人来说像一样东西的图像,却会让机器误一位完全不同的东西 。 ”他说,研究表明,标准对抗性攻击是“脆弱的”,在现实世界中不太可能站得住脚 。
因此,安塞也和他在麻省理工学院人工智能实验室LabSix的同事们开发了更好的示例,优化了攻击图像,使其不用考虑角度或距离问题都可起作用 。 他说:“我们还把它扩展到3D图像,这样你就可以有一个在人类看起来像乌龟的物体,但从机器角度观察却完全不同 。 ”这其中就包括他的3D打印玩具龟,但在ImageNet分类器看来,它就像一把来复枪 。
如果攻击只能以精确的角度起作用,或者干扰因素很容易被人类发现,那么攻击就没有什么用处 。 以自动驾驶汽车为例,它们往往通过依赖神经网络识别物体的计算机视觉技术来观察外部世界 。 这样的话,任何对抗性的招数都必须在每个观察角度起作用,也不会受到远近距离的影响,更不会被人类司机注意到,毕竟没有人能读懂一个被涂过油漆的交通标志 。 包括费尔南德斯(Fernandes)和宋(Song)在内的研究人员都成功地做到了这一点,他们使用不会模糊标识的细微油漆标记以及看起来像涂鸦的贴纸干扰路边的停车标志,却导致神经网络将“停止”解释为速度限制 。
“从一个较高的层次看,这种攻击的方式是访问目标深度学习模型,然后运行一个算法来计算需要对物理对象进行何种编辑,从而使生成的图像从人类视觉看与某种原始物体相似,但对于机器学习模型来说完全是另一种东西,”费尔南德斯说 。 “在这种情况下,我们的算法输出需要在图像中添加的元素 。 在我们的例子中就是贴纸,所以我们把它们打印在纸上,然后简单地贴在一个路边的停止标志上 。
这没有理由引起恐慌 。 费尔南德斯解释说,仅仅在停止交通标志上贴上这些贴纸是不会让自动驾驶汽车发生事故的 。 自动驾驶汽车会使用多个传感器和算法,不会就任何单一的机器学习模型做出决定 。 “因此,尽管我们的工作可以愚弄单一的机器学习模型,但这并不意味着这种愚弄就足以造成真实伤害,”他说 。
开发对抗性的示例并非易事,通常需要搞清楚包括模型架构在内的神经网络技术细节,这往往称为“白盒”访问 。 也就是说,真正具有强大破坏性的攻击并不需要详细的神经网络信息;事实可能会证明,这些黑盒攻击对外部攻击系统更有用,因为它们可以应用到不同的神经网络 。
现在需要开展工作,从而防止机器学习因其固有的弱点而变得无用 。 虽然已经有了很多的解决方案,但到目前为止还没有明确的防御措施 。 密歇根大学(University of Michigan)研究员凯文?埃克霍尔特(Kevin Eykholt)表示:“检测对抗性示例的防御措施,以及消除对抗性示例存在的防御措施,是相关研究领域的一个活跃领域 。 很多新防御被提出,而又以非常快的速度被打破 。 ”他补充说:“在设计机器学习系统的时候不是盲目的设计系统,重要的是要注意并可能减轻对抗性攻击的特定风险,并考虑到一旦发生相关情况该做出何种反应 。 ”
安塞也说,有一个想法很有希望,那就是训练神经网络,通过对抗性示例包含在训练数据中来提高识别神经网络的健壮性 。 他说:“通过这种方式,神经网络‘学会’对对抗性示例有一定的抵抗力 。 ”

推荐阅读