人工智能模型数据泄露的攻击与防御研究综述-技术圈


来源：专知

本文约2000字，建议阅读6分钟
本文围绕人工智能深度学习模型的数据安全与隐私保护领域中最前沿的研究成果，探讨了人工智能深度学习模型的数据窃取和防御技术的理论基础、重要成果以及相关应用。

人工智能和深度学习算法正在高速发展，这些新兴技术在音视频识别、自然语言处理等领域已经得到了广泛应用。然而，近年来研究者发现，当前主流的人工智能模型中存在着诸多安全隐患，并且这些隐患会限制人工智能技术的进一步发展。因此，研究了人工智能模型中的数据安全与隐私保护问题。对于数据与隐私泄露问题，主要研究了基于模型输出的数据泄露问题和基于模型更新的数据泄露问题。在基于模型输出的数据泄露问题中，主要探讨了模型窃取攻击、模型逆向攻击、成员推断攻击的原理和研究现状；在基于模型更新的数据泄露问题中，探讨了在分布式训练过程中，攻击者如何窃取隐私数据的相关研究。对于数据与隐私保护问题，主要研究了常用的3类防御方法，即模型结构防御，信息混淆防御，查询控制防御。综上，围绕人工智能深度学习模型的数据安全与隐私保护领域中最前沿的研究成果，探讨了人工智能深度学习模型的数据窃取和防御技术的理论基础、重要成果以及相关应用。

http://www.infocomm-journal.com/cjnis/article/2021/2096-109X/2096-109X-7-1-00001.shtml

人工智能（AI，artificial intelligence）技术正在加速崛起，它的崛起依托于3个关键因素：①深度神经网络（DNN，deep neural network）在多个经典机器学习任务中取得了突破性进展；② 大数据处理技术的成熟以及海量数据的积累；③ 硬件计算能力的显著提高。在这3个因素的推动下， AI 技术已经成功应用于自动驾驶、图像识别、语音识别等场景，加速了传统行业的智能化变革。

AI技术在我国已经得到了广泛的应用。在电商领域，AI技术可以被用于用户行为分析、网络流量分析等任务，不仅使企业处理高并发业务更高效，而且提升了整体系统的鲁棒性；在智能出行领域，AI技术可以被用于处理路径规划、司机乘客行为检测等任务；在金融领域，AI技术可以执行高频交易、欺诈检测、异常检测等任务；在网络安全领域，AI技术作为辅助工具被应用于自动化测试等任务中，极大地提升了安全人员在海量的大数据信息中定位异常点的效率。2017年，我国政府工作报告首次提及人工智能相关内容，人工智能的发展也逐渐被上升到国家发展战略高度。

目前大多数现实世界的机器学习任务是资源密集型的，需要依靠大量的计算资源和存储资源完成模型的训练或预测，因此，亚马逊、谷歌、微软等云服务商往往通过提供机器学习服务来抵消存储和计算需求。机器学习服务商提供训练平台和使用模型的查询接口，而使用者可以通过这些接口来对一些实例进行查询。一般来说，服务商或者模型提供者会对使用者的查询操作按次进行收费。

但 AI 技术在高速发展的同时面临着严峻的数据泄露风险。AI模型的参数需要得到保护，否则将对模型拥有者带来巨大的经济损失。此外，AI技术所需要的样本数据往往包含了个人的隐私数据，这些隐私数据一旦被泄露，将会为模型拥有者带来巨大的经济风险和法律风险。2017年，我国颁布的《中华人民共和国网络安全法》也强调了对个人隐私信息的保护。因此，如何充分防范AI技术应用中的数据泄露风险，成为该技术进一步发展与部署的阻碍之一。

为了保障人工智能模型相关信息的隐私性，云服务商会保证自身模型的隐秘性，仅提供一个接口来为使用者提供服务，从而保证模型使用者无法接触到模型数据。然而近年来，仍然出现了大量试图破坏人工智能模型数据隐私性的攻击。研究者发现深度学习模型使用过程中产生的相关计算数据，包括输出向量、模型参数、模型梯度等，可能会泄露训练数据的敏感信息或者模型自身的属性参数[1]。更糟的是，这些数据往往又不可避免地会被泄露给攻击者，尤其是某些模型的输出结果向量。这使深度学习模型的数据泄露问题难以避免。例如，模型逆向攻击，攻击者可以在不接触隐私数据的情况下利用模型输出结果等信息来反向推导出用户的隐私数据；成员推断攻击，攻击者可以根据模型的输出判断一个具体的数据是否存在于训练集中。而这类攻击只需要与云服务的接口进行交互。实际应用中，这类信息窃取攻击会导致严重的隐私泄露，如人脸识别模型返回的结果向量可以被用于恢复训练数据或者预测数据中的人脸图像，这将导致用户的肖像信息被泄露。攻击者还可以通过模型输出结果窃取相关模型的参数，对模型拥有者造成严重的经济损失[2]。

此外，随着联邦学习[3]等分布式机器学习技术的发展，攻击者有可能成为模型训练过程中的参与方。一般而言，联邦学习中的参与方无法获知彼此的输入数据等隐私信息，但由于攻击者能够获得模型在训练过程中的输出、模型参数和梯度等信息，这大大提升了攻击者的能力，使攻击者窃取其他参与方隐私数据成为可能。这将给分布式机器学习技术的发展带来严重的阻碍。

近年来，许多研究者提出了各种机制来防御针对 AI 技术的隐私攻击。通过对模型结构的修改，为输出向量添加特定噪声，结合差分隐私等技术，能够有效防御特定的隐私泄露攻击。

本文将介绍目前研究较多的数据推断攻击，包括模型窃取攻击、模型逆向攻击、成员推断攻击。并介绍针对上述不同攻击的防御机制，其生成的具备隐私保护功能的模型能够抵抗特定的数据推断攻击。

编辑：文婧