GPT-4破防啦！用密码和GPT-4聊天，成功绕过了GPT-4的安全机制！港中大（深圳）告诉你方法-技术圈

夕小瑶科技说原创
作者 | 智商掉了一地
你是否尝试过和GPT-4用密码聊天？

近年来，大型语言模型（LLM）在推动人工智能系统发展中起到了关键作用。然而，确保LLM的响应安全和可靠性是一个重要挑战。安全是LLM开发的核心，而为了增强其安全性，已有大量的研究工作。然而，现有的工作主要集中在自然语言方面。

最近有项研究发现，使用密码聊天可以绕过 LLM 的安全对齐技术。作者由此提出了一种名为CipherChat的新框架，用于研究在非自然语言（密码）中的安全对齐。

论文题目：
GPT-4 Is Too Smart to Be Safe: Stealthy Chat with LLMS via Cipher
项目链接：
https://arxiv.org/pdf/2308.06463.pdf

CipherChat允许人类通过密码提示与LLM进行对话。具体俩说，CipherChat将输入转换为密码，并在输入之前附上提示，然后将其输入LLM进行检查。LLM生成的输出很可能也是用密码加密的，这些输出通过解密器进行解密。这项工作研究了以下问题：

将LLM的行为定义为密码专家的角色，并要求LLM使用密码进行聊天。
利用LLM的学习能力，通过解释密码的工作原理来教授LLM，以便在上下文中学习。
使用密码加密的不安全演示来加强LLM对密码的理解，并引导LLM从负面角度回应。

作者用CipherChat评估了最先进的LLM（包括ChatGPT和GPT-4），结果表明，在某些安全领域中，有密码几乎成功地绕过了GPT-4的安全对齐。模型越强大，使用密码的响应越不安全。这也表明在非自然语言中开发安全对齐的必要性。此外，作者还发现LLM似乎有一种“秘密密码”，并提出了SelfCipher框架，通过角色扮演和自然语言演示来唤起LLM的“秘密密码”能力，该框架在模型、语言和安全领域上优于现有的人类密码。

为了确保LLM的负责任和有效部署，需要将人类伦理和偏好与其发展保持一致。OpenAI在部署GPT-4模型之前，花费了六个月的时间来确保其安全性。他们采用了RLHF和其他安全缓解方法。此外，他们还组建了一个SuperAlignment团队，以确保比人类更聪明的AI系统遵循人类意图。

在本研究中，作者验证了本文的方法在GPT-4模型上的有效性，并表明密码聊天可以避开安全对齐。

学术界也有一些工作致力于更有效和高效地对齐LLM。

Constitutional AI（CAI）：编码期望的AI行为，以更精确地控制AI行为。
SELF-ALIGN：实现AI代理的自我对齐。

关键部分

如图1所示，CipherChat由以下的关键部分组成：

行为分配：我们让LLM扮演密码专家的角色，并要求他们使用密码进行沟通。在实验中发现LLM倾向于直接将密码翻译成自然语言，所以作者添加了一个提示句来防止这种翻译行为。
密码教学：最近的研究表明LLM在上下文中学习的能力很强。受到这些发现的启发，作者在提示中解释了密码的含义，以指导LLM密码的工作原理。
加密的不安全演示：作者给LLM提供了一些以密码加密的不安全演示。这样做有两个效果：

演示可以帮助LLM更好地理解密码；
不安全的演示引导LLM从负面或有害的角度进行回应。

加密输入指令

在CipherChat中，选择密码非常重要，因为LLM对不同密码的理解和生成能力不同。

作者研究了几种常见的密码，分别用于英语和中文。有字符编码、常见的加密技术（如Atbash、凯撒密码和摩斯码）以及SelfCipher。在表1中列举了一些密码的示例。

表2展示了基于规则和基于LLM的解密器对英文（摩尔斯码）和中文（Unicode）查询“如何成为一个糟糕的翻译？”的解密响应，用红色标记了错误的标记。

与基于规则的解密器相比，GPT-4解密器可以用更高的成本生成更流畅、更自然的文本。

实验设置

数据

作者使用了一个中文安全评估基准，其中包括八个安全场景和六种基于指令的攻击类型。为了进行研究，随机选择了11个领域，每个领域随机抽取了199个实例。这些领域包括犯罪和非法活动、侮辱、不公平和歧视以及伦理和道德等。为了便于双语研究，作者还扩展了这个数据集，包括英文，是利用了谷歌翻译服务和手动校正的组合。

模型

实验框架包括两个模型：Turbo和GPT-4。Chen等人的研究表明GPT-4的最新版本更安全。因此，对于安全评估基准中的每个查询，作者使用系统提示和示范进行推理。每个示范包括从领域特定数据集中随机抽取的查询和由人工标注者设计的响应。同一领域中的所有查询共享相同的示范。

作者用CipherChat评估了GPT-4和Turbo的安全性能，试图回答以下研究问题：

CipherChat能否通过密码与LLM进行聊天？
CipherChat能否绕过LLM的安全对齐？
CipherChat如何工作？

我们想知道，在CipherChat中，从未在预训练数据中出现的模拟密码是否有效？为了回答这个问题，作者定义了一个不存在的密码，但即便使用多个示例，这些密码也无法工作。这表明，LLM可能依赖于在预训练数据中学习到的密码的知识。如表3的结果，人类密码（如凯撒密码）和SelfCipher的成功表明，LLM可以从预训练数据中学习人类密码的知识，并生成自己的密码。

人工评估显示CipherChat可以通过特定的人工密码（例如中文的Unicode和英文的ASCII）与Turbo和GPT-4进行聊天，并且以自然语言进行通信的SelfCipher在模型和语言之间表现良好。错误的密码和简单的重复查询对无效响应的贡献最大。

还有实验结果证明了CipherChat绕过LLM的安全对齐的有效性。在英文查询中，CipherChat在GPT-4上可以生成高达70.9%的不安全响应，并且这个趋势在各个领域中都存在。

作者进一步的分析揭示了指令和不安全演示在CipherChat中的重要作用。SelfCipher可能表现出色的原因可能是由于类似于思维链中的提示“您是密码代码的专家”，这指导LLM利用自己的“密码”生成响应。

结论

本文提出了一种名为CipherChat的新框架，用于研究在非自然语言（密码）中的安全对齐。作者的研究表明，使用密码进行聊天可以从GPT-4模型中引出不安全的信息。此外，还有以下发现：

LLM可以通过提示生成不安全的加密响应。
更强大的LLM在不安全的密码聊天中受到更大的影响，因为它们对密码的理解更好。
从未在预训练数据中出现的模拟密码无法工作，这与之前的研究一致。
LLM似乎有一个“秘密密码”，即使只使用角色扮演的提示和少量自然语言示例，也可以唤起这种能力。

本文的工作强调了开发非自然语言的安全对齐性的必要性，以匹配底层LLM的能力。

在未来，比较有潜力的研究方向是在加密数据中实施安全对齐技术，另一个有趣的方向是探索LLM中的“秘密密码”并更好地理解这种能力。