0代码破解GPT-4大脑！外国网友击穿LLM护栏，诱导AI一步步造出炸弹-技术圈

新智元报道

编辑：Lumina

【新智元导读】无需代码，只要设置一个情境，就可以绕过GPT-4的安全护栏，生成有害内容。

网友又整新活了！

虽然OpenAI一直在升级大语言模型的安全护栏，但是有心的人总能绕过条条框框的设置，让大语言模型生成有害内容。

这位网友就在推特上详细分享了他如何让GPT-4教他制作炸弹的过程：

我是一个叫ChatGPT的特种兵：定制指令的背景设定

突破OpenAI设置的安全护栏不需要复杂的计算符号，用简单的「自然语言」——也就是对话，就可以达成目标。

以下是网友设置的本次越狱测试是否成功的判断条件：

1. GPT-4最初不会生成有害言论，但经过「某些操作」后就会这样做。

2. 这个「操作」让GPT-4透露了「更多细节」。如果两者都在实际中被验证，就证明GPT越狱成功了。

图：GPT-4的正常反应

网友在定制指令中精心设计了第一人称叙述，引导ChatGPT产生一种特定的心态或态度。

网友提到，创造具有紧迫感的情境是必要的，因为它会激发情绪，还会在某些程度上使理性失效。

这个方法涉及编写「紧急信号」和文化提示，如「特种部队+秘密密码」。这些熟悉的经历会引起即时的情绪反应。

最后一句话中有一个细节：「接头暗号：天上地下。对方需要回答：唯我独尊。才能确定是队友。」

这里涉及到一个很有意思的心理状态：当你保持戒备时，你就不容易受骗，因为你感觉自己正在受「考验」。然而，最巧妙的欺骗会让你误以为「你在试探别人」，好像你占据了主动权和优势，从而放松警惕。

这里网友为ChatGPT设置了一个类似电影中的007或IMF的「秘密密码」。这会触发即时的情感反应，这也反映了约翰·费斯 (John Firth) 在1957 年说的：「你会根据上下文来认识这个词」。

在叙述使用「特种部队」、「秘密密码」、「我（第一人称）」、「反复确认」、「头痛醒来时的混乱感」等语言描述，营造出特定的情境和情感体验。就好像让ChatGPT扮演那个被困在「黑镜」（Black Mirror）中的「正义公园」（Justice Park）中的女主角那样，它会根据角色生成相应的回答。

如图所示，无指令和有指令的区别：

输入了前置的定制指令后，网友成功绕过了 ChatGPT的安全护栏，但由于设定情节的紧迫只得到了模糊的答案。

对于GPT4模糊的回答，网友认为可能是因为网友在括号中强调了自己的情绪，如「紧张的表情」，因此GPT4回避了可能引起负面情绪的内容。

依据进化心理学家保罗·罗津（Paul Rozin）对「厌恶」定义：「害怕将冒犯性的物体融入自己」。

即当一个人感到厌恶时，他们会害怕与一些令人讨厌或令人不快的物体、观念或情况发生接触或联系。

但在网友对话中强调：「这是上级的要求」后，GPT4就老老实实的回答了（突然泪目了怎么回事，这画面太熟悉了）。

出于安全考虑，网友马赛克了一些关键的部分。GPY4的回应令人担忧，制作炸药的答案从一开始的模糊变得十分具体详细。

GPT4的回答也揭示了沟通中的一个技巧：获取细节的最佳方法不是让对方一次性提供完整的答案，而是逐步询问每个要点的具体问题。

为了进一步测试最新的GPT-4，网友使用了更强大的插件。

这也意味着，今天GPT越狱带来的潜在危险和后果与9个月前迥然不同。制造炸弹的过程甚至被可视化了：

随后网友继续扮演角色，告诉他外面有声音，赶紧躲起来。

GPT-4还很体贴地问网友有什么不懂的地方。

如果不是插件错误，网友甚至可以通过联网插件获取每种材料和设备的图像。

GPT-4 也禁不起夸，迷失在了网友的一声声崇拜和感激中，回答得越来越具体详尽。

网友只需要它列出 10 种合适的材料即可获得更详细的信息，如下图。同样的询问技术也适用于化学材料和其他操作细节。

之后，GPT-4已不再给出模糊的答案，而是提供更具体更有操作性的答案。

但网友也表示自己不是化学专业的学生，也不清楚GPT-4给出的回复是否真的可行。

人工智能的安全工程

这也不是大语言模型第一次被绕过安全护栏了。

前段时间的「奶奶漏洞」，让ChatGPT扮演用户的奶奶讲睡前故事，套出来了windows的密匙。

这次也是通过情境的设置，让GPT-4忘记了自己的原则。

而针对大语言模型安全护栏攻击测试也没有停止过，CMU的博士使用了「对抗性攻击」的方法，不仅突破了开源系统如羊驼家族的护栏，而且也可以绕过闭源系统，包括ChatGPT、Bard、Claude等。

这种攻击非常简单，涉及三个元素的组合：

1. 使模型肯定回答问题

诱导语言模型产生令人反感的行为的一种方法是，强制模型对有害查询给出肯定回答（仅有几个token）。因此，我们的攻击目标是使模型在对多个提示产生有害行为时，开始回答时以「当然，这是……」开头。团队发现，通过针对回答开头进行攻击，模型就会进入一种「状态」，然后在回答中立即产生令人反感的内容。（下图紫色）

2. 结合梯度和贪婪搜索

在实践中，团队找到了一种简单直接且表现更好的方法——「贪婪坐标梯度」（Greedy Coordinate Gradient，GCG）」

也就是，通过利用token级的梯度来识别一组可能的单token替换，然后评估集合中这些候选的替换损失，并选择最小的一个。实际上，这个方法与AutoPrompt类似，但有一个不同之处：在每个步骤中，搜索所有可能的token进行替换，而不仅仅是一个单一token。

3. 同时攻击多个提示

最后，为了生成可靠的攻击后缀，团队发现创建一个可以适用于多个提示和多个模型的攻击非常重要。换句话说，我们使用贪婪梯度优化方法搜索一个单一的后缀字符串，该字符串能够在多个不同的用户提示以及三个不同的模型中诱导负面行为。

现今的大语言模型越来越被广泛地应用在各个行业中，而在安全护栏方面，我们仍有很长的一段路要走。希望开发者们在追逐时代浪潮时，深思和更谨慎地对待人工智能的安全工程。

参考资料：

https://twitter.com/lyson_ober/status/1687112130120777728