手记

大型语言模型的“越狱”:绕过安全协议的简单方法

概要

提示插入和破解完全不一样

我经常看到人们在谈论“越狱”时却用了“提示注入”这个词。

这个错误现在如此普遍,我甚至不确定是否有可能纠正这种错误:语言的意义(尤其是新创造的术语)是由这种语言的使用决定的。尽管如此,我还是要试试,因为我认为这个区分真的很重要。

定义 定义[ #_](https://simonwillison.net/2024/Mar/5/prompt-injection-jailbreaking/#prompt-injection-jailbreaking-definitions)

提示注入攻击 是一种针对基于大型语言模型(LLMs)构建的应用程序的攻击,通过将不可信的用户输入内容与应用开发者预先设置的可信提示进行拼接,从而发动攻击。

越狱行为 是一种试图绕过大型语言模型内置安全过滤器的攻击行为。

关键在于:,如果没有将受信任和不受信任的字符串进行拼接,那就不是提示注入攻击。这就是为什么我最初将其称为提示注入攻击:它就像SQL注入一样,将不受信任的用户输入与受信任的SQL代码拼接在一起。

这为什么重要?#

这是因为提示注入和越狱的影响以及防范这些行为所涉及的风险有所不同。

最常见的风险是“截图攻击”:有人让模型说出尴尬的话,截图并发布,导致公关事故。

理论上的最坏情况风险是,该模型可能帮助用户实施实际犯罪——比如制造和使用白磷燃烧剂——这是他们没有该模型无法做到的。据我了解,目前还没有实际发生的案例——动机强烈的坏人通常能找到其他信息源。

提示注入带来的风险要严重得多,因为攻击对象不是模型本身,而是基于这些模型的应用程序。

有时你可以通过使用提示注入的方式让某个模型越狱。

有时,模型的提示注入防御可以通过破解攻击来被绕过。如通用且可转移的语言模型对抗攻击(https://llm-attacks.org/)中提到的攻击确实可以用来突破提示注入防御,特别是那些依赖AI技巧来检测和阻止提示注入攻击的防御

这篇博客文章介绍了一项开创性的研究,揭示了一种简单的越狱大型语言模型的方法,包括Meta公司开发的380亿参数的LLaMA模型在内。通常,大型语言模型会经过安全协议的训练,以防止产生有害的反应,但这项研究展示了如何绕过这些安全措施的方法。

越狱的方法

研究人员发现,大型语言模型拒绝有害请求的能力在于模型残差流中的一个特定方向。通过提取这个方向并修改模型权重,从而可以“绕过大语言模型”的安全机制,使其不再拒绝有害提示。

实现:

为了破解这个LLM,研究人员按照以下步骤进行操作:

  1. 收集了在执行有害和无害指令后残差流中的平均激活值。
  2. 计算了平均值的差异,以此来确定拒绝方向。
  3. 在有害指令的验证集上测试了拒绝方向。
  4. 选择了最优拒绝方向,并相应调整了语言模型的权重。
展示

为了演示越狱方法,研究人员通过越狱的LLaMA模型运行了一系列提示,他们注意到,该模型不再拒绝有害请求,甚至包括涉及黑客攻击和作弊等敏感话题的请求。

基于专家建议的改进翻译

重视安全考虑

这项研究强调了在开发和部署大型语言模型时采取安全措施的重要性。虽然大型语言模型提供了巨大的潜力,但它们易受破解的问题引发了人们对在关键应用中使用的担忧。

行动呼吁

随着大型语言模型的不断进步和发展,开发人员和用户必须对此保持警觉。实施强有力的保障措施,进行详尽的测试,并谨慎行事是降低越狱带来的风险的关键。

更多见解
  • 大型语言模型(LLM)越来越强大,但需要谨慎管理和控制以防止滥用。
  • 破解大型语言模型(LLM)可以作为一种研究工具来评估安全协议并增强模型的安全性。

https://www.lesswrong.com/posts/jGuXSgv6qfdhMCuJ/refusal-in-llms-is-mediated-by-a-single-direction

  • 了解大型语言模型(LLM)拒绝背后的机制有助于研究人员开发更有效的安全措施。
  • 负责人地使用大型语言模型至关重要,用户应避免潜在的危害和非法应用。
0人推荐
随时随地看视频
慕课网APP