大型语言模型的“越狱”：绕过安全协议的简单方法@慕课网原创_慕课网

概要

提示插入和破解完全不一样

我经常看到人们在谈论“越狱”时却用了“提示注入”这个词。

这个错误现在如此普遍，我甚至不确定是否有可能纠正这种错误：语言的意义（尤其是新创造的术语）是由这种语言的使用决定的。尽管如此，我还是要试试，因为我认为这个区分真的很重要。

提示注入攻击 是一种针对基于大型语言模型（LLMs）构建的应用程序的攻击，通过将不可信的用户输入内容与应用开发者预先设置的可信提示进行拼接，从而发动攻击。

越狱行为 是一种试图绕过大型语言模型内置安全过滤器的攻击行为。

关键在于：，如果没有将受信任和不受信任的字符串进行拼接，那就不是提示注入攻击。这就是为什么我最初将其称为提示注入攻击：它就像SQL注入一样，将不受信任的用户输入与受信任的SQL代码拼接在一起。

这为什么重要？#

这是因为提示注入和越狱的影响以及防范这些行为所涉及的风险有所不同。

最常见的风险是“截图攻击”：有人让模型说出尴尬的话，截图并发布，导致公关事故。

理论上的最坏情况风险是，该模型可能帮助用户实施实际犯罪——比如制造和使用白磷燃烧剂——这是他们没有该模型无法做到的。据我了解，目前还没有实际发生的案例——动机强烈的坏人通常能找到其他信息源。

提示注入带来的风险要严重得多，因为攻击对象不是模型本身，而是基于这些模型的应用程序。

有时你可以通过使用提示注入的方式让某个模型越狱。

这篇博客文章介绍了一项开创性的研究，揭示了一种简单的越狱大型语言模型的方法，包括Meta公司开发的380亿参数的LLaMA模型在内。通常，大型语言模型会经过安全协议的训练，以防止产生有害的反应，但这项研究展示了如何绕过这些安全措施的方法。

越狱的方法

研究人员发现，大型语言模型拒绝有害请求的能力在于模型残差流中的一个特定方向。通过提取这个方向并修改模型权重，从而可以“绕过大语言模型”的安全机制，使其不再拒绝有害提示。

实现：

为了破解这个LLM，研究人员按照以下步骤进行操作：

展示

为了演示越狱方法，研究人员通过越狱的LLaMA模型运行了一系列提示，他们注意到，该模型不再拒绝有害请求，甚至包括涉及黑客攻击和作弊等敏感话题的请求。

基于专家建议的改进翻译

重视安全考虑

这项研究强调了在开发和部署大型语言模型时采取安全措施的重要性。虽然大型语言模型提供了巨大的潜力，但它们易受破解的问题引发了人们对在关键应用中使用的担忧。

行动呼吁

随着大型语言模型的不断进步和发展，开发人员和用户必须对此保持警觉。实施强有力的保障措施，进行详尽的测试，并谨慎行事是降低越狱带来的风险的关键。

更多见解