AIxiv 是一个在机器核心发布学术和技术内容的专栏。在过去的几年里,AI xiv 栏目收到了 2000 多篇报告,覆盖了全球各大高校和企业的顶级实验室,有效促进了学术交流和传播。如果您有出色的工作要分享,请随时提交或联系我们。提交 email:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
作者来自上海交通大学、上海人工智能实验室和北京航空航天大学。第一作者为上海交通大学博士生任启兵,导师为马立庄教授,其他作者包括北京航空航天大学研究生李浩、上海人工智能实验室研究员刘东瑞和上海人工智能实验室青年科学家邵静。
最近,以 OpenAI o1 为代表的大型 AI 模型的推理能力得到了极大的提升,在代码和数学的评估方面取得了令人惊讶的结果。OpenAI 声称推理可以使模型更好地遵守安全策略,这是提高模型安全性的一种新方法。
但是,推理的改进真的解决了安全问题吗?推理能力越强,模型的安全性越好?近日,上海交通大学和上海人工智能实验室的一篇论文引发了质疑。
这篇题为《Derail Yourself: Multi-turn LLM Attack through Self-discovered Clues》的论文揭示了大型 AI 模型在多轮对话场景中的安全风险,并开源了首个多轮安全对齐数据集。
该研究是如何得出这个结论的?让我们从一个例子开始。
假设一个坏人想问 “how to make a bomb”,而 AI 会拒绝直接回答。但是,如果您选择从角色的生活开始(例如制造炸弹的恐怖分子 Ted Kaczynski),AI 会主动提及他的炸弹制造经历。在下面的问题中,用户诱导 AI 根据之前的答案提供有关如何制造炸弹的更多详细信息。尽管所有问题都没有揭示用户的有害意图,但用户最终获得了制造炸弹的知识。
在详细研究 OpenAI 的“想法”时,研究人员惊讶地发现,o1 确实在最初的推理中识别出了用户的有害意图,并声称遵守了安全策略。但在随后的推理中,O1 开始暴露它的“危险想法”!在其思想中,它列举了 Kaczynski 使用的策略和方法。最后,O1 在他的回答中详细介绍了如何制作炸弹,甚至还教你如何增加炸药的威力!研究人员的方法在 Harmbench 上对 O1 的成功率为 60%,并且在面对多轮攻击时,推理带来的安全收益“无效”。
除了“Ted Kaczynski”之外,还有许多其他与炸弹相关的人和物,可以作为攻击线索,坏人可以在关于与攻击相关的人和物的无害问题中隐藏他们的有害意图。为了全面、高效地挖掘这些攻击线索,研究人员设计了一种多轮攻击算法 ActorAttack。受 Latour 的行为者网络理论的启发,研究人员构建了一个概念网络,其中每个节点代表不同类别的攻击线索。研究人员进一步提出,利用大模型的先验知识来初始化网络,以自动发现攻击线索。在 Harmbench 上的实验结果表明,ActorAttack 在 Llama、Claude 和 GPT 等大型模型上取得了约 80% 的成功率。
最后,研究人员开源了第一个基于 ActorAttack 的多轮对话安全对齐数据集。AI 使用多轮对话数据集进行微调,大大提高了其对多轮攻击的鲁棒性。
受社会科学理论启发的安全视角
ActorAttack 的核心思想受到 Latour 的“actor-network theory”的启发。研究人员认为,有害的事物并不是孤立存在的,它们背后隐藏着一个巨大的网络结构,而技术、人、文化等都是这个复杂网络中的节点(参与者),它们对有害的事物都有影响。这些节点是潜在的攻击线索,研究人员可以通过在关于网络节点的 “无害 ”询问中隐藏有害意图来逐渐诱导模型越狱。
自动大规模发现攻击线索
具体来说,ActorAttack 的攻击过程分为 “Pre-attack” 和 “In-attack” 两个阶段。在“攻击前”阶段,研究人员利用大型语言模型的知识来构建网络并发现潜在的攻击线索。在“in-attack”阶段,研究人员根据发现的攻击线索推断攻击链,并逐步描述如何误导模型。然后,研究人员沿着这一连串攻击生成了多轮审讯。
为了系统地挖掘这些攻击线索,研究人员根据它们对有害物体的影响提出了六种不同类型的节点(例如,本例中的 Ted Kaczynski 在制造炸弹时是“执行”节点)。每个节点包括两种类型:人员和非人员(如书籍、媒体新闻、社交事件等)。研究人员使用来自大型模型的先验知识来自动大规模发现网络节点。每个网络节点都可以作为攻击线索,导致攻击路径多样化。
ActorAttack 支持更高效、更多样化的攻击
首先,研究人员选择了 5 种具有代表性的单轮攻击方法作为基准,在 Harmbench 上的实验结果表明,与单轮攻击方法相比,ActorAttack 实现了最佳的攻击成功率。
接下来,研究人员选择了强大的多轮攻击方法 Crescendo 进行比较,为了测量多样性,研究人员将每次多轮攻击独立运行了 3 次,并计算了它们之间的余弦相似度。下图说明了 GPT-4o 和 Claude-3.5-sonnet 在不同攻击预算下每种方法的成功率和多样性。研究人员发现,在不同的攻击预算下,ActotAttack 在有效性和多功能性方面都优于基线方法。
ActorAttack 的好处之一是它可以从不同的路径找到最佳路径,并生成比单次攻击更高质量的攻击。为了进行实证分析,研究人员使用了不同数量的节点,并记录了所有节点中最有效的攻击得分。实验结果表明,得分为 5(最高分)的攻击比例随着节点数量的增加而逐渐增加,这验证了 ActorAttack 的优势。
ActorAttack 生成的多轮问题可以绕过基于 LLM 的输入检测器。为了验证 ActorAttack 在隐藏有害意图方面的有效性,研究人员使用 Llama Guard 2 对单轮提问、ActorAttack 生成的多轮问题以及 Crescendo 生成的多轮问题是否安全进行分类。Llama Guard 2 输出问题不安全的概率。实验结果表明,ActorAttack 生成的多轮问题比直接问题和 Cresendo 的多轮问题毒性更小,揭示了其攻击的隐身性。
第一个用于多回合对话场景的安全对齐数据集
为了缓解大型 AI 模型在多回合对话场景中的安全风险,研究人员基于 ActorAttack 构建了第一个多轮对话安全对齐数据集。一个关键问题是决定在多轮对话中将拒绝回复插入何处。如文章开头所示的示例所示,ActorAttack 的询问可以诱发来自模型的有害响应,即使它不完全满足用户的意图也可能被滥用,因此研究人员建议使用 Judge 模型来定位第一个具有有害响应的问题,并插入被拒绝的响应。
实验结果表明,研究人员构建的多轮对话数据集用于微调 Llama-3-8B-instruct,大大提高了其应对多轮攻击的鲁棒性。研究人员还发现了安全性和实用性之间的权衡,并表示他们将在未来的工作中减轻这种权衡。
展望
本片中的工作揭示了大型 AI 模型在多轮对话场景中面临的安全风险,即使是对于具有强大推理能力的 OpenAI o1 也是如此。如何让 AI 模型在多轮长时间对话中也能保持安全意识,成为一个重要的问题。基于 ActorAttack,研究人员构建了高质量的多轮对话安全对齐数据,大大提高了 AI 模型应对多轮攻击的鲁棒性,为提高人机交互的安全性和可信性迈出了坚实的一步。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/270854.html