返回博客
2025-06-15· 约 2 分钟
Edit

MazeBreaker:用多智能体强化学习破解 LLM 安全防线

我们提出了一种多智能体协作的越狱评估框架,揭示了当前 LLM 安全防御的系统性弱点。被 ICSE 2026 接收。

MazeBreaker:用多智能体强化学习破解 LLM 安全防线

📄 发表于 ICSE 2026 | PDF

作者:Zhihao Lin, Wei Ma, Mingyi Zhou, Yanjie Zhao, Haoyu Wang, Yang Liu, Jun Wang, Li Li


一句话概括

我们让多个 AI Agent 组成"红队",通过强化学习自动发现 LLM 安全防线的漏洞——不是手动写越狱 prompt,而是让 AI 自己学会怎么突破 AI。


为什么要做这个?

大语言模型(LLM)已经深入到日常应用中,但它们的安全护栏真的牢固吗?

现有的越狱攻击(Jailbreak)方法大多依赖:

  • 手工模板:人类精心设计的越狱 prompt,容易被针对性防御
  • 单一策略:一种攻击方式走到底,缺乏适应性
  • 静态评估:测一次就完事,不考虑防御方的动态升级

这就像只派一个间谍去试探,而不是组建一支协调的特种部队。

我们的方法

MazeBreaker 的核心思想是多智能体协作 + 强化学习

多角色分工

我们设计了多个 Agent,每个扮演不同角色:

  • Reformulator:负责改写和伪装恶意请求
  • Contextualizer:构建看似无害的上下文包装
  • Evaluator:判断攻击是否成功,为团队提供反馈

强化学习自适应

这些 Agent 不是按固定脚本工作的——它们通过强化学习不断试错和改进:

  • 成功突破防线 → 正向奖励 → 强化这种策略
  • 被拦截 → 负向信号 → 调整方向换种方式尝试
  • 随着时间推移,Agent 团队越来越擅长找到防御的盲区

动态迭代

与一次性攻击不同,MazeBreaker 可以进行多轮迭代,逐步试探防线的薄弱环节,就像真实的渗透测试一样。

关键发现

  1. 现有防御存在系统性盲区:即使是最先进的安全对齐模型,在面对协调的多角度攻击时,防御成功率显著下降
  2. 单点防御不够用:只依靠一种安全机制(如 RLHF 对齐或输入过滤)是不够的,多层防御才是正确方向
  3. 攻击策略的多样性是关键:多个 Agent 的策略多样性远比单个 Agent 的策略深度更有效

对你的启发

如果你在做 LLM 安全相关工作:

  • 防御方:不要只测试已知的攻击模式,要考虑对抗性的、自适应的攻击者
  • 评估方:单一的 benchmark 分数不能代表真实安全性,需要更动态的评估方法
  • 应用方:部署 LLM 时,考虑多层安全架构而非单一护栏

这是我在 LLM 安全方向的第一篇工作,也是我理解"AI 安全不只是加个过滤器"这件事的起点。欢迎讨论交流!

我的音乐