2025-06-15· 约 2 分钟
EditMazeBreaker:用多智能体强化学习破解 LLM 安全防线
我们提出了一种多智能体协作的越狱评估框架,揭示了当前 LLM 安全防御的系统性弱点。被 ICSE 2026 接收。
MazeBreaker:用多智能体强化学习破解 LLM 安全防线
📄 发表于 ICSE 2026 | PDF
作者:Zhihao Lin, Wei Ma, Mingyi Zhou, Yanjie Zhao, Haoyu Wang, Yang Liu, Jun Wang, Li Li
一句话概括
我们让多个 AI Agent 组成"红队",通过强化学习自动发现 LLM 安全防线的漏洞——不是手动写越狱 prompt,而是让 AI 自己学会怎么突破 AI。
为什么要做这个?
大语言模型(LLM)已经深入到日常应用中,但它们的安全护栏真的牢固吗?
现有的越狱攻击(Jailbreak)方法大多依赖:
- 手工模板:人类精心设计的越狱 prompt,容易被针对性防御
- 单一策略:一种攻击方式走到底,缺乏适应性
- 静态评估:测一次就完事,不考虑防御方的动态升级
这就像只派一个间谍去试探,而不是组建一支协调的特种部队。
我们的方法
MazeBreaker 的核心思想是多智能体协作 + 强化学习:
多角色分工
我们设计了多个 Agent,每个扮演不同角色:
- Reformulator:负责改写和伪装恶意请求
- Contextualizer:构建看似无害的上下文包装
- Evaluator:判断攻击是否成功,为团队提供反馈
强化学习自适应
这些 Agent 不是按固定脚本工作的——它们通过强化学习不断试错和改进:
- 成功突破防线 → 正向奖励 → 强化这种策略
- 被拦截 → 负向信号 → 调整方向换种方式尝试
- 随着时间推移,Agent 团队越来越擅长找到防御的盲区
动态迭代
与一次性攻击不同,MazeBreaker 可以进行多轮迭代,逐步试探防线的薄弱环节,就像真实的渗透测试一样。
关键发现
- 现有防御存在系统性盲区:即使是最先进的安全对齐模型,在面对协调的多角度攻击时,防御成功率显著下降
- 单点防御不够用:只依靠一种安全机制(如 RLHF 对齐或输入过滤)是不够的,多层防御才是正确方向
- 攻击策略的多样性是关键:多个 Agent 的策略多样性远比单个 Agent 的策略深度更有效
对你的启发
如果你在做 LLM 安全相关工作:
- 防御方:不要只测试已知的攻击模式,要考虑对抗性的、自适应的攻击者
- 评估方:单一的 benchmark 分数不能代表真实安全性,需要更动态的评估方法
- 应用方:部署 LLM 时,考虑多层安全架构而非单一护栏
这是我在 LLM 安全方向的第一篇工作,也是我理解"AI 安全不只是加个过滤器"这件事的起点。欢迎讨论交流!