MazeBreaker：用多智能体强化学习破解 LLM 安全防线

📄 发表于 ICSE 2026 | PDF

作者：Zhihao Lin, Wei Ma, Mingyi Zhou, Yanjie Zhao, Haoyu Wang, Yang Liu, Jun Wang, Li Li

一句话概括

我们让多个 AI Agent 组成"红队"，通过强化学习自动发现 LLM 安全防线的漏洞——不是手动写越狱 prompt，而是让 AI 自己学会怎么突破 AI。

大语言模型（LLM）已经深入到日常应用中，但它们的安全护栏真的牢固吗？

现有的越狱攻击（Jailbreak）方法大多依赖：

这就像只派一个间谍去试探，而不是组建一支协调的特种部队。

MazeBreaker 的核心思想是多智能体协作 + 强化学习：

我们设计了多个 Agent，每个扮演不同角色：

这些 Agent 不是按固定脚本工作的——它们通过强化学习不断试错和改进：

与一次性攻击不同，MazeBreaker 可以进行多轮迭代，逐步试探防线的薄弱环节，就像真实的渗透测试一样。

如果你在做 LLM 安全相关工作：

这是我在 LLM 安全方向的第一篇工作，也是我理解"AI 安全不只是加个过滤器"这件事的起点。欢迎讨论交流！