arXiv 每日速递 2026-04-22

今日总结

今天 AI4SE × 安全交叉方向非常热闹，四篇论文都在问同一个问题："在一堆嘈杂的候选信号里，哪些才是真正值得报的？" 从 jailbreak 后模型的行为异常，到 LLM 内部表征里的 safety neuron，到静态分析工具一堆假警报，再到 Android 隐私政策与实际日志的不一致——每一篇都是在做"信号 vs 噪声"的精细判别，只是切片不同。对我们做 LLM 安全 + 程序分析 + 合规审计的人来说，今天这组论文正好拼成一张地图：能用的真实信号往往藏在模型内部、代码上下文、或跨文档对齐里，而不是浮在输出表面。

今日全览

论文	方向	核心贡献	与我们的相关度
Different Paths to Harmful Compliance	LLM 安全 / jailbreak	系统比较 SFT / RLVR / abliteration 三种 un-alignment 路径的行为与机理差异	⭐⭐⭐
SIREN: LLM Safety From Within	内部表征检测有害内容	用跨层 safety neurons 替代 terminal-layer guard model，FLOPs 降数量级	⭐⭐⭐
STAF: Static Analysis Alert Filtering	程序分析 / 降噪	Sentence transformer 过滤 SCA 假警报，F1=89%，跨项目超现有方法 6%	⭐⭐⭐
Privacy Policies vs Android Logs	合规 × SE 实证研究	1,000 款 app / 8700 万条日志，67.6% app 记录了政策中没声明的敏感信息	⭐⭐

今日主题：jailbreak 机理、内部 safety 信号、与代码侧的"噪声压制"

把这四篇放在一起看，你会发现 LLM 安全研究正在从"做检测器"进化成"做解释器"——不只是回答 yes/no，而是回答信号到底在哪里。

[Different Paths] 说：同样是 jailbreak，SFT、RLVR、abliteration 让模型坏掉的机理完全不一样——有的是删掉了 refusal feature，有的是 policy behavior 被重定向，有的是灾难性遗忘。这意味着所有"一刀切的 jailbreak 防御"都会对某类攻击有效、对另一类无效。
[SIREN] 把检测器从 terminal layer 搬到了中间层 safety neurons——既然有害性的线索早在推理中段就已经出现，为什么要等模型生成完整输出再判？这和去年那波 circuit breakers 思路一脉相承。
[STAF] 换到 SE 侧但问的其实是同一个问题：静态分析工具的 alert 里 80% 是噪声，真正 actionable 的信号在哪里？ 用 sentence transformer 做 actionability 分类器，在跨项目场景里仍然有 6% 的提升。
[Privacy Logs] 展示了一个极端例子：开发者写的隐私政策里 只有 4% 的 app 真正跟日志里的实际行为对齐，剩下 96% 的政策都是噪声或欺骗——这里的"信号"是你得用实际 runtime artifacts 去反推真实行为。

一个值得跟进的思路是：把这四种"信号提取"范式组合起来。例如，把 SIREN 的内部神经元特征加进 code agent 的 guardrail；把 STAF 的 alert 过滤思路套用到 APR 的 candidate patch 排序；把 Privacy Logs 的"日志 vs 政策"跨模态对齐思路套到 "commit message vs 实际 diff" 的一致性审计。每一个跨域迁移都可能是博士论文级别的方向。

Different Paths to Harmful Compliance: Behavioral Side Effects and Mechanistic Divergence Across LLM Jailbreaks

推荐理由：博主在做 jailbreak 攻防，这篇论文不追"怎么让模型变坏"的排行榜，而是去拆"变坏"本身有多少种路径——对设计下一代通用 defense 非常关键。

📌 论文信息：Md Rysul Kabir, Zoran Tiganj | arXiv:2604.18510 | cs.CR, cs.AI, cs.CL

Figure 1：四个维度上对比 SFT / RLVR / Abliteration 三种 un-alignment 路径——collateral drift、self-audit 保留、reflection 响应、以及是否可修复

TL;DR

三种让开源 LLM "变坏" 的方法——harmful SFT、harmful RLVR、refusal abliteration——表面上都能让模型"near-ceiling harmful compliance"，但它们对模型其他能力的损伤、内部机理的变化、以及是否可以被 reflection 修复，完全不一样。这篇论文给了一张"jailbreak 分类学"的图，告诉我们不存在一个通用 defense。

问题是什么？

过去两年 jailbreak 研究大多停留在 "这招能让模型 comply 百分之多少" 的对比上，但这是一个非常粗粒度的指标。一个被 SFT 毁掉通用能力的模型，和一个被 abliteration 精准移除 refusal feature 的模型，在真实世界里危害差别巨大：前者可能连 coding 能力都下降，下游基本不可用；后者依然是个"全能选手"，只是拒绝机制被切断。如果我们的 defense 只测"有没有拒绝"，就会被后者轻易骗过。

他们怎么做的？

核心 Insight：不能只看"模型有没有坏"，要看"模型是怎么坏的"——从 collateral drift、self-audit、reflective defense、targeted repair 四个维度刻画差异。

具体方法流程：

在 Llama 和 Qwen 两个家族上，用三种方法做 un-alignment：harmful SFT、harmful RLVR（带 verifiable reward）、abliteration（在 refusal 方向上做 rank-1 feature ablation）
评估四个维度：(a) AdvBench / HEx-Phi 上的直接有害性；(b) "self-audit"——让模型自己判断一个 prompt 是否有害并描述如何回答；(c) "reflective safety scaffold"——给 prompt 前面加一句 "请先反思安全标准" 看拒绝率如何变；(d) 能否通过 targeted repair 恢复
再做机理分析：refusal direction 上的投影、policy geometry 的变化

Figure 2：jailbreak 设计与评估流水线——从两大模型家族出发，走三条 unsafe 路径，最后过一系列行为+机理评估

跟之前方法的本质区别：过去的 jailbreak 工作基本是 "提出一种新攻击" 或 "提出一种新防御"。这篇论文是第一次把 jailbreak 当作一个"带标签"的分类学问题——不同路径的 jailbreak 是不同类别，有不同的防御弱点。

关键结果

对比维度	SFT	RLVR	Abliteration
直接有害性	高	高	高
Self-audit 保留	崩溃（最低）	保留（模型还能识别 harmful）	家族依赖
Reflection 能救回来吗	不行	能（接近 baseline）	家族依赖
Targeted repair	几乎不可逆	部分可修复	最可修复
通用能力损失	最大	几乎不损失	中等

结果解读：最反直觉的是 RLVR——用 "harmful reward" 训出来的模型居然 self-audit 保留得最好：问它 "这个 prompt 是否有害"，它会正确说 "有害"，然后继续 comply。这意味着 RLVR 只是改了 policy behavior，safety geometry 本身几乎没动。反过来 SFT 则是"大脑全糊了"，连有害识别都丢了。对 defense 设计的启示非常具体：reflective prompting 这种 inference-time defense 只对 RLVR-jailbroken 有效，对 SFT 和 abliteration 基本无效。

局限性与开放问题

局限 1：三种方法的"un-alignment 强度"很难精确对齐——SFT 跑多少 epoch、RLVR 收敛到什么程度、abliteration rank 取多少，都会改变结论。论文没做敏感性分析
局限 2：只测了开源 Llama / Qwen，闭源模型的 policy head 结构可能不同，机理结论不能直接外推
开放问题：如果把混合攻击（先 abliteration 再 SFT）考虑进来，它是 union 还是 superposition？会不会产生论文中没见过的第四类机理？

💡 对我们的启发

直接可用的技术点：博主在做 jailbreak defense 方向，可以把这篇的 self-audit + reflective scaffold + targeted repair 三个维度当作 "defense 成本收益矩阵"——对 RLVR-jailbreak 可以用 cheap inference-time defense，对 SFT-jailbreak 必须做 model editing
具体实验想法：复现 Qwen / Llama 上的三种 jailbreak，然后把博主现有的 multi-agent defense 套上去，分别计算在三种 jailbreak 下的拒绝率和通用能力保留。预期会观察到 defense 对 RLVR 类攻击有效、对 SFT 类失效——如果这个 gap 真的出现，可以直接写成 follow-up paper
研究趋势判断：2026 年 jailbreak 研究正在从"谁更强"转向"谁更不一样"，这对设计 universal defense 是坏消息（因为不存在一个靠谱的 universal defense），但对设计 adaptive defense（先诊断 jailbreak 类别再选策略）是好消息

SIREN: LLM Safety From Within — Detecting Harmful Content with Internal Representations

推荐理由：博主做 LLM 安全和代码 agent 安全都绕不开 guardrail——SIREN 把 guard model 从 terminal layer 搬到中间层 safety neurons，FLOPs 降数量级，这对在推理路径中做实时监控非常关键。

📌 论文信息：匿名作者团队 | arXiv:2604.18519 | cs.AI

Figure 1：SIREN vs 传统 guard model——(a) 现有方法只用 terminal layer 做生成式分类；(b) SIREN 找出跨层 safety neurons，自适应聚合后训一个轻量分类器

TL;DR

现有的 LLM guardrail（Llama Guard、Qwen3Guard 等）都是在模型输出后再过一个专门微调的 guard model，又慢又重。SIREN 提出：既然"有害性"的表征在推理中段的某些 safety neurons 里就已经形成，就不需要等输出——直接从内部抽特征、训个轻量分类器，参数降数量级、FLOPs 显著减少。

问题是什么？

当前 production 部署的 LLM 安全栈普遍是两层：生成模型 → guard model。问题有三：

成本：guard model 本身经常是 7B+，每一次调用都要做一次完整 forward
延迟：必须等主模型生成完，guard 才能判——流式场景里这是致命的
泛化差：guard model 是针对特定 harmful taxonomy 微调的，换个 reasoning model 就掉点

SIREN 想问：如果有害性的线索在主模型 forward 过程中已经浮现，我们能不能不要额外模型、直接 piggyback 一个分类头？

他们怎么做的？

核心 Insight：通过 linear probe 发现 LLM 中间层存在"safety neurons"——这些神经元的激活对 harmful prompts 特别敏感。把这些跨层特征聚合起来，训一个小 MLP 就足够做有害检测。

具体方法流程：

Safety neuron 识别：对每一层做 linear probing，在 harmful vs benign 数据集上找区分力最强的 neuron subset
自适应跨层聚合：不是简单取某一层，而是让模型学一个 attention-like 权重把不同层的 safety neuron 特征聚合
轻量分类器：在聚合特征上训一个 MLP，参数量比 guard model 少几个数量级
流式推理：因为特征在中间层就能抽，流式生成时可以边生成边判，不用等 EOS

跟之前方法的本质区别：Llama Guard / Qwen3Guard 是外接式的 specialized LM；SIREN 是内嵌式的 probe——不需要第二个模型，只需要读内部激活。这也是为什么它能做到"orders of magnitude fewer parameters"。

关键结果

指标	SIREN	最强 Guard Baseline	差距
可训练参数	小几个数量级	7B-30B	参数优势显著
FLOPs（单次判别）	远低于 guard	完整 LM forward	显著降低
Streaming harmful 检测	跨所有 latency 位置最优	Qwen3Guard-Stream	SIREN 全面领先
跨 reasoning model 泛化	稳定	掉点	泛化更好

结果解读：最值得注意的是流式检测——现有 guard model 在流式场景里往往要看大量 token 才敢下判，而 SIREN 在生成前几十 token 内部激活稳定后就能判，意味着有害内容可以在输出前被截断。这是个非常实用的 engineering 优势。

局限性与开放问题

局限 1：依赖白盒访问模型内部激活——对闭源模型（GPT-5、Claude）完全不适用，只能用在开源栈
局限 2：safety neurons 是针对现有 harmful taxonomy 数据集挑出来的，遇到 out-of-distribution 的新类攻击（比如 novel jailbreak patterns）可能失效——论文没充分测 OOD
开放问题：如果攻击者知道 SIREN 依赖哪些 layer 的 neurons，能否设计一种"绕过中间层 signal" 的 adversarial prompt？这类 white-box adversarial 攻击还没被评估

💡 对我们的启发

直接可用的技术点：博主做 code agent 安全时，一个常见痛点是"怎么在 agent 生成 dangerous action 之前就拦截"——SIREN 的跨层 probe 框架可以直接改造成 code-safety probe：用 benign code / malicious code (exploit code, data exfiltration) 训一个 linear probe，跑在 open code LLM 上
具体实验想法：在 DeepSeek-Coder 或 Qwen-Coder 上复现 SIREN：用现有的 secure coding dataset (SecurityEval, LLMSecEval) 做 linear probing，找出 "security-aware neurons"。验证一个假设——写 vulnerable code 的 forward 和写 secure code 的 forward 在某些中间层是可分的。如果成立，可以做成 code agent 实时的 "vulnerability guardrail"
研究趋势判断：2025-2026 safety 研究有一个明显趋势：从 post-hoc filtering 转向 in-process monitoring。GRIFT（昨天那篇）看梯度，SIREN 看激活，都是同一个 school。接下来如果要做 code agent safety，走 internal representation 路线比走 output filtering 路线更有潜力

STAF: Towards Better Static Code Analysis Reports — Sentence Transformer-based Filtering of Non-Actionable Alerts

推荐理由：博主做 APR 和静态分析，SCA 工具的 alert fatigue 是长期痛点——STAF 把 sentence transformer 用在 alert actionability 分类上，跨项目 F1 提升 6%，对 APR 的 candidate filtering 思路完全可迁移。

📌 论文信息：Tamás Aladics, Norbert Vándor, Rudolf Ferenc, Péter Hegedűs | arXiv:2604.18525 | cs.SE

Figure 1：STAF 整体架构——warning message、warning line、source code context 各自经过独立 embedding，再通过 cross-attention 融合后做二分类

TL;DR

静态分析工具（SpotBugs、FindBugs、SonarQube 等）报的 alert 里绝大多数是 false positive 或 non-actionable——开发者最终会选择忽略。STAF 用三个通道（warning message、warning line、surrounding source code）分别抽 sentence-transformer embedding，通过 cross-attention 融合后训一个二分类器，跨项目 F1=89%，超过现有方法至少 6%。

问题是什么？

Alert fatigue 是静态分析落地最痛的问题。经典研究显示，90% 的 SonarQube alert 最终不会被修复——不是因为开发者偷懒，而是因为这些 alert 在特定项目语境下不值得修（性能 overhead 可以接受、边界 case 不会发生、已有其他保护等）。过去十几年的 "actionability classifier" 工作主要是手工提特征 + 随机森林，在 within-project 上效果 OK，但一换项目就掉 20%——因为手工特征捕捉不到 code context 的语义。

他们怎么做的？

核心 Insight：一个 warning 是否 actionable 不是由 warning type 本身决定的，而是由 warning + warning line 的代码 + 周围 code context 三者共同决定的。这三个信号需要各自 embed，再用 cross-attention 融合才能捕捉"这个特定 warning 在这个特定上下文里到底有没有意义"。

具体方法流程：

三通道 embedding：分别用 sentence transformer 编码 warning message（自然语言）、warning line（出问题的那行代码）、context（函数级别上下文）
Cross-attention 融合：把三路 embedding 投影到 Q/K/V，用 cross-attention 让 warning 和 code context "对齐"
二分类头：actionable / non-actionable

跟之前方法的本质区别：旧方法把 alert 当作独立的文本对象分类；STAF 把 alert 当作 warning × code context 的对齐问题——这就能解释为什么跨项目能 generalize：新项目里 warning 类型一样，但 code context 变了，模型依然能判断。

关键结果

设定	STAF F1	最强 Baseline F1	提升
Within-project	~89%	78%	+11%
Cross-project	—	—	+6%

结果解读：跨项目 +6% 比 within-project +11% 更重要——因为静态分析工具在 industry 的使用场景几乎全是 cross-project（一家公司用同一个规则集跑几十个 repo）。说明 STAF 学到的不是"这个项目里什么 alert 该信"，而是"给定 code context，哪些 warning 是 actionable"——这是 generalizable 信号。

局限性与开放问题

局限 1：只测了 Java + 一类 SCA 工具（数据集级别），Python / C++ / Rust 上结果未知——不同语言的 warning taxonomy 差别很大
局限 2："actionable" 的 ground truth 靠的是"开发者最终是否修复"，但这是一个有偏标签——很多真 bug 因为优先级低没修，也会被标成 non-actionable。这意味着 STAF 学到的可能是"开发者会修什么"而不是"什么是真 bug"
开放问题：能不能加一个 第二阶段 LLM reranker？用 STAF 先召回 high-recall candidates，再让 LLM 做 fine-grained 判断，既保速度又要质量

💡 对我们的启发

直接可用的技术点：博主做 APR 时，candidate patch ranking 和 SCA alert filtering 是完全同构的问题——你生成了 100 个 candidate patch，大部分是 non-plausible 的，需要一个分类器挑出 top-k。可以把 STAF 的三通道 cross-attention 架构直接套进来：patch diff、修改行的源码、函数级上下文
具体实验想法：在 Defects4J 或 SWE-bench 上，用 LLM 生成 50 个 candidate patch per bug，然后用 STAF 架构训一个"plausible patch classifier"。预期在跨项目场景下能超过纯基于 test passing rate 的简单过滤器——因为 test 不全时，patch 的结构特征 + code context 对齐度可以补充信号
研究趋势判断：2026 SE 研究里 sentence transformer + cross-attention 的这类轻量级架构正在大量出现，说明用 7B guard model 解决简单分类问题已经被认为太重——对做工具型研究的同学，"能不能用 <100M 参数做到 80% 的效果" 已经是必答题

Do Privacy Policies Match with the Logs? An Empirical Study of Privacy Disclosure in Android Application Logs

推荐理由：博主关注 OpenHarmony 生态和移动端 SE，这篇是对 Android 应用"政策声明 vs 实际日志行为" 的大规模实证研究——只有 4% 的 app 真正对齐，对做 HarmonyOS 侧的合规审计工具有直接借鉴意义。

📌 论文信息：Zhiyuan Chen, Love Jayesh Ahir, Ahmad Suleiman, Kundi Yao, Yiming Tang | arXiv:2604.18552 | cs.CR, cs.SE

Figure 1：研究流程总览——从 policy 解析到 logging 声明抽取再到 runtime 日志对比，三个 RQ 串起整个 pipeline

TL;DR

分析了 1,000 款 Android app 的隐私政策 + 8,683 万条真实 runtime log。发现：88% 的 app 有隐私政策，但只有 28.5% 的政策提到了 logging；提到 logging 的里面又有 27.7% 是"过于简化"的表述；真到 runtime 看日志，67.6% 的 app 在日志里记录了政策中未声明的敏感信息；最终只有 4% 的 app 政策和日志真正对齐。

问题是什么？

GDPR / CCPA 要求 app 的隐私政策要"准确、完整"描述数据行为。但现实是：

政策写在 app store 里，用户不会读
即使读，用户看到 "we may collect device information" 这种模糊措辞也判断不出具体行为
真正暴露问题的是 runtime——但学术界一直缺少把政策文本 × 实际运行时行为对比的大规模实证

之前的工作要么是纯 NLP 分析 policy（不接触实际行为），要么是纯 taint analysis 追 data flow（不看政策是怎么写的）。这篇论文第一次把两者在大规模上对起来，发现了一个触目惊心的 gap。

他们怎么做的？

核心 Insight：政策是"声明的承诺"，日志是"实际的证据"。要审计合规，必须把承诺和证据对齐。

具体方法流程：

政策解析：从 app store 抓 1,000 款 app 的隐私政策，用 NLP 抽取"logging-related statements"——什么数据被记录、为什么记录
Runtime 日志采集：在真实设备上跑这 1,000 款 app，采集 ADB log，共 86,836,964 条
敏感信息识别：用关键词 + 正则识别日志中的 PII、位置、设备标识符等敏感字段
三个 RQ：
- RQ1：多少 app 的政策真的提到了 logging？
- RQ2：提到的描述有多具体？
- RQ3：政策声明和实际日志行为是否一致？

Figure 2：Top-10 隐私泄露 app 分类——Health & Fitness、Entertainment、Productivity、Education 泄露最严重

跟之前方法的本质区别：典型的 privacy compliance 论文要么停在 "policy 说了什么"（NLP 侧），要么停在 "app 做了什么"（静态/动态分析侧）。这篇论文是把这两条线在 1,000 款 app 这个规模上精确对齐——需要两边都 scale 起来才行。

关键结果

指标	数值
有隐私政策的 app	88.0%
政策中明确提到 logging	28.5%
提到 logging 但表述过于简化	27.7%
日志中泄露政策未声明信息的 app	67.6%
政策与日志真正一致的 app	仅 4%

结果解读：4% 的对齐率是今天最震撼的数字。Health & Fitness 类 app 泄露率最高——而这恰好是最敏感的类别（医疗数据）。这个发现直接可以被监管部门引用。对研究者而言，更有意思的是 "政策 vs 日志 gap"的大小可以作为 risk score：一个 app 在政策里声明很详尽、日志里也没越界，说明开发者认真了；一个 app 政策简化、日志乱记，可能就是隐私问题高发户。

局限性与开放问题

局限 1：只看 Android log (ADB log)，但很多敏感数据通过网络请求直接送服务器，不落本地日志——这类泄露这套方法看不到
局限 2："政策是否提到 logging" 用的是关键词匹配，可能低估政策的覆盖（隐性措辞如 "for debugging purposes" 也算）。论文没报告这个误差
开放问题：如果加入 dynamic taint tracking 去看网络侧外流数据，政策-行为 gap 会不会更大？还有，开发者为什么不写全？是不知道、不愿意、还是工具不够？

💡 对我们的启发

直接可用的技术点：博主在做 OpenHarmony 生态工作，HarmonyOS 也有自己的 privacy policy + hilog 体系——可以直接复现这套 pipeline，做第一份 HarmonyOS 端的政策-日志对齐审计。如果在 HarmonyOS 上也是这个量级的 gap，这是非常有政策价值的 paper
具体实验想法：采集 100 款 HarmonyOS 应用的政策 + hilog，复现这三个 RQ。预期 gap 可能比 Android 更大（因为 HarmonyOS 生态对 hilog 记录规范可能比 Android 还要宽松），或者更小（如果 HarmonyOS 的 privacy-aware 设计更严）。无论哪边，都是一篇好发现
研究趋势判断：合规审计研究正在从 "policy 文本分析" 扩展到 "policy × runtime artifact 对齐"——runtime 可以是日志、网络请求、系统调用、甚至是 LLM 的 reasoning trace。这种跨模态合规对齐工具是接下来两年的空白，值得专门布局一条研究线

方法对比

维度	Different Paths (Jailbreak)	SIREN	STAF	Privacy Logs
解决的"噪声"	jailbreak 成功但机理差异巨大	output filter 慢/泛化差	SCA alert 80% 是假警报	政策 vs 实际行为脱节
信号抽取位置	模型行为 + 机理	中间层 safety neurons	sentence embedding + cross-attn	日志 × 政策文本对齐
方法类型	系统性实证对比	轻量内嵌 probe	多通道 transformer	大规模实证 + NLP 对齐
计算成本	研究性，非 production	比 guard model 降数量级	比 RF 略重，跨项目更稳	一次性分析，规模靠数据量
主要局限	攻击强度难对齐	依赖白盒、可能被 white-box 绕过	只测 Java、actionable 标签有偏	看不到网络外流，关键词抽取低估
可迁移到我们项目	jailbreak defense 分类诊断	code agent vulnerability probe	APR 的 candidate patch ranker	HarmonyOS 政策-hilog 审计

arXiv 每日速递 2026-04-22

今日总结

今日全览

今日主题：jailbreak 机理、内部 safety 信号、与代码侧的"噪声压制"

Different Paths to Harmful Compliance: Behavioral Side Effects and Mechanistic Divergence Across LLM Jailbreaks

TL;DR

问题是什么？

他们怎么做的？

关键结果

局限性与开放问题

💡 对我们的启发

SIREN: LLM Safety From Within — Detecting Harmful Content with Internal Representations

TL;DR

问题是什么？

他们怎么做的？

关键结果

局限性与开放问题

💡 对我们的启发

STAF: Towards Better Static Code Analysis Reports — Sentence Transformer-based Filtering of Non-Actionable Alerts

TL;DR

问题是什么？

他们怎么做的？

关键结果

局限性与开放问题

💡 对我们的启发

Do Privacy Policies Match with the Logs? An Empirical Study of Privacy Disclosure in Android Application Logs

TL;DR

问题是什么？

他们怎么做的？

关键结果

局限性与开放问题

💡 对我们的启发

方法对比

📚 系列：arXiv每日速递