arXiv 每日速递 2026-05-08

今日总结

今天有一条非常清晰的暗线：便宜的信号在很多场景下并不输给昂贵的信号。Prefix Sampling 用「重放前缀」把 SWE-bench RL 的有效样本率拉回 50%，省 2× wall-clock；First-Token Confidence 用一次贪婪解码的首个 token 熵，AUROC 反超多次采样自一致性；自动化 side-effect audit 用对比生成 + 假设检验把"intervention 副作用"从手工评测变成可量产的流水线。最后还有一篇 ARC-AGI-3 上的 coding agent 工作，把 executable world model 当成 verifier，给"用代码理解游戏"的范式拿到 25 题全可复现的基线。这些都不是新问题，是把方法论压实——和我们做 marginal value 量化的口味很一致。

今日全览

论文	方向	核心贡献	与我们的相关度
Rollout Pass-Rate Control	agentic RL / SWE-bench	把 rollout 组的 pass rate 主动调到 50%，2.01× wall-clock 加速	⭐⭐⭐⭐
Executable World Models for ARC-AGI-3	coding agent / world model	让 agent 维护可执行 Python world model + verifier，无游戏专用代码	⭐⭐⭐
Auto-detecting LM Intervention Side-Effects	LM evaluation methodology	对比式生成 + 统计假设验证，自动发现 intervention 的非预期行为漂移	⭐⭐⭐
The First Token Knows	hallucination detection	单次贪婪解码首个 token 的归一化熵 → AUROC 0.820 击败多采样	⭐⭐⭐

今日主题：「贵」不一定「好」——廉价信号的胜出与对 marginal value 范式的回响

把今天这四篇放在一起看，会发现一个共同模式：先把"被默认昂贵的设计动作"重新审视一遍，看它到底贡献了多少。

Prefix Sampling 在问的是：你 rollout 64 个样本，里面 60 个全失败、4 个全成功的「全 0/全 1 组」对学习信号几乎为 0，这部分计算的边际价值是负的——还不如重放一段 prefix 把它们拉到 50%。
First-Token Confidence 在问的是：你跑 5 次 greedy + NLI 聚类做 semantic self-consistency，比起单次解码的首 token 熵，AUROC 只多 0.027。多采样的边际价值是 0.027——值不值得 5× 推理成本？
Side-Effect Audit 在问的是：评测一个 intervention（unlearning / KE / distillation）只看 target benchmark 是不够的，自动找它在哪些 prompt 上偷偷漂了才是真审计。
Executable World Model 在问的是：让 coding agent 自己写 Python 世界模型 + 验证器，比起黑盒 RL 是不是更便宜也更可解释？25 题里 7 题完全解出，没有一行 game-specific 代码。

这正是我们一直在做的「LLM/agent 设计动作的边际价值实证量化」。前两篇尤其有意思——它们都是用 cheap signal 打 expensive baseline，且都给出了量化对比。第三篇的"自动找漂移"框架可以直接迁移到我们做 program repair fine-tune 后的副作用审计上。

下面逐篇深读。

Rollout Pass-Rate Control: Steering Binary-Reward RL Toward Its Most Informative Regime

推荐理由：直接打在 SWE-bench-style agentic RL 上，给出"50% pass rate 最具信息量"的形式化论证 + 一个 prefix replay 的工程方案。和我们做 agent trace 大规模事后分析、关注 agent 设计每一步真实贡献的口味完美对齐。

📌 论文信息：Tianshu Zhu, Wenyu Zhang, Xiaoying Zuo, Lun Tian, Haotian Zhao | arXiv:2605.05112 | cs.LG

TL;DR

SWE-bench 上做 GRPO 时大量 rollout 组的 pass rate 是 0/N 或 N/N（全失败或全成功），这些组对策略没有梯度信号。作者形式化证明 50% pass rate 是最具信息量的工作点（同时最大化 reward entropy / RLOO advantage energy / 通过滤组的概率），并提出 Prefix Sampling：把成功 trajectory 的前缀注入到全失败组里当 head start，把失败前缀注入到全成功组里当 handicap，把组的 pass rate 主动拉回 50%。Qwen3-14B 在 SWE-bench Verified 上从 0.273→0.295，wall-clock 加速 2.01×。

问题是什么？

Agentic RL 在 SWE-bench 上有个尴尬现象：你 rollout 一个 group（同 prompt 多次采样），里面如果全部失败或全部成功，这一组对 GRPO/RLOO 之类的优势估计就是常数偏移，没有 within-group 对比信号。但你已经为这一整组花了完整的工具调用、容器启动、文件读写时间——计算花了，学习信号是 0。

之前的做法是事后过滤掉 degenerate 的组，但过滤本身没有把白花的算力拿回来。Reject sampling 或 curriculum 之类的方案要么丢数据要么需要额外的难度估计器。这篇论文换了一个角度：与其丢，不如把它们拉回来——但前提是你得先讲清楚「拉到哪儿」最优，以及「怎么拉」不破坏 on-policy 性质。

他们怎么做的？

核心 Insight：Binary-reward RL 中，pass rate p 的信息量在 p=0.5 处最大。具体地，作者证明 p=0.5 同时最大化四个量：

Reward entropy H(R) = -p log p - (1-p) log (1-p)
通过过滤的组概率 1 - p^N - (1-p)^N
GRPO 下的 RLOO advantage energy
success/failure contrastive 结构（信号-噪声比）

具体做法：

Successful prefix 注入：取一条成功 trajectory 的前缀，作为「mostly-failing 组」的初始状态——相当于给挣扎的组一个 head start，让它有更高概率把任务做完。
Failing prefix 注入：取一条失败 trajectory 的前缀，作为「mostly-passing 组」的 handicap——把太简单的题变难，避免组直接打满。
Stateful 环境兼容：在 SWE-bench 这种有真实容器/文件状态的环境里，作者通过 replay 重建 prefix 对应的状态，并把 replay token 从 loss 中排除——只对当前策略生成的 continuation 做优化。这一点是关键：保持了 on-policy 训练的正确性。

跟之前方法的本质区别：

不像 curriculum learning 需要外部难度估计器；
不像 rejection sampling 直接丢数据；
不像 self-play 改变 prompt 分布——它只对 trajectory 中段做扰动，不改 prompt distribution。

关键结果

Benchmark	Setting	Baseline 峰值	+ Prefix Sampling	提升 / 加速
SWE-bench Verified	Qwen3-14B	0.273	0.295	+2.2pp
SWE-bench Verified	Qwen3-32B	(持平或略升)	(持平)	wall-clock 1.55×
SWE-bench Verified	Qwen3-14B (wall-clock)	1×	—	2.01×
AIME 2025（math reasoning）	(各 size)	—	—	同样的 pass-rate-control 模式

结果解读：

14B 上的 +2.2pp 不算大，但和 2× wall-clock 一起看就非常有性价比——对于一个仅改 rollout 调度、不动 reward / 不动 model arch 的工程动作来说，这是教科书式的 marginal-value 案例。
32B 上 final perf 持平但仍能拿到 1.55× 加速，说明这是纯效率优化型 trick，不是靠更好的探索拿到 better solution——和 paper 的理论解释自洽（拉到 50% 不会改变 expected reward，只改变 advantage 的方差结构）。
AIME 上 ablation 把 gain 拆成 replay / bidirectional coverage / adaptive control 三块——这种机制级 ablation 比单纯报终点指标含金量高得多。

局限性与开放问题

局限 1（前缀的 representativeness）：成功前缀来自 buffer 里已经成功的 trajectory，这些前缀的分布不一定和当前策略 on-policy 一致。当 policy 演化得快时，旧前缀可能引入分布漂移——论文似乎没明显讨论 buffer staleness 的影响。
局限 2（任务粒度）：SWE-bench 的「prefix」是工具调用序列+文件状态，stateful replay 是可行的；但更细粒度（比如 IDE 内 cursor 操作 / 多 agent 异步通信）的 prefix 状态重建会非常复杂。
开放问题：50% 是「最大信息熵」点，但学习率/更新方向上 50% 是不是真的最优？如果探索-利用 trade-off 下 60% 反而更稳呢？论文证明了 entropy 上的最优，但策略改进速率上的最优是另一个问题。

💡 对我们的启发

这篇是今天最值得花时间的，三个直接的可执行点：

直接可用的方法点：我们做 SWE-bench / OpenHands trace 的事后分析时，可以用 pass-rate distribution 给 trajectory pool 做信息量分级——把 0/N 和 N/N 的 group 标记为"无梯度信号"，用 50% bucket 做高质量子集。这是给我们已有的 trace 数据集加一层 marginal value 标签的轻量改造。
具体小实验：拿一个开源的 SWE-bench RL 训练 log（如 SWE-Gym / SWE-RL 公开 trace），统计 rollout 组在训练过程中的 pass rate 分布演化——观察是不是真的有大量 0/N 和 N/N 浪费。这个实验 1-2 周可做，输入是 trace JSONL，输出是「不同训练阶段 pass rate 分布的可视化 + 浪费比例估计」。如果浪费 >40%，就直接证明了 prefix sampling 类方法的现实价值，也给我们一篇 evaluation/methodology paper 提供锚点。
趋势判断：Agentic RL 的论文正在从"我们能做到"过渡到"我们能精确测每个设计动作的边际价值"。GRPO/RLOO 一类工作未来 1-2 年会出现大量「rollout efficiency」「sample selection」「pass-rate calibration」类的 method paper——这是非端到端、非纯 model-side 的工程化研究空间，特别适合资源不充裕但工程能力强的团队（也就是我们）。

Executable World Models for ARC-AGI-3 in the Era of Coding Agents

推荐理由：让 coding agent 写出可执行 Python world model 作为 verifier 的范式，和我们「LLM 作为程序执行状态预测器」「静态信号驱动的迭代修复」是同一种哲学——把 LLM 的输出约束到可验证的代码上而不是自由文本。

📌 论文信息：Sergey Rodionov | arXiv:2605.05138 | cs.AI

TL;DR

ARC-AGI-3 是个新版本的 ARC，强调多步互动游戏。作者给 coding agent 一个固定的脚本控制器 + 预定义的 world-model 接口 + 验证器接口 + 计划执行器，让 agent 自己写 Python 来建模游戏世界，写完后用过往观察验证（不一致则迭代修正），并定期重构以追求更简洁的抽象（MDL-style 简单性偏好的 proxy）。25 题中 7 题完全解出，6 题 Relative Human Action Efficiency >75%，平均 RHAE 32.58%。整套系统没有一行游戏专用代码。

问题是什么？

ARC-style 任务的核心挑战是从极少观察中归纳出底层规则——传统神经网络方法不擅长这种符号化、组合式的归纳。ARC-AGI-3 进一步加了多步交互，把「one-shot 推理」变成「在动态环境里维护 hypothesis + plan」，对纯神经方法更不友好。

之前 coding agent 在 ARC 上的尝试通常是直接生成解题程序（input → output 的函数），但这条路在 ARC-AGI-3 上不太够——你需要的是对世界的可执行模型，agent 用它来 plan 而不是直接产出动作。这个区别有点像 model-free RL vs model-based RL，只不过 model 是 LLM 写出来的 Python 代码。

他们怎么做的？

核心 Insight：把"理解游戏"重新定义成"写一个 Python world model 让它能复现历史观察，并在新动作下给出预测"。简单性 = 可解释性 = 泛化的 proxy。

具体流程：

维护可执行 Python world model：每次拿到新观察，agent 检查现有 model 是否能复现该 transition。不能则调试 / 重写。
定期重构求简：用一个粗略的 MDL（Minimum Description Length）原则——同样表达力下选更简单的实现——作为隐式的 inductive bias。这是论文里很有意思的一笔：他们不显式计算 MDL，而是让 agent 在 prompt 里被指引去重构。
Plan 通过 world model：在动作之前用 world model 模拟若干步，挑出预测能达成目标的动作。
Fresh agent per playthrough：每次重玩不复用任何 conversation state 或 game-specific 文件——这是非常重要的实验诚信细节，避免了"记忆泄漏"型刷分。

跟之前方法的本质区别：

不是 RL（不需要 reward 信号 + 大量 rollouts）；
不是直接 program synthesis（不直接生成解题函数，而生成 simulator）；
核心 contribution 不是 model architecture，而是「verifier-driven world model + simplicity bias」这套 prompting + 工具协议。

关键结果

指标	数值
评测题数	25（ARC-AGI-3 public）
完全解出	7 题
RHAE > 75%	6 题
平均 RHAE（per-game）	32.58%
是否使用游戏专用代码	否

结果解读：

32.58% 的 mean RHAE 听起来不高，但关键是这是 game-general baseline——任何游戏专用的微调都会大幅提升，这个数字是一个干净的下界。
Private validation 还没测——这是论文自己也承认的限制。public set 上的成绩可能有 prompt 调试的隐性过拟合。
"fresh agent per playthrough" 的实验设计非常诚实——很多 ARC-style 工作没做这种隔离，论文得分不可比。

局限性与开放问题

局限 1（部分游戏的多次重跑揭示了显著 run-to-run variance）：作者只对部分游戏做了多次独立 fresh-agent 重跑，发现表现波动很大。这意味着 single-playthrough 的报告数字 可能高估或低估真实能力 5-10pp。
局限 2（无 baseline 对比）：论文给的是绝对数字，没和最新的 program-synthesis baseline / 端到端 LLM baseline 系统对比。读者不知道这个范式是否真的优于 alternatives。
开放问题：MDL 的"简单性偏好"完全靠 prompt 引导而非显式优化——它真的在起作用吗？如果做 ablation 把 refactor pass 关掉，分数会掉多少？这个 ablation 至关重要但论文里似乎没看到。

💡 对我们的启发

直接可用的范式点：「让 LLM 输出可执行代码作为 hypothesis，再用 verifier 检查」可以套到我们的 program repair / compatibility migration 上。比如做 Python 版本演化修复时：让 LLM 不直接产 patch，而是先产一个"为什么这段在新版本会坏"的可执行 reproducer，然后再产 fix——reproducer 通过/失败本身就是 verification signal。这是把 ARC 的 world model 思想搬到 SE 的自然映射。
具体小实验：在 RepoRescue / 我们正在做的依赖升级 benchmark 里，挑 20 个真实 commit 失败案例，做对照实验：(a) 直接让 LLM 产 patch；(b) 让 LLM 先产 minimal reproducer（pytest 风格）再产 patch。比较 pass rate + LLM 调用次数。预期观察：方案 (b) 在 hard cases 上更稳，LLM 调用更少（因为 reproducer 给了更结构化的反馈）。1 周内可跑完。
趋势判断：「coding agent + executable verifier」这条线 2026 会很多，因为 LLM 输出代码远比输出自由文本好验证。我们已经在做 ArkTS HomeCheck 类的静态验证器，把这种"verifier as feedback channel"思路也延伸到 LLM agent 流程上，是我们独特的 niche。

Automatically Finding and Validating Unexpected Side-Effects of Interventions on Language Models

推荐理由：这是一套自动化 intervention audit pipeline——给 base 模型 M1 和 intervention 后 M2，自动找出 M2 在哪些 prompt 上漂了。这个工具直接可用于我们做 fine-tune for code repair 后的副作用审计。

📌 论文信息：Quintin Pope, Ajay Hayagreeve Balaji, Jacques Thibodeau, Xiaoli Fern | arXiv:2605.05090 | cs.CL

TL;DR

任何 LM intervention（reasoning distillation / knowledge editing / unlearning / RLHF / fine-tune）都可能有非预期副作用，但人工评测覆盖不全。作者提出一套对比生成 + 自然语言假设 + 统计验证的流水线：在对齐的 prompt bank 上比较 M1 vs M2 自由生成，自动产出可读的 NL 假设描述差异，并做统计验证。在合成数据上验证可以可靠回收 injected behavior，并应用到 reasoning distillation / knowledge editing / unlearning 三个真实 intervention 上。

问题是什么？

做 fine-tune / unlearning / RLHF 之后，大家通常只测目标 benchmark——但模型其他能力可能默默退化（catastrophic forgetting）、风格漂移、生成习惯变化。这些副作用在 latency、客户体验、安全审查上会爆雷。人工读 1000 条对比生成找差异根本不可扩展。

之前的方法主要是：

behavior probes（特定任务测试）——只能找你已经知道要找的差异；
representation analysis（如 SAE / 探针）——找到的是机制，不是 behavior；
LLM-as-judge 直接打分——给"差异严重程度"但不告诉你差在哪。

这篇要做的事情更进一步：自动产生 human-readable 的差异描述假设，并量化哪些假设被证据支持。

他们怎么做的？

核心 Insight：差异检测应该输出自然语言假设 + 统计 evidence，而不是 scalar score 或 pure mechanistic finding。这样产物可以直接放到 fine-tune / safety review 报告里。

流程：

对齐 prompt bank：为 M1 和 M2 准备同一批 prompt，分别采样多条多 token 自由生成；
差异提取：用一个 LLM-based 分析器读 M1 vs M2 的输出对，自动产生候选 NL 假设（如"M2 在数学题中更常使用代码块"、"M2 不再讨论政治人物"）；
统计验证：在 held-out prompt 上验证每个假设——用一个 verifier prompt 给定 (prompt, M1 output, M2 output, hypothesis) 判断该假设是否在该样本上成立，再做统计检验确认。
主题汇总：把通过验证的假设聚类成 themes 报告。

合成验证：作者故意 inject 已知行为变化（如把 "happy" 一词替换成其他），看 pipeline 能否回收 → 报告可靠回收。

真实应用：

reasoning distillation：找到了"思维链长度变化 / 显式推理模板"；
knowledge editing：找到了目标编辑外的知识漂移（这是 KE 工作长期被批的痛点）；
unlearning：找到了目标 unlearning 范围外的能力损失。

关键结果

论文摘要中没有报告精确的 precision/recall 数字（这是论文公开版本的局限）。但定性结论是：

合成 setting：可靠回收 injected behavior；
三种真实 intervention：surface 出 intended + unexpected shifts；
关键安全性能：absent / misaligned 时不 hallucinate 假——这是 audit 工具的最低底线。

Setting	能否回收 intended	能否找到 unintended	能否区分大/小 intervention	假阳性
合成（known-behavior injection）	✓	—	—	低
Reasoning distillation	✓	✓（思维链特征）	✓	低
Knowledge editing	✓	✓（周边知识漂移）	✓	低
Unlearning	✓	✓（周边能力退化）	✓	低

局限性与开放问题

局限 1（基于 LLM-judge 的循环）：差异提取和验证都用 LLM——存在 judge bias、judge 与被测模型同源时的盲点。论文没做 judge 替换的鲁棒性实验。
局限 2（prompt bank coverage）：自动 audit 找到的 side-effect 上限就是你喂的 prompt 分布的覆盖范围——OOD prompt 上的副作用还是测不到。这是所有 contrastive evaluation 的共同短板。
开放问题：作为 audit 工具的"recall guarantee"几乎不可证——你永远不知道还有多少 side-effect 没被 prompt bank 覆盖到。这意味着 framework 更适合风险下界估计而非"证明无副作用"。

💡 对我们的启发

直接可用的工具点：我们做 program repair / continued pretraining for ArkTS 的时候，fine-tune 后的副作用一直靠"几个手工 sanity check"。把这套 pipeline 直接套到我们的 LoRA 后模型上——给 base + LoRA 两个模型同一批 SE 任务（代码补全、unit test 生成、API 使用），自动找差异。
具体小实验：拿 DeepSeek-Coder-7B base 和我们 LoRA 后的版本（任意一个我们已有的），用 HumanEval / MBPP / 我们的 ArkTS bench 各采 200 个 prompt，套用本文的 pipeline，输出"LoRA 模型在哪些类型的 prompt 上和 base 行为有显著差异"的 NL 报告。这个实验 1 周可跑（核心是 pipeline 复刻 + 跑 prompt）。预期观察：除了目标任务能力提升外，会捕获到非目标维度的退化（注释风格、错误处理偏好等）。这种LoRA 副作用 audit 本身就值得发一篇 SE workshop paper。
趋势判断：随着 fine-tune / merging / unlearning 普及，"intervention audit"会从可选变成必备。SE 领域对 fine-tune 后的代码模型副作用基本没有系统性 audit 工具——这是一个空白生态位。

The First Token Knows: Single-Decode Confidence for Hallucination Detection

推荐理由：用单次 greedy decode 第一个 content-bearing token 的归一化熵做 hallucination signal，AUROC 0.820 反超多采样 self-consistency。是非常清晰的"低成本基线打贵 baseline"的案例，方法论也直接可移植到 SE。

📌 论文信息：Mina Gabriel | arXiv:2605.05166 | cs.CL

TL;DR

现有 hallucination 检测主流是 self-consistency（采 N 次 + 看一致性）或 semantic self-consistency（采 N 次 + NLI 聚类）。作者发现：只看单次贪婪解码的第一个 content token 的 top-K logits 归一化熵 φ_first，AUROC = 0.820，反超 semantic self-consistency 的 0.793 和 surface-form self-consistency 的 0.791。subsumption 测试显示 φ_first 已经包含了大部分 semantic agreement 的信息。

问题是什么？

closed-book short-answer factual QA 上做 hallucination 检测，最经典的 baseline 是 self-consistency：让模型对同一个问题生成 N 次，看答案是否一致。问题是：

N 倍推理成本；
对生成多样性敏感（temperature 设置）；
semantic self-consistency 还要额外跑 NLI。

但模型对 factuality 的"内部不确定性"应该早就在第一个 token 的概率分布里反映出来了——如果模型对答案不确定，它给 top-K 几个候选 token 的概率会更分散。这是个直觉上合理但需要严格验证的假说。

他们怎么做的？

核心 Insight：first content-bearing token 的 logit 分布已经编码了模型对答案的信心。多样本采样的"信号"很大一部分是这个一开始就存在的不确定性的间接放大。

具体方法：

找 first content-bearing token：跳过 prompt template / 空格 / "Answer:" 之类的 boilerplate；
取 top-K logits：归一化成概率分布；
算归一化熵 φ_first = H(top-K) / log K——0 表示极度自信，1 表示完全不确定；
作为 hallucination score 用：阈值化或直接报 AUROC。

整套方法只需要一次 greedy forward pass，不需要 sampling、不需要 NLI、不需要外部资源。

关键结果

Method	Mean AUROC（3 个 7-8B 模型 × 2 benchmark）
φ_first（本文）	0.820
Semantic self-consistency（采 N + NLI）	0.793
Surface-form self-consistency（采 N + lexical）	0.791
φ_first ∪ Semantic（组合）	仅小幅提升

结果解读：

0.820 vs 0.793 不是大差距，但关键是 cost 差几个数量级——φ_first 是 1 次 forward，semantic SC 是 ~5 次 forward + NLI；
subsumption 分析说明 φ_first 和 semantic agreement 强相关，多采样的信号大部分是冗余的；
作者明确把 φ_first 定位为"应该作为默认 baseline"——这个 framing 非常 healthy；
但仅在 closed-book short-answer 上做的，长答案 / open-ended generation 不一定推广。

局限性与开放问题

局限 1（任务范围窄）：只测 closed-book short-answer factual QA。在 long-form generation / open-ended reasoning / coding 上 first token 信号是否同样 informative，是开放问题。
局限 2（"first content-bearing token"的定义模糊）：在不同 prompt template / 不同模型 chat format 下，"第一个内容 token"的边界判定可能影响结果——论文似乎没给精确的鲁棒性测试。
开放问题：在长答案场景，能否定义 "first content-bearing token at each clause / sentence" 的多点 φ_first 序列？这可能是更通用的低成本不确定性 profile。

💡 对我们的启发

直接可用的方法点：我们做 LLM for fault localization / patch generation 时，可以用 生成 patch 第一个非空 token 的 φ_first 作为 patch 可信度的 cheap proxy——筛掉低置信度生成、给高置信度生成更高的 verification 权重。这是把 NLP hallucination 检测的方法论搬到 SE 上的自然映射。
具体小实验：在我们的 program repair pipeline 上，对每个 LLM 生成的 patch 算 φ_first（取 patch 的第一个语义 token，比如 def、if、变量名），分高 / 低 confidence 两组，看修复成功率差异。预期观察：高 φ_first（高熵/低自信）组的成功率显著低于低 φ_first 组——这就给了我们一个 zero-extra-cost 的 patch quality filter。1 周内可做。
趋势判断：local LLM 推理成本仍然是部署的主要瓶颈，"用 1 次 forward 替代 N 次"的 cheap signal 类工作 2026 会非常多。我们做小模型代码能力评估时，能不能用 φ_first 类信号，找出小模型在哪些类型的代码任务上"虽然能蒙对但其实不自信"——这是个有意思的诊断维度，也契合"小模型边界探索"主线。

方法对比

今天前两篇都是 agent 范式，后两篇都是低成本 evaluation/audit 信号。两两对比有意思：

维度	Prefix Sampling (RL)	Executable World Model (Coding Agent)
核心方法	重放成功/失败 prefix 把 pass rate 拉回 50%	LLM 写 Python world model + verifier + planner
数据需求	已有 rollout buffer，无额外标注	仅游戏交互（fresh agent per game）
计算开销	节省 ≥1.5× wall-clock	多次 self-debug 循环，未报告精确 budget
适用场景	任何 binary-reward agentic RL	多步互动 + 可代码建模的 environment
主要局限	buffer staleness、stateful replay 复杂	无 baseline 对比，run-to-run 方差大

维度	Side-Effect Audit	First Token Confidence
核心方法	自动 NL 假设生成 + 统计验证	单次 greedy decode 首 token 归一化熵
数据需求	对齐 prompt bank	单条 query
计算开销	LLM-judge 多次调用，中等	1 次 forward pass，极低
适用场景	任意 LM intervention 比对	closed-book short-answer factual QA
主要局限	judge bias、prompt bank coverage	任务范围窄、长答案未验证

最后给一句我对今天 4 篇的整体看法：第一篇（Prefix Sampling）是今天最值得花一下午精读的——它给"如何给 agent RL 做 marginal value 优化"提供了一个机制清晰、ablation 干净、可复现的范本，直接对接我们 agent trace 大规模事后分析的主线。其他三篇都是好工作，但前两篇方法论价值更高、第三篇工具价值最高、第四篇是非常好的 cheap-baseline 思路启发。

arXiv 每日速递 2026-05-08

今日总结

今日全览

今日主题：「贵」不一定「好」——廉价信号的胜出与对 marginal value 范式的回响

Rollout Pass-Rate Control: Steering Binary-Reward RL Toward Its Most Informative Regime

TL;DR

问题是什么？

他们怎么做的？

关键结果

局限性与开放问题

💡 对我们的启发

Executable World Models for ARC-AGI-3 in the Era of Coding Agents

TL;DR

问题是什么？

他们怎么做的？

关键结果

局限性与开放问题

💡 对我们的启发

Automatically Finding and Validating Unexpected Side-Effects of Interventions on Language Models

TL;DR

问题是什么？

他们怎么做的？

关键结果

局限性与开放问题

💡 对我们的启发

The First Token Knows: Single-Decode Confidence for Hallucination Detection

TL;DR

问题是什么？

他们怎么做的？

关键结果

局限性与开放问题

💡 对我们的启发

方法对比

📚 系列：arXiv每日速递