返回博客
2026-05-08· 约 17 分钟
Edit

arXiv 每日速递 2026-05-08

每日精选 arXiv 论文推荐:AI x Software Engineering 最新研究动态

arXiv 每日速递 2026-05-08

今日总结

今天有一条非常清晰的暗线:便宜的信号在很多场景下并不输给昂贵的信号。Prefix Sampling 用「重放前缀」把 SWE-bench RL 的有效样本率拉回 50%,省 2× wall-clock;First-Token Confidence 用一次贪婪解码的首个 token 熵,AUROC 反超多次采样自一致性;自动化 side-effect audit 用对比生成 + 假设检验把"intervention 副作用"从手工评测变成可量产的流水线。最后还有一篇 ARC-AGI-3 上的 coding agent 工作,把 executable world model 当成 verifier,给"用代码理解游戏"的范式拿到 25 题全可复现的基线。这些都不是新问题,是把方法论压实——和我们做 marginal value 量化的口味很一致。

今日全览

论文方向核心贡献与我们的相关度
Rollout Pass-Rate Controlagentic RL / SWE-bench把 rollout 组的 pass rate 主动调到 50%,2.01× wall-clock 加速⭐⭐⭐⭐
Executable World Models for ARC-AGI-3coding agent / world model让 agent 维护可执行 Python world model + verifier,无游戏专用代码⭐⭐⭐
Auto-detecting LM Intervention Side-EffectsLM evaluation methodology对比式生成 + 统计假设验证,自动发现 intervention 的非预期行为漂移⭐⭐⭐
The First Token Knowshallucination detection单次贪婪解码首个 token 的归一化熵 → AUROC 0.820 击败多采样⭐⭐⭐

今日主题:「贵」不一定「好」——廉价信号的胜出与对 marginal value 范式的回响

把今天这四篇放在一起看,会发现一个共同模式:先把"被默认昂贵的设计动作"重新审视一遍,看它到底贡献了多少

  • Prefix Sampling 在问的是:你 rollout 64 个样本,里面 60 个全失败、4 个全成功的「全 0/全 1 组」对学习信号几乎为 0,这部分计算的边际价值是负的——还不如重放一段 prefix 把它们拉到 50%。
  • First-Token Confidence 在问的是:你跑 5 次 greedy + NLI 聚类做 semantic self-consistency,比起单次解码的首 token 熵,AUROC 只多 0.027。多采样的边际价值是 0.027——值不值得 5× 推理成本?
  • Side-Effect Audit 在问的是:评测一个 intervention(unlearning / KE / distillation)只看 target benchmark 是不够的,自动找它在哪些 prompt 上偷偷漂了才是真审计。
  • Executable World Model 在问的是:让 coding agent 自己写 Python 世界模型 + 验证器,比起黑盒 RL 是不是更便宜也更可解释?25 题里 7 题完全解出,没有一行 game-specific 代码。

这正是我们一直在做的「LLM/agent 设计动作的边际价值实证量化」。前两篇尤其有意思——它们都是用 cheap signal 打 expensive baseline,且都给出了量化对比。第三篇的"自动找漂移"框架可以直接迁移到我们做 program repair fine-tune 后的副作用审计上。

下面逐篇深读。


Rollout Pass-Rate Control: Steering Binary-Reward RL Toward Its Most Informative Regime

推荐理由:直接打在 SWE-bench-style agentic RL 上,给出"50% pass rate 最具信息量"的形式化论证 + 一个 prefix replay 的工程方案。和我们做 agent trace 大规模事后分析、关注 agent 设计每一步真实贡献的口味完美对齐。

📌 论文信息:Tianshu Zhu, Wenyu Zhang, Xiaoying Zuo, Lun Tian, Haotian Zhao | arXiv:2605.05112 | cs.LG

TL;DR

SWE-bench 上做 GRPO 时大量 rollout 组的 pass rate 是 0/N 或 N/N(全失败或全成功),这些组对策略没有梯度信号。作者形式化证明 50% pass rate 是最具信息量的工作点(同时最大化 reward entropy / RLOO advantage energy / 通过滤组的概率),并提出 Prefix Sampling:把成功 trajectory 的前缀注入到全失败组里当 head start,把失败前缀注入到全成功组里当 handicap,把组的 pass rate 主动拉回 50%。Qwen3-14B 在 SWE-bench Verified 上从 0.273→0.295,wall-clock 加速 2.01×。

问题是什么?

Agentic RL 在 SWE-bench 上有个尴尬现象:你 rollout 一个 group(同 prompt 多次采样),里面如果全部失败或全部成功,这一组对 GRPO/RLOO 之类的优势估计就是常数偏移,没有 within-group 对比信号。但你已经为这一整组花了完整的工具调用、容器启动、文件读写时间——计算花了,学习信号是 0

之前的做法是事后过滤掉 degenerate 的组,但过滤本身没有把白花的算力拿回来。Reject sampling 或 curriculum 之类的方案要么丢数据要么需要额外的难度估计器。这篇论文换了一个角度:与其丢,不如把它们拉回来——但前提是你得先讲清楚「拉到哪儿」最优,以及「怎么拉」不破坏 on-policy 性质。

他们怎么做的?

核心 Insight:Binary-reward RL 中,pass rate p 的信息量在 p=0.5 处最大。具体地,作者证明 p=0.5 同时最大化四个量:

  1. Reward entropy H(R) = -p log p - (1-p) log (1-p)
  2. 通过过滤的组概率 1 - p^N - (1-p)^N
  3. GRPO 下的 RLOO advantage energy
  4. success/failure contrastive 结构(信号-噪声比)

具体做法:

  1. Successful prefix 注入:取一条成功 trajectory 的前缀,作为「mostly-failing 组」的初始状态——相当于给挣扎的组一个 head start,让它有更高概率把任务做完。
  2. Failing prefix 注入:取一条失败 trajectory 的前缀,作为「mostly-passing 组」的 handicap——把太简单的题变难,避免组直接打满。
  3. Stateful 环境兼容:在 SWE-bench 这种有真实容器/文件状态的环境里,作者通过 replay 重建 prefix 对应的状态,并把 replay token 从 loss 中排除——只对当前策略生成的 continuation 做优化。这一点是关键:保持了 on-policy 训练的正确性。

跟之前方法的本质区别

  • 不像 curriculum learning 需要外部难度估计器;
  • 不像 rejection sampling 直接丢数据;
  • 不像 self-play 改变 prompt 分布——它只对 trajectory 中段做扰动,不改 prompt distribution

关键结果

BenchmarkSettingBaseline 峰值+ Prefix Sampling提升 / 加速
SWE-bench VerifiedQwen3-14B0.2730.295+2.2pp
SWE-bench VerifiedQwen3-32B(持平或略升)(持平)wall-clock 1.55×
SWE-bench VerifiedQwen3-14B (wall-clock)2.01×
AIME 2025(math reasoning)(各 size)同样的 pass-rate-control 模式

结果解读

  • 14B 上的 +2.2pp 不算大,但和 2× wall-clock 一起看就非常有性价比——对于一个仅改 rollout 调度、不动 reward / 不动 model arch 的工程动作来说,这是教科书式的 marginal-value 案例。
  • 32B 上 final perf 持平但仍能拿到 1.55× 加速,说明这是纯效率优化型 trick,不是靠更好的探索拿到 better solution——和 paper 的理论解释自洽(拉到 50% 不会改变 expected reward,只改变 advantage 的方差结构)。
  • AIME 上 ablation 把 gain 拆成 replay / bidirectional coverage / adaptive control 三块——这种机制级 ablation 比单纯报终点指标含金量高得多。

局限性与开放问题

  • 局限 1(前缀的 representativeness):成功前缀来自 buffer 里已经成功的 trajectory,这些前缀的分布不一定和当前策略 on-policy 一致。当 policy 演化得快时,旧前缀可能引入分布漂移——论文似乎没明显讨论 buffer staleness 的影响。
  • 局限 2(任务粒度):SWE-bench 的「prefix」是工具调用序列+文件状态,stateful replay 是可行的;但更细粒度(比如 IDE 内 cursor 操作 / 多 agent 异步通信)的 prefix 状态重建会非常复杂。
  • 开放问题:50% 是「最大信息熵」点,但学习率/更新方向上 50% 是不是真的最优?如果探索-利用 trade-off 下 60% 反而更稳呢?论文证明了 entropy 上的最优,但策略改进速率上的最优是另一个问题。

💡 对我们的启发

这篇是今天最值得花时间的,三个直接的可执行点:

  1. 直接可用的方法点:我们做 SWE-bench / OpenHands trace 的事后分析时,可以用 pass-rate distribution 给 trajectory pool 做信息量分级——把 0/N 和 N/N 的 group 标记为"无梯度信号",用 50% bucket 做高质量子集。这是给我们已有的 trace 数据集加一层 marginal value 标签的轻量改造。

  2. 具体小实验:拿一个开源的 SWE-bench RL 训练 log(如 SWE-Gym / SWE-RL 公开 trace),统计 rollout 组在训练过程中的 pass rate 分布演化——观察是不是真的有大量 0/N 和 N/N 浪费。这个实验 1-2 周可做,输入是 trace JSONL,输出是「不同训练阶段 pass rate 分布的可视化 + 浪费比例估计」。如果浪费 >40%,就直接证明了 prefix sampling 类方法的现实价值,也给我们一篇 evaluation/methodology paper 提供锚点。

  3. 趋势判断:Agentic RL 的论文正在从"我们能做到"过渡到"我们能精确测每个设计动作的边际价值"。GRPO/RLOO 一类工作未来 1-2 年会出现大量「rollout efficiency」「sample selection」「pass-rate calibration」类的 method paper——这是非端到端、非纯 model-side 的工程化研究空间,特别适合资源不充裕但工程能力强的团队(也就是我们)。


Executable World Models for ARC-AGI-3 in the Era of Coding Agents

推荐理由:让 coding agent 写出可执行 Python world model 作为 verifier 的范式,和我们「LLM 作为程序执行状态预测器」「静态信号驱动的迭代修复」是同一种哲学——把 LLM 的输出约束到可验证的代码上而不是自由文本。

📌 论文信息:Sergey Rodionov | arXiv:2605.05138 | cs.AI

TL;DR

ARC-AGI-3 是个新版本的 ARC,强调多步互动游戏。作者给 coding agent 一个固定的脚本控制器 + 预定义的 world-model 接口 + 验证器接口 + 计划执行器,让 agent 自己写 Python 来建模游戏世界,写完后用过往观察验证(不一致则迭代修正),并定期重构以追求更简洁的抽象(MDL-style 简单性偏好的 proxy)。25 题中 7 题完全解出,6 题 Relative Human Action Efficiency >75%,平均 RHAE 32.58%。整套系统没有一行游戏专用代码

问题是什么?

ARC-style 任务的核心挑战是从极少观察中归纳出底层规则——传统神经网络方法不擅长这种符号化、组合式的归纳。ARC-AGI-3 进一步加了多步交互,把「one-shot 推理」变成「在动态环境里维护 hypothesis + plan」,对纯神经方法更不友好。

之前 coding agent 在 ARC 上的尝试通常是直接生成解题程序(input → output 的函数),但这条路在 ARC-AGI-3 上不太够——你需要的是对世界的可执行模型,agent 用它来 plan 而不是直接产出动作。这个区别有点像 model-free RL vs model-based RL,只不过 model 是 LLM 写出来的 Python 代码。

他们怎么做的?

核心 Insight:把"理解游戏"重新定义成"写一个 Python world model 让它能复现历史观察,并在新动作下给出预测"。简单性 = 可解释性 = 泛化的 proxy

具体流程:

  1. 维护可执行 Python world model:每次拿到新观察,agent 检查现有 model 是否能复现该 transition。不能则调试 / 重写。
  2. 定期重构求简:用一个粗略的 MDL(Minimum Description Length)原则——同样表达力下选更简单的实现——作为隐式的 inductive bias。这是论文里很有意思的一笔:他们不显式计算 MDL,而是让 agent 在 prompt 里被指引去重构
  3. Plan 通过 world model:在动作之前用 world model 模拟若干步,挑出预测能达成目标的动作。
  4. Fresh agent per playthrough:每次重玩不复用任何 conversation state 或 game-specific 文件——这是非常重要的实验诚信细节,避免了"记忆泄漏"型刷分。

跟之前方法的本质区别

  • 不是 RL(不需要 reward 信号 + 大量 rollouts);
  • 不是直接 program synthesis(不直接生成解题函数,而生成 simulator);
  • 核心 contribution 不是 model architecture,而是「verifier-driven world model + simplicity bias」这套 prompting + 工具协议

关键结果

指标数值
评测题数25(ARC-AGI-3 public)
完全解出7 题
RHAE > 75%6 题
平均 RHAE(per-game)32.58%
是否使用游戏专用代码

结果解读

  • 32.58% 的 mean RHAE 听起来不高,但关键是这是 game-general baseline——任何游戏专用的微调都会大幅提升,这个数字是一个干净的下界
  • Private validation 还没测——这是论文自己也承认的限制。public set 上的成绩可能有 prompt 调试的隐性过拟合。
  • "fresh agent per playthrough" 的实验设计非常诚实——很多 ARC-style 工作没做这种隔离,论文得分不可比。

局限性与开放问题

  • 局限 1(部分游戏的多次重跑揭示了显著 run-to-run variance):作者只对部分游戏做了多次独立 fresh-agent 重跑,发现表现波动很大。这意味着 single-playthrough 的报告数字 可能高估或低估真实能力 5-10pp
  • 局限 2(无 baseline 对比):论文给的是绝对数字,没和最新的 program-synthesis baseline / 端到端 LLM baseline 系统对比。读者不知道这个范式是否真的优于 alternatives。
  • 开放问题:MDL 的"简单性偏好"完全靠 prompt 引导而非显式优化——它真的在起作用吗?如果做 ablation 把 refactor pass 关掉,分数会掉多少?这个 ablation 至关重要但论文里似乎没看到。

💡 对我们的启发

  1. 直接可用的范式点:「让 LLM 输出可执行代码作为 hypothesis,再用 verifier 检查」可以套到我们的 program repair / compatibility migration 上。比如做 Python 版本演化修复时:让 LLM 不直接产 patch,而是先产一个"为什么这段在新版本会坏"的可执行 reproducer,然后再产 fix——reproducer 通过/失败本身就是 verification signal。这是把 ARC 的 world model 思想搬到 SE 的自然映射。

  2. 具体小实验:在 RepoRescue / 我们正在做的依赖升级 benchmark 里,挑 20 个真实 commit 失败案例,做对照实验:(a) 直接让 LLM 产 patch;(b) 让 LLM 先产 minimal reproducer(pytest 风格)再产 patch。比较 pass rate + LLM 调用次数。预期观察:方案 (b) 在 hard cases 上更稳,LLM 调用更少(因为 reproducer 给了更结构化的反馈)。1 周内可跑完。

  3. 趋势判断:「coding agent + executable verifier」这条线 2026 会很多,因为 LLM 输出代码远比输出自由文本好验证。我们已经在做 ArkTS HomeCheck 类的静态验证器,把这种"verifier as feedback channel"思路也延伸到 LLM agent 流程上,是我们独特的 niche。


Automatically Finding and Validating Unexpected Side-Effects of Interventions on Language Models

推荐理由:这是一套自动化 intervention audit pipeline——给 base 模型 M1 和 intervention 后 M2,自动找出 M2 在哪些 prompt 上漂了。这个工具直接可用于我们做 fine-tune for code repair 后的副作用审计。

📌 论文信息:Quintin Pope, Ajay Hayagreeve Balaji, Jacques Thibodeau, Xiaoli Fern | arXiv:2605.05090 | cs.CL

TL;DR

任何 LM intervention(reasoning distillation / knowledge editing / unlearning / RLHF / fine-tune)都可能有非预期副作用,但人工评测覆盖不全。作者提出一套对比生成 + 自然语言假设 + 统计验证的流水线:在对齐的 prompt bank 上比较 M1 vs M2 自由生成,自动产出可读的 NL 假设描述差异,并做统计验证。在合成数据上验证可以可靠回收 injected behavior,并应用到 reasoning distillation / knowledge editing / unlearning 三个真实 intervention 上。

问题是什么?

做 fine-tune / unlearning / RLHF 之后,大家通常只测目标 benchmark——但模型其他能力可能默默退化(catastrophic forgetting)、风格漂移、生成习惯变化。这些副作用在 latency、客户体验、安全审查上会爆雷。人工读 1000 条对比生成找差异根本不可扩展。

之前的方法主要是:

  • behavior probes(特定任务测试)——只能找你已经知道要找的差异;
  • representation analysis(如 SAE / 探针)——找到的是机制,不是 behavior;
  • LLM-as-judge 直接打分——给"差异严重程度"但不告诉你差在哪

这篇要做的事情更进一步:自动产生 human-readable 的差异描述假设,并量化哪些假设被证据支持

他们怎么做的?

核心 Insight:差异检测应该输出自然语言假设 + 统计 evidence,而不是 scalar score 或 pure mechanistic finding。这样产物可以直接放到 fine-tune / safety review 报告里。

流程:

  1. 对齐 prompt bank:为 M1 和 M2 准备同一批 prompt,分别采样多条多 token 自由生成;
  2. 差异提取:用一个 LLM-based 分析器读 M1 vs M2 的输出对,自动产生候选 NL 假设(如"M2 在数学题中更常使用代码块"、"M2 不再讨论政治人物");
  3. 统计验证:在 held-out prompt 上验证每个假设——用一个 verifier prompt 给定 (prompt, M1 output, M2 output, hypothesis) 判断该假设是否在该样本上成立,再做统计检验确认。
  4. 主题汇总:把通过验证的假设聚类成 themes 报告。

合成验证:作者故意 inject 已知行为变化(如把 "happy" 一词替换成其他),看 pipeline 能否回收 → 报告可靠回收。

真实应用:

  • reasoning distillation:找到了"思维链长度变化 / 显式推理模板";
  • knowledge editing:找到了目标编辑外的知识漂移(这是 KE 工作长期被批的痛点);
  • unlearning:找到了目标 unlearning 范围外的能力损失

关键结果

论文摘要中没有报告精确的 precision/recall 数字(这是论文公开版本的局限)。但定性结论是:

  • 合成 setting:可靠回收 injected behavior;
  • 三种真实 intervention:surface 出 intended + unexpected shifts;
  • 关键安全性能:absent / misaligned 时不 hallucinate 假——这是 audit 工具的最低底线。
Setting能否回收 intended能否找到 unintended能否区分大/小 intervention假阳性
合成(known-behavior injection)
Reasoning distillation✓(思维链特征)
Knowledge editing✓(周边知识漂移
Unlearning✓(周边能力退化

局限性与开放问题

  • 局限 1(基于 LLM-judge 的循环):差异提取和验证都用 LLM——存在 judge bias、judge 与被测模型同源时的盲点。论文没做 judge 替换的鲁棒性实验。
  • 局限 2(prompt bank coverage):自动 audit 找到的 side-effect 上限就是你喂的 prompt 分布的覆盖范围——OOD prompt 上的副作用还是测不到。这是所有 contrastive evaluation 的共同短板。
  • 开放问题:作为 audit 工具的"recall guarantee"几乎不可证——你永远不知道还有多少 side-effect 没被 prompt bank 覆盖到。这意味着 framework 更适合风险下界估计而非"证明无副作用"。

💡 对我们的启发

  1. 直接可用的工具点:我们做 program repair / continued pretraining for ArkTS 的时候,fine-tune 后的副作用一直靠"几个手工 sanity check"。把这套 pipeline 直接套到我们的 LoRA 后模型上——给 base + LoRA 两个模型同一批 SE 任务(代码补全、unit test 生成、API 使用),自动找差异。

  2. 具体小实验:拿 DeepSeek-Coder-7B base 和我们 LoRA 后的版本(任意一个我们已有的),用 HumanEval / MBPP / 我们的 ArkTS bench 各采 200 个 prompt,套用本文的 pipeline,输出"LoRA 模型在哪些类型的 prompt 上和 base 行为有显著差异"的 NL 报告。这个实验 1 周可跑(核心是 pipeline 复刻 + 跑 prompt)。预期观察:除了目标任务能力提升外,会捕获到非目标维度的退化(注释风格、错误处理偏好等)。这种LoRA 副作用 audit 本身就值得发一篇 SE workshop paper。

  3. 趋势判断:随着 fine-tune / merging / unlearning 普及,"intervention audit"会从可选变成必备。SE 领域对 fine-tune 后的代码模型副作用基本没有系统性 audit 工具——这是一个空白生态位。


The First Token Knows: Single-Decode Confidence for Hallucination Detection

推荐理由:用单次 greedy decode 第一个 content-bearing token 的归一化熵做 hallucination signal,AUROC 0.820 反超多采样 self-consistency。是非常清晰的"低成本基线打贵 baseline"的案例,方法论也直接可移植到 SE。

📌 论文信息:Mina Gabriel | arXiv:2605.05166 | cs.CL

TL;DR

现有 hallucination 检测主流是 self-consistency(采 N 次 + 看一致性)或 semantic self-consistency(采 N 次 + NLI 聚类)。作者发现:只看单次贪婪解码的第一个 content token 的 top-K logits 归一化熵 φ_first,AUROC = 0.820,反超 semantic self-consistency 的 0.793 和 surface-form self-consistency 的 0.791。subsumption 测试显示 φ_first 已经包含了大部分 semantic agreement 的信息。

问题是什么?

closed-book short-answer factual QA 上做 hallucination 检测,最经典的 baseline 是 self-consistency:让模型对同一个问题生成 N 次,看答案是否一致。问题是:

  • N 倍推理成本;
  • 对生成多样性敏感(temperature 设置);
  • semantic self-consistency 还要额外跑 NLI。

模型对 factuality 的"内部不确定性"应该早就在第一个 token 的概率分布里反映出来了——如果模型对答案不确定,它给 top-K 几个候选 token 的概率会更分散。这是个直觉上合理但需要严格验证的假说。

他们怎么做的?

核心 Insight:first content-bearing token 的 logit 分布已经编码了模型对答案的信心。多样本采样的"信号"很大一部分是这个一开始就存在的不确定性的间接放大。

具体方法:

  1. 找 first content-bearing token:跳过 prompt template / 空格 / "Answer:" 之类的 boilerplate;
  2. 取 top-K logits:归一化成概率分布;
  3. 算归一化熵 φ_first = H(top-K) / log K——0 表示极度自信,1 表示完全不确定;
  4. 作为 hallucination score 用:阈值化或直接报 AUROC。

整套方法只需要一次 greedy forward pass,不需要 sampling、不需要 NLI、不需要外部资源

关键结果

MethodMean AUROC(3 个 7-8B 模型 × 2 benchmark)
φ_first(本文)0.820
Semantic self-consistency(采 N + NLI)0.793
Surface-form self-consistency(采 N + lexical)0.791
φ_first ∪ Semantic(组合)仅小幅提升

结果解读

  • 0.820 vs 0.793 不是大差距,但关键是 cost 差几个数量级——φ_first 是 1 次 forward,semantic SC 是 ~5 次 forward + NLI;
  • subsumption 分析说明 φ_first 和 semantic agreement 强相关,多采样的信号大部分是冗余的
  • 作者明确把 φ_first 定位为"应该作为默认 baseline"——这个 framing 非常 healthy;
  • 但仅在 closed-book short-answer 上做的,长答案 / open-ended generation 不一定推广。

局限性与开放问题

  • 局限 1(任务范围窄):只测 closed-book short-answer factual QA。在 long-form generation / open-ended reasoning / coding 上 first token 信号是否同样 informative,是开放问题。
  • 局限 2("first content-bearing token"的定义模糊):在不同 prompt template / 不同模型 chat format 下,"第一个内容 token"的边界判定可能影响结果——论文似乎没给精确的鲁棒性测试。
  • 开放问题:在长答案场景,能否定义 "first content-bearing token at each clause / sentence" 的多点 φ_first 序列?这可能是更通用的低成本不确定性 profile。

💡 对我们的启发

  1. 直接可用的方法点:我们做 LLM for fault localization / patch generation 时,可以用 生成 patch 第一个非空 token 的 φ_first 作为 patch 可信度的 cheap proxy——筛掉低置信度生成、给高置信度生成更高的 verification 权重。这是把 NLP hallucination 检测的方法论搬到 SE 上的自然映射。

  2. 具体小实验:在我们的 program repair pipeline 上,对每个 LLM 生成的 patch 算 φ_first(取 patch 的第一个语义 token,比如 defif、变量名),分高 / 低 confidence 两组,看修复成功率差异。预期观察:高 φ_first(高熵/低自信)组的成功率显著低于低 φ_first 组——这就给了我们一个 zero-extra-cost 的 patch quality filter。1 周内可做。

  3. 趋势判断:local LLM 推理成本仍然是部署的主要瓶颈,"用 1 次 forward 替代 N 次"的 cheap signal 类工作 2026 会非常多。我们做小模型代码能力评估时,能不能用 φ_first 类信号,找出小模型在哪些类型的代码任务上"虽然能蒙对但其实不自信"——这是个有意思的诊断维度,也契合"小模型边界探索"主线。


方法对比

今天前两篇都是 agent 范式,后两篇都是低成本 evaluation/audit 信号。两两对比有意思:

维度Prefix Sampling (RL)Executable World Model (Coding Agent)
核心方法重放成功/失败 prefix 把 pass rate 拉回 50%LLM 写 Python world model + verifier + planner
数据需求已有 rollout buffer,无额外标注仅游戏交互(fresh agent per game)
计算开销节省 ≥1.5× wall-clock多次 self-debug 循环,未报告精确 budget
适用场景任何 binary-reward agentic RL多步互动 + 可代码建模的 environment
主要局限buffer staleness、stateful replay 复杂无 baseline 对比,run-to-run 方差大
维度Side-Effect AuditFirst Token Confidence
核心方法自动 NL 假设生成 + 统计验证单次 greedy decode 首 token 归一化熵
数据需求对齐 prompt bank单条 query
计算开销LLM-judge 多次调用,中等1 次 forward pass,极低
适用场景任意 LM intervention 比对closed-book short-answer factual QA
主要局限judge bias、prompt bank coverage任务范围窄、长答案未验证

最后给一句我对今天 4 篇的整体看法:第一篇(Prefix Sampling)是今天最值得花一下午精读的——它给"如何给 agent RL 做 marginal value 优化"提供了一个机制清晰、ablation 干净、可复现的范本,直接对接我们 agent trace 大规模事后分析的主线。其他三篇都是好工作,但前两篇方法论价值更高、第三篇工具价值最高、第四篇是非常好的 cheap-baseline 思路启发。

📚 系列:arXiv每日速递

2026-06-11arXiv 每日速递 2026-06-112026-06-10arXiv 每日速递 2026-06-102026-06-08arXiv 每日速递 2026-06-082026-06-06arXiv 每日速递 2026-06-062026-06-04arXiv 每日速递 2026-06-042026-06-03arXiv 每日速递 2026-06-032026-06-02arXiv 每日速递 2026-06-022026-06-01arXiv 每日速递 2026-06-012026-05-29arXiv 每日速递 2026-05-292026-05-28arXiv 每日速递 2026-05-282026-05-26arXiv 每日速递 2026-05-262026-05-25arXiv 每日速递 2026-05-252026-05-24arXiv 每日速递 2026-05-242026-05-23arXiv 每日速递 2026-05-232026-05-22arXiv 每日速递 2026-05-222026-05-21arXiv 每日速递 2026-05-212026-05-20arXiv 每日速递 2026-05-202026-05-19arXiv 每日速递 2026-05-192026-05-18arXiv 每日速递 2026-05-182026-05-14arXiv 每日速递 2026-05-142026-05-13arXiv 每日速递 2026-05-132026-05-12arXiv 每日速递 2026-05-122026-05-11arXiv 每日速递 2026-05-112026-05-10arXiv 每日速递 2026-05-102026-05-08arXiv 每日速递 2026-05-082026-05-05arXiv 每日速递 2026-05-052026-05-04arXiv 每日速递 2026-05-042026-05-03arXiv 每日速递 2026-05-032026-05-02arXiv 每日速递 2026-05-022026-05-01arXiv 每日速递 2026-05-012026-04-30arXiv 每日速递 2026-04-302026-04-29arXiv 每日速递 2026-04-292026-04-28arXiv 每日速递 2026-04-282026-04-26arXiv 每日速递 2026-04-262026-04-25arXiv 每日速递 2026-04-252026-04-23arXiv 每日速递 2026-04-232026-04-22arXiv 每日速递 2026-04-222026-04-21arXiv 每日速递 2026-04-212026-04-20arXiv 每日速递 2026-04-202026-04-19arXiv 每日速递 2026-04-192026-04-17arXiv 每日速递 2026-04-172026-04-16arXiv 每日速递 2026-04-162026-04-15arXiv 每日速递 2026-04-152026-04-14arXiv 每日速递 2026-04-142026-04-13arXiv 每日速递 2026-04-132026-04-10arXiv 每日速递 2026-04-102026-04-08arXiv 每日速递 2026-04-082026-04-07arXiv 每日速递 2026-04-072026-04-05arXiv 每日速递 2026-04-052026-04-04arXiv 每日速递 2026-04-04
我的音乐