arXiv 每日速递 2026-05-25
每日精选 arXiv 论文推荐:AI x Software Engineering 最新研究动态
arXiv 每日速递 2026-05-25
今日总结
今天的论文池跟过去两天部分重叠(VPO / FAME / MOSS / DeltaBox 都已经在 05-23、05-24 写过),所以这期主动避开那些"大新闻",挑了 4 篇被前两天忽略但很值得收藏的"工程精修类"论文。共同特征是:都不是新框架,而是把一条早就 work 的链条上的某个被低估的环节做精确改善——HarnessAPI 把 HTTP 端点和 MCP tool 合并成单一来源;NSR 把 RLVR 的硬剪裁改成边界随机化;Kairos 把预训练数据从 shuffle 改成时间有序;GPT-2 SAE Audit 把"可解释性"从因果叙事还原成一个跑在 M3 Max 笔记本上的相关性审计 pipeline。今天没有传世神作,但这 4 篇是那种真要做工程时会回头查的论文。
今日全览
| 论文 | 方向 | 核心贡献 | 与我们的相关度 |
|---|---|---|---|
| HarnessAPI | cs.SE / MCP tooling | 一份 typed skill folder 同时长出 HTTP+SSE 端点和 MCP tool,重复 boilerplate 削 74% | ⭐⭐⭐ |
| Understanding Data Temporality Impact on LLM Pre-training | continued pretraining | 6B 模型对照实验:把 Common Crawl 按时间顺序训练 vs shuffled,发布 7000+ 时序问答 benchmark | ⭐⭐⭐ |
| Clipping Bottleneck (NSR) | RLVR post-training | GRPO/DAPO 的 hard clipping 会丢掉边界处的信息梯度;改成随机保留即可 plug-and-play 提升 | ⭐⭐ |
| Sparse-Feature Audit of GPT-2 Small | small-model audit / methodology | 一个 M3 Max 笔记本能跑完的 SAE audit pipeline,"相关 ≠ 因果"做了三层 control | ⭐⭐ |
今日主题:四篇"被低估的小修小补"
如果说前两天的论文是大新闻——VPO 重写 GRPO、MOSS 改动 agent 源码、Erdős agent 解出未解问题——那今天这 4 篇属于另一类,它们都在做已 work pipeline 上的具体一行替换:
- HarnessAPI:把
@app.post(...)和@mcp.tool(...)合并成一份handler.py,不是 agent 新范式,是工程债清理; - Kairos:预训练的 dataloader 把
shuffle=True改成shuffle=False加时间排序,不是新架构,是数据 ordering 一个开关; - NSR:GRPO 的硬剪裁改成边界随机化,不是新算法,是 clipping 函数里一行 if-else;
- SAE Audit:mechanistic interp 不再写"我们发现了一个 X 神经元控制 Y 行为"的因果故事,而是做 ablation + 表示基线 + seed robustness 三层 control,不是新发现,是审计协议。
这种风格特别适合做边际价值研究的人收藏:它们告诉你的是 ablation 应该怎么设计,而不是 ablation 该跑什么 baseline。
HarnessAPI: A Skill-First Framework for Unified Streaming APIs and MCP Tools
推荐理由:你正在维护 HomeCheck 这种"既要被 IDE 调用、又要被 agent 调用"的开源工具;这篇把 HTTP/SSE 端点和 MCP tool registration 合并到一份 source-of-truth 的做法直接对应到"DevEco Studio 集成 + MCP agent 调用"的双重需求
📌 论文信息:Edwin Jose | arXiv:2605.22733 | cs.AI, cs.SE
TL;DR
每个用 Python 写的"既可以被人调用、又可以被 LLM agent 调用"的 tool,今天都要维护 FastAPI 端点 + FastMCP registration 两套代码,长期下来 schema 漂移。HarnessAPI 用一份 typed skill folder(一个 handler.py + Pydantic schemas)同时长出 streaming HTTP endpoint、OpenAPI/Swagger UI 和零配置 MCP tool,重复样板代码削 74%。
问题是什么?
今天写一个 Python 函数想同时给 Cursor agent 和 CI pipeline 用,你得做两件事:
- 在 FastAPI 里写
@app.post("/transcribe"),拿 Pydantic 校验输入; - 在 FastMCP 里再写一个
@mcp.tool()装饰过的函数,再写一份 schema。
这两份代码共享业务逻辑,但周边机械(routing / validation / serialisation / streaming / schema 维护)完全分离,而且随着代码演化两边会漂移。问题不是"agent 调用比 HTTP 慢一点"或"MCP 限制太多",而是非常朴素的工程债——两个调用入口,两份配置,两套 schema,没有 single source of truth。
更隐蔽的痛点:FastMCP 注册时基于函数闭包做反射,闭包内部丢失类型注解,导致 Pydantic 类型不能正确传递到 MCP 的 inspection 层。所以"我直接用同一个函数注册两次"这种朴素思路在框架层面就跑不通。
他们怎么做的?
核心 Insight:把"工具"建模成一个目录(typed skill folder),而不是一个函数。框架在加载时动态生成代码(dynamic code generation),把 Pydantic 类型注解显式重写到一个具名 wrapper 上,绕开 FastMCP 闭包反射的限制。
具体方法流程:
- 统一抽象:每个 skill 一个目录,含
handler.py(业务逻辑) + Pydantic input/output schemas,框架视其为 single source of truth; - 代码生成:加载时把 handler 动态包装成具名函数,把 Pydantic 字段重写到 wrapper 签名上,让 FastMCP 的反射能拿到完整 schema;
- 双模内容协商(Dual-mode content negotiation):同一个 handler,根据请求的
Acceptheader 决定流式(SSE)还是一次返回(JSON),handler 代码零改动; - 继承 FastAPI:HarnessAPI 是 FastAPI 的子类,所以 middleware、依赖注入、部署生态全部继承。
跟之前方法的本质区别:以前的 MCP-FastAPI 桥接方案是"我在 FastAPI 上再加一个 MCP 转发层"——这是 wrapping。HarnessAPI 是反过来:以 skill 为根,再投射出 HTTP 端点和 MCP tool——是 source-of-truth 倒置。
关键结果
| 指标 | 手写双栈实现 | HarnessAPI | 削减 |
|---|---|---|---|
| Framework-facing boilerplate(6 个典型 skill 用 cloc 量) | 基准 100% | 26% | -74% |
| HTTP endpoint | 需独立维护 | 自动派生 | — |
| MCP tool registration | 需独立维护 | 自动派生 | — |
| OpenAPI/Swagger UI | 需独立维护 | 自动派生 | — |
结果解读:74% 不是"算力"或"准确率"的提升,而是人时的削减。这种数字对你判断 OpenHarmony 工具链的 MCP integration 路径很有意义——HomeCheck 如果要走"既有 CLI、又被 IDE 调用、又被 agent 调用"的三栈路线,HarnessAPI 的 source-of-truth 倒置模式比"再加一层桥"更可持续。
局限性与开放问题
- 局限 1:6 个 skill 是 cloc 样本,不是 production scale。74% 的削减在 ToyExample 类 skill 上特别显著;在已有大量 middleware / custom auth / batched-mode 的真实 production endpoint 上,省下的可能远没那么多;
- 局限 2:只解决 Python 生态。HarnessAPI 继承 FastAPI 走 Pydantic 路线;如果你的 skill 用 Rust / Go / TypeScript 写,这个方案不直接适用;
- 开放问题:source-of-truth 倒置之后,版本演化怎么管?比如 handler 改了 input schema,HTTP 客户端和 MCP 客户端的 breaking change 警告应该走同一份还是分别走?论文没讨论 versioning 问题,但这是任何 single source of truth 抽象都会撞上的墙。
💡 对我们的启发
- 直接可用的技术点:HomeCheck 后续如果想接 Claude/Cursor 的 MCP,可以直接照着 HarnessAPI 的"skill folder = source of truth + dynamic code gen 把 Pydantic 重写到 wrapper"模式做,避免维护"CLI / IDE plugin / MCP tool"三栈。注意:DevEco Studio 集成的工具不是纯 Python,所以更可能是借鉴模式而不是直接用框架;
- 具体实验想法:拿你已经发布的某个 ArkTS 静态检查规则,按 HarnessAPI 的范式做一个 minimal demo:一份 typed handler 同时长出 CLI + HTTP + MCP tool,量一下三栈写法下需要多少行 boilerplate、合并后能省多少。这是个 1-2 天就能跑出来的工程实验,结论可以直接放到 HomeCheck 的设计文档里;
- 研究趋势判断:MCP 已经不再是"agent 框架里的一个 sub-protocol",而是开始反向逼着传统 HTTP service 重构。未来 1-2 年,"如何让一个 service 同时为人和 agent 服务"会成为工程问题的主流,类似当年 REST → GraphQL 的 single-query 倒置。
Understanding Data Temporality Impact on Large Language Models Pre-training
推荐理由:你做 Cangjie continued pretraining 的时候,dataloader 的 ordering 是个被几乎所有人省略的设计变量;这篇直接做了 6B 模型的对照实验,结论值得作为你 ablation 的 baseline 参考
📌 论文信息:Pilchen Hippolyte 等 (Kyutai) | arXiv:2605.22769 | cs.CL, cs.AI
TL;DR
预训练默认 shuffle 整个语料,但这意味着模型对"什么时候发生的"无 grounding。这篇把 Common Crawl 按 snapshot 时间顺序排好再训,预训练一个 6B 模型,发现 sequential 训练在 general LU/common knowledge 上和 shuffled baseline 持平,但在时序敏感知识上系统性更强,更"时间准确"。同时发布 7000+ 时序问答 benchmark Kairos。
问题是什么?
LLM 预训练的标准做法是把全部语料 shuffle 一遍喂进去。这意味着 2020 年的新闻和 2024 年的新闻在 SGD 看来没有先后——模型最终的"时间常识"完全 ungrounded:
- 你问它"今天的总统是谁",它给你一个所有训练数据时间窗口内总统的混合先验;
- 更糟的是,旧数据在语料中重复次数往往更多(因为后人引用、维基条目积累),所以 shuffled 模型反而对旧时间点更准。
这个问题之所以重要:continued pretraining 几乎总有一个隐含的时间方向——你的新语料一定比旧 base 模型的数据新,所以你需要知道"模型的时间敏感性"对 data ordering 是否敏感。但没人做过 6B 规模的 controlled experiment。
他们怎么做的?
核心 Insight:data ordering 不是 dataloader 的实现细节,而是一个会改变最终模型"时间表示"的训练超参。
具体方法流程:
- Benchmark:构建 7000+ 时序问答("在 X 时间,Y 是什么"),且明确区分时间窗口;
- 对照实验:用 6B 模型,相同的数据、相同的 token budget、相同的超参,只改 dataloader——一组 shuffled(标准做法),一组按 Common Crawl snapshot 时间顺序;
- 多维评估:除了 Kairos 时序问答,还跑 general language understanding + common knowledge 作为对照,证明 sequential 不是"以牺牲通用能力换时序准确"。
跟之前方法的本质区别:以前讨论 LLM 时间知识时,大家研究的是有了模型之后怎么 patch(continual learning / RAG / temporal calibration);这篇是去问预训练阶段一个 dataloader switch 能不能从源头解决。
关键结果
| 评估维度 | Shuffled baseline | Sequentially trained | 差异 |
|---|---|---|---|
| General language understanding | 持平 | 持平 | ≈ 0 |
| Common knowledge | 持平 | 持平 | ≈ 0 |
| 时序问答(fresh facts) | 较弱 | 更强 | + |
| 时序问答(old facts) | 峰值在旧数据 | 较弱 | shuffled 占优(因重复) |
结果解读:两条 takeaway:
- Sequential 训练在通用能力上不付出代价,这是个无成本可换的改进;
- Sequential 的胜场集中在"新事实",shuffled 反而在"旧事实"上更稳——这意味着取决于你的下游目标,data ordering 的方向不一定是单选。如果你只关心当前年份的事实,sequential 是免费午餐;如果你的目标是历史问答,shuffled 反而有利。
局限性与开放问题
- 局限 1:6B 不是 frontier scale。这个量级足够说明趋势,但 70B+ 上是不是依然 hold 是开放问题;尤其 sequential 会不会触发 catastrophic forgetting 在更大模型上没验证;
- 局限 2:Common Crawl 的 snapshot 时间≠语料内容时间。一篇 2024 年抓的网页可能在写 2010 年的事,所以"时间排序"是 noisy proxy;
- 开放问题:sequential 训练对 continued pretraining 是否依然成立?你拿一个 base 模型再喂 1B token 新数据,按时间顺序训 vs shuffle 的差异是不是依然这么明显?论文是 from-scratch 训练,对你做 Cangjie continued pretraining 的场景还不是直接证据。
💡 对我们的启发
- 直接可用的技术点:你 Cangjie continued pretraining 的 ablation matrix 里,建议加一组 ordering 对比——把你的 Cangjie 语料按 commit/release 时间排序 vs shuffle,看 downstream 的"语言知识 freshness"是否有差异。这是一个几乎零边际成本的 ablation;
- 具体实验想法:用一个小一些的 base 模型(1B-3B),在你已经收集的 Cangjie 语料上做 continued pretraining,对照 shuffled vs time-ordered,下游评估用一组"Cangjie 早期 API vs 后期 API"的代码补全题。预期:time-ordered 在后期 API 的补全准确率会比 shuffled 高(因为后期数据是 SGD 的"近因")。如果观察不到,反而说明 continued pretraining 对 ordering 不敏感——这本身就是一个值得写出来的负结果;
- 研究趋势判断:dataloader 是过去 5 年被 ML 系统抽象掉的"小事",但开始有论文回头把它视为研究对象。结合 Kyutai 发布 code/checkpoints/datasets 全套,这条线接下来会有更多 follow-up——你可以提前在 Cangjie/ArkTS 这种有强时间方向的小语种语料上抢一个 niche。
Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals (NSR)
推荐理由:如果你在做"边际价值"量化研究,方法论上有一个有意思的对照——本文展示了"一行 if-else 改动如何带来稳定的 RLVR 提升",可以作为你做 marginal value 实验设计的参考
📌 论文信息:Shuo Yang 等 | arXiv:2605.22703 | cs.LG
TL;DR
RLVR(Reinforcement Learning with Verifiable Rewards,GRPO/DAPO 这一族)是当下 LLM reasoning post-training 的主流,但训练不稳。本文系统拆解 GRPO 类目标,发现 hard clipping 把刚好超出边界的有用 token 信号丢掉了。NSR 是个 plug-and-play 改动:在边界处随机保留这些 token,从 7B 到 30B 模型、dense 和 MoE 都有稳定提升,且优于 baseline DAPO/GSPO。
问题是什么?
GRPO/DAPO 用 PPO-style clipping 来限制每步 policy update 的幅度——min(ratio · A, clip(ratio, 1±ε) · A)。但这个 clip 是 hard 的:ratio 一旦越过 1+ε,整个梯度直接被砍到 0。
问题在哪?
- 边界外一点点的 token 不是"坏 token",只是 policy ratio 略大;
- 在 reasoning 任务里,那些 ratio 处于边界附近的 token 往往是 model 在尝试新策略时产生的——正是你最想保留的 exploration signal;
- hard clipping 把它们 100% 砍掉,导致 RLVR 训练对 ε 极度敏感、容易 collapse。
之前的修补思路(DAPO 的 dual-clip、GSPO 的 sequence-level clipping)都是调整 clip 的几何形状,但 hard 的本质没变。
他们怎么做的?
核心 Insight:边界附近的 token 不应该是"全保留 or 全丢",应该是"以一定概率保留",把硬决定改成软决定。
具体方法流程:
- 诊断:作者先通过 ablation 显示 GRPO 类目标的不稳来自 hard clipping 而非 advantage estimator 本身;
- NSR:在 clip 边界外一个 window 里,token 以某个概率被随机保留进入梯度计算(保留则进梯度,丢弃则像 hard clip 一样为 0);
- 理论解读:这个 stochastic perturbation 在期望意义下等价于隐式 gradient decay,但 ablation 证明它比显式 deterministic decay 更有效——说明 stochasticity 本身在帮训练,不只是 magnitude 上的修正;
- plug-and-play:本质就是在 PPO loss 里的 clip 函数里加一个
if torch.rand() < p: keep else: clip,不改其他任何东西。
跟之前方法的本质区别:DAPO/GSPO 改的是该不该 clip(几何);NSR 改的是clip 是不是 deterministic(随机性)。这是一个被忽视的设计维度。
关键结果
| 模型规模 / 架构 | Baseline | + NSR | 备注 |
|---|---|---|---|
| 7B dense | DAPO 基线 | 稳定提升 | 训练稳定性显著改善 |
| 30B dense | GSPO 基线 | 稳定提升 | 同样规模 plug-in 受益 |
| MoE | GSPO 基线 | 稳定提升 | 不依赖于 dense 假设 |
结果解读:论文 abstract 没给绝对数字,但定性结论清晰——跨 7B-30B、跨 dense/MoE 都稳定提升。从方法论角度看,这正是边际价值量化研究该有的样子:拎出一个被忽视的设计点(hard vs stochastic clipping),做覆盖多个 scale 的对照实验。
局限性与开放问题
- 局限 1:缺乏代码任务 benchmark。论文重点是 LLM reasoning RLVR;如果你想把 NSR 用到 code RLVR(pass@1 / pass@k 作 reward),它在 verifiable reward 是 sparse 0/1 的代码场景下是不是依然 hold,文中没直接证据;
- 局限 2:window 大小和保留概率是新超参。plug-and-play 听起来美好,但本质增加了两个 hyperparameter,对超参敏感性需要进一步研究;
- 开放问题:NSR 揭示了"边界附近 token 信息被丢失"是通用现象还是 PPO-clip 特有?比如 KL-penalty-based RL 不需要 clip,是不是就不会有这个 bottleneck?
💡 对我们的启发
- 直接可用的技术点:如果你以后做 code RLVR(不太可能近期做,因为算力贵),可以直接试 NSR——它是一行代码改动,不增加任何模型 size 或训练时长。即使你不做 RL,这篇也提供了一个写论文的范式:拎出方法链里一个看似"已经定了"的设计点(clipping mode),证明它不是 free parameter;
- 具体实验想法:把"边际价值"量化研究的 framing 套到 NSR 上做一个小实验:你不需要跑 30B 模型,复现 7B 上 PPO-clip 的曲线,加 NSR 后看 reward variance 的 decay 速度。这个实验在单卡 A100 上一天内可做;
- 研究趋势判断:2026 年 RLVR 的研究正在从"换 reward / 换 advantage estimator"转向"调 RL 优化器细节",NSR 是这条线的代表。这意味着 GRPO/DAPO 之后没有大改动,剩下的提升空间在边角;这对"判断 RLVR 是不是该投入"是个负面信号——天花板可能比想象的近。
Reading Task Failure Off the Activations: A Sparse-Feature Audit of GPT-2 Small on Indirect Object Identification
推荐理由:你做"agent 现象的事后分析"——而不是端到端重跑——这篇展示了一个完美的 audit 范式:拎出一个小现象,做相关性挖掘,再用因果消融 + 表示基线 + seed robustness 三层 control 推翻"我们发现了 X feature"的简单叙事
📌 论文信息:Mahdi Nasermoghadasi | arXiv:2605.22719 | cs.LG
TL;DR
GPT-2 small 在 Indirect Object Identification (IOI) 任务上 79.7% 准确率。作者用 sparse autoencoder feature audit 找到 146 个显著的 failure-correlated features,最显著的 feature 17,491("cryptographic keys"标签)在 prompt 含 'the keys' 时 fail 率高达 93.3% vs 其他 7.5%。但因果消融发现:把这个 feature 设 0,accuracy 不恢复——它是相关,不是因果。论文真正的贡献不是这个 feature,而是 audit pipeline 本身。
问题是什么?
mechanistic interpretability 这两年最常见的话术是"我们找到了一个控制 X 行为的 Y 神经元"。但绝大多数论文只做相关性分析——用 SAE 找一个高激活的 feature,配一段语言学解释,写成论文。没人系统问:
- 这个 feature 是因还是果?
- SAE 找到的特征比直接在 residual stream 上做线性回归更有 predictive power 吗?
- 同一 audit 跑 5 个 seed,"Top feature"还是同一个吗?
如果这三个问题任何一个 fail,那"我们发现了 X 神经元"的故事就是 overclaim。
他们怎么做的?
核心 Insight:interpretability 论文需要的不是更花哨的可视化,而是一个标准化的 audit pipeline,自带 falsification controls。
具体方法流程:
- 相关性挖掘:在 IOI 任务上跑 300 prompts,对 24,576 个 SAE features 做 success-vs-failure 的 Cohen's d 比较,Holm 校正后 146 个显著、105 个 d > 0.8;
- Falsification control 1 — Causal Ablation:对 top feature 17,491 做 zero ablation。如果它真是 IOI 失败的"原因",ablate 它应该恢复准确率。结果:6.7% → 4.4%,完全没恢复。证明是 correlate,不是 sufficient cause;
- Falsification control 2 — Representation Baseline:直接在 768 维 residual stream 上跑 logistic regression,5-fold ROC AUC = 0.929,跟用 top-100 SAE features (0.927) 几乎一样。SAE basis 没有比直接做线性分类多任何 predictive power——它只是更易解读;
- Falsification control 3 — Seed Robustness:5 个 seed 复现。行为现象('the keys' 失败率高)每次都稳健,但 feature 17,491 只在 5 次里有 1 次成为 top;
- 开源全部 artifact:代码、300 prompt corpus、300×24,576 activation matrix、ablation scripts、figures。整个 pipeline 在 M3 Max 笔记本能跑完。
跟之前方法的本质区别:以前的 SAE interpretability 论文是"找到一个 feature → 命名 → 讲故事"。这篇是"找到一个 feature → 跑三个 falsification 看故事还成立吗 → 把方法论本身作为贡献"。
关键结果
| Falsification check | 期望(如果是因果) | 实际观测 | 结论 |
|---|---|---|---|
| Zero ablation feature 17,491 | accuracy 上升 | 6.7% → 4.4% | 不是因果 |
| SAE features vs residual stream baseline AUC | SAE 显著更高 | 0.927 vs 0.929 | SAE 不增加 predictive power |
| Top-feature seed robustness (5 seeds) | 同一 feature 持续 top | 仅 1/5 seeds | 命名特征不稳健 |
| 行为现象本身('the keys' fail rate) | — | 75-93.3% across seeds | 现象稳健,feature 解释不稳健 |
结果解读:这个表的设计本身就是论文的最大贡献——任何 mechanistic interpretability 论文都应该被要求填这张表。GPT-2 SAE feature audit 在这里只是 case study,pipeline 才是 deliverable。
局限性与开放问题
- 局限 1:只在 GPT-2 small 上。pipeline 是否能 scale 到 70B 模型还未验证——大模型的 SAE 通常需要 GPU,"跑完笔记本"的故事就破了;
- 局限 2:只在 IOI 任务上。IOI 是 mechanistic interpretability 的标准 toy 任务,更复杂的 reasoning 任务下"correlate vs cause"的差距可能更大或更小;
- 开放问题:是否每个 mechanistic interpretability claim 都该被强制要求带 zero ablation control + representation baseline?如果是,那现有文献里有多大比例是 overclaim?这是个会得罪人的开放问题。
💡 对我们的启发
-
直接可用的技术点:你做"公开 agent trace 的大规模事后分析"时,可以照搬这个 three-control framework——
- Causal ablation:找到某个"看起来在导致 agent 失败的 trace pattern"后,用 pattern matching 把这些 trace 移除,看 success rate 是否回升;
- Representation baseline:你的 pattern 分类器比一个朴素的 bag-of-tokens 分类器强多少?
- Seed robustness:换一组 trace(不同时间窗、不同模型版本),同一个 pattern 还是 top correlate 吗?
这是一个直接可写成 SE 论文方法论 section 的迁移;
-
具体实验想法:拿你已经分析过的 SWE-bench trace 数据,挑一个你之前给出"X behavior 与 task failure 相关"的结论,用这三个 control 重新走一遍。如果三个都 pass,结论加强;如果有 fail 的,你就有了一个比正面结果更有意思的负结果叙事;
-
研究趋势判断:mechanistic interpretability 圈最近开始"自省"——从找 feature 到 audit feature claim。SE 圈关于"agent 行为可解释性"也会经历同样的转折,早点把 audit framework 引入 SE 领域,可以占住方法论的高地。
方法对比
| 维度 | HarnessAPI | Kairos (Temporality) | NSR | SAE Audit |
|---|---|---|---|---|
| 改动位置 | Web/MCP framework 层 | dataloader 层 | RL optimizer 层 | analysis pipeline 层 |
| 改动量 | 框架级(new lib) | 一行 sort | 一行 if-else | 一套 control protocol |
| 适用对象 | 想统一 HTTP+MCP 工具的人 | continued pretraining 研究者 | RLVR 训练者 | mechanistic interp 研究者 |
| 计算开销 | 几乎零(运行时) | 同量级 token budget | 同量级训练 | 笔记本可跑 |
| 主要局限 | versioning 未解 | continued pretraining 未验证 | 缺 code RLVR 验证 | 大模型 scalability 未验证 |
| 对林智灏研究主线的可迁移度 | OpenHarmony 工具链直接相关 | Cangjie continued pretraining 直接相关 | 远(RLVR 太贵) | agent trace 分析方法论直接相关 |