必读模型报告Z.ai / GLM Team · 2026
GLM-5.2 / GLM-5: from Vibe Coding to Agentic Engineering
它把目标从 vibe coding 明确推进到 agentic engineering:长上下文、复杂系统工程、异步 RL、agent 长程任务。
- GLM-5 采用 744B total / 40B active MoE,并把预训练数据扩展到 28.5T tokens。
- GLM-5.2 强调 solid 1M-token context、flexible reasoning effort、IndexShare 稀疏注意力和更高效的 MTP speculative decoding。
- slime 异步 RL 基础设施把 generation 与 training 解耦,服务于更频繁的 post-training 迭代。
- 长上下文效率是 agentic engineering 的系统地基。
- 异步 agent RL 说明训练瓶颈不只是算法,还有 rollout 吞吐、环境调度和训练更新解耦。
- coding benchmark 正在从单次生成转向终端任务、SWE Pro、长会话工程任务。
接回你的简历:你的执行反馈和 harness 调度研究可以直接对应 GLM-5 报告中的 long-horizon agentic tasks。
读它时重点看:DSA/IndexShare 为什么降低长上下文成本,slime 为什么提高 RL throughput,agentic engineering 和普通 code generation 的差别。
必读模型报告DeepSeek-AI · 2026
DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
它把 1M context 的核心问题讲成工程经济性:FLOPs、KV cache、压缩注意力和长程 agent serving 成本。
- 公开卡片显示 V4-Pro 为 1.6T total / 49B active MoE,V4-Flash 为更轻量的 284B / 13B active 路线。
- 报告主线是 hybrid attention:Compressed Sparse Attention 与 Heavily Compressed Attention 共同降低 1M context 成本。
- 两类模型都在超过 32T tokens 上预训练,并引入 mHC residual mapping 与 Muon optimizer 来提升稳定性和收敛效率。
- 技术报告称 V4-Pro 在 1M context 下单 token inference FLOPs 约为 DeepSeek-V3.2 的 27%,KV cache 约为 10%。
- 长上下文模型的胜负不只在训练 loss,还在 KV cache、attention pattern、memory hierarchy。
- Agentic code task 会把长上下文 serving 成本放大,因为一次任务可能有大量工具调用和日志。
- 第三方评估提醒我们:官方 benchmark 与 held-out agent/cyber/reasoning 评测可能有差距。
接回你的简历:To Run or Not to Run 的成本收益分析可以接到 DeepSeek-V4 的长上下文经济性:每次执行、每段上下文、每个工具调用都有预算。
读它时重点看:CSA/HCA 怎样处理历史信息,1M context 对 SWE agent 的实际收益边界,以及官方结果和第三方评测差异。
必读代码模型IQuest · 2026
IQuest-Coder-V1 Technical Report
这是最贴近你目标组的材料:code-flow multi-stage training、repo-scale 128K context、reasoning RL、agentic trajectories。
- IQuest-Coder-V1 包含 7B/14B/40B/40B-Loop 系列。
- 训练路线从 code facts、repository、completion pretraining 到 32K reasoning/agentic mid-training,再到 128K repo-scale 训练。
- post-training 分 thinking path 和 instruct path:前者强调 reasoning-driven RL,后者强调通用助手能力。
- 代码模型训练正在显式建模软件逻辑随 pipeline 演化的 code-flow,而不是只看静态文件。
- repo-scale context 和 agentic trajectories 是你最应重点复述的关键词。
- 40B-Loop 体现了性能与部署 footprint 的架构折中。
接回你的简历:CodeAnchor、RepoRescue、AtomicCommitBench 都可以被说成 code-flow/repo-scale/trajectory training 的任务资产。
读它时重点看:每个训练阶段的数据是什么、上下文长度为什么从 32K 到 128K、thinking path 的 RL 和 instruct path 的目标差异。
精读代码模型Qwen Team · 2025
Qwen3-Coder: Agentic Coding in the World
它给出了一条清楚的开源 code model scaling 路线:token、context、synthetic data、code RL、long-horizon agent RL。
- Qwen3-Coder-480B-A35B-Instruct 是 480B total / 35B active MoE,原生 256K context,可通过 YaRN 扩展到 1M。
- 预训练使用 7.5T tokens,其中代码占比 70%。
- post-training 强调 hard-to-solve, easy-to-verify 的 Code RL,并构建 20,000 并行环境做 long-horizon RL。
- 大规模 agent RL 的基础不是口号,而是能并行跑环境、收反馈、稳定训练。
- 代码任务天然适合可验证 RL,但任务生成和测试用例质量是核心。
- CLI/scaffold 也是模型能力释放的一部分。
接回你的简历:你的 HomeTrans / SWE-OpenHarmony 可以被包装为垂域可验证 coding environments,与 Qwen 的 20K 环境思路同构。
读它时重点看:为什么代码 RL 要从竞赛题扩展到真实任务,以及 long-horizon RL 的环境扩展问题。
精读模型报告Moonshot / Kimi Team · 2025-2026
Kimi K2: Open Agentic Intelligence
它把 agentic data synthesis、joint RL、optimizer stability 和开放 MoE 模型放在同一个报告里。
- K2 是 1T total / 32B active MoE。
- MuonClip 通过 QK-clip 缓解训练不稳定,并报告 15.5T token pretraining 中 zero loss spike。
- post-training 包含大规模 agentic data synthesis 和 joint RL,在真实/合成环境中交互提升能力。
- 优化器稳定性和 agentic post-training 是同一条产品线上的两端。
- agentic data synthesis 是解决真实环境数据稀缺的主流路径。
- 报告中的 SWE-Bench Verified / Multilingual 结果适合和你的 repo-level benchmark 放在一起比较。
接回你的简历:AtomicCommitBench 这类合成但可验证的任务,可以作为 agentic data synthesis 的 SE 版本。
读它时重点看:MuonClip 为什么解决 loss spike,合成 agentic 数据如何进入 multi-stage post-training。
必读SWE Agent 训练SWE-Gym · 2024-2025
Training Software Engineering Agents and Verifiers with SWE-Gym
它把 SWE agent 训练环境、真实 Python 任务、unit tests 和 verifier 放在一起,是入门 agentic code training 的标准材料。
- 包含 2,438 个真实 Python task instances,每个实例有 codebase、runtime、unit tests 和自然语言任务。
- 用 SWE-Gym 训练 SWE agents,在 SWE-Bench Verified/Lite 上报告最高 19% absolute gain。
- 还探索了 inference-time scaling 和 verifier。
- 环境可执行性比静态数据更重要。
- verifier 不只是评测器,也可以成为训练/搜索/重排信号。
- 训练集、验证集和 SWE-Bench 之间的污染控制是核心。
接回你的简历:To Run or Not to Run 可以作为 SWE-Gym 之后的问题:即使有执行环境,也要问何时执行才划算。
读它时重点看:task instance 由哪些部件组成,verifier 怎么训练,训练收益来自哪里。
精读评测与数据SWE-smith · 2025
SWE-smith: Scaling Data for Software Engineering Agents
它正面处理 SWE agent 数据稀缺和环境昂贵问题,是理解 scalable task synthesis 的关键论文。
- 指出现有 SWE 训练数据规模小、repo 数量少、人工构建成本高、环境存储重。
- 目标是规模化构造软件工程 agent 训练数据。
- 它适合作为 RepoRescue / AtomicCommitBench 的对照:都在问任务如何规模化且可验证。
- SWE data scaling 不是简单抓 GitHub,而是构造任务、环境、测试和评估协议。
- 数据规模、环境可复现性和 verifier 稳定性共同决定 RL/SFT 是否可用。
- 合成任务必须防止学到模板痕迹。
接回你的简历:你的 benchmark 构造经验在这里非常值钱:能做出低泄漏、可执行、可回放的 repo 任务。
读它时重点看:任务生成流程、环境存储策略、与真实 GitHub issue 的分布差异。
必读Agent RLAgent-RLVR · 2025
Agent-RLVR: Training Software Engineering Agents via Guidance and Environment Rewards
它讨论为什么 RLVR 从数学题迁移到 agentic environments 会变难,以及如何用 guidance + environment reward 缓解。
- RLVR 在 math/competitive programming 中有效,但在多步 agent 环境里 reward 稀疏、失败率高。
- 软件工程任务需要同时处理长程规划、环境观察和工具动作。
- 论文核心是通过 guidance 与环境 reward 改善训练信号。
- 可验证 reward 不等于容易训练。
- agent 环境中的失败样本太多会导致有效梯度稀少。
- 指导信号可以降低探索难度,但也可能限制策略多样性。
接回你的简历:CodeAnchor 就是一种降低探索空间的 guidance;execution feedback 则是环境 reward/observation。
读它时重点看:guidance 的形式、reward 的来源、和纯 RLVR 相比解决了哪个 failure mode。
精读Agent RLRAGEN · 2025
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn RL
它把 multi-turn RL 的训练病灶讲得比较清楚:长程交互、环境随机性、自我演化与训练崩塌。
- 提出 StarPO 框架和 RAGEN 系统来训练/评估 LLM agents。
- 关注 trajectory-level agent RL,而不是单轮问答 RL。
- 讨论 Echo Trap 等多轮训练中的退化现象。
- agent RL 的基本单位是 trajectory,不是单个答案。
- 环境 feedback 会改变后续状态,导致 off-policy 和信用分配更复杂。
- 训练稳定性需要同时看 reward、长度、工具使用和状态分布。
接回你的简历:MazeBreaker 的多智能体 RL、安全动态攻击策略也可以和 RAGEN 的 multi-turn agent RL 语言对齐。
读它时重点看:StarPO 的状态-思考-动作-奖励建模,以及训练退化案例。
必读SWE Agent 训练Together AI / Agentica · 2026
DeepSWE: Training a Fully Open-sourced Coding Agent by Scaling RL
它给出了非常工程化的 SWE agent RL recipe:环境、动作、稀疏 reward、Kubernetes rollout、GRPO++、TTS。
- 从 Qwen3-32B 出发,用纯 RL 在 4.5K R2E-Gym tasks 上训练 6 天,使用 64 H100。
- action space 包括 bash、search、file editor、finish/submit。
- reward 是稀疏 0/1:选定测试在时限内通过为 1,否则为 0。
- 报告 Pass@1 42.2%,hybrid test-time scaling 到约 59% SWE-Bench Verified。
- SWE RL 是环境系统工程:Docker/Kubernetes 吞吐直接影响训练。
- Compact filtering 说明长轨迹和超时样本会造成 reward collapse。
- SFT teacher trajectory 不一定比 cold start RL 更好。
接回你的简历:你的 harness 调度、执行反馈成本、CI 因果链追踪都能直接接到 DeepSWE 的训练 recipe。
读它时重点看:action/state/reward 定义,GRPO++ 改动,为什么 SWE-Gym/SWE-smith 在他们实验里不如 R2E-Gym。
跟踪SWE Agent 训练OpenReview · 2025-2026
Training Long-Context, Multi-Turn Software Engineering Agents with RL
它把 long-context 与 multi-turn SWE RL 放在同一个题目里,正好对应基模组会关心的长会话 coding agent。
- 关注多轮软件工程 agent,而不是单次 patch generation。
- 长上下文用于保留 repo 证据、历史动作、失败日志和策略修正。
- 适合作为 GLM-5.2 / DeepSeek-V4 的长上下文模型能力在 SWE 训练侧的对应材料。
- 长上下文要和环境交互一起评估。
- 训练目标需要覆盖多轮策略,而不只是最后 patch。
- 面试时可用它串起 KV cache、agent trajectory 和 RL credit assignment。
接回你的简历:你的 Chain-Tracking 可以自然接到多轮轨迹的因果建模。
读它时重点看:上下文长度、轮数、reward、工具动作和评测协议。
精读SWE Agent 训练THUDM / Z.ai · 2025
SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling
它把训练数据扩展和 inference scaling 一起讲,适合作为 agent 训练闭环的补充材料。
- 用合成测试用例和扩展 agent trajectories 构建训练数据。
- 7B 和 32B SWE-Dev 在 SWE-bench Verified 上分别报告 23.4% 和 36.6%。
- 强调增加单次运行交互预算以实现 inference scaling。
- 测试用例生成是 verifier/reward 质量的关键。
- 训练 scaling 与 inference scaling 不是二选一,而是相互补充。
- agent 预算增加后,如何调度执行与搜索变成核心问题。
接回你的简历:To Run or Not to Run 正好回答 inference scaling 中执行预算应该怎么花。
读它时重点看:测试用例如何合成,轨迹如何扩展,inference budget 如何转化为 resolved rate。