代码基模训练备战ML 地基 + Agentic Training

从 SE 强简历到 Code Model Training 共同语言

这不是泛泛的机器学习课,而是一套面向基模组面试和入组工作的学习台:先把 loss、Transformer、训练系统讲稳,再把 SWE agent、verifier、execution feedback 和前沿模型报告串成你的主线。

3 周
完成第一轮高密度复习
10+ 篇
前沿模型与 agentic training 材料
6 条线
覆盖基础、训练、RL 与面试叙事
复习进度
0%
本机浏览器状态,不写入服务器
0/12
我已经有代码智能体、执行反馈、仓库级 benchmark、verifier 和低资源代码建模的一作成果;现在补的是模型训练共同语言。
我能把真实软件工程任务转成训练数据、环境、reward 和评测协议,这正是 code model 从 HumanEval 走向 agentic engineering 的关键缺口。
短期我可以贡献在 code data / agentic eval / post-training task construction;中期补齐训练系统后,可以参与更完整的 code model training loop。

知识卡片

一句话

大模型预训练的核心目标是让正确下一个 token 的概率更高。

机制

模型输出 vocabulary logits,softmax 得到概率分布;cross entropy 等价于最小化正确 token 的 negative log likelihood。训练 loss 每下降一点,都意味着模型给真实序列分配了更高概率。

面试说法

我会把 LM loss 看成 token 级别的 NLL;perplexity 是 exp(loss),代表模型平均每一步的有效困惑度。代码模型里,低 loss 不一定等于强 agent,因为仓库修复还需要检索、执行、工具选择和长程信用分配。

自测题与参考答案
写出 CE = -log p(y) 的前提和含义。
对单个 token 或分类样本,如果真实标签是 y,模型给 y 的概率是 p(y),交叉熵就是 -log p(y)。语言模型训练时通常对所有预测位置取平均;p(y) 越大,loss 越小。
解释 perplexity。
perplexity 通常是 exp(平均 NLL loss),可以直觉理解为模型每一步面对的有效候选数。PPL 越低,说明模型越能把概率集中到真实下一个 token 上。
为什么 loss 与 pass rate 不完全一致?
loss 是 token 级分布拟合,pass rate 是任务级成功率。真实代码任务还需要检索、定位、编辑、执行测试、根据日志迭代;这些多轮决策不一定由更低 next-token loss 直接保证。

面试问答训练

Short answer

LM loss 衡量 token 分布拟合,SWE-bench 衡量真实仓库任务闭环;中间隔着检索、工具、执行、规划和 verifier。

Deep answer
  • 预训练 loss 是局部 token 预测目标,不直接优化多轮工具决策。
  • SWE 任务需要跨文件定位、理解 issue、做编辑、跑测试、根据日志迭代。
  • 因此 code agent 能力通常还需要 repo-scale data、SFT/trajectory data、agent RL 和 inference-time search。
接回简历:CodeAnchor 和 To Run or Not to Run 研究的正是 loss 之外的闭环变量:上下文结构和执行反馈。
复习路线

三周地基计划

第 1 周:ML 与训练地基

把 loss、梯度、优化器、batch、泛化这些概念补到能解释训练曲线。

产出:面试官问到 learning rate、loss spike、AdamW、perplexity 时,可以用机制和排查思路回答。

第 2 周:Transformer 与长上下文

从 token 到 logits 讲清 decoder-only Transformer,再补长上下文与推理缓存。

产出:能画出 attention / RoPE / GQA / KV cache 的数据流,并能估算为什么 1M context 贵。

第 3 周:Pretrain / SFT / RL 闭环

把数据、训练系统、post-training、agentic RL 和代码 verifier 串起来。

产出:能把 SWE 任务说成训练信号:数据从哪里来、环境怎么跑、reward 怎么给、失败怎么查。
Frontier Radar

前沿论文与技术报告雷达

只放和基模组面试、code model training、agentic SWE 直接相关的材料。读的时候不要追完整细节,先抓训练目标、数据来源、环境、reward 和你的 CV 连接。

必读模型报告Z.ai / GLM Team · 2026

GLM-5.2 / GLM-5: from Vibe Coding to Agentic Engineering

它把目标从 vibe coding 明确推进到 agentic engineering:长上下文、复杂系统工程、异步 RL、agent 长程任务。

Key ideas
  • GLM-5 采用 744B total / 40B active MoE,并把预训练数据扩展到 28.5T tokens。
  • GLM-5.2 强调 solid 1M-token context、flexible reasoning effort、IndexShare 稀疏注意力和更高效的 MTP speculative decoding。
  • slime 异步 RL 基础设施把 generation 与 training 解耦,服务于更频繁的 post-training 迭代。
Training lens
  • 长上下文效率是 agentic engineering 的系统地基。
  • 异步 agent RL 说明训练瓶颈不只是算法,还有 rollout 吞吐、环境调度和训练更新解耦。
  • coding benchmark 正在从单次生成转向终端任务、SWE Pro、长会话工程任务。
接回你的简历:你的执行反馈和 harness 调度研究可以直接对应 GLM-5 报告中的 long-horizon agentic tasks。

读它时重点看:DSA/IndexShare 为什么降低长上下文成本,slime 为什么提高 RL throughput,agentic engineering 和普通 code generation 的差别。

必读模型报告DeepSeek-AI · 2026

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

它把 1M context 的核心问题讲成工程经济性:FLOPs、KV cache、压缩注意力和长程 agent serving 成本。

Key ideas
  • 公开卡片显示 V4-Pro 为 1.6T total / 49B active MoE,V4-Flash 为更轻量的 284B / 13B active 路线。
  • 报告主线是 hybrid attention:Compressed Sparse Attention 与 Heavily Compressed Attention 共同降低 1M context 成本。
  • 两类模型都在超过 32T tokens 上预训练,并引入 mHC residual mapping 与 Muon optimizer 来提升稳定性和收敛效率。
  • 技术报告称 V4-Pro 在 1M context 下单 token inference FLOPs 约为 DeepSeek-V3.2 的 27%,KV cache 约为 10%。
Training lens
  • 长上下文模型的胜负不只在训练 loss,还在 KV cache、attention pattern、memory hierarchy。
  • Agentic code task 会把长上下文 serving 成本放大,因为一次任务可能有大量工具调用和日志。
  • 第三方评估提醒我们:官方 benchmark 与 held-out agent/cyber/reasoning 评测可能有差距。
接回你的简历:To Run or Not to Run 的成本收益分析可以接到 DeepSeek-V4 的长上下文经济性:每次执行、每段上下文、每个工具调用都有预算。

读它时重点看:CSA/HCA 怎样处理历史信息,1M context 对 SWE agent 的实际收益边界,以及官方结果和第三方评测差异。

必读代码模型IQuest · 2026

IQuest-Coder-V1 Technical Report

这是最贴近你目标组的材料:code-flow multi-stage training、repo-scale 128K context、reasoning RL、agentic trajectories。

Key ideas
  • IQuest-Coder-V1 包含 7B/14B/40B/40B-Loop 系列。
  • 训练路线从 code facts、repository、completion pretraining 到 32K reasoning/agentic mid-training,再到 128K repo-scale 训练。
  • post-training 分 thinking path 和 instruct path:前者强调 reasoning-driven RL,后者强调通用助手能力。
Training lens
  • 代码模型训练正在显式建模软件逻辑随 pipeline 演化的 code-flow,而不是只看静态文件。
  • repo-scale context 和 agentic trajectories 是你最应重点复述的关键词。
  • 40B-Loop 体现了性能与部署 footprint 的架构折中。
接回你的简历:CodeAnchor、RepoRescue、AtomicCommitBench 都可以被说成 code-flow/repo-scale/trajectory training 的任务资产。

读它时重点看:每个训练阶段的数据是什么、上下文长度为什么从 32K 到 128K、thinking path 的 RL 和 instruct path 的目标差异。

精读代码模型Qwen Team · 2025

Qwen3-Coder: Agentic Coding in the World

它给出了一条清楚的开源 code model scaling 路线:token、context、synthetic data、code RL、long-horizon agent RL。

Key ideas
  • Qwen3-Coder-480B-A35B-Instruct 是 480B total / 35B active MoE,原生 256K context,可通过 YaRN 扩展到 1M。
  • 预训练使用 7.5T tokens,其中代码占比 70%。
  • post-training 强调 hard-to-solve, easy-to-verify 的 Code RL,并构建 20,000 并行环境做 long-horizon RL。
Training lens
  • 大规模 agent RL 的基础不是口号,而是能并行跑环境、收反馈、稳定训练。
  • 代码任务天然适合可验证 RL,但任务生成和测试用例质量是核心。
  • CLI/scaffold 也是模型能力释放的一部分。
接回你的简历:你的 HomeTrans / SWE-OpenHarmony 可以被包装为垂域可验证 coding environments,与 Qwen 的 20K 环境思路同构。

读它时重点看:为什么代码 RL 要从竞赛题扩展到真实任务,以及 long-horizon RL 的环境扩展问题。

精读模型报告Moonshot / Kimi Team · 2025-2026

Kimi K2: Open Agentic Intelligence

它把 agentic data synthesis、joint RL、optimizer stability 和开放 MoE 模型放在同一个报告里。

Key ideas
  • K2 是 1T total / 32B active MoE。
  • MuonClip 通过 QK-clip 缓解训练不稳定,并报告 15.5T token pretraining 中 zero loss spike。
  • post-training 包含大规模 agentic data synthesis 和 joint RL,在真实/合成环境中交互提升能力。
Training lens
  • 优化器稳定性和 agentic post-training 是同一条产品线上的两端。
  • agentic data synthesis 是解决真实环境数据稀缺的主流路径。
  • 报告中的 SWE-Bench Verified / Multilingual 结果适合和你的 repo-level benchmark 放在一起比较。
接回你的简历:AtomicCommitBench 这类合成但可验证的任务,可以作为 agentic data synthesis 的 SE 版本。

读它时重点看:MuonClip 为什么解决 loss spike,合成 agentic 数据如何进入 multi-stage post-training。

必读SWE Agent 训练SWE-Gym · 2024-2025

Training Software Engineering Agents and Verifiers with SWE-Gym

它把 SWE agent 训练环境、真实 Python 任务、unit tests 和 verifier 放在一起,是入门 agentic code training 的标准材料。

Key ideas
  • 包含 2,438 个真实 Python task instances,每个实例有 codebase、runtime、unit tests 和自然语言任务。
  • 用 SWE-Gym 训练 SWE agents,在 SWE-Bench Verified/Lite 上报告最高 19% absolute gain。
  • 还探索了 inference-time scaling 和 verifier。
Training lens
  • 环境可执行性比静态数据更重要。
  • verifier 不只是评测器,也可以成为训练/搜索/重排信号。
  • 训练集、验证集和 SWE-Bench 之间的污染控制是核心。
接回你的简历:To Run or Not to Run 可以作为 SWE-Gym 之后的问题:即使有执行环境,也要问何时执行才划算。

读它时重点看:task instance 由哪些部件组成,verifier 怎么训练,训练收益来自哪里。

精读评测与数据SWE-smith · 2025

SWE-smith: Scaling Data for Software Engineering Agents

它正面处理 SWE agent 数据稀缺和环境昂贵问题,是理解 scalable task synthesis 的关键论文。

Key ideas
  • 指出现有 SWE 训练数据规模小、repo 数量少、人工构建成本高、环境存储重。
  • 目标是规模化构造软件工程 agent 训练数据。
  • 它适合作为 RepoRescue / AtomicCommitBench 的对照:都在问任务如何规模化且可验证。
Training lens
  • SWE data scaling 不是简单抓 GitHub,而是构造任务、环境、测试和评估协议。
  • 数据规模、环境可复现性和 verifier 稳定性共同决定 RL/SFT 是否可用。
  • 合成任务必须防止学到模板痕迹。
接回你的简历:你的 benchmark 构造经验在这里非常值钱:能做出低泄漏、可执行、可回放的 repo 任务。

读它时重点看:任务生成流程、环境存储策略、与真实 GitHub issue 的分布差异。

必读Agent RLAgent-RLVR · 2025

Agent-RLVR: Training Software Engineering Agents via Guidance and Environment Rewards

它讨论为什么 RLVR 从数学题迁移到 agentic environments 会变难,以及如何用 guidance + environment reward 缓解。

Key ideas
  • RLVR 在 math/competitive programming 中有效,但在多步 agent 环境里 reward 稀疏、失败率高。
  • 软件工程任务需要同时处理长程规划、环境观察和工具动作。
  • 论文核心是通过 guidance 与环境 reward 改善训练信号。
Training lens
  • 可验证 reward 不等于容易训练。
  • agent 环境中的失败样本太多会导致有效梯度稀少。
  • 指导信号可以降低探索难度,但也可能限制策略多样性。
接回你的简历:CodeAnchor 就是一种降低探索空间的 guidance;execution feedback 则是环境 reward/observation。

读它时重点看:guidance 的形式、reward 的来源、和纯 RLVR 相比解决了哪个 failure mode。

精读Agent RLRAGEN · 2025

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn RL

它把 multi-turn RL 的训练病灶讲得比较清楚:长程交互、环境随机性、自我演化与训练崩塌。

Key ideas
  • 提出 StarPO 框架和 RAGEN 系统来训练/评估 LLM agents。
  • 关注 trajectory-level agent RL,而不是单轮问答 RL。
  • 讨论 Echo Trap 等多轮训练中的退化现象。
Training lens
  • agent RL 的基本单位是 trajectory,不是单个答案。
  • 环境 feedback 会改变后续状态,导致 off-policy 和信用分配更复杂。
  • 训练稳定性需要同时看 reward、长度、工具使用和状态分布。
接回你的简历:MazeBreaker 的多智能体 RL、安全动态攻击策略也可以和 RAGEN 的 multi-turn agent RL 语言对齐。

读它时重点看:StarPO 的状态-思考-动作-奖励建模,以及训练退化案例。

必读SWE Agent 训练Together AI / Agentica · 2026

DeepSWE: Training a Fully Open-sourced Coding Agent by Scaling RL

它给出了非常工程化的 SWE agent RL recipe:环境、动作、稀疏 reward、Kubernetes rollout、GRPO++、TTS。

Key ideas
  • 从 Qwen3-32B 出发,用纯 RL 在 4.5K R2E-Gym tasks 上训练 6 天,使用 64 H100。
  • action space 包括 bash、search、file editor、finish/submit。
  • reward 是稀疏 0/1:选定测试在时限内通过为 1,否则为 0。
  • 报告 Pass@1 42.2%,hybrid test-time scaling 到约 59% SWE-Bench Verified。
Training lens
  • SWE RL 是环境系统工程:Docker/Kubernetes 吞吐直接影响训练。
  • Compact filtering 说明长轨迹和超时样本会造成 reward collapse。
  • SFT teacher trajectory 不一定比 cold start RL 更好。
接回你的简历:你的 harness 调度、执行反馈成本、CI 因果链追踪都能直接接到 DeepSWE 的训练 recipe。

读它时重点看:action/state/reward 定义,GRPO++ 改动,为什么 SWE-Gym/SWE-smith 在他们实验里不如 R2E-Gym。

跟踪SWE Agent 训练OpenReview · 2025-2026

Training Long-Context, Multi-Turn Software Engineering Agents with RL

它把 long-context 与 multi-turn SWE RL 放在同一个题目里,正好对应基模组会关心的长会话 coding agent。

Key ideas
  • 关注多轮软件工程 agent,而不是单次 patch generation。
  • 长上下文用于保留 repo 证据、历史动作、失败日志和策略修正。
  • 适合作为 GLM-5.2 / DeepSeek-V4 的长上下文模型能力在 SWE 训练侧的对应材料。
Training lens
  • 长上下文要和环境交互一起评估。
  • 训练目标需要覆盖多轮策略,而不只是最后 patch。
  • 面试时可用它串起 KV cache、agent trajectory 和 RL credit assignment。
接回你的简历:你的 Chain-Tracking 可以自然接到多轮轨迹的因果建模。

读它时重点看:上下文长度、轮数、reward、工具动作和评测协议。

精读SWE Agent 训练THUDM / Z.ai · 2025

SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling

它把训练数据扩展和 inference scaling 一起讲,适合作为 agent 训练闭环的补充材料。

Key ideas
  • 用合成测试用例和扩展 agent trajectories 构建训练数据。
  • 7B 和 32B SWE-Dev 在 SWE-bench Verified 上分别报告 23.4% 和 36.6%。
  • 强调增加单次运行交互预算以实现 inference scaling。
Training lens
  • 测试用例生成是 verifier/reward 质量的关键。
  • 训练 scaling 与 inference scaling 不是二选一,而是相互补充。
  • agent 预算增加后,如何调度执行与搜索变成核心问题。
接回你的简历:To Run or Not to Run 正好回答 inference scaling 中执行预算应该怎么花。

读它时重点看:测试用例如何合成,轨迹如何扩展,inference budget 如何转化为 resolved rate。

训练事故排查卡

Pretraining loss spike

症状:训练 loss 突然飙升,随后恢复或直接发散。

可能原因
  • - 学习率或 warmup 设置不稳
  • - 异常 batch / 数据污染 / 极长序列
  • - 混合精度溢出
  • - 并行同步或 optimizer state 异常
排查顺序
  • - 先查 gradient norm 和 overflow 计数
  • - 定位 spike 对应数据 shard
  • - 回看 LR schedule 与 batch size 变更
  • - 必要时从前一 checkpoint 重跑小窗口复现
面试金句:我会把 loss spike 当成优化、数据、数值精度、分布式状态四类问题排查,而不是只盯模型结构。

Agent RL reward collapse

症状:早期 reward 上升,之后 agent 开始超长思考、乱改文件或通过率下降。

可能原因
  • - 稀疏 reward 下误强化了无关动作
  • - 超长/超时轨迹进入梯度
  • - 测试 reward 不够区分因果有效 patch
  • - 探索与 KL/entropy 约束失衡
排查顺序
  • - 按成功轨迹回放动作链
  • - 过滤 max length / timeout / late random edits
  • - 对比 Pass2Pass 与 Fail2Pass
  • - 监控每步 token 长度和工具调用分布
面试金句:DeepSWE 的 compact filtering 就是在处理类似问题;我的 CI 因果链追踪可以帮助判断成功 patch 是不是因果有效。

SWE RL solve-none rate 过高

症状:rollout 大量失败,几乎拿不到正 reward,RL 没有有效学习信号。

可能原因
  • - 任务太难或 curriculum 缺失
  • - 工具接口不顺手
  • - 初始模型不具备足够 repo navigation 能力
  • - 环境/测试 flaky
排查顺序
  • - 先用强模型跑同一环境确认任务可解
  • - 降低任务难度构建 curriculum
  • - 加入结构 anchor 或 guidance
  • - 检查 scaffold 的 search/edit/finish 工具可用性
面试金句:这就是 CodeAnchor 的价值:给 agent 更稳定的结构入口,减少 blind exploration。

长上下文性能不升反降

症状:context 从 32K 增到 128K/1M,resolved rate 没明显提升甚至下降。

可能原因
  • - 无关文件和日志稀释注意力
  • - 位置外推不稳
  • - 模型缺乏长上下文训练分布
  • - 关键信息没有被显式标注
排查顺序
  • - 做 oracle context vs retrieved context 对比
  • - 分析 attention/引用证据是否落到关键文件
  • - 减少上下文并加入结构摘要
  • - 测试 RoPE scaling / chunk order / anchor 格式
面试金句:长上下文不是把仓库全塞进去;需要结构检索、deterministic anchors 和执行反馈来提高信噪比。

SFT 后通用能力或 agent 能力下降

症状:模型更听话了,但复杂 repo task、推理或工具使用反而变差。

可能原因
  • - SFT 数据过窄
  • - 示范轨迹质量低
  • - response masking 错误
  • - 过度模仿 teacher 的冗长风格
排查顺序
  • - 检查 loss mask 是否只覆盖 assistant response
  • - 分 domain 做 eval
  • - 加入 mixed instruction / code / reasoning 数据
  • - 用 DPO/RL 纠正偏好和结果
面试金句:SFT 是行为初始化,不是最终 agent 能力;真实 SWE 成功率还需要 verifier、RL 和 test-time scaling。
我的音乐