代码基模训练备战ML 地基 + Agentic Training

从 SE 强简历到 Code Model Training 共同语言

这不是泛泛的机器学习课，而是一套面向基模组面试和入组工作的学习台：先把 loss、Transformer、训练系统讲稳，再把 SWE agent、verifier、execution feedback 和前沿模型报告串成你的主线。

3 周

完成第一轮高密度复习

10+ 篇

前沿模型与 agentic training 材料

6 条线

覆盖基础、训练、RL 与面试叙事

复习进度

本机浏览器状态，不写入服务器

0/12

我已经有代码智能体、执行反馈、仓库级 benchmark、verifier 和低资源代码建模的一作成果；现在补的是模型训练共同语言。

我能把真实软件工程任务转成训练数据、环境、reward 和评测协议，这正是 code model 从 HumanEval 走向 agentic engineering 的关键缺口。

短期我可以贡献在 code data / agentic eval / post-training task construction；中期补齐训练系统后，可以参与更完整的 code model training loop。

知识卡片

一句话

大模型预训练的核心目标是让正确下一个 token 的概率更高。

机制

模型输出 vocabulary logits，softmax 得到概率分布；cross entropy 等价于最小化正确 token 的 negative log likelihood。训练 loss 每下降一点，都意味着模型给真实序列分配了更高概率。

面试说法

我会把 LM loss 看成 token 级别的 NLL；perplexity 是 exp(loss)，代表模型平均每一步的有效困惑度。代码模型里，低 loss 不一定等于强 agent，因为仓库修复还需要检索、执行、工具选择和长程信用分配。

自测题与参考答案

写出 CE = -log p(y) 的前提和含义。

对单个 token 或分类样本，如果真实标签是 y，模型给 y 的概率是 p(y)，交叉熵就是 -log p(y)。语言模型训练时通常对所有预测位置取平均；p(y) 越大，loss 越小。

解释 perplexity。

perplexity 通常是 exp(平均 NLL loss)，可以直觉理解为模型每一步面对的有效候选数。PPL 越低，说明模型越能把概率集中到真实下一个 token 上。

为什么 loss 与 pass rate 不完全一致？

loss 是 token 级分布拟合，pass rate 是任务级成功率。真实代码任务还需要检索、定位、编辑、执行测试、根据日志迭代；这些多轮决策不一定由更低 next-token loss 直接保证。

面试问答训练

Short answer

LM loss 衡量 token 分布拟合，SWE-bench 衡量真实仓库任务闭环；中间隔着检索、工具、执行、规划和 verifier。

Deep answer

预训练 loss 是局部 token 预测目标，不直接优化多轮工具决策。
SWE 任务需要跨文件定位、理解 issue、做编辑、跑测试、根据日志迭代。
因此 code agent 能力通常还需要 repo-scale data、SFT/trajectory data、agent RL 和 inference-time search。

接回简历：CodeAnchor 和 To Run or Not to Run 研究的正是 loss 之外的闭环变量：上下文结构和执行反馈。

Frontier Radar

前沿论文与技术报告雷达

只放和基模组面试、code model training、agentic SWE 直接相关的材料。读的时候不要追完整细节，先抓训练目标、数据来源、环境、reward 和你的 CV 连接。

必读模型报告Z.ai / GLM Team · 2026

GLM-5.2 / GLM-5: from Vibe Coding to Agentic Engineering

它把目标从 vibe coding 明确推进到 agentic engineering：长上下文、复杂系统工程、异步 RL、agent 长程任务。

Key ideas

GLM-5 采用 744B total / 40B active MoE，并把预训练数据扩展到 28.5T tokens。
GLM-5.2 强调 solid 1M-token context、flexible reasoning effort、IndexShare 稀疏注意力和更高效的 MTP speculative decoding。
slime 异步 RL 基础设施把 generation 与 training 解耦，服务于更频繁的 post-training 迭代。

Training lens

长上下文效率是 agentic engineering 的系统地基。
异步 agent RL 说明训练瓶颈不只是算法，还有 rollout 吞吐、环境调度和训练更新解耦。
coding benchmark 正在从单次生成转向终端任务、SWE Pro、长会话工程任务。

接回你的简历：你的执行反馈和 harness 调度研究可以直接对应 GLM-5 报告中的 long-horizon agentic tasks。

读它时重点看：DSA/IndexShare 为什么降低长上下文成本，slime 为什么提高 RL throughput，agentic engineering 和普通 code generation 的差别。

AI Markdown alphaXiv 阅读页

必读模型报告DeepSeek-AI · 2026

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

它把 1M context 的核心问题讲成工程经济性：FLOPs、KV cache、压缩注意力和长程 agent serving 成本。

Key ideas

公开卡片显示 V4-Pro 为 1.6T total / 49B active MoE，V4-Flash 为更轻量的 284B / 13B active 路线。
报告主线是 hybrid attention：Compressed Sparse Attention 与 Heavily Compressed Attention 共同降低 1M context 成本。
两类模型都在超过 32T tokens 上预训练，并引入 mHC residual mapping 与 Muon optimizer 来提升稳定性和收敛效率。
技术报告称 V4-Pro 在 1M context 下单 token inference FLOPs 约为 DeepSeek-V3.2 的 27%，KV cache 约为 10%。

Training lens

长上下文模型的胜负不只在训练 loss，还在 KV cache、attention pattern、memory hierarchy。
Agentic code task 会把长上下文 serving 成本放大，因为一次任务可能有大量工具调用和日志。
第三方评估提醒我们：官方 benchmark 与 held-out agent/cyber/reasoning 评测可能有差距。

接回你的简历：To Run or Not to Run 的成本收益分析可以接到 DeepSeek-V4 的长上下文经济性：每次执行、每段上下文、每个工具调用都有预算。

读它时重点看：CSA/HCA 怎样处理历史信息，1M context 对 SWE agent 的实际收益边界，以及官方结果和第三方评测差异。

AI Markdown alphaXiv 阅读页

必读代码模型IQuest · 2026

IQuest-Coder-V1 Technical Report

这是最贴近你目标组的材料：code-flow multi-stage training、repo-scale 128K context、reasoning RL、agentic trajectories。

Key ideas

IQuest-Coder-V1 包含 7B/14B/40B/40B-Loop 系列。
训练路线从 code facts、repository、completion pretraining 到 32K reasoning/agentic mid-training，再到 128K repo-scale 训练。
post-training 分 thinking path 和 instruct path：前者强调 reasoning-driven RL，后者强调通用助手能力。

Training lens

代码模型训练正在显式建模软件逻辑随 pipeline 演化的 code-flow，而不是只看静态文件。
repo-scale context 和 agentic trajectories 是你最应重点复述的关键词。
40B-Loop 体现了性能与部署 footprint 的架构折中。

接回你的简历：CodeAnchor、RepoRescue、AtomicCommitBench 都可以被说成 code-flow/repo-scale/trajectory training 的任务资产。

读它时重点看：每个训练阶段的数据是什么、上下文长度为什么从 32K 到 128K、thinking path 的 RL 和 instruct path 的目标差异。

AI Markdown alphaXiv 阅读页

精读代码模型Qwen Team · 2025

Qwen3-Coder: Agentic Coding in the World

它给出了一条清楚的开源 code model scaling 路线：token、context、synthetic data、code RL、long-horizon agent RL。

Key ideas

Qwen3-Coder-480B-A35B-Instruct 是 480B total / 35B active MoE，原生 256K context，可通过 YaRN 扩展到 1M。
预训练使用 7.5T tokens，其中代码占比 70%。
post-training 强调 hard-to-solve, easy-to-verify 的 Code RL，并构建 20,000 并行环境做 long-horizon RL。

Training lens

大规模 agent RL 的基础不是口号，而是能并行跑环境、收反馈、稳定训练。
代码任务天然适合可验证 RL，但任务生成和测试用例质量是核心。
CLI/scaffold 也是模型能力释放的一部分。

接回你的简历：你的 HomeTrans / SWE-OpenHarmony 可以被包装为垂域可验证 coding environments，与 Qwen 的 20K 环境思路同构。

读它时重点看：为什么代码 RL 要从竞赛题扩展到真实任务，以及 long-horizon RL 的环境扩展问题。

Qwen official blog

精读模型报告Moonshot / Kimi Team · 2025-2026

Kimi K2: Open Agentic Intelligence

它把 agentic data synthesis、joint RL、optimizer stability 和开放 MoE 模型放在同一个报告里。

Key ideas

K2 是 1T total / 32B active MoE。
MuonClip 通过 QK-clip 缓解训练不稳定，并报告 15.5T token pretraining 中 zero loss spike。
post-training 包含大规模 agentic data synthesis 和 joint RL，在真实/合成环境中交互提升能力。

Training lens

优化器稳定性和 agentic post-training 是同一条产品线上的两端。
agentic data synthesis 是解决真实环境数据稀缺的主流路径。
报告中的 SWE-Bench Verified / Multilingual 结果适合和你的 repo-level benchmark 放在一起比较。

接回你的简历：AtomicCommitBench 这类合成但可验证的任务，可以作为 agentic data synthesis 的 SE 版本。

读它时重点看：MuonClip 为什么解决 loss spike，合成 agentic 数据如何进入 multi-stage post-training。

AI Markdown alphaXiv 阅读页

必读SWE Agent 训练SWE-Gym · 2024-2025

Training Software Engineering Agents and Verifiers with SWE-Gym

它把 SWE agent 训练环境、真实 Python 任务、unit tests 和 verifier 放在一起，是入门 agentic code training 的标准材料。

Key ideas

包含 2,438 个真实 Python task instances，每个实例有 codebase、runtime、unit tests 和自然语言任务。
用 SWE-Gym 训练 SWE agents，在 SWE-Bench Verified/Lite 上报告最高 19% absolute gain。
还探索了 inference-time scaling 和 verifier。

Training lens

环境可执行性比静态数据更重要。
verifier 不只是评测器，也可以成为训练/搜索/重排信号。
训练集、验证集和 SWE-Bench 之间的污染控制是核心。

接回你的简历：To Run or Not to Run 可以作为 SWE-Gym 之后的问题：即使有执行环境，也要问何时执行才划算。

读它时重点看：task instance 由哪些部件组成，verifier 怎么训练，训练收益来自哪里。

AI Markdown alphaXiv 阅读页

精读评测与数据SWE-smith · 2025

SWE-smith: Scaling Data for Software Engineering Agents

它正面处理 SWE agent 数据稀缺和环境昂贵问题，是理解 scalable task synthesis 的关键论文。

Key ideas

指出现有 SWE 训练数据规模小、repo 数量少、人工构建成本高、环境存储重。
目标是规模化构造软件工程 agent 训练数据。
它适合作为 RepoRescue / AtomicCommitBench 的对照：都在问任务如何规模化且可验证。

Training lens

SWE data scaling 不是简单抓 GitHub，而是构造任务、环境、测试和评估协议。
数据规模、环境可复现性和 verifier 稳定性共同决定 RL/SFT 是否可用。
合成任务必须防止学到模板痕迹。

接回你的简历：你的 benchmark 构造经验在这里非常值钱：能做出低泄漏、可执行、可回放的 repo 任务。

读它时重点看：任务生成流程、环境存储策略、与真实 GitHub issue 的分布差异。

AI Markdown alphaXiv 阅读页

必读Agent RLAgent-RLVR · 2025

Agent-RLVR: Training Software Engineering Agents via Guidance and Environment Rewards

它讨论为什么 RLVR 从数学题迁移到 agentic environments 会变难，以及如何用 guidance + environment reward 缓解。

Key ideas

RLVR 在 math/competitive programming 中有效，但在多步 agent 环境里 reward 稀疏、失败率高。
软件工程任务需要同时处理长程规划、环境观察和工具动作。
论文核心是通过 guidance 与环境 reward 改善训练信号。

Training lens

可验证 reward 不等于容易训练。
agent 环境中的失败样本太多会导致有效梯度稀少。
指导信号可以降低探索难度，但也可能限制策略多样性。

接回你的简历：CodeAnchor 就是一种降低探索空间的 guidance；execution feedback 则是环境 reward/observation。

读它时重点看：guidance 的形式、reward 的来源、和纯 RLVR 相比解决了哪个 failure mode。

AI Markdown alphaXiv 阅读页

精读Agent RLRAGEN · 2025

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn RL

它把 multi-turn RL 的训练病灶讲得比较清楚：长程交互、环境随机性、自我演化与训练崩塌。

Key ideas

提出 StarPO 框架和 RAGEN 系统来训练/评估 LLM agents。
关注 trajectory-level agent RL，而不是单轮问答 RL。
讨论 Echo Trap 等多轮训练中的退化现象。

Training lens

agent RL 的基本单位是 trajectory，不是单个答案。
环境 feedback 会改变后续状态，导致 off-policy 和信用分配更复杂。
训练稳定性需要同时看 reward、长度、工具使用和状态分布。

接回你的简历：MazeBreaker 的多智能体 RL、安全动态攻击策略也可以和 RAGEN 的 multi-turn agent RL 语言对齐。

读它时重点看：StarPO 的状态-思考-动作-奖励建模，以及训练退化案例。

AI Markdown alphaXiv 阅读页

必读SWE Agent 训练Together AI / Agentica · 2026

DeepSWE: Training a Fully Open-sourced Coding Agent by Scaling RL

它给出了非常工程化的 SWE agent RL recipe：环境、动作、稀疏 reward、Kubernetes rollout、GRPO++、TTS。

Key ideas

从 Qwen3-32B 出发，用纯 RL 在 4.5K R2E-Gym tasks 上训练 6 天，使用 64 H100。
action space 包括 bash、search、file editor、finish/submit。
reward 是稀疏 0/1：选定测试在时限内通过为 1，否则为 0。
报告 Pass@1 42.2%，hybrid test-time scaling 到约 59% SWE-Bench Verified。

Training lens

SWE RL 是环境系统工程：Docker/Kubernetes 吞吐直接影响训练。
Compact filtering 说明长轨迹和超时样本会造成 reward collapse。
SFT teacher trajectory 不一定比 cold start RL 更好。

接回你的简历：你的 harness 调度、执行反馈成本、CI 因果链追踪都能直接接到 DeepSWE 的训练 recipe。

读它时重点看：action/state/reward 定义，GRPO++ 改动，为什么 SWE-Gym/SWE-smith 在他们实验里不如 R2E-Gym。

Together AI blog

跟踪SWE Agent 训练OpenReview · 2025-2026

Training Long-Context, Multi-Turn Software Engineering Agents with RL

它把 long-context 与 multi-turn SWE RL 放在同一个题目里，正好对应基模组会关心的长会话 coding agent。

Key ideas

关注多轮软件工程 agent，而不是单次 patch generation。
长上下文用于保留 repo 证据、历史动作、失败日志和策略修正。
适合作为 GLM-5.2 / DeepSeek-V4 的长上下文模型能力在 SWE 训练侧的对应材料。

Training lens

长上下文要和环境交互一起评估。
训练目标需要覆盖多轮策略，而不只是最后 patch。
面试时可用它串起 KV cache、agent trajectory 和 RL credit assignment。

接回你的简历：你的 Chain-Tracking 可以自然接到多轮轨迹的因果建模。

读它时重点看：上下文长度、轮数、reward、工具动作和评测协议。

OpenReview

精读SWE Agent 训练THUDM / Z.ai · 2025

SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling

它把训练数据扩展和 inference scaling 一起讲，适合作为 agent 训练闭环的补充材料。

Key ideas

用合成测试用例和扩展 agent trajectories 构建训练数据。
7B 和 32B SWE-Dev 在 SWE-bench Verified 上分别报告 23.4% 和 36.6%。
强调增加单次运行交互预算以实现 inference scaling。

Training lens

测试用例生成是 verifier/reward 质量的关键。
训练 scaling 与 inference scaling 不是二选一，而是相互补充。
agent 预算增加后，如何调度执行与搜索变成核心问题。

接回你的简历：To Run or Not to Run 正好回答 inference scaling 中执行预算应该怎么花。

读它时重点看：测试用例如何合成，轨迹如何扩展，inference budget 如何转化为 resolved rate。

AI Markdown alphaXiv 阅读页

训练事故排查卡

Pretraining loss spike

症状：训练 loss 突然飙升，随后恢复或直接发散。

可能原因

- 学习率或 warmup 设置不稳
- 异常 batch / 数据污染 / 极长序列
- 混合精度溢出
- 并行同步或 optimizer state 异常

排查顺序

- 先查 gradient norm 和 overflow 计数
- 定位 spike 对应数据 shard
- 回看 LR schedule 与 batch size 变更
- 必要时从前一 checkpoint 重跑小窗口复现

面试金句：我会把 loss spike 当成优化、数据、数值精度、分布式状态四类问题排查，而不是只盯模型结构。

Agent RL reward collapse

症状：早期 reward 上升，之后 agent 开始超长思考、乱改文件或通过率下降。

可能原因

- 稀疏 reward 下误强化了无关动作
- 超长/超时轨迹进入梯度
- 测试 reward 不够区分因果有效 patch
- 探索与 KL/entropy 约束失衡

排查顺序

- 按成功轨迹回放动作链
- 过滤 max length / timeout / late random edits
- 对比 Pass2Pass 与 Fail2Pass
- 监控每步 token 长度和工具调用分布

面试金句：DeepSWE 的 compact filtering 就是在处理类似问题；我的 CI 因果链追踪可以帮助判断成功 patch 是不是因果有效。

SWE RL solve-none rate 过高

症状：rollout 大量失败，几乎拿不到正 reward，RL 没有有效学习信号。

可能原因

- 任务太难或 curriculum 缺失
- 工具接口不顺手
- 初始模型不具备足够 repo navigation 能力
- 环境/测试 flaky

排查顺序

- 先用强模型跑同一环境确认任务可解
- 降低任务难度构建 curriculum
- 加入结构 anchor 或 guidance
- 检查 scaffold 的 search/edit/finish 工具可用性

面试金句：这就是 CodeAnchor 的价值：给 agent 更稳定的结构入口，减少 blind exploration。

长上下文性能不升反降

症状：context 从 32K 增到 128K/1M，resolved rate 没明显提升甚至下降。

可能原因

- 无关文件和日志稀释注意力
- 位置外推不稳
- 模型缺乏长上下文训练分布
- 关键信息没有被显式标注

排查顺序

- 做 oracle context vs retrieved context 对比
- 分析 attention/引用证据是否落到关键文件
- 减少上下文并加入结构摘要
- 测试 RoPE scaling / chunk order / anchor 格式

面试金句：长上下文不是把仓库全塞进去；需要结构检索、deterministic anchors 和执行反馈来提高信噪比。

SFT 后通用能力或 agent 能力下降

症状：模型更听话了，但复杂 repo task、推理或工具使用反而变差。

可能原因

- SFT 数据过窄
- 示范轨迹质量低
- response masking 错误
- 过度模仿 teacher 的冗长风格

排查顺序

- 检查 loss mask 是否只覆盖 assistant response
- 分 domain 做 eval
- 加入 mixed instruction / code / reasoning 数据
- 用 DPO/RL 纠正偏好和结果

面试金句：SFT 是行为初始化，不是最终 agent 能力；真实 SWE 成功率还需要 verifier、RL 和 test-time scaling。

从 SE 强简历到 Code Model Training 共同语言

知识卡片

大模型预训练的核心目标是让正确下一个 token 的概率更高。

面试问答训练

三周地基计划

第 1 周：ML 与训练地基

第 2 周：Transformer 与长上下文

第 3 周：Pretrain / SFT / RL 闭环

前沿论文与技术报告雷达

GLM-5.2 / GLM-5: from Vibe Coding to Agentic Engineering

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

IQuest-Coder-V1 Technical Report

Qwen3-Coder: Agentic Coding in the World

Kimi K2: Open Agentic Intelligence

Training Software Engineering Agents and Verifiers with SWE-Gym

SWE-smith: Scaling Data for Software Engineering Agents

Agent-RLVR: Training Software Engineering Agents via Guidance and Environment Rewards

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn RL

DeepSWE: Training a Fully Open-sourced Coding Agent by Scaling RL

Training Long-Context, Multi-Turn Software Engineering Agents with RL

SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling

训练事故排查卡

Pretraining loss spike

Agent RL reward collapse

SWE RL solve-none rate 过高

长上下文性能不升反降

SFT 后通用能力或 agent 能力下降