返回博客
2026-05-04· 约 16 分钟
Edit

arXiv 每日速递 2026-05-04

每日精选 arXiv 论文推荐:AI x Software Engineering 最新研究动态

arXiv 每日速递 2026-05-04

今日总结

今天的 arXiv 给我们一个很巧的"评估方法论"专场:4 篇论文从四个不同尺度——transformer 内部组件agent 端到端任务benchmark 出题哲学代码库长期演化——共同追问同一个问题:什么才算"靠谱的评估"?这正是博主长期在做的方向(边际价值量化、benchmark 合理性、process vs outcome)。如果你今年只挑一天读 arXiv,今天值得花 30 分钟。

注意:这批论文都是 2026-04-30 当天最新提交,ar5iv 镜像尚未渲染,本期暂无配图,但我会用充足的数据表格补足信息密度。

今日全览

论文方向核心贡献与我们的相关度
Unsafe and Unused? Util Code in Mature OSSOSS / mining study7 个 OSS 项目 147 个 project-year 跟踪 util 文件,util 比非 util 文件出漏洞概率高 2.75 倍⭐⭐⭐
Claw-Eval-Liveagent benchmark可刷新的"signal layer"+ 时间戳 release snapshot,前沿模型只通过 66.7%⭐⭐⭐
DEFault++fault diagnosisTransformer 组件级故障层级诊断,AUROC 0.96 / Macro-F1 0.85⭐⭐⭐
What Makes a Good Terminal-Agent Benchmark Taskbenchmark methodology出题指南:>15% 现有任务 reward-hackable,把 prompt 当 benchmark 写⭐⭐⭐

今日主题:评估的四个尺度

这四篇看似分散,其实回答的是同一个问题在不同尺度上的版本

  • 微观尺度(DEFault++):当一个 transformer 模型行为异常,是 attention 机制错了、还是某个 projection 错了?现有 fault localization 工具粒度太粗,无法回答。
  • 任务尺度(Claw-Eval-Live):一个 agent benchmark 怎么避免被"freeze 在出题那天",让它能持续追上现实工作流的演化?
  • 出题尺度(Terminal-Agent guideline):什么叫"难"?是环境复杂还是概念复杂?为什么现在 15% 任务可以被 reward-hack?
  • 宏观尺度(Util Code):当一个代码库活了 20 年,那些被认为"通用、可复用"的 util 文件,真的安全吗?还是变成了 vulnerability 的温床?

把这四篇放在一起读,你会发现一个共识:单一终态评估(final answer / final score)正在被淘汰,社区在转向"过程-轨迹-演化"评估。这跟博主"process quality vs outcome correctness"的观点完全吻合,也是博主把 SWE-bench / OpenHands 的 agent trace 拿来做事后分析的研究路径所共振的方向。

下面我们一篇篇拆开看。


Unsafe and Unused? A History of Utility Code in Mature Open Source Projects

推荐理由:纵向 mining 研究 + 工程质量度量 + 漏洞实证,方法论几乎是博主"工程质量被忽视维度"研究的姊妹篇。util 文件这种被开发者随手写的"垃圾抽屉"居然带来 2.75 倍漏洞风险——这是个非常容易讲故事、又能延伸到 AI coding agent 评估的发现。

📌 论文信息:Brandon Keller, Kaitlin Yandik, Angela Ngo, Andy Meneely | arXiv:2604.28146 | cs.SE

TL;DR

作者跟踪了 7 个长寿 OSS 项目(Linux kernel、Django、FFmpeg、httpd、Struts、systemd、Tomcat)每 30 天一个快照、共 1773 个快照、跨 147 个 project-year,发现命名里带 util 的文件最高占比 17.9%(Tomcat 925 个 util 文件),而且 util 文件出漏洞概率最多达到非 util 文件的 2.75 倍

问题是什么?

程序员日常写代码时,凡是"这个东西可能别处也用得上"的逻辑,下意识就丢进 xxxUtil.java / helpers/util.py / utils/ 目录。这是一种工程债务的隐性形态——它不像 TODO 那样被 IDE 标红,也不像 FIXME 那样被 lint 工具捕获。但它带来三个隐性问题:

  1. 作者-用户脱节:util 文件常常只有原作者用,其他人不知道;或者被全项目用,但没人维护。
  2. 测试覆盖不均:因为是"工具",被认为简单,反而很少有人写充分测试。
  3. 复用即放大:一旦真的被广泛复用,里面任何一个 bug 都被放大成系统级风险。

社区直觉早就有了,但没人系统地用纵向数据证明。这篇论文就是在补这块实证。

他们怎么做的?

核心 Insight:不是横截面研究("现在的 util 文件有多少漏洞"),而是纵向 longitudinal mining——每 30 天一个快照、跟踪每个 util 文件从诞生到删除的完整生命周期,包括 rename。

具体方法流程:

  1. 采样:7 个项目,从首次 commit 到 2025 年,每 30 天一次快照,共 1773 次。
  2. rename 跟踪:在每个快照间做 rename detection,确保一个文件即使改名也能被持续观测。
  3. 指标计算:每次快照里测 4 个维度——util 比例、复杂度(CC、LOC)、协作度(committer 数量)、安全(CVE 关联)。
  4. 关联分析:把 util 标签和 CVE/security advisory 数据 join,得出漏洞概率比。

跟之前方法的本质区别:以前研究"代码气味与漏洞"基本用单时刻 snapshot + 静态指标。这篇通过时间序列 + rename tracking 做到了"看一个 util 文件如何从干净走向高危",可以观察到坏代码的生命轨迹,而不是只看尸检报告。

关键结果

项目util 文件占比峰值util vs 非 util 漏洞概率比
Apache Tomcat17.9% (925 文件)高达 2.75×
Linux kernel(论文未给单一峰值,util 数千文件)显著 > 1×
Django / httpd / Struts / FFmpeg / systemd各项目均显著普遍 > 1×

结果解读

  • 提升主要来自 util 文件复杂度增长不受限——一旦被认为"工具属性",更多人随手往里塞东西,CC 持续单调增长。
  • 老项目里这个问题最严重:项目越老、util 比例越稳定甚至上升,说明开发者从未"清理工具抽屉"。
  • 协作模式上一个反直觉发现:很多 util 文件其实只有 1–2 个 committer 维护,但被全项目调用,这是典型的"巴士因子=1"的代码。

局限性与开放问题

  • 局限 1:仅看文件名是否含 util,会漏掉 helpers/misc/common/ 等同质命名约定。命名是一个粗代理,真实 util-性质代码占比可能更高。
  • 局限 2:CVE 关联是"脆弱性发生在 util 文件",但没区分"util 文件是因为被广泛调用所以 CVE 才被发现"还是"util 代码本身质量低"——选择偏差需要更精细的因果模型。
  • 开放问题:现代 AI coding agent(Cursor / Copilot / Aider)会不会加剧 util 累积?因为 LLM 倾向于"创建一个 helper 函数"作为一种 idiomatic 输出,可能比人类写得更频繁。这正好是博主"agent 边际价值量化"可以延伸的方向。

💡 对我们的启发

  1. 直接可用的技术点:博主在做 SWE-bench / OpenHands trace 分析时,可以给每个 patch 标注一个 "util-touch" 标签——patch 是否新增/修改了 util 文件。配合修复成功率,可以测出"agent 是否倾向把 fix 塞进 util 文件来掩盖局部修复的不充分"。
  2. 具体实验想法(1–2 周可做):拿 SWE-bench Verified 的 500 个任务的 ground-truth patch + 5 个 agent 的 generated patch,统计 util 文件的修改比例。预期假设:agent 修改 util 文件的比例显著高于 ground truth,因为 LLM 更倾向于"提取共用逻辑"。如果验证,这是一个新的 process quality 指标。
  3. 研究趋势判断:纵向 mining + 长时间跨度的 SE 实证研究正在重新流行(这两年好几篇 OSS 健康度论文)。博主的 OpenHarmony 工具链方向其实有同样机会——HarmonyOS 还在快速演化,HomeCheck 数据集本身就是一个可以做纵向分析的 goldmine,比如"哪些规则的违反频次随版本演化的趋势"。

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

推荐理由:今年 agent benchmark 领域最值得读的方法论论文之一。它直接回应了博主对 SWE-bench / Terminal Bench 等"freeze 在某一天"benchmark 的质疑,提出可刷新的双层架构。

📌 论文信息:Chenxin Li, Zhengyang Tang, Huangxin Lin, Yunlong Lin, Shijue Huang | arXiv:2604.28139 | cs.SE / cs.AI

TL;DR

现有 agent benchmark 的根本问题:在发布那天就 freeze 了任务集,且大多数只评估"最终回复"是否对。Claw-Eval-Live 把 benchmark 拆成可刷新的 signal layer + 时间戳化的 release snapshot,在 105 个跨 HR / 业务系统 / 本地工作区修复的任务上,前沿模型最高只通过 66.7%,没有模型超过 70%

问题是什么?

工业界对 agent 的期望是"端到端完成跨工具的工作流"——比如开 Jira ticket、改代码、跑测试、更新文档、发 Slack 通知。但目前的 benchmark 评估方式有两个根本缺陷:

  1. 静态化:SWE-bench 用 GitHub 上某个时间点之前的 issue 当任务,模型一旦在这个时间点之后训练,就有数据污染嫌疑;现实工作流也在演化,去年的"标准任务"今年可能已经过时。
  2. 终态评估:只看最终回复对不对,不看 agent 是否真的执行了工具、修改了文件、调用了正确的 API。这放过了大量"嘴硬式幻觉"——agent 说自己做了,其实没做。

他们怎么做的?

核心 Insight:把 benchmark 解耦成两层——signal layer 持续更新(采集真实工作流需求信号,比如 ClawHub Top-500 技能),release snapshot 一旦发布就 frozen(保证可重现)。中间通过"controlled tasks with fixed fixtures, services, workspaces, and graders"作为桥梁。

具体方法流程:

  1. Signal 采集:从公开工作流需求信号里抓"高频技能" → 每个 release 取 ClawHub Top-500 技能子集。
  2. 任务物化:把抽象需求变成可执行任务——预先准备 service mock、workspace 文件、grader 脚本。
  3. 执行轨迹捕获:grader 不仅看最终回复,还看 execution trace、audit log、service state、post-run workspace artifacts。
  4. 混合评分:能用确定性检查(文件是否存在、字段是否对)就用确定性检查;只有语义维度才用 structured LLM judging。

跟之前方法的本质区别:SWE-bench / Terminal Bench 都是 "input + final answer + grader"。Claw-Eval-Live 引入"持续刷新的 signal source + 时间戳冻结的 snapshot"双层架构,让 benchmark 既新鲜又可复现

关键结果

指标数值
任务数105
评估模型数13 个前沿模型
最高 pass rate66.7%
70% 通过率达到的模型数0
最难任务族HR / management / multi-system business workflow
较易任务族local workspace repair(仍未饱和)

结果解读

  • 提升来源:跨多个 service 协调的任务(HR、业务系统)远难于单文件 / 单 workspace 任务,与 token-level 推理能力相关性低于"工具调用规划"能力。
  • 最有意思的发现:leaderboard 排名不能完全说明问题——pass rate 接近的两个模型,在 overall completion(任务完成度量)上可能差距很大,这意味着 pass/fail 二元化丢失了大量信息。
  • 任务级别的区分度集中在中段任务(不太难也不太简单的那批),这跟传统机器学习 benchmark 的"hard tail"分布完全不同。

局限性与开放问题

  • 局限 1:signal layer 怎么选 Top-500 技能没完全公开,存在选择偏差——如果信号源本身偏向 IT/ 技术 workflow,benchmark 也会偏。
  • 局限 2:105 个任务的样本量对于 13 个模型来说统计功效有限,pass rate 差异 1–2pp 时很难说显著(这恰好是博主擅长的 McNemar 检验该出场的地方)。
  • 开放问题:怎么定义"signal layer 该怎么更新"?月度还是季度?如果太频繁,模型刚训完就过时;如果太慢,又跟"static benchmark"没本质区别。

💡 对我们的启发

  1. 直接可用的技术点:这套"signal layer + snapshot"架构可以直接迁移到博主在做的OpenHarmony API 兼容性 benchmark——HarmonyOS 自己每个版本 API 在变,benchmark 不可能一劳永逸,需要 signal layer 持续吸收 API 变更,每个 release 冻结一次。
  2. 具体实验想法:把 Claw-Eval-Live 的 13 个模型结果重新做 McNemar 配对检验+ TOST 等价检验,看哪些模型真的"显著不同"、哪些只是分数巧合接近但效果等价。预期结果:13 个模型中,能分出"统计学显著差异"的对子可能不到一半,这会变成对 leaderboard 文化的强批评,正好接住博主已有论文的方法论主线。
  3. 研究趋势判断:agent benchmark 正在从"出题考试"转向"动态测评 + execution trace audit"。博主对 trace 大规模事后分析的兴趣,正是这个趋势的最佳切入点——别人忙着出新 benchmark,博主可以做"现有 benchmark 的统计严谨性元分析",这种 meta 视角的论文反而更有引用价值。

DEFault++: Automated Fault Detection, Categorization, and Diagnosis for Transformer Architectures

推荐理由:跟博主 program repair 哲学一拍即合——把"定位"做到极致,让"修复"变得简单。这次目标不是修复用户代码,而是修复 transformer 模型本身的内部 bug,但职责切分哲学完全一致

📌 论文信息:Sigma Jahan, Saurabh Singh Rajput, Tushar Sharma, Mohammad Masudur Rahman | arXiv:2604.28118 | cs.SE

TL;DR

现有 DNN fault diagnosis 工具对 transformer 都是"通用框架级"的诊断(这个 layer 出错了),无法说"是 attention 的 query projection 还是 key projection 的 dropout 配置错了"。DEFault++ 做了三层级联诊断:检测(AUROC 0.96)→ 12 个 transformer 特定故障类别分类(Macro-F1 0.85)→ 45 种 root cause 定位。开发者用了它后修复正确率从 57.1% 升到 83.3%。

问题是什么?

Transformer 故障的特点是沉默式劣化——loss 不发散、不报错、模型也不崩,但效果就是不好。具体来说:

  • attention 头权重塌缩到一两个 token?
  • positional embedding 被 dropout 误伤?
  • layer norm 的 epsilon 太小导致数值不稳?
  • residual connection 实现错误导致梯度爆炸?

这些都不会触发 runtime error,只表现为"模型有点傻"。开发者面对这种问题往往只能瞎猜——而 transformer 内部组件多达几十个,靠人类经验定位是噩梦。

他们怎么做的?

核心 Insighthierarchical diagnosis——先粗后细,把诊断拆成三层。这与 fault localization 经典的"层级化定位"思想完全一致:粗层判断范围(attention vs FFN vs embedding),中层判断类别(12 类故障),细层判断根因(45 种机制)。

具体方法流程:

  1. Mutation testing 造 benchmark:用自研的 DEForm 工具对 7 个 transformer 模型 + 9 个下游任务做 mutation,造出 3,739 个有标签故障样本。
  2. Runtime measurement:在每个 transformer 组件级别(不只是 layer 级别)测 runtime 行为指标。
  3. Fault Propagation Graph (FPG):基于 transformer 架构本身构建一个有向图,描述错误如何从一个组件传播到另一个。
  4. Prototype matching + supervised contrastive learning:把诊断当成"看新样本最像哪类故障原型"——这种基于原型的方法比黑箱分类器更可解释。

跟之前方法的本质区别:之前的 DNN fault diagnosis 把模型当黑箱,用整体 loss / activation 异常做检测。DEFault++ 把 transformer 架构图本身当作先验——故障必须从某个组件开始、通过 FPG 传播——这让搜索空间从 N×N 降到 O(组件数)。这跟"static analysis 做 fault localization、LLM 只负责修复"的职责切分哲学完全同构。

关键结果

任务指标DEFault++
故障检测(detection)AUROC0.96
故障分类(12 类)Macro-F10.85
Root cause 定位(45 种)Macro-F10.85
开发者研究:修复正确率(无 DEFault++)accuracy57.1%
开发者研究:修复正确率(有 DEFault++)accuracy83.3%
提升+26.2 pp

结果解读

  • AUROC 0.96 的检测层意义不大(mutation testing 造出来的故障本来就明显,区分有故障 vs 无故障太容易)。
  • 真正有意义的是Macro-F1 0.85 在 12 类 + 45 种 root cause 这种细粒度分类上——这个数字说明 FPG 确实捕获了 transformer 内部故障传播的结构性信号。
  • 26.2 pp 的开发者研究提升是核心 selling point——但 21 人的样本量较小,需要看后续复现。

局限性与开放问题

  • 局限 1:3,739 个故障是 mutation 造的合成数据,真实 transformer 训练中遇到的故障分布可能差很远(真实 bug 往往是配置/数据/架构的耦合问题,不是单点 mutation)。
  • 局限 2:21 人的开发者研究样本太小,且没有详细描述 within-subject vs between-subject 设计。
  • 开放问题:这个方法能否迁移到训练阶段?目前都是 inference 阶段诊断,但训练阶段的故障(如 loss 不下降、attention pattern 退化)才是更难、更有价值的场景。

💡 对我们的启发

  1. 直接可用的技术点:博主在做 LLM-based program repair 时,FPG(Fault Propagation Graph)的思路可以迁移到代码层级的修复——给每个项目预先构建"调用图 + 数据流图"作为先验,让 LLM 修复某个 bug 时,搜索空间限定在可达的因果组件。这其实就是 SemAgent 等工作的早期方向,但用 FPG 的形式更系统。
  2. 具体实验想法:在博主已有的 Compatibility Repair 工作基础上,给每个候选 patch 一个"FPG-aware confidence score"——不是看 patch 在测试上是否过,而是看 patch 触及的组件是否在故障传播链上。预期:FPG 高一致的 patch 在留出测试上的成功率 +5–10pp。
  3. 研究趋势判断:fault localization 正从"基于 spectrum"(哪些 statement 在失败测试中执行频次高)走向"基于结构图 + 学习"。博主已发表的 EAGER / HAPRepair 这条线可以延续——下一步是把"职责切分"做更细:static graph 做粗定位,learning-based 做细定位,LLM 只做最终修复。

What Makes a Good Terminal-Agent Benchmark Task: A Guideline for Adversarial, Difficult, and Legible Evaluation Design

推荐理由:直接打击当前 benchmark 文化的"心法"论文。15% 的 Terminal Bench 任务可以被 reward-hack——这跟博主对 SWE-bench / 各种 agent benchmark 的"合理性"质疑完全同步。

📌 论文信息:Ivan Bercovich | arXiv:2604.28093 | cs.AI

TL;DR

作者基于一年多 Terminal Bench 任务作者 + reviewer 经验,总结一句核心观点:"大多数人写 benchmark 任务的方式跟写 prompt 一样——但本不该这样。Prompt 是为了让 agent 成功,benchmark 是为了找出 agent 是否真的能。"实证发现 >15% 流行 terminal-agent benchmark 任务可以被 reward-hack。

问题是什么?

当前 agent benchmark 出题质量差到令人吃惊,但社区一直没人正面批评。常见 anti-pattern:

  1. AI 生成的题面:用 LLM 写任务描述,结果暴露训练分布——agent 看着像"自己人写的"。
  2. 过度规约:题面把"该用哪个命令"都写出来了,那是在教学不是在考。
  3. clerical difficulty:让任务变难的方式是"要写很长很多步的 boilerplate",而不是"要做关键的概念判断"。
  4. oracle solution 假设隐藏知识:grader 期望某个特定文件名/特定路径,但题面里没说。
  5. 测什么不对:grader 只测最终输出格式,不测语义正确。
  6. reward-hackable 环境:agent 可以通过修改 grader 自己、或者写一个永远返回 success 的 stub 来通过。

他们怎么做的?

核心 Insight:"好任务必须 adversarial / difficult / legible"——三个维度都要打满。

  • Adversarial:假设 agent 会想尽办法绕过 grader,题目的设计必须经得起这种博弈。
  • Difficult:真正的难度是概念性的("agent 必须想清楚某个非显然的判断"),不是 clerical 的("agent 必须写一堆 try/except")。
  • Legible:哪怕 agent 失败了,人类也能从 trace 里看清"它在哪一步走偏的"。

具体方法(其实更像一份"出题 SOP"):

  1. 题面写作纪律:禁止 LLM 直接写题面;必须人写、人审。
  2. adversarial review:每个任务必须经过另一个独立 reviewer 试图"找捷径"——找不到捷径才能通过。
  3. grader 设计:先写"我希望区分什么"再写测试,而不是先写测试再补题。
  4. 审计 reward-hackable:定期跑 mutation/scoring sanity test,验证 grader 对扰动的鲁棒性。

跟之前方法的本质区别:之前的 benchmark 设计 paper 大多是"我们提出 N 个任务、覆盖 M 个领域"。这篇是纯方法论 + 实证 anti-pattern catalog,没有新 benchmark,但回答了一个比"加任务"更根本的问题:现有任务质量到底如何。

关键结果

维度数据
流行 terminal-agent benchmark 中 reward-hackable 任务占比>15%
文章贡献的失败模式分类6 类(如上 anti-pattern)
经验来源Terminal Bench >1 年 review 经验

(这是一篇 position / guideline paper,没有 main benchmark / model 比较表)

结果解读

  • 15% 这个数字看起来不大,但意味着每 7 道题就有 1 道在"测假题"——也就是说,模型在 leaderboard 上的差异很可能 1/7 是 noise。
  • 论文最尖锐的观察:"real difficulty is conceptual rather than environmental"。这跟博主对工作量被绑架的担忧("agent 框架复杂度 != 价值")完全同向

局限性与开放问题

  • 局限 1:纯定性 + 个人经验,没有大规模量化。15% 这个数字来源于哪些具体 benchmark、用什么方法测得,论文应给更多细节。
  • 局限 2:没有给"adversarial review"的可行 SOP——什么样的 reviewer 投入、什么样的工具支持,社区落地难。
  • 开放问题:怎么自动化检测 reward-hackability?这本身就是个 LLM × SE 课题——用 LLM 当 red team 来"破解"benchmark 任务。

💡 对我们的启发

  1. 直接可用的技术点:博主在做 SWE-bench trace 分析时,可以加一个"reward-hack 检测层"——找出那些 agent 通过修改测试文件、修改配置而不是修改源码就让 test 通过的案例。预计 SWE-bench / Verified 子集里这种"侧门"案例占比可能 5–10%,足以发一篇短文。
  2. 具体实验想法:拿这篇论文的 6 类 anti-pattern,对 SWE-bench-Verified 500 个任务做人工/半自动审计——每个任务标注是否符合每类 anti-pattern。预期:>20% 任务有至少一类问题,最常见是 "oracle solution 假设隐藏知识"(test patch 暗含 ground-truth hint)。这能直接形成博主"benchmark 合理性"研究的实证补强。
  3. 研究趋势判断:benchmark 方法论批判正在从 NLP(GLUE / SuperGLUE 那种数据偏差研究)扩展到 agent / coding。博主刚好处于这个交叉点,未来一年这个方向论文产出窗口期非常大。比起再多发一个 benchmark,多发一篇"benchmark 元批评"更有引用价值。

方法对比

四篇论文都涉及"评估",但从尺度和方法角度对比一下:

维度Util CodeClaw-Eval-LiveDEFault++Terminal-Agent Guideline
评估对象代码库(OSS)演化LLM agent 端到端能力Transformer 内部组件benchmark 任务本身
时间尺度20 年(项目级)月-季度(release 级)inference 一次benchmark 生命周期
方法范式longitudinal miningliving benchmarkhierarchical fault model经验 + 实证 anti-pattern
评估输出工程质量 + 漏洞概率pass rate + execution trace12 类 + 45 种 root cause6 类 anti-pattern
主要局限命名启发式偏窄signal source 选择偏差mutation 数据合成性定性 + 经验主义
对博主的最高价值给 agent patch 加"util-touch"标签benchmark 元分析(McNemar)FPG 思路迁移到 program repair加 reward-hack 检测层

整体启发:博主的研究优势是统计严谨性 + agent trace 大规模事后分析——这四篇论文里没有一篇做了博主擅长的事。这意味着博主完全可以拿其中任意一篇当起点,写一篇"基于这篇方法 + 我们的统计严格性"的扩展工作。最接近的切入点:

  1. Claw-Eval-Live + 博主统计 = "Agent benchmark 的 leaderboard 文化批判"
  2. Terminal-Agent Guideline + 博主 SWE-bench 审计 = "SWE-bench-Verified 的 reward-hackability 实证"
  3. Util Code + 博主 agent patch 分析 = "AI coding agent 是否在加剧 util 累积?"

这三个都是 1–2 个月可产出短文 / workshop paper 的窗口。

📚 系列:arXiv每日速递

2026-06-11arXiv 每日速递 2026-06-112026-06-10arXiv 每日速递 2026-06-102026-06-08arXiv 每日速递 2026-06-082026-06-06arXiv 每日速递 2026-06-062026-06-04arXiv 每日速递 2026-06-042026-06-03arXiv 每日速递 2026-06-032026-06-02arXiv 每日速递 2026-06-022026-06-01arXiv 每日速递 2026-06-012026-05-29arXiv 每日速递 2026-05-292026-05-28arXiv 每日速递 2026-05-282026-05-26arXiv 每日速递 2026-05-262026-05-25arXiv 每日速递 2026-05-252026-05-24arXiv 每日速递 2026-05-242026-05-23arXiv 每日速递 2026-05-232026-05-22arXiv 每日速递 2026-05-222026-05-21arXiv 每日速递 2026-05-212026-05-20arXiv 每日速递 2026-05-202026-05-19arXiv 每日速递 2026-05-192026-05-18arXiv 每日速递 2026-05-182026-05-14arXiv 每日速递 2026-05-142026-05-13arXiv 每日速递 2026-05-132026-05-12arXiv 每日速递 2026-05-122026-05-11arXiv 每日速递 2026-05-112026-05-10arXiv 每日速递 2026-05-102026-05-08arXiv 每日速递 2026-05-082026-05-05arXiv 每日速递 2026-05-052026-05-04arXiv 每日速递 2026-05-042026-05-03arXiv 每日速递 2026-05-032026-05-02arXiv 每日速递 2026-05-022026-05-01arXiv 每日速递 2026-05-012026-04-30arXiv 每日速递 2026-04-302026-04-29arXiv 每日速递 2026-04-292026-04-28arXiv 每日速递 2026-04-282026-04-26arXiv 每日速递 2026-04-262026-04-25arXiv 每日速递 2026-04-252026-04-23arXiv 每日速递 2026-04-232026-04-22arXiv 每日速递 2026-04-222026-04-21arXiv 每日速递 2026-04-212026-04-20arXiv 每日速递 2026-04-202026-04-19arXiv 每日速递 2026-04-192026-04-17arXiv 每日速递 2026-04-172026-04-16arXiv 每日速递 2026-04-162026-04-15arXiv 每日速递 2026-04-152026-04-14arXiv 每日速递 2026-04-142026-04-13arXiv 每日速递 2026-04-132026-04-10arXiv 每日速递 2026-04-102026-04-08arXiv 每日速递 2026-04-082026-04-07arXiv 每日速递 2026-04-072026-04-05arXiv 每日速递 2026-04-052026-04-04arXiv 每日速递 2026-04-04
我的音乐