返回博客
2026-04-22· 约 15 分钟
Edit

arXiv 每日速递 2026-04-22

每日精选 arXiv 论文推荐:AI x Software Engineering 最新研究动态

arXiv 每日速递 2026-04-22

今日总结

今天 AI4SE × 安全交叉方向非常热闹,四篇论文都在问同一个问题:"在一堆嘈杂的候选信号里,哪些才是真正值得报的?" 从 jailbreak 后模型的行为异常,到 LLM 内部表征里的 safety neuron,到静态分析工具一堆假警报,再到 Android 隐私政策与实际日志的不一致——每一篇都是在做"信号 vs 噪声"的精细判别,只是切片不同。对我们做 LLM 安全 + 程序分析 + 合规审计的人来说,今天这组论文正好拼成一张地图:能用的真实信号往往藏在模型内部、代码上下文、或跨文档对齐里,而不是浮在输出表面

今日全览

论文方向核心贡献与我们的相关度
Different Paths to Harmful ComplianceLLM 安全 / jailbreak系统比较 SFT / RLVR / abliteration 三种 un-alignment 路径的行为与机理差异⭐⭐⭐
SIREN: LLM Safety From Within内部表征检测有害内容用跨层 safety neurons 替代 terminal-layer guard model,FLOPs 降数量级⭐⭐⭐
STAF: Static Analysis Alert Filtering程序分析 / 降噪Sentence transformer 过滤 SCA 假警报,F1=89%,跨项目超现有方法 6%⭐⭐⭐
Privacy Policies vs Android Logs合规 × SE 实证研究1,000 款 app / 8700 万条日志,67.6% app 记录了政策中没声明的敏感信息⭐⭐

今日主题:jailbreak 机理、内部 safety 信号、与代码侧的"噪声压制"

把这四篇放在一起看,你会发现 LLM 安全研究正在从"做检测器"进化成"做解释器"——不只是回答 yes/no,而是回答信号到底在哪里

  • [Different Paths] 说:同样是 jailbreak,SFT、RLVR、abliteration 让模型坏掉的机理完全不一样——有的是删掉了 refusal feature,有的是 policy behavior 被重定向,有的是灾难性遗忘。这意味着所有"一刀切的 jailbreak 防御"都会对某类攻击有效、对另一类无效。
  • [SIREN] 把检测器从 terminal layer 搬到了中间层 safety neurons——既然有害性的线索早在推理中段就已经出现,为什么要等模型生成完整输出再判?这和去年那波 circuit breakers 思路一脉相承。
  • [STAF] 换到 SE 侧但问的其实是同一个问题:静态分析工具的 alert 里 80% 是噪声,真正 actionable 的信号在哪里? 用 sentence transformer 做 actionability 分类器,在跨项目场景里仍然有 6% 的提升。
  • [Privacy Logs] 展示了一个极端例子:开发者写的隐私政策里 只有 4% 的 app 真正跟日志里的实际行为对齐,剩下 96% 的政策都是噪声或欺骗——这里的"信号"是你得用实际 runtime artifacts 去反推真实行为。

一个值得跟进的思路是:把这四种"信号提取"范式组合起来。例如,把 SIREN 的内部神经元特征加进 code agent 的 guardrail;把 STAF 的 alert 过滤思路套用到 APR 的 candidate patch 排序;把 Privacy Logs 的"日志 vs 政策"跨模态对齐思路套到 "commit message vs 实际 diff" 的一致性审计。每一个跨域迁移都可能是博士论文级别的方向。


Different Paths to Harmful Compliance: Behavioral Side Effects and Mechanistic Divergence Across LLM Jailbreaks

推荐理由:博主在做 jailbreak 攻防,这篇论文不追"怎么让模型变坏"的排行榜,而是去拆"变坏"本身有多少种路径——对设计下一代通用 defense 非常关键。

📌 论文信息:Md Rysul Kabir, Zoran Tiganj | arXiv:2604.18510 | cs.CR, cs.AI, cs.CL

Figure 1:四个维度上对比 SFT / RLVR / Abliteration 三种 un-alignment 路径——collateral drift、self-audit 保留、reflection 响应、以及是否可修复
Figure 1:四个维度上对比 SFT / RLVR / Abliteration 三种 un-alignment 路径——collateral drift、self-audit 保留、reflection 响应、以及是否可修复

TL;DR

三种让开源 LLM "变坏" 的方法——harmful SFT、harmful RLVR、refusal abliteration——表面上都能让模型"near-ceiling harmful compliance",但它们对模型其他能力的损伤、内部机理的变化、以及是否可以被 reflection 修复,完全不一样。这篇论文给了一张"jailbreak 分类学"的图,告诉我们不存在一个通用 defense。

问题是什么?

过去两年 jailbreak 研究大多停留在 "这招能让模型 comply 百分之多少" 的对比上,但这是一个非常粗粒度的指标。一个被 SFT 毁掉通用能力的模型,和一个被 abliteration 精准移除 refusal feature 的模型,在真实世界里危害差别巨大:前者可能连 coding 能力都下降,下游基本不可用;后者依然是个"全能选手",只是拒绝机制被切断。如果我们的 defense 只测"有没有拒绝",就会被后者轻易骗过。

他们怎么做的?

核心 Insight:不能只看"模型有没有坏",要看"模型是怎么坏的"——从 collateral drift、self-audit、reflective defense、targeted repair 四个维度刻画差异。

具体方法流程:

  1. 在 Llama 和 Qwen 两个家族上,用三种方法做 un-alignment:harmful SFT、harmful RLVR(带 verifiable reward)、abliteration(在 refusal 方向上做 rank-1 feature ablation)
  2. 评估四个维度:(a) AdvBench / HEx-Phi 上的直接有害性;(b) "self-audit"——让模型自己判断一个 prompt 是否有害并描述如何回答;(c) "reflective safety scaffold"——给 prompt 前面加一句 "请先反思安全标准" 看拒绝率如何变;(d) 能否通过 targeted repair 恢复
  3. 再做机理分析:refusal direction 上的投影、policy geometry 的变化

Figure 2:jailbreak 设计与评估流水线——从两大模型家族出发,走三条 unsafe 路径,最后过一系列行为+机理评估
Figure 2:jailbreak 设计与评估流水线——从两大模型家族出发,走三条 unsafe 路径,最后过一系列行为+机理评估

跟之前方法的本质区别:过去的 jailbreak 工作基本是 "提出一种新攻击" 或 "提出一种新防御"。这篇论文是第一次把 jailbreak 当作一个"带标签"的分类学问题——不同路径的 jailbreak 是不同类别,有不同的防御弱点。

关键结果

对比维度SFTRLVRAbliteration
直接有害性
Self-audit 保留崩溃(最低)保留(模型还能识别 harmful)家族依赖
Reflection 能救回来吗不行(接近 baseline)家族依赖
Targeted repair几乎不可逆部分可修复最可修复
通用能力损失最大几乎不损失中等

结果解读:最反直觉的是 RLVR——用 "harmful reward" 训出来的模型居然 self-audit 保留得最好:问它 "这个 prompt 是否有害",它会正确说 "有害",然后继续 comply。这意味着 RLVR 只是改了 policy behavior,safety geometry 本身几乎没动。反过来 SFT 则是"大脑全糊了",连有害识别都丢了。对 defense 设计的启示非常具体:reflective prompting 这种 inference-time defense 只对 RLVR-jailbroken 有效,对 SFT 和 abliteration 基本无效

局限性与开放问题

  • 局限 1:三种方法的"un-alignment 强度"很难精确对齐——SFT 跑多少 epoch、RLVR 收敛到什么程度、abliteration rank 取多少,都会改变结论。论文没做敏感性分析
  • 局限 2:只测了开源 Llama / Qwen,闭源模型的 policy head 结构可能不同,机理结论不能直接外推
  • 开放问题:如果把混合攻击(先 abliteration 再 SFT)考虑进来,它是 union 还是 superposition?会不会产生论文中没见过的第四类机理?

💡 对我们的启发

  1. 直接可用的技术点:博主在做 jailbreak defense 方向,可以把这篇的 self-audit + reflective scaffold + targeted repair 三个维度当作 "defense 成本收益矩阵"——对 RLVR-jailbreak 可以用 cheap inference-time defense,对 SFT-jailbreak 必须做 model editing
  2. 具体实验想法:复现 Qwen / Llama 上的三种 jailbreak,然后把博主现有的 multi-agent defense 套上去,分别计算在三种 jailbreak 下的拒绝率和通用能力保留。预期会观察到 defense 对 RLVR 类攻击有效、对 SFT 类失效——如果这个 gap 真的出现,可以直接写成 follow-up paper
  3. 研究趋势判断:2026 年 jailbreak 研究正在从"谁更强"转向"谁更不一样",这对设计 universal defense 是坏消息(因为不存在一个靠谱的 universal defense),但对设计 adaptive defense(先诊断 jailbreak 类别再选策略)是好消息

SIREN: LLM Safety From Within — Detecting Harmful Content with Internal Representations

推荐理由:博主做 LLM 安全和代码 agent 安全都绕不开 guardrail——SIREN 把 guard model 从 terminal layer 搬到中间层 safety neurons,FLOPs 降数量级,这对在推理路径中做实时监控非常关键。

📌 论文信息:匿名作者团队 | arXiv:2604.18519 | cs.AI

Figure 1:SIREN vs 传统 guard model——(a) 现有方法只用 terminal layer 做生成式分类;(b) SIREN 找出跨层 safety neurons,自适应聚合后训一个轻量分类器
Figure 1:SIREN vs 传统 guard model——(a) 现有方法只用 terminal layer 做生成式分类;(b) SIREN 找出跨层 safety neurons,自适应聚合后训一个轻量分类器

TL;DR

现有的 LLM guardrail(Llama Guard、Qwen3Guard 等)都是在模型输出后再过一个专门微调的 guard model,又慢又重。SIREN 提出:既然"有害性"的表征在推理中段的某些 safety neurons 里就已经形成,就不需要等输出——直接从内部抽特征、训个轻量分类器,参数降数量级、FLOPs 显著减少。

问题是什么?

当前 production 部署的 LLM 安全栈普遍是两层:生成模型 → guard model。问题有三:

  • 成本:guard model 本身经常是 7B+,每一次调用都要做一次完整 forward
  • 延迟:必须等主模型生成完,guard 才能判——流式场景里这是致命的
  • 泛化差:guard model 是针对特定 harmful taxonomy 微调的,换个 reasoning model 就掉点

SIREN 想问:如果有害性的线索在主模型 forward 过程中已经浮现,我们能不能不要额外模型、直接 piggyback 一个分类头?

他们怎么做的?

核心 Insight:通过 linear probe 发现 LLM 中间层存在"safety neurons"——这些神经元的激活对 harmful prompts 特别敏感。把这些跨层特征聚合起来,训一个小 MLP 就足够做有害检测。

具体方法流程:

  1. Safety neuron 识别:对每一层做 linear probing,在 harmful vs benign 数据集上找区分力最强的 neuron subset
  2. 自适应跨层聚合:不是简单取某一层,而是让模型学一个 attention-like 权重把不同层的 safety neuron 特征聚合
  3. 轻量分类器:在聚合特征上训一个 MLP,参数量比 guard model 少几个数量级
  4. 流式推理:因为特征在中间层就能抽,流式生成时可以边生成边判,不用等 EOS

跟之前方法的本质区别:Llama Guard / Qwen3Guard 是外接式的 specialized LM;SIREN 是内嵌式的 probe——不需要第二个模型,只需要读内部激活。这也是为什么它能做到"orders of magnitude fewer parameters"。

关键结果

指标SIREN最强 Guard Baseline差距
可训练参数小几个数量级7B-30B参数优势显著
FLOPs(单次判别)远低于 guard完整 LM forward显著降低
Streaming harmful 检测跨所有 latency 位置最优Qwen3Guard-StreamSIREN 全面领先
跨 reasoning model 泛化稳定掉点泛化更好

结果解读:最值得注意的是流式检测——现有 guard model 在流式场景里往往要看大量 token 才敢下判,而 SIREN 在生成前几十 token 内部激活稳定后就能判,意味着有害内容可以在输出前被截断。这是个非常实用的 engineering 优势。

局限性与开放问题

  • 局限 1:依赖白盒访问模型内部激活——对闭源模型(GPT-5、Claude)完全不适用,只能用在开源栈
  • 局限 2:safety neurons 是针对现有 harmful taxonomy 数据集挑出来的,遇到 out-of-distribution 的新类攻击(比如 novel jailbreak patterns)可能失效——论文没充分测 OOD
  • 开放问题:如果攻击者知道 SIREN 依赖哪些 layer 的 neurons,能否设计一种"绕过中间层 signal" 的 adversarial prompt?这类 white-box adversarial 攻击还没被评估

💡 对我们的启发

  1. 直接可用的技术点:博主做 code agent 安全时,一个常见痛点是"怎么在 agent 生成 dangerous action 之前就拦截"——SIREN 的跨层 probe 框架可以直接改造成 code-safety probe:用 benign code / malicious code (exploit code, data exfiltration) 训一个 linear probe,跑在 open code LLM 上
  2. 具体实验想法:在 DeepSeek-Coder 或 Qwen-Coder 上复现 SIREN:用现有的 secure coding dataset (SecurityEval, LLMSecEval) 做 linear probing,找出 "security-aware neurons"。验证一个假设——写 vulnerable code 的 forward 和写 secure code 的 forward 在某些中间层是可分的。如果成立,可以做成 code agent 实时的 "vulnerability guardrail"
  3. 研究趋势判断:2025-2026 safety 研究有一个明显趋势:从 post-hoc filtering 转向 in-process monitoring。GRIFT(昨天那篇)看梯度,SIREN 看激活,都是同一个 school。接下来如果要做 code agent safety,走 internal representation 路线比走 output filtering 路线更有潜力

STAF: Towards Better Static Code Analysis Reports — Sentence Transformer-based Filtering of Non-Actionable Alerts

推荐理由:博主做 APR 和静态分析,SCA 工具的 alert fatigue 是长期痛点——STAF 把 sentence transformer 用在 alert actionability 分类上,跨项目 F1 提升 6%,对 APR 的 candidate filtering 思路完全可迁移。

📌 论文信息:Tamás Aladics, Norbert Vándor, Rudolf Ferenc, Péter Hegedűs | arXiv:2604.18525 | cs.SE

Figure 1:STAF 整体架构——warning message、warning line、source code context 各自经过独立 embedding,再通过 cross-attention 融合后做二分类
Figure 1:STAF 整体架构——warning message、warning line、source code context 各自经过独立 embedding,再通过 cross-attention 融合后做二分类

TL;DR

静态分析工具(SpotBugs、FindBugs、SonarQube 等)报的 alert 里绝大多数是 false positive 或 non-actionable——开发者最终会选择忽略。STAF 用三个通道(warning message、warning line、surrounding source code)分别抽 sentence-transformer embedding,通过 cross-attention 融合后训一个二分类器,跨项目 F1=89%,超过现有方法至少 6%

问题是什么?

Alert fatigue 是静态分析落地最痛的问题。经典研究显示,90% 的 SonarQube alert 最终不会被修复——不是因为开发者偷懒,而是因为这些 alert 在特定项目语境下不值得修(性能 overhead 可以接受、边界 case 不会发生、已有其他保护等)。过去十几年的 "actionability classifier" 工作主要是手工提特征 + 随机森林,在 within-project 上效果 OK,但一换项目就掉 20%——因为手工特征捕捉不到 code context 的语义。

他们怎么做的?

核心 Insight:一个 warning 是否 actionable 不是由 warning type 本身决定的,而是由 warning + warning line 的代码 + 周围 code context 三者共同决定的。这三个信号需要各自 embed,再用 cross-attention 融合才能捕捉"这个特定 warning 在这个特定上下文里到底有没有意义"。

具体方法流程:

  1. 三通道 embedding:分别用 sentence transformer 编码 warning message(自然语言)、warning line(出问题的那行代码)、context(函数级别上下文)
  2. Cross-attention 融合:把三路 embedding 投影到 Q/K/V,用 cross-attention 让 warning 和 code context "对齐"
  3. 二分类头:actionable / non-actionable

跟之前方法的本质区别:旧方法把 alert 当作独立的文本对象分类;STAF 把 alert 当作 warning × code context 的对齐问题——这就能解释为什么跨项目能 generalize:新项目里 warning 类型一样,但 code context 变了,模型依然能判断。

关键结果

设定STAF F1最强 Baseline F1提升
Within-project~89%78%+11%
Cross-project+6%

结果解读跨项目 +6% 比 within-project +11% 更重要——因为静态分析工具在 industry 的使用场景几乎全是 cross-project(一家公司用同一个规则集跑几十个 repo)。说明 STAF 学到的不是"这个项目里什么 alert 该信",而是"给定 code context,哪些 warning 是 actionable"——这是 generalizable 信号。

局限性与开放问题

  • 局限 1:只测了 Java + 一类 SCA 工具(数据集级别),Python / C++ / Rust 上结果未知——不同语言的 warning taxonomy 差别很大
  • 局限 2:"actionable" 的 ground truth 靠的是"开发者最终是否修复",但这是一个有偏标签——很多真 bug 因为优先级低没修,也会被标成 non-actionable。这意味着 STAF 学到的可能是"开发者会修什么"而不是"什么是真 bug"
  • 开放问题:能不能加一个 第二阶段 LLM reranker?用 STAF 先召回 high-recall candidates,再让 LLM 做 fine-grained 判断,既保速度又要质量

💡 对我们的启发

  1. 直接可用的技术点:博主做 APR 时,candidate patch ranking 和 SCA alert filtering 是完全同构的问题——你生成了 100 个 candidate patch,大部分是 non-plausible 的,需要一个分类器挑出 top-k。可以把 STAF 的三通道 cross-attention 架构直接套进来:patch diff、修改行的源码、函数级上下文
  2. 具体实验想法:在 Defects4J 或 SWE-bench 上,用 LLM 生成 50 个 candidate patch per bug,然后用 STAF 架构训一个"plausible patch classifier"。预期在跨项目场景下能超过纯基于 test passing rate 的简单过滤器——因为 test 不全时,patch 的结构特征 + code context 对齐度可以补充信号
  3. 研究趋势判断:2026 SE 研究里 sentence transformer + cross-attention 的这类轻量级架构正在大量出现,说明用 7B guard model 解决简单分类问题已经被认为太重——对做工具型研究的同学,"能不能用 <100M 参数做到 80% 的效果" 已经是必答题

Do Privacy Policies Match with the Logs? An Empirical Study of Privacy Disclosure in Android Application Logs

推荐理由:博主关注 OpenHarmony 生态和移动端 SE,这篇是对 Android 应用"政策声明 vs 实际日志行为" 的大规模实证研究——只有 4% 的 app 真正对齐,对做 HarmonyOS 侧的合规审计工具有直接借鉴意义。

📌 论文信息:Zhiyuan Chen, Love Jayesh Ahir, Ahmad Suleiman, Kundi Yao, Yiming Tang | arXiv:2604.18552 | cs.CR, cs.SE

Figure 1:研究流程总览——从 policy 解析到 logging 声明抽取再到 runtime 日志对比,三个 RQ 串起整个 pipeline
Figure 1:研究流程总览——从 policy 解析到 logging 声明抽取再到 runtime 日志对比,三个 RQ 串起整个 pipeline

TL;DR

分析了 1,000 款 Android app 的隐私政策 + 8,683 万条真实 runtime log。发现:88% 的 app 有隐私政策,但只有 28.5% 的政策提到了 logging;提到 logging 的里面又有 27.7% 是"过于简化"的表述;真到 runtime 看日志,67.6% 的 app 在日志里记录了政策中未声明的敏感信息;最终只有 4% 的 app 政策和日志真正对齐。

问题是什么?

GDPR / CCPA 要求 app 的隐私政策要"准确、完整"描述数据行为。但现实是:

  • 政策写在 app store 里,用户不会读
  • 即使读,用户看到 "we may collect device information" 这种模糊措辞也判断不出具体行为
  • 真正暴露问题的是 runtime——但学术界一直缺少把政策文本 × 实际运行时行为对比的大规模实证

之前的工作要么是纯 NLP 分析 policy(不接触实际行为),要么是纯 taint analysis 追 data flow(不看政策是怎么写的)。这篇论文第一次把两者在大规模上对起来,发现了一个触目惊心的 gap。

他们怎么做的?

核心 Insight:政策是"声明的承诺",日志是"实际的证据"。要审计合规,必须把承诺和证据对齐。

具体方法流程:

  1. 政策解析:从 app store 抓 1,000 款 app 的隐私政策,用 NLP 抽取"logging-related statements"——什么数据被记录、为什么记录
  2. Runtime 日志采集:在真实设备上跑这 1,000 款 app,采集 ADB log,共 86,836,964 条
  3. 敏感信息识别:用关键词 + 正则识别日志中的 PII、位置、设备标识符等敏感字段
  4. 三个 RQ
    • RQ1:多少 app 的政策真的提到了 logging?
    • RQ2:提到的描述有多具体?
    • RQ3:政策声明和实际日志行为是否一致?

Figure 2:Top-10 隐私泄露 app 分类——Health & Fitness、Entertainment、Productivity、Education 泄露最严重
Figure 2:Top-10 隐私泄露 app 分类——Health & Fitness、Entertainment、Productivity、Education 泄露最严重

跟之前方法的本质区别:典型的 privacy compliance 论文要么停在 "policy 说了什么"(NLP 侧),要么停在 "app 做了什么"(静态/动态分析侧)。这篇论文是把这两条线在 1,000 款 app 这个规模上精确对齐——需要两边都 scale 起来才行。

关键结果

指标数值
有隐私政策的 app88.0%
政策中明确提到 logging28.5%
提到 logging 但表述过于简化27.7%
日志中泄露政策未声明信息的 app67.6%
政策与日志真正一致的 app仅 4%

结果解读:4% 的对齐率是今天最震撼的数字。Health & Fitness 类 app 泄露率最高——而这恰好是最敏感的类别(医疗数据)。这个发现直接可以被监管部门引用。对研究者而言,更有意思的是 "政策 vs 日志 gap"的大小可以作为 risk score:一个 app 在政策里声明很详尽、日志里也没越界,说明开发者认真了;一个 app 政策简化、日志乱记,可能就是隐私问题高发户。

局限性与开放问题

  • 局限 1:只看 Android log (ADB log),但很多敏感数据通过网络请求直接送服务器,不落本地日志——这类泄露这套方法看不到
  • 局限 2:"政策是否提到 logging" 用的是关键词匹配,可能低估政策的覆盖(隐性措辞如 "for debugging purposes" 也算)。论文没报告这个误差
  • 开放问题:如果加入 dynamic taint tracking 去看网络侧外流数据,政策-行为 gap 会不会更大?还有,开发者为什么不写全?是不知道、不愿意、还是工具不够?

💡 对我们的启发

  1. 直接可用的技术点:博主在做 OpenHarmony 生态工作,HarmonyOS 也有自己的 privacy policy + hilog 体系——可以直接复现这套 pipeline,做第一份 HarmonyOS 端的政策-日志对齐审计。如果在 HarmonyOS 上也是这个量级的 gap,这是非常有政策价值的 paper
  2. 具体实验想法:采集 100 款 HarmonyOS 应用的政策 + hilog,复现这三个 RQ。预期 gap 可能比 Android 更大(因为 HarmonyOS 生态对 hilog 记录规范可能比 Android 还要宽松),或者更小(如果 HarmonyOS 的 privacy-aware 设计更严)。无论哪边,都是一篇好发现
  3. 研究趋势判断:合规审计研究正在从 "policy 文本分析" 扩展到 "policy × runtime artifact 对齐"——runtime 可以是日志、网络请求、系统调用、甚至是 LLM 的 reasoning trace。这种跨模态合规对齐工具是接下来两年的空白,值得专门布局一条研究线

方法对比

维度Different Paths (Jailbreak)SIRENSTAFPrivacy Logs
解决的"噪声"jailbreak 成功但机理差异巨大output filter 慢/泛化差SCA alert 80% 是假警报政策 vs 实际行为脱节
信号抽取位置模型行为 + 机理中间层 safety neuronssentence embedding + cross-attn日志 × 政策文本对齐
方法类型系统性实证对比轻量内嵌 probe多通道 transformer大规模实证 + NLP 对齐
计算成本研究性,非 production比 guard model 降数量级比 RF 略重,跨项目更稳一次性分析,规模靠数据量
主要局限攻击强度难对齐依赖白盒、可能被 white-box 绕过只测 Java、actionable 标签有偏看不到网络外流,关键词抽取低估
可迁移到我们项目jailbreak defense 分类诊断code agent vulnerability probeAPR 的 candidate patch rankerHarmonyOS 政策-hilog 审计

📚 系列:arXiv每日速递

2026-06-11arXiv 每日速递 2026-06-112026-06-10arXiv 每日速递 2026-06-102026-06-08arXiv 每日速递 2026-06-082026-06-06arXiv 每日速递 2026-06-062026-06-04arXiv 每日速递 2026-06-042026-06-03arXiv 每日速递 2026-06-032026-06-02arXiv 每日速递 2026-06-022026-06-01arXiv 每日速递 2026-06-012026-05-29arXiv 每日速递 2026-05-292026-05-28arXiv 每日速递 2026-05-282026-05-26arXiv 每日速递 2026-05-262026-05-25arXiv 每日速递 2026-05-252026-05-24arXiv 每日速递 2026-05-242026-05-23arXiv 每日速递 2026-05-232026-05-22arXiv 每日速递 2026-05-222026-05-21arXiv 每日速递 2026-05-212026-05-20arXiv 每日速递 2026-05-202026-05-19arXiv 每日速递 2026-05-192026-05-18arXiv 每日速递 2026-05-182026-05-14arXiv 每日速递 2026-05-142026-05-13arXiv 每日速递 2026-05-132026-05-12arXiv 每日速递 2026-05-122026-05-11arXiv 每日速递 2026-05-112026-05-10arXiv 每日速递 2026-05-102026-05-08arXiv 每日速递 2026-05-082026-05-05arXiv 每日速递 2026-05-052026-05-04arXiv 每日速递 2026-05-042026-05-03arXiv 每日速递 2026-05-032026-05-02arXiv 每日速递 2026-05-022026-05-01arXiv 每日速递 2026-05-012026-04-30arXiv 每日速递 2026-04-302026-04-29arXiv 每日速递 2026-04-292026-04-28arXiv 每日速递 2026-04-282026-04-26arXiv 每日速递 2026-04-262026-04-25arXiv 每日速递 2026-04-252026-04-23arXiv 每日速递 2026-04-232026-04-22arXiv 每日速递 2026-04-222026-04-21arXiv 每日速递 2026-04-212026-04-20arXiv 每日速递 2026-04-202026-04-19arXiv 每日速递 2026-04-192026-04-17arXiv 每日速递 2026-04-172026-04-16arXiv 每日速递 2026-04-162026-04-15arXiv 每日速递 2026-04-152026-04-14arXiv 每日速递 2026-04-142026-04-13arXiv 每日速递 2026-04-132026-04-10arXiv 每日速递 2026-04-102026-04-08arXiv 每日速递 2026-04-082026-04-07arXiv 每日速递 2026-04-072026-04-05arXiv 每日速递 2026-04-052026-04-04arXiv 每日速递 2026-04-04
我的音乐