当 LLM 遇上小众语言：仓颉语言微调实战

📄 发表于 EMSE 2026 | PDF

作者：Zhihao Lin, Zhaofeng Liu, Mingyi Zhou, Zihan Huang, Chi Chen, Wei Ma, Li Li

一句话概括

LLM 对主流编程语言（Python、Java）表现很好，但遇到仓颉（Cangjie）这种全新语言时会彻底懵圈。我们探索了如何用有限数据让 LLM 快速学会一门新语言。

现在的 LLM 之所以能写好 Python 代码，是因为训练数据中有海量的 Python 代码。但如果你要支持一门全新的编程语言呢？

华为的仓颉语言（Cangjie）就是这样一个案例：

这不只是仓颉的问题。任何新兴语言（Mojo、Zig 的早期阶段）、企业内部 DSL、或者小众领域语言都面临同样的困境。

在数据极度稀缺的情况下，什么微调策略最有效？

我们系统性地比较了多种策略：

这项工作不只是关于仓颉语言——它提供了一套可迁移的方法论：

做这个项目让我意识到一个有趣的悖论：LLM 看起来"什么都会"，但实际上它的能力严重依赖训练数据的分布。在数据的长尾区域，LLM 和人类新手一样无助。 如何系统性地解决这个问题，是一个值得长期关注的方向。

感谢华为仓颉团队提供的语言规范和测试用例。这是一段有趣的"教 AI 学新语言"的旅程。