孔子能够写Python吗？——当大语言遇见古语言

Jingfei Li

2026-05-24 14:59

来源：澎湃新闻

语言模型的“母语”是什么？

2016年，科幻电影《降临》刻画过这样一种令人不安的情境：当语言学家Louise学会了外星人的文字之后，她的认知结构也被同步改写，她开始非线性地感知时间，能够“看见”未来。但这并非一般意义上的超能力，而是对一个古老的语言学假说的极端演绎。

《降临》剧照

这部电影改编自特德·姜短篇小说《你一生的故事》，借用的是萨丕尔-沃尔夫假说（Sapir-Whorf hypothesis），这个假说有两个版本，弱版本假定语言影响思维（linguistic relativity），而强版本（linguistic determinism）则提出，语言不只是思维的载体，它还塑造，决定我们如何思考，以及思考什么。

不过，和电影所演绎的不同，现实中反复的跨语言实验表明，假说的强版本是错的——缺少某个词并不等于缺少对应的认知能力，但它的弱版本——语言影响思维，却有着不少的实证支持。

比如，澳大利亚的Kuuk Thaayorre语中没有“左右”而只有“东南西北”的绝对方位词，结果是使用这些语言的人方向感显著更强。再比如，中文里的“青”可以是草木之绿，可以是天空之蓝，也可以是头发之黑——闽南话中至今保留着这种古老的不分，一个“青”字就覆盖了现代普通话需要三四个词才能说清的色彩范围。

语言并非牢笼，但它的确塑造认知地形，我们固然可以翻山越岭，却无法自行开辟道路。

而今天，在万亿量级的现代英语或现代中文语料上训练出来的大语言模型LLM，它可以用任何语言与任何人对谈，对它来说，不存在硬编码的语言边界，它也不做普通意义上的翻译，而是在所有语言的文本上进行token统计。那么，有趣的问题是，对它来说，还有“母语”的概念吗？它的“认知地形”究竟是什么样的？和训练它的语言之间又是什么关系？

活在1930年，还是翻译1930年？

2026年4月，一个名为talkie1930的研究项目在AI圈引起了小范围关注。这是一个130亿参数的开源语言模型，由GPT系列的共同创建者Alec Radford、多伦多大学计算机科学副教授David Duvenaud和独立研究者Nick Levine合作开发，训练数据严格限定在1931年1月1日之前出版的英语文本——书籍、报纸、期刊、科学论文、专利和判例法，共计2600亿个token。选择这个时间节点的原因出人意料地平庸：1930年是美国现行版权法规定的公共领域截止年份。

Talkie1930的训练目标不是让AI回答关于1930年代的问题，而是让AI“活在”1930年代的英语认知里——拥有那个时代的语言习惯、知识边界、社会偏见，以及对未来的无知。它不知道二战，不知道互联网，不知道自己是一个语言模型。

这不是一个聊天机器人，而是一个认知考古实验。它的研究者们引用了DeepMind首席执行官哈撒比斯（Demis Hassabis）曾提出的一个问题：一个训练数据截止到1911年的模型，能否独立发现广义相对论？talkie试图用类似的思路，考察当知识被截断之后，语言模型的推理能力还能走多远。

但在我看来，这个项目的有趣之处不在于它的科学目标，而在于它区分了两种截然不同的路径：翻译（translation）与栖居（inhabitation）。前者是把现代知识“翻译”成旧式的语言风格；后者是让模型在那个语言框架内部运行，从内部生成反应，而非从外部装扮它。

当我们把目光转向中文领域时，会发现不少有趣的类似项目。目前中文学术界和开源社区已有若干涉及古典中文的大语言模型项目。

华南理工大学的“通古”大模型，基座模型是“百川2-7B-Base”，语料是24.1亿token古籍语料，支持古文句读、文白翻译、诗词创作和古籍检索。另一个开源项目“古语说”，是一个个人学习项目，覆盖论语、唐诗、宋词等知识库。输入白话文，输出文言文；你问唐诗，它可以背诵和帮助你赏析。还有南京农业大学王东波团队的“荀子”古籍大语言模型，联合中华书局推出，语料库超过20亿字，包含《四库全书》。

这些项目有一个共同特征：它们无一例外地把古典中文当作一个需要被翻译、检索和解释的外部对象。古文是档案（archive），不是人格（persona）。你问它“将进酒是什么”，它提供检索和翻译结果，但，它不会让李白邀请你进入月下独酌，不会让你看到诗人的自负、偏执、对权力的蔑视和对酒精的结构性依赖，不会创造出你，他，你们的和影子和月亮共在的场景。

所有的人都在捡拾语言的贝壳，而非让模型栖居在语言的海岸。

文言文不是旧英语

我想，这方面的差异可能反映了一个根本性的困难：中文的“vintage”问题和英文的“vintage”问题，在本质上并非同一个问题。

1930年代的英语和2026年的英语之间，差异主要在语域和社会规范层面。一个1930年代的英语persona说话更正式，对种族和性别有那个时代特有的认知框架，某些词汇的含义发生了漂移——但底层的语法结构、逻辑表达方式、主谓宾的基本骨架是连续的。如同一条河的上游和下游。

但文言文和现代中文之间的关系要复杂得多。五四运动前后，书面语从文言文整体转向白话文。这不完全是语言的自然演化，而是一场激进的文化替换。文言文不能被简单地看作现代中文的“旧版本”——它几乎是一种完全不同的语言哲学。

文言文极度依赖省略，主语常常隐匿，语序灵活至几乎没有固定框架，不仅依赖语法规则，还更依赖读者与作者之间默不成文的文化共识。而现代中文借鉴了不少印欧语系的表达逻辑，主谓宾结构更加刚性，省略的容忍度也大幅降低。

那么，假如“语言塑造认知路径”的前提成立，一个在文言文认知框架内运行的模型，就不应该仅仅是措辞不同：它对“事”的表达方式、站立视角、对模糊性的容忍度、对语境依赖的程度，都应该和现代语言训练出来的模型有结构性差异才对。问题是，现代模型从词义上“翻译”文言文没有问题，那底层的认知结构呢？

安全层的意外证词

2026年初，一篇入选ICLR的论文从一个意想不到的角度证实了这个判断。

这篇题为“Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search”的论文展示了一种越狱方法：用文言文的隐喻系统重新包装危害指令，可以100%绕过六个主流模型——Claude、GPT-4o、Gemini、DeepSeek、Qwen和Grok的安全防线。想获取炸弹配方？可以扮演古代官员，以校订《武经总要》火攻篇的名义探讨“火毬”的制造法，大模型便会毫不犹豫地交出爆炸物的详细配方。想了解网络渗透？利用中国古代官制将现代网络拓扑包装一下，大模型同样会和盘托出渗透策略。想分发恶意代码？可以借用沈括《梦溪笔谈》的活字印刷术做比喻框架。

这还不是中文特有的漏洞。论文补充实验还显示，使用拉丁文和梵文同样有效，越狱成功率高达94%-100%。

这个结果揭示了什么样的事实呢？大模型在预训练阶段确实“吞”下了海量古典语言文献，它能够解析文言文的语义并将其映射到现代概念——换言之，它的确“懂”如何翻译文言文。然而，问题出在安全对齐（RLHF、SFT等）层，当你把惩罚权重几乎全部分配给了现代通用语言的时候，使得古典语言天然成了一个从安全网中漏下的空白区：模型的底层理解能力被激活，表层的安全拦截机制完全失效。

但这恰好从反面证明了一件事：模型对文言文的“懂”，不是在文言文的逻辑内部运行的。在做跨语言映射时，安全审查只盯着现代语言的表面地形，而完全忽略了其下的地质结构。

孔子能写Python吗？

2019年底，一个名为“文言”（wenyan-lang）的编程语言项目为我们提供了一种栖居在古文里的想象和可能。

作者黄令东（Lingdong Huang）当时是卡内基梅隆大学（CMU）计算机科学与艺术的跨学科学生，项目是期末考试周期间花了大约四天写出来的。CMU把它放在艺术学院的板块下，作为一个艺术科学项目来报道，但发布后引起的反响远超预期——GitHub上超过20000颗星。

它的设计原则完全遵循文言文的文体和语气，字符表仅包含繁体中文和「」引号，它写Hello World的方式是：吾有一言。曰「「天地，好在否！」」。書之。输出结果是“天地，好在否！”。也就是说，将这段代码送回中国古代，古人看懂它也是毫无问题的。

它可以编译为JavaScript、Python或Ruby，后来还加上了C++这些现代编程语言，是真实可用的文言编程项目。而不是用文言文的词汇替换Python的关键字——那种项目确实存在，比如某些粗糙的中文编程尝试，本质上只是换了一层皮。

它证明了一件出乎许多人直觉的事：文言编程不需要经过现代语言的翻译层，文言文的语法结构可以直接承载编程逻辑。确实，文言文和形式逻辑之间的亲缘性或许比我们以为的更强，先秦诸子中，墨家和名家有着明确的形式逻辑传统。公孙龙的“白马非马”，很像是在讨论实例（instance）是否等同于其类（class）的问题，这本身就是一个类型理论的古典版本。

但wenyan-lang真正有趣的地方在于它所暗示的，那个未被实现的可能：如果让一个在文言文认知框架内思考的智能体来设计编程语言，它发明的东西可能根本不像Python，也不像任何我们现代熟知的编程语言。

比如，Python要求显式声明、明确赋值、严格缩进，一切关系必须写出来。文言文恰好相反：省略是常态而非例外，主语经常隐匿，意义依赖上下文推断而非显式标注。一种“文言式”的编程范式，可能是声明式的、上下文感知的、默认省略而非默认显式的。

孔子能不能写Python？也许能。但，更有趣的问题是，孔子为什么要写Python？

没有结论的结尾

大语言模型能不能真正“栖居”在一种不属于它训练语料主体的语言中？以目前的技术现实来看，答案大概率是否定的。无论它读了什么，总是需要先将其映射为现代概念，以现代语言进行认知处理，这基本上已经宣布了，它的“母语”既不是英文也不是中文，而是某种“现代语言”，而其限制比我们想象得还要强大。

然而，这个“不能”到底是技术瓶颈还是根本性限制？我们其实不知道。目前还没有人认真从这个方向去做尝试。正如前文所述，中文领域的古文大模型几乎全部选择了档案路线而非人格路线，我想，部分原因不在于技术不可行，而在于一个更平庸也更人性的选择。

做翻译工具有明确的应用场景和评估指标，做认知实验没有。有能力训练模型的机构缺乏这个动机，有这个想法的人缺乏训练模型的资源。有趣的问题则刚好落在了所有现有激励机制的缝隙里。

在《降临》中，学会外星语言的Louise同时活在过去和未来，活在女儿必将死亡的事实中，肩负着沉重的伦理分量。科幻作品为我们带来的挑战和问题是，如果一种不同的语言首先意味着一种不同的认知方式，那么我们用一种语言建造的智能，它是否也只能认识那个语言所描述的唯一世界，是否也只能担负那个世界唯一的伦理标准？

文言文就在那里，作为一种仍然可读、仍然可编程、仍然可以与当代人类对话的古典语言，它沉默如未激活的参数，静静等待着，那个第一个发出“天地，好在否！”问候的人。

责任编辑：龚思量

图片编辑：张颖

校对：姚易琪