E时代的文史研究③︱学术检索与文史考据

苏芃李旻

2020-07-04 10:18

来源：澎湃新闻

因疫情影响，近半年来高校等研究单位的师生大都避疫在家，无法正常利用图书馆资源。自2020年4月起，由北京大学、南开大学等高校青年学者发起的“文献挖掘整理研究会”决定在线举办第三次文献沙龙，以助力文史学者更好运用线上资源以推进研究。本次沙龙邀请北京大学（中文系、历史系、信管系）、清华大学、复旦大学、南开大学、台湾“清华大学”、中华书局等单位的学者，围绕“瘟疫时期的网络资源”“学术检索的过去现在和未来”“古典文献资源的整合与导航”“中华书局的数字资源与使用”“史实数据的关系表达”六个议题展开研讨。

第二场对谈“学术检索的过去、现在和未来”由史睿（北京大学中古史研究中心副研究员）主持，与谈嘉宾黄一农（台湾“中研院”院士、台湾清华大学历史所教授）、苏芃（南京师范大学文学院教授）、李旻（复旦大学计算机科学技术学院讲师）、刘姝然（北京大学信息管理系硕士研究生）参与研讨，本文系此次对谈的摘录稿上篇。

苏芃：我主要要讲三方面的内容。

第一个方面，我想讲一下这篇文章，《他校时代的降临——e时代汉语古籍校勘学探研》，这是很早以前写的，大概是在我读博士的时候，围绕《史记》做校勘，使用了一些数据库，有些体会，写进了博士论文里，后来又有拓展，在2011年发表出来。之后，公众号“经典古籍库”（2016.10.1）也有转发，还有朋友陆续在跟我讨论这个话题。为什么若干年后还有人去关注这样一篇文章，可能是因为我们的技术手段与方法一直没有太大的变革。

这篇文章里的几个基本要点：

一是说对于传统的手段——对校、本校、他校，还有理校，在现有各种古籍数据库的背景下，带来最大变革的可能是他校。为什么呢？因为这一块可以参照的文献变得特别多。比如说在他书中征引的，还有书籍与书籍之间，互见的这些段落，还有关联的内容，都特别的多。关于这一点，我认为能够落实和突破的内容，往往是可以得到确证之处，比如说人名，比如说地名，比如说书名，比如说和事件有关的材料，这都是具有确定指向的点。

比如说时间上的一些节点，如果在古籍出现了错讹分歧，我们可以在古籍库中去求取相关资料，来获得旁证，进行考订判断。比如说人名，《史记·魏世家》中的韩康子，司马贞的《索隐》里注他名“虔”，有些版本里“虔”是作“虎”的。后来我们去查这个人，他应该是名“虎”，不止《魏世家》这一处，《六国年表》《韩世家》司马贞也都有注，讲他名“虎”，他书资料中《国语》《世本》也都有记载他名“虎”，所以通过这一组关联的材料，可以求证出《魏世家》这儿的“虔”，它就是传承中的错讹，司马贞不会犯这个错。

再比如说像书名，一个叫做《（杂字）解诂》的书，结果在版本传承中慢慢变化，最后书名《解诂》被错成了人名“师古”，通过检索数据库，我们可以找到《隋书·经籍志》就有著录，《史记索隐》除此一处，别处还有徵引。就这些例子来看，我们现在能做的事有很多，在传统的文献研究方法之上，可以再通过数据库去旁搜博采，在人物、事件、地理、官制等比较确定的方面获得新证。

这是我多年前的一篇文章，这两年上课的时候，我时常在想，在什么样的地方，可以有新的拓展。比如说《史记·高祖本纪》张守节《正义》引到《河图》“帝刘季口角戴胜”的校勘，“口角戴胜”原本很难读得懂，通过他校资料的检索，我们找到《后汉书·班彪传》李贤注引《河图》作“日角戴胜”，“日”与“口”字只差一笔，却让人豁然开朗，通过这种关联，特别是一些旧注当中的关联，可以把一些历史疑案搞清楚，我想这是对于校勘的延伸。

关于传统的校勘之中，在挖掘他校资料的这些环节之中，有海量材料可供检索搜寻，这个时候，我们要到哪个地方去找这些东西，才能更加高效。这些材料，检索结果中涉及的数量会很多，你怎么样去排查筛选？这跟我们传统的目录学有关系，你首先要明白在什么书会跟这个书有关联，跟这段话有关联，跟这个词语有关联，这样能够有效缩减工作量，就是说怎么样去找寻与待考问题相关联的文献，这是个目录学的问题。

再有一个，我们面对检索结果的时候，常常还要考虑到这里面可能会有一些错讹。本来这个数据库在制作的时候，它里面可能就有一些文本上的错误，它可能会有什么样的错误，你可能因为什么错误而被误导，这也是需要思考的。

比如说前段时间有一位原来听过我课的朋友熊少聪，现在中国社科院大学读硕士，他联系我说，在某书中检索到一条很有价值的材料，可能和张守节有关，张守节的《史记正义》很有名，是《史记》三家注之一，但是他的生平，一直很难完全搞清楚，连他是哪儿人都不知道。这位朋友发现在文献中有个人也研究过《史记》，记载很详实，与历史上的张守节仕宦经历也很像，而且可以知道是苏州人。后来我们去查了一下该书的不同版本，发现这段文字是有异文的，因为出现了讹误，所以被湮没了。这说明使用古籍数据库检索时还要注意版本学的问题。

在此基础上，我们反思借助数据库从事文献研究，某种意义上数据库只是提供了大量的新材料，至于考证方法可能没有多大的变化，而是我们挖掘新材料的方法上有了一个巨变。也就是说，我们可以把很多前人在阅读这些古籍时，不容易去读到，或者被遮蔽的一些资料，很高效地找出来。原先的目录学、版本学、校勘学知识，还是缺一不可的，所以我对现在的数据检索的看法，主要就在新材料挖掘这个方面，特别是对于我所从事的专业，这是一个变革。这是我要讲的第一个方面。

第二个方面的话题。我的研究和教学主要和先秦秦汉文献有关，和各种早期经典有关。这个领域我觉得有个问题亟需解决：我们至今都没有一个可供大家征引的免费的文本库。比如说我们论文中去引一段《论语》，往往还要去查对应纸质文献的页码，还要去查是谁注的《论语》里多少多少页，有我所引用的这段话。许多著名经典都有这样一个问题，一旦涉及引文，常常要费特别大的劲，比如在写完一篇论文之后，往往要专门花大力气去查核、去校对。近年有了中华书局古联公司开发的“经典古籍库”，局面稍有转变，但完全免费又可信赖的经典古籍电子文本，至今还没有出现。关于这一点，我一直都在倡议，我们应该专门做一个中国古代经典的文本数据库，起码要把先秦秦汉时期的一些基本的典籍，我们的文化原典，做一个可供大家来征引的数据库，放在网上，随时随地在各种终端设备上都可以免费使用，即便不带注释也可以，这样不管是阅读也好，写文章也好，还是在别的地方要引用也好，都会很便捷。这个库如果做得好，可信度高，受众广，对于儒家经典而言，甚至可以说就是当代的“石经”。当然这个最好是官方来做，才会具有权威性，易于推广。

最后要讲的，是关于民国学人的研究。我这几天才修改完成一篇前年写的文章，是关于一个民国时期的人物。这个人物是民国初年出生，到改革开放之后才去世，在文史领域有不少和他有关的书，比如编纂《史记书录》《括地志辑校》，点校整理《元和郡县图志》《史记志疑》等，也是中华书局点校本《史记》的主要点校者之一，这人叫贺次君。

但是关于他的生平，我从多年前就特别好奇，文献中没有任何记载，很难搞清楚。之前中华书局重印了《史记书录》，前言部分有些生平简介，那是我代笔来写的。你若去网上搜索，“百度百科”这些也有他的词条，可都是说他生平不详，是顾颉刚弟子。后来我又通过各种数据库去搜索，发现了一些跟他相关的信息。大概知道他在民国时期从过政，做过国民政府的官员，建国之后，因为有历史问题，他的生平是一片空白。后来我辗转联系上了贺先生唯一的女儿，贺先生生前很多事闭口不谈，他们父女又相差了48岁，因此关于贺先生1949年以前的许多经历，他女儿也并不知情。今天我们很有幸，借助网络获得线索，去各方面搜求资料，可以基本搞清楚他一生的主要经历。

由于我搜出贺次君曾在民国时期从政的信息，于是想到去台湾“国史馆”查检，很巧，正好有他的档案，这个档案是比较早的，是1946年之前的。档案里还有一份他亲笔填写的材料，他的某年做了什么事，什么职别，填得特别细致，且有他的签名，还有他的印鉴。通过这份档案可以知道1946年之前的他主要有哪些经历。另外，我们检索这个人物，发现还有一些知名学者与他有关联，一个是钱穆，一个是顾颉刚，都是他的老师。我去查《顾颉刚日记》，果然其中多处提到了贺次君，多到有两百多处，我把《顾颉刚日记》参照人名索引翻了一遍，把贺次君有关的部分细致读了下来。可以说，这个发现过程是数字化检索与传统“索引”的有机结合，这大概也是我们的时代特点。

最近几天，我在改这篇文章时候，又注意到一些之前没留意的细节。在1949年之后，贺次君第一次出现在顾颉刚的日记里是在1954年的8月25日，顾颉刚22日才从上海回到北京，23日才到中国科学院历史研究所履职，两天之后，他在日记中说贺次君来长谈。又过了七天之后，顾先生去中华书局，去谈什么呢？就是标点《史记》三家注。在一个月之后，顾颉刚日记又记到，校读贺次君所校点《史记·律书》。这样来看，我觉得顾颉刚先生在1954年8月份回京的时候，很有可能就已经有了点校《史记》三家注的计划，甚至也许是政治任务，所以他回来之后，仅过了两三天就约老学生贺次君来家中长谈，一个月贺次君就交了《律书》的样稿。这些细节，比如顾颉刚奉调回京的事，我们通过查检其他文献进行联系比较，再结合与贺次君的交往看，有些历史可能得到还原。

1954年顾颉刚日记（台湾联经出版事业股份有限公司，2007年）

我想民国时期这类人物，有特别多的研究可做，现在条件非常好。通过检索，我们能得到的材料会有很多，以贺次君为例，我搜索民国时期的报刊和其他选编的档案资料，还有一些发现，《1949年北平市军管会接管北平文化机构史料选》记载贺先生曾是国民党CC系的成员，虽然这一说法也无从查证了，但联系他在新中国以后，没有固定的工作，主要以协助顾颉刚先生整理古籍为业的经历，都可以串联起来了。另外，还有他在民国时期，在1945年抗战胜利后，具体职务是什么？他手填的档案里并没有，然而我们在1945年11月20日《民言报》中，看到当时的北平图书杂志审查处成立，时任军事委员会新闻检查处处长的贺次君兼任处长，当日有这样一条新闻。关于这样一个人，我们好像是可以通过各个方面的资料把他尽量还原出来，包括他的论文著述，我也专门做了梳理，整理出一个编年的著作目录，在文中列了出来。近来读到赵珩先生《二条十年》中的一些关于贺先生的回忆，又作了补充。所以民国这部分，借助如今的学术检索条件，也有很多可以做的事儿，我举这样一个例子来说明。

李旻：大多数人文学科的学者，他们以前在古代要把学问做好，一定要记性好。换句话说，必须把书全都装在脑子里。走入近代以来，我们在文史研究中开始用各种各样的技术方法来提高。

检索的最初尝试，是以“引得”的形式出现的，就是一个按单字来查询全文的纸质索引。比如说《论语引得》，把《论语》中出现的每一个字在第几页，甚至是第几行，列一个大的表格。如果这个字在《论语》中出现过几千次，那么他就把几千个位置都全部列出来。这样的话，你可以通过每一个字，去查找它在书中具体哪个地方出现，再进一步，甚至把一些词进行正排或倒排进行检索。

哈佛燕京学社编《太平御览引得》

对于这个工作，当时还专门成立了“引得编辑处”，编辑各种文献“引得”性质的检索资料。上世纪80年代计算机介入以后，单字索引在计算机里无非就是一个很简单的查找和搜索的工作，所以“引得”很快就没用了，或者说“引得”快速地被计算机的全文索引工具给替代了。

我今天想专门就索引的一些细节问题，谈谈自己的看法。

黄一农教授提过，作为专业的研究学者，希望能在一个数据库里或者一个可检索的范围内，准确地查找到他要想要查找的一些东西，但实际上这并不是很容易。如果检索的是一个实词，那么可能能够比较快速的找到相应的位置，但也有可能因为某些原因找不到。这就涉及我今天想讲的一个问题——“异体字”对检索的影响。

异体字在古文中肯定是可以互换的，但计算机检索的实际上是“码”，而不是“字”。两个异体字，明显是两个码，那么我们的目的实际上要检字，而不是要检码。

举个例子，前两天我在微博上跟别人讨论问题，谈到了一方墓志，里面有一个姓，是“厙”。这个字在宗谱中，或在一些墓碑中以“庫”字出现。有人把这个字念kù，这个字当然不是念kù，那么，这两个字是一个字吗？任何一个“广（厂）an”字头的字来说，这只是念“庵an”。它在中古的时候既可以写成现在念“厂chang”的简体字，也可以写成现在念“广guang”的简字。实际上每一个带这个部首的字，如果你随意地写成带点的或者不带点的，从而把一个字生生地变成了两个字。而出巧不巧地，“厙”这个字跟“庫”字字形上刚好一模一样，导致了有些人觉得，是不是中古的姓，因为这个字实在是太生僻了，大家都不认识，就把它改成库存的“库ku”。

有这个可能吗？我觉得不可能，没有哪个人会仅为了读起来方便把自己的姓改成一个读音不同的字，这是完全不可能的事。只是因为这个字它是生僻字，有可能别人读不来，从而一个人甚至一个家族把他的整个姓改成另外一个读音完全不同的字。所以我们说两个字的读音是一样的，只不过它有一个同形的字。那么这就有问题了，我们在检索的时候，只检“厙”找不到“庫”。

计算机的字体概念，现在是以音为依据的，而实际上汉字是一个形、音、义的结合体。从使用者的角度来说，我们更倾向于检音和义的结合，而不是特别在乎它的形上的细微差别。那么如何让这样一种学术上的检索的需求，和底层在汉字编码这样一个领域中的实际的现有的技术标准去结合，我觉得这是一个底层数据库厂商，在提供全文检索的时候，应该要考虑的一种问题，否则这个问题会永远存在下去。

其实这个问题要解决也不容易，但是也不是说完全不可能解决。我在自己的一些数据库里面，在全文检索的时候，提供了一种可能的思路。我的想法是这样，我们可以把专门用于浏览的文本和用于检索的文本分开。在建设全文数据库的时候，要忠实于原著。这个书上印的是什么样的，我就以什么样的方式把它做出来。墓碑上是怎么刻的，我就以什么样的方式记录下来。要忠实原著，但这个目的是用于浏览。但作为学术来说，我的目的是检索，是我要找到意思一致的，或者说和这个意思相近的文本。

换句话说，我会在数据库的后台提供另一个全文的检索版本，而全文索引是建立在检索版本上，而不是浏览版本上。检索版本和浏览版本之间的差别，可以用计算机领域所谓的“差别数据”来表示。这样的话，在给用户用于浏览的时候，我把检索的内容从数据库里取出来，再计算一下，产生出一个浏览版本，供别人看。而在全文检索、搜字、搜词的时候，利用检索版本，那么用这种方式以后，我们就可以把所有明确知道含义的异体字，在相应的检索版本中，全都用一个标准形来保存。

比如，我们没有必要提供一个专门的简体化的全文索引版本？简体化相对于繁体字，它的这样一个字形的对应关系往往是一对多的关系，那么这样的话检索版本可以统一地用一个标准的版本来制作，那么正体版本的浏览和此时不同字形的浏览，我以这样一个方式来提供，通过区分以后来显示。这样的话能够保证检到相同的字体，但是这里面就有一个问题，需要进一步的定义，比如说这个的定义，能不能建立一个库？把所有的异体字关系建立起来，从而提供一个标准的替换的能力。

我们不能指望一个技术解决全部的问题。我的设想是，未来我们在对各种各样需要数字化的文献，在数字化的同时，不仅要保留它的形，还要保留它的音。我就觉得数字化的文本应该有音的区别，把那些多音字的音也要记录在数字化的文本里面去。我觉得这样的话才是一个比较完整的数字化的结果。

除了这个小问题以外，我还想说一个事情，就是说文史学者在研究或者说检索文史的信息的时候，他往往是带着目的去找，而不是没有目的地用浏览的方式去看。那么带着目的找就有一个问题，我们能不能把这样一种目的直接转化成寻找的途径？根据这个目的快速的、准确地定位到相关的信息和知识呢？如果有这样一种手段的话，我相信每个人都会非常方便的检索到自己想检索的内容。比如说希望能够提高文史检索的效能化，必须要对文史的数据进行重组，把它安排成一种便于检索的一种组织方式。

我现在在做一个工作，把爱新觉罗家族的信息全部整理完。其中，比如《爱新觉罗宗谱》里主要是男性的信息，女性信息还没有，包括每个人的这些妻子的关系，包括他的岳父的一些关系。比如说我看到穆尔哈齐的后代，某些和彻尔格家族有联姻关系，我们把全部变成一个非常大的表格，直接关联，尽可能把它们形成一个数据库。这样的话，我觉得可能能够改变一些研究的手段和方法，至少给很多研究者提供某一个人更详尽、更准确的背景。对其中任何一个人，他的履历，在不同的机构的不同职位，什么时候开始，什么时候结束，有些不是很准确，但根据相应的依据，通过考证，每个人的社会关系、履历形成一张表格，最终构成整个数据库的一个基础。

我是计算机专业出身，不是搞文史的，当然书读的比一般的理工科的人可能稍微多一点，把理工科的逻辑性思维，对数据的规整性的爱好，带到文史学科的研究中，这种情况下，我们有可能引入一些有意思的东西。

（本场文字稿由涂亮、何青红、廖家燕、孙绍丹、潘君杰、郑闯辉、张国栋整理，经苏芃、李旻审定）

责任编辑：于淑娟

校对：张艳