信息时代的古史研究:不打开数据库都无法找课题

澎湃新闻记者 臧继贤
2017-05-24 16:51
来源:澎湃新闻

互联网和计算机技术现在不仅改变着生活的诸多方面,也为文史哲的学术研究带来了一场变革。如果说老一辈的文史哲学者不做卡片就不能开始学术研究,现在的学者可能不打开数据库就无法寻找选题。

2017年5月19日,上海师范大学古籍整理研究所所长张剑光、华东师范大学古籍研究所所长顾宏义、华东师范大学钱币博物馆馆长陈江、上海师范大学历史系教授范兆飞同中华书局总编辑顾青一起在上海静安书友汇进行了以“信息时代:古史研究的新思路”为主题的研讨会。

活动现场:顾宏义(左)、张剑光(中)、范兆飞(右)

离不开数据库的学术研究

数据库检索功能带给学术研究的便利可谓今非昔比。上海师范大学历史系教授范兆飞回忆起自己16年前在没有检索系统的情况下,收集硕士论文资料时的艰辛:

“当时我在山西大学的硕士论文题目为《北朝的九品中正制研究》。做这个题目首先要做两项工作:第一:先把在北朝担任中正的人找出来。当时山西大学是没有检索系统的,我用了整整一个学期的时间把北朝的史书和墓志材料全部翻了一遍,把担任北朝中正的人找出来。现在如果用中华书局的‘经典古籍库’,这项工作只需一到两天就能完成。第二,需要找出北朝中正制的相关研究成果,当时没有检索条件,只能整天泡图书馆,翻过刊、人大复印过刊资料、全国报刊索引等。我用了整整两年时间才把这项工作做完。但即便如此,我还是担心遗漏了重要的研究成果。但在现在的技术条件下,这些都不是问题了。”

上海师范大学古籍整理研究所所长张剑光讲到现在做学问和以前不太一样,“以前每天都要去资料室,而现在因为电子资料非常丰富,所以除了要核对古籍的版本问题,平时都可以在家中做研究。”

华东师范大学古籍研究所所长顾宏义也经常对学生讲,“如果不打开数据库,我都不知道该怎样进行研究、设计课题。现在不管是我自己写文章也好,还是看学生的作业也好,只要手上有东西,就会把数据库打开。”

中华经典古籍库微信版

“因为我们现在的记忆力不如前辈的老先生了,他们有童子功,四书五经都背得很熟,我们背不出来,而只是模糊记忆,所以要有检索的帮助。”

在顾宏义看来,检索首先能够弥补精确记忆的缺失,“有些原文即使能背出也会有出入,就像古人写书引用时也会与原文有一两字的出入。而按照现在的学术要求,只要加引号的引用,和原文相差一个字也不行。”

“我们现在做学术研究要用数据库,这同我们的前辈学者相比是一种革命性的变化。过去几年我写了几本小书,让我有一个清醒的认识,我能够写出这几本书,就是靠数据库。现在很少有一条很冷僻的史料没有被发现的情况;如果有,也是因为没有充分利用各种查询路径而已,而研究的差异可能产生于史料的辨别之上。”

以前的问题是史料太少,现在的问题是史料太多

数据库的使用为学术研究带来了便利,但也带来了新的烦恼。老一辈的学者在做学术研究时可能担心史料不够丰富,而现在的学者则要面临如何处理海量的史料和数据的问题。

顾宏义讲到现在能够查询到的信息量太大。“以前老先生会表扬文章引用的史料丰富,而我们现在就怕看到史料太丰富的文章。因为都是从数据库中寻找到的史料,有些史料一看就知道是从《四库全书》中‘拉出来’的。这样就产生了一些问题,需要辨别哪些是更重要的数据,哪些是一般重要的。”

活动现场:顾青(左)、陈江(右)

华东师范大学钱币博物馆馆长陈江也讲到,“20世纪早期的大师包括吕思勉、钱穆、陈寅恪等人在内,所利用的古籍以正史为主,而我们现在所利用的古籍范围可能是他们的50倍、100倍以上。”

面对这些问题,顾宏义希望能在今后的数据库开发中标出文献的区分度。“比如二十四史是基本的文献,而在其基础上产生了很多文献,很多笔记和野史的内容都直接抄自二十四史。希望数据库能够把最基本、最重要的史料放在最前面,不像现在查询出来,很多要重要的史料都在列表的后面。”

而张剑光希望数据库能在逐字检索之上提供主题检索的功能,例如搜索“节度使”后出现即使字词不匹配但依然相关的内容。

顾宏义认为如果数据库能够提供主题检索,则功莫大焉,但这个问题也不能仅仅靠数据库的开发者来解决,更需要研究者的工作。

对此,陈江也持类似的观点,“主题检索的方法其实古人一直在用,就是使用类书。包括上个世纪50年代的一些学者在收集史料时的一个诀窍也是先看类书。但类书就不仅仅涉及古籍的整理了,它们本身就是已经花大力气编撰过的著作。如果我们的数据库能实现主题检索的话,那就必须先把所有的数据重新按主题编纂”。

将古籍整理工作也搬到线上

除了数据库逐字检索的结果数量庞大之外,有些古籍数据库还存在着其他问题。

张剑光讲到,现在一些数据库中提供的古籍是没有经过整理的,也不能提供版本的选择,“这样的数据库只能是聊胜于无”。“有时候会发现在学生的论文中,有的引文没有标点,有的引文繁简字体都有,有的引文是自己标点的,都存在很多问题。如果数据库里的古籍是经过整理的,有标点并且有校勘,可以为学术工作提供很好的参考作用。”

中华书局全资子公司古联公司于2014年推出了“中华经典古籍库”,收录了中华书局以及天津古籍出版社、齐鲁书社、辽海出版社、华东师范大学出版社、凤凰出版社和巴蜀书社共七家出版社已出版的整理本古籍图书。目前收录的古籍已达1274种,合计7.5亿字。除了全文、书目和一些分类检索功能之外,“中华经典古籍库”还提供图文对照——在文本旁可显示原书扫描图片,省去与纸书核对的功夫、自动生成引用格式、人名异称关联检索等功能。

中华经典古籍库的“图文对照”功能

中华书局总编辑顾青讲到现在“中华经典古籍库”的可信度得到了普遍的认可,但被吐槽最多的问题是数据太少。顾青表示,再过两三年“中华经典古籍库”计划收集3000到4000种整理的古籍,总字数计划达到30亿字,而中最终的目标是覆盖文史哲所有重要的古代典籍。

在现场,四位教授也根据自己的研究领域和目前关注的问题举出一些希望被数据化或整理的史料,包括《宋元方志丛刊》等已整理方志、明清史料的数据化,天一阁所藏方志、宋代的书信、中古史研究需要的墓志、造像记和神道碑等史料的整理和数据化。

中华经典古籍库的“自动生成引用格式”功能

相对于史料的数据化来说,史料的整理更是一项耗时耗力的庞大工程。据顾青所述,中华书局所有的古籍编辑室目前一年能够完成出版的数字量最多能达到1亿,如果大家都能持续做一辈子编辑,大概一共能处理20亿到30亿的数字量,但即使如此,还是远远小于目前古籍的整理需要。

在未来,古籍的数据化和整理或也将成为相互促进或者同时发生的过程。顾青告诉澎湃新闻(www.thepaper.cn)记者,现在古联公司也正在搭建一个国家级的“中华古籍整理出版资源平台”,在此平台上能进行古籍整理,把线下的古籍整理平台搬到线上,呈现的形态首先是在线的电子版;同时读者也能查询和阅读;此外还提供版权交易的功能。

利用数据库的前提是要有扎实的基本功

数据库的使用为学术研究带来了莫大的便利,但即使如此,仍然不能忽视对经典文献和最新学术成果的阅读和了解。

对此,陈江讲到:“数据库的使用不能取代基本古籍的阅读。我是做历史学研究的,如果没有一定的阅读量,则没有办法去评估任何一件事情在整个历史长河中的意义,面对海量的数据也没有办法产生研究成果。”

而针对这一问题,顾青也反复强调阅读古籍的重要性。“千万不要以为不读书,只用数据库就能获得好的成果。不把基本的工作做好,不把该读的书都读过,对于数据库里的海量信息就无法辨别。数据库可以给我们插上翅膀,但能飞上天的一定是下过苦功的人。”

同时,范兆飞也强调,“必须要摆正海量数据和的传统阅读的关系,传统阅读可能是‘体’,数据库则是‘用’。如果我们把数据库的史料价值形容为冰山的话,检索的途径可能只是冰山的一角,我们只有带着通过阅读所获得的问题意识去检索,才可能探寻到冰山的真面目。”

    校对:丁晓