访谈︱魏希德:如何将数位人文工具Markus用于历史研究

澎湃新闻特约记者 刘家隆
2017-02-10 10:10
来源:澎湃新闻

【编者按】魏希德教授(Hilde De Weerdt)是比利时汉学家,致力于研究宋史。著有Competition over Content: Negotiating Standards for the Civil Service Examinations in Imperial China (1127-1276)(该书汉译本《义旨之争:南宋科举规范之折冲》2015年由浙江大学出版社出版)、Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China等专著。近年来,她尝试用数位人文的方法进行历史研究,主持开发了Markus古籍半自动标记平台,引起了国内外不少人文学者的关注。澎湃新闻特约记者、莱顿大学历史学博士生刘家隆对魏希德教授进行了专访,主要谈及了她的学术生涯、史学训练及其数位人文的最新研究成果。本文为该访谈的第二篇。

魏希德教授

澎湃新闻:近些年来您主要侧重于用数位人文的方法开展学术研究,您最早是怎样对数位人文产生兴趣的?

魏希德:最近几年我确实比较多地参与到了数位人文的研究当中,但我从未想过要把它当作我的主要关注对象,我对这一领域产生兴趣也是极为偶然的。当初,我有一段时间在集中阅读12-13世纪的笔记,尽管从中找到了很多有价值的信息,但我发现很难把握我读过的内容。就像读报纸一样,这看一点,那看一点,但在你去教了两三个月的课之后,就会发现很难再回到当初的状态,因为已经记不清读过什么。那时候我很困扰,想找到更高效的管理笔记的方法。所以当初我其实只是想知道怎样才能做好笔记而已。

我刚开始的想法与其他人没有什么不同,只是想找到一款已有的软件,然后把软件安装好就可以开始工作了。那时候社会科学的研究者因为要处理很多类型的信息,因此有很多很好的工具来帮助他们完成诸如添加标签、梳理分析材料等工作。刚开始我感觉这些工具还不错,但逐渐发现它们也有局限性,比如只能建立自己的信息系统,却不能与其他的数据库或软件连接起来。

后来有一天下午,我参加了一个关于给文本编码的会议。我意识到如果既有的软件没有合适的,我完全可以自己尝试做一些东西,而这些东西利用记事本软件就可以完成。所以我就自己建立了一套程序来标记王明清的《挥麈录》。我首先找到一份《挥麈录》的电子文本,然后开始思考关于这部书想知道些什么,又想追问些什么。那个时候我不仅对书中所记的内容感兴趣,也对王明清的人际网络有兴趣:他究竟在跟谁对话,读过哪些书,又对哪些作者感兴趣,他提到的人生活在哪里又有过怎样的经历?后来我逐渐意识到,如果能将我在《挥麈录》中的发现与CBDB(中国历代人物传记资料库)链接起来的话,工作会更加容易、丰富,因为CBDB已经收录了这些人的信息。当然,自己去搜集这些人的信息也可以做到,但那要花费大量的时间。利用CBDB中的人物ID,我可以将想找的人物与CBDB链接在一起,这样就能从中获取要分析的很多人物的相关信息,而在分析完成后还可以连接回原文。此外,CBDB还收录有地点信息,利用这些就可以分析一部分人的地理分布;利用CBDB收录的仕途信息,也可以了解跟王明清交游的人有哪些背景;利用CBDB收录的时间信息,还可以知晓他究竟在读什么时代的书,他是跟几个世纪以前的古人对话,还是在跟同时代的人对话。因此,我可以做很多以前自己不容易做到的探索。过去我们认为笔记只是在抄袭前人说过的话,利用笔记也多是在寻找人物的趣闻轶事,但通过对笔记全书的梳理,就可以了解作者究竟在谈论些什么,他在跟谁对话,而那些人的背景又是怎样的。

这是一次成功的探索,之后我又和一些研究生一起,利用这种方式做了更多的尝试。以这些为基础,我申请了一个更大的项目。这个项目的初衷只是想在我们已经标记过的文本的基础上,创建一个文本视觉化的平台。利用这个平台读者可以阅读文本,把相关人物投射到地图中,并还原他们的人际交往。后来我们意识到其实可以做到更多,我的助手Brent Ho(何浩洋)就开始建立一个让用户自己标记文本的平台。

总结一下,我对数位人文的兴趣,其实就是源于在阅读文献时,想找到一种更好的做笔记的方法,同时也想在阅读的同时能够做出一些分析,从而可以从多角度审视正在处理的文献,不仅是要精读文献,也能关注人的地理分布和相关背景。在这方面,我认为利用数位方法能够给研究者带来一些帮助。

澎湃新闻您认为数位人文对于目前历史研究的意义有哪些?怎样才能更好地将数位人文与历史研究相结合?

魏希德:这也是一个很难回答的问题。我想从几个角度谈谈数位人文能够给历史研究带来什么。首先,正如我之前已经提到的,研究者可以利用数位技术更好地发掘原始文献。假设有研究者对某个具体问题感兴趣,比如对两浙地区的水利管理感兴趣,应该怎样查找合适的文献呢?也许有人说可以浏览所有的地方志材料,可以利用目录学书籍,可以检索《四库全书》、《四部丛刊》或是“中国基本古籍库”,这样就能找到大量的相关记载。但要如何把这么多的材料统合起来呢?借助数位人文,如果我们能把它发展好的话,就可以利用尽可能多的材料。其实,研究者应该利用所有已经被数字化的文献。过去很长一段时间,人们都是更倚重某一类型的史料,但是以后就不必如此了,我们会利用所有的史料。接着,研究者需要从检索到的大量结果中选取与水利管理相关的资料。检索到的结果会包含某地点、某时间、某人物、或其它的关键词。通过数位的方法,可以显示出某一个地点被提到了多少次,并直接查到研究者最感兴趣的某地点或时间的资料。因此,数位人文不仅能使研究者利用尽可能多的材料,还能提示研究者与研究主题最为相关的内容。然而传统的数据库做不到这些,因此研究者需要自己考虑设计数位工具。

研究者还能借助数位人文进行更加多元化的分析。获得检索结果之后,我们可以开始对其做出注释。与传统的从结果中择取几条进行举例论证的做法不同,数位人文可以帮助研究者对所有检索到的材料进行系统的分析。这只是研究过程的一部分,但研究者却可以宏观认知发现了什么。我认为这对历史学家尤其重要。数位人文不仅可以帮助研究者判断何者才是最适宜的史料,它还能给研究者提供更多的选择去做更多样的分析。这样可以更加系统地反思所要研究问题的不同面相。

此外,借助数位人文,研究者还可以“放大”或“缩小”研究范围。也许我对上百条的检索结果并不感兴趣,而只是对其中的某一个文本特别感兴趣,因为这个文本详细记述了这一地区水利管理的情况。但当我要利用这个文本时,可能并不知道怎样将这个文本置于更大的背景之下。如果利用了上面提到的数位人文的研究方法(即已经对史料有了宏观把握、对问题有了系统反思),虽然我还是在处理某一份具体文本,但却知道这个文本中的某些内容可以与那个时期其它的文献记载相联系,这样就将这份文本置于更大的背景之下。

最后一点,借助数位人文,可以更好地分析研究结果,并与他人共享,这对历史研究同样非常重要。不仅要把结果共享,还要让别人有条件去评估你的研究。以王明清为例,我可以将我的所有发现在网络上共享,这样别人就能利用我的发现。别人不仅能看到我的excel表格和所有原始数据,还能看到我所利用的文本、做过的注释以及结论等等。利用我共享的信息,他人也可以提出新的问题。

所以,研究者可以利用数位人文更充分地掌握更多的文献,而过去,这些文献可能是根本看不完或处理不完的,在掌握更多文献的基础上,研究者极有可能发现新的问题。

那么,怎样将数位人文与历史研究相结合呢?我认为我们现在需要数位人文的教育,需要数字史学的训练,因为包括我在内的一代人在求学期间并没有接受过相关训练。所以当需要教授学生相关知识时,也许我们自己对它还没有足够了解。在我还是一名研究生的时候,曾惊讶于能用我们的系统处理汉字,这在当时已经是非常先进的技术了,然而现在已经不是那个时代了。我认为我们现在正处于一个过渡时期,发展到最后,历史还是历史,人文还是人文,而数字化的方法则会被充分地吸纳于其中。将来,我们会将数字化方法与其它的研究方法等量齐观,这些方法之间也会互相融合。虽然我相信数字化与历史学最终会融为一体,但现在还很难回答这件事会什么时候发生,又会以怎样的方式发生。现在我们依然需要学习相关知识,也还要证明用数字化进行历史研究的正当性。

澎湃新闻:Markus是您主持开发的数位人文研究新工具,能否介绍一下Markus的基本情况和相关功能,以及您对Markus的设计构想?

Markus简体中文版首页

魏希德:最初设计Markus时,我只想建立一个标记平台。正如之前已经提到的,刚开始我是手动完成标记工作的。后来我们想到,既然已经有了CBDB数据库,有了一长串的历史地名、时间坐标和官名信息,为什么不去利用它们更好地发掘文本中所包含的此类信息呢?这样就不必再手动一个一个去标记了。

此外,我们认为能够标记出人名、地名、时间和官名固然已经很好,但很多时候研究者还会对其它的信息感兴趣,比如经济活动、政治概念、药物疗效等。因此我们又开发了“关键词标记”功能。用户既可以将感兴趣的成百上千的关键词一次性输入并标记,也可以使用正规表达式来标记关键词,比如标记出每段的头两个字,或者标记出特定的词汇模组等。我们还开发了一个很有创意的功能,是由“国立台湾大学”具体研发的,要让文本自身提供关键词:当用户在文本中标记出一个关键词后,利用这一功能可寻找文本中其它的与此关键词用法一样的词汇。

为了完善Markus,我们决定更多地倾听人文学者的意见。因此,我们举办了几次工作坊,来了解人文学者到底想要哪些功能。我们逐渐意识到,人文学者固然对标记或者分析很感兴趣,但有时他们只是想阅读文本。因此我们又提供了很多辞典和工具来辅助阅读:有些是术语字典,有些是利用CBDB提供一个人的生平简历,有些则是在地图上显示某个地点的历史变迁。另外,我们还提供了佛学辞典专门帮助用户阅读佛教典籍。在这些辞典和工具的帮助下,用户可以流畅阅读,并添加注释。当用户想进行翻译时,可以对文本进行标记并查阅辞典,然后将自己的翻译添加在注释中。当无法在已有的辞典中找到答案时,用户可以在注释中注明并将其保存在Markus系统中,然后回家查找手边的其它辞典或去图书馆翻阅其它资料。所以从某种意义上来讲,Markus也是一个阅读平台,一个翻译平台。

我们还意识到自动标记出来的结果难免有错误存在。尽管我们想节约研究者的时间和精力,使他们不必亲力亲为地做所有事情,但是没有什么工具能做到真正的完美无瑕,其中必然有错误存在。因此,研究者需要对标记结果进行评估,并改正其中的错误。所以我们又开发了“手动标记”功能,使用户能手动修改错误或添加新的标记。我们还设计了“机器学习”功能,当用户手动修改了一定数量的文本之后,系统就会学习修改的内容,从而能够自动修正文本中的错误。

虽然有很多人认为Markus很有用,但在使用时还会遇到一些难题,比如在用Markus标记分析完文本并把结果下载下来之后,要如何利用这些结果?通常来说,还需要借助其它软件对结果做进一步分析,比如创建地图、进行网络分析或语汇频率分析等。为了帮用户把这最后一步的困难也解决掉,我们决定将Markus与其它已经存在的能够做视觉化分析的平台链接起来。比如现在Markus已经与Palladio链接了起来,用户可以将Markus的标记结果很方便地输入到这个视觉化分析平台,所有的信息(包括CBDB的相关信息在内)都可以做进一步的分析。除了Palladio,目前Markus还与其它一些全文数据库(如ctext.org)、数据分析平台链接了起来以方便用户使用。

所以在我看来,Markus既是一个很好的文本分析与阅读平台,同时也允许用户将数据下载,使他们能用更先进的软件做更深入的分析。正如之前所说,我们在设计完善Markus时会充分考虑研究者的兴趣所在。因此,现在还有更多的功能正在开发。比如文本比对功能,因为历史学者和文献学者往往都喜欢比对不同的版本来看不同时代间的文本变迁或文本之间的关系。我们还想进一步完善机器学习功能、方便用户更好地共享、发展其它东亚语言的标记功能、添加更多的在线辞典等等。我们希望不断完善这个平台来更好地帮助数位人文学者。

澎湃新闻去年七月份莱顿大学召开了名为“东亚研究的数位探索:语料库、方法与挑战”的数位人文国际会议,会上很多学者都在研究中使用到了Markus,您认为Markus能够给学术研究带来怎样的突破?

莱顿大学“东亚研究的数位探索:语料库、方法与挑战”数位人文国际会议宣传海报

魏希德:说实话,很开心看到有这么多学者在使用Markus,这是我之前从来没有设想过的。到目前为止,Markus的开发大概只有两年多的时间,并不算太长,但已经有很多学科的学者在使用Markus,其中一部分学者就参加了去年的会议。去年三月,我做一个关于笔记所反映的社会网络的讲座,发现不仅历史学者对Markus感兴趣,从事文学研究、宗教研究、艺术史研究的学者也都想使用它。所以我们不断完善Markus的另一个原因在于我们认为历史学之外的其它学科也能利用这一平台,我们也想根据他们的需求做一些改进。在Markus网站的论坛上也能找到一些学者使用Markus实例,他们在其中解释了为什么会对Markus感兴趣,以及如何利用它。

就我个人而言,在所有的会议论文中,Margaret Wan提交的那篇关于明清文学的论文是最有吸引力的。目前已经有很多学者对不同类型的小说,比如武侠小说等,做过研究,Margaret Wan也把这些小说读过很多遍,并做了一些研究。但是她想尝试一下如果用Markus将小说中所有的地名都标记出来会有什么发现。结果她发现,尽管已经阅读这些小说很长时间了,但对于Markus标记分析出的一些地点,她却从来没有关注过。这是因为在阅读时她通常只在关注她感兴趣的问题,因而大量的背景性知识却被遗漏了。比如一本小说描绘了偏远地区发生的一些事情,学者在研究时往往就会忽略小说中首都的意义,因为大部分的情节,比如反抗等等,都发生在这个偏远地区,因此首都就很难引起他们的注意。但事实上,首都是极为重要的,当你分析完所有的地方就会发现,首都和偏远地区形成了一种永恒的张力。因此,研究者需要对经常被忽略的所谓的“噪音”给予足够关注,这些“噪音”往往对于理解这部小说和过去小说读者的阅读心理非常重要。这个例子提示我们,电脑在处理数据时可没有什么优先级,它就是处理文本中出现的所有数据,因此研究者可能会获得新的视角,对文本产生新的理解。

其它领域的学者也在使用Markus做类似的事情。比如有一位做医疗史的学者对药物很感兴趣,他想对《本草纲目》做出分析。借助Markus,可以很容易就建造一个关于药物疗效的数据库。过去当然也可以做这项工作,但需要自己手动分析大量条目,可现在只需将文本上传至Markus就可以创建数据库了,这是一种全新的处理文本的方式。

再举一个艺术史的例子。有些学者对收藏史很感兴趣,她们关注哪些人收藏了哪些艺术品,以及收藏者之间的关系是怎样的。在用Markus将一份收藏目录标记完成后,所有的相关信息就会生成为一个数据库。之后还可以再用CBDB检视收藏者之间是否还有其它的联系。Markus当然不是完美的,它只是想帮助研究者更好地处理文本,其间难免会有错误产生,需要用户再去评估或改正。但是它能使研究者以自己现有文本为基础来创建数据库的愿望变得可行。而在这次会议上,让我感到欣喜的不仅是看到学者们认可Markus的价值,还在于它能够帮助实现不同学科间的对话,使各个领域的人文学者共聚一堂。

澎湃新闻由于国内、国外学术研究的取径并不完全相同,您认为Markus能够给中国大陆学者带来哪些帮助?

魏希德:这是一个很好的问题。其实Markus只是一个通过处理文本来创建数据库的工具,此外也可以做一些分析工作,因此,不管是哪国的学者,只要想用这种方式进行研究,Markus都是有帮助的。所以,Markus的益处应该是没有地区限制的。

但Markus确实有可能更受某些地区学者的青睐,因为Markus目前主要用于处理繁体字文本。如果用户只有简体字文本,就不能使用其中的一部分功能,这在一定程度上是因为CBDB数据库就是繁体字的。当然,如果用户想使用“关键词标记”功能,简体字文本是完全没有问题的。此外,我们提供的线上辞典也可能更受某一些研究群体的青睐,因此,不同背景的学者可能会对Markus有不同的用法。当然,还有一个很现实的问题,就是Markus网站现在必须使用Google Chrome浏览器才能处理数据,这是因为该浏览器的处理能力是目前来看最高的。

其实,对Markus的态度取决于研究者喜欢用什么样的方式从事研究。不论历史学家还是文献学家,其实都在处理文本。如果想使自己的笔记更加系统,或者想用图像呈现文本的内容,那么Markus就可能有用。研究者当然也可以继续利用传统的方法进行研究:这些研究方法之间并不一定互相矛盾。

Markus网站的论坛

澎湃新闻您认为您所从事的数位人文研究与大陆学者和台湾学者的数位人文研究有何不同?

魏希德:因为数位人文是一个方兴未艾的领域,因此我认为很有必要去了解它在中国大陆、台湾及日本、韩国等不同地区的发展情况,这也是我们在去年七月份举办那次会议的一个原因。近来,虽然已经有学者撰文描述数位人文在大陆和台湾的发展状况,但到目前为止,我对相关情况的认识还不够清晰。

根据我有限的了解,总的来看,中国大陆在过去20-30年投入了大量资金用于文献的数字化。大量古籍被进行了扫描和OCR处理,建立了许多全文数据库。这是一个巨大的成就,与其它语言相比,中文已经有了很多的数字化文献。但从另一个角度看,这些工作很多是在商业化驱使下完成的。很多项目是由商业公司负责,因此价格不菲。很多学者对此持批评态度,认为他们收了很多钱,却没有把数据库做得更加实用,很多数据库只是把诸多文献集中到了一起而已。香港、台湾也有类似的情况存在。

现在我们面临的一个难题是中文的分词问题,尤其是古代汉语词汇的切分。在西方,很少有人关注这一问题,这也是西方和中国的一个不同,西方的数位人文往往更重视欧洲语言,尤其是英语。不过,我认为大陆和台湾一定程度上也有类似的问题,他们使用的很多工具最初是专为英语而设计的。而且他们似乎更关注现代汉语,对古代汉语的重视程度还明显不够。虽然中国现在已经有了全文数据库,但是数位工具的开发仍任重而道远。在大陆,数位人文还没有得到足够的重视,很多大学,如武汉大学、北京大学等,也尚处于起步探索阶段,目前并没有可观的成果涌现,所以我很难比较其间的异同。

我更期盼深化国际间的合作,目前存在的不同也许恰恰能成为合作分工的基础。现在已经有越来越多的国际合作项目,比如中国历史地理信息系统、CBDB数据库等等。台湾地区也有很多的国际合作项目,Markus就有一个功能模块是由“国立台湾大学”的项洁教授完成的,教学方面我们也跟新竹“清华大学”的祝平次有合作。

澎湃新闻最后能否简单谈谈您对数位人文发展前景的预估和期待?怎样才能更好地推进数位人文研究的进步?

魏希德:我认为将来应该尝试多种形式的教学,这是一件很急迫的事情,我们应该让学生准确地认识到什么是数位人文、如何利用数位人文开展研究以及数位人文能够解决哪些问题。我注意到,我的同事和学生们普遍对数位人文期待过高,他们认为问题能够自动解决,但这是不可能的。所以人们的期望必须建立在充分了解数位是什么、程序如何运行等问题的基础上。另外一个问题是,使用数位人文有时也会得出错误的结论,这很大程度是因为有些人看到图表、社会网络图或地图就做出结论,他们在对待这些图像时往往不能像对待文本那样具有批判性的眼光。这一训练尚有待加强,在看到处理结果后要多问问题,不能一下子就得出结论。研究者需要细心对待正在处理的数据,看它们是统计性的数据、错误的乱码还是其它。其实现在网上有很多的模块组件,当学生想了解空间数据的使用或如何利用地图呈现研究时,就可以利用这些线上资源来获得基本的认知。此外,研究者应该努力避免简单幼稚地使用数位手段,因为有时这一手段可能并不适用于某些研究内容。

总之,我们应该努力对学生进行数字化“扫盲”,使他们了解程序运作背后的思维逻辑。使用数位人文并不意味着事事都要用它的思维去思考,研究者更应该有能力对数位人文做出评估,要能去判断我们可以利用数位人文做些什么,又有哪些不能企及。能够做出正确的评估是很重要的,因为我们固然要对数位人文保持批判精神,但有些批判完全是出于误解。我的期望是将来所有人文学科的学生都能意识到研究方法是丰富多样的,而数位方法也是其中之一。其实,任何研究方法的背后都有理论思考,因此需要了解每种方法论背后的理论假设是什么,这些假设会影响方法的适用范围,也会让我们更好地理解这种方法。因此,对学生进行数字化“扫盲”,对于将来数位人文的发展非常重要,现在在莱顿大学,就已经在人文学院设立了“数位人文”的副修专业,希望使学生更好地了解数字本身、数字媒体、与数字研究。

(注:本文系笔者据魏希德教授的英文访谈录音翻译整理而成,虽全文已经本人审阅,但转译之中难免有疏漏歧义之处,敬祈读者见谅。)

    校对:张艳