思勉思想节|关于全球视野下的数字人文:研究与实践

王晓光(武汉大学教授、数字人文研究中心主任)
2019-04-18 15:01
来源:澎湃新闻

4月17日下午,武汉大学教授、数字人文研究中心主任王晓光在华东师大闵行校区图书馆做了“全球视野下的数字人文:研究与实践”的演讲,从数字人文的时代兴起的背景谈起,解释相关概念、研究对象、研究方法和工具、发展趋势等,最后谈到了在大数据时代关于人文社科研究路径创新的问题。该演讲系华东师范大学第五届思勉人文思想节的系列名家演讲活动中的一场,由华东师范大学中文系教授、图书馆馆长胡晓明主持。以下系演讲现场实录稿节选。(澎湃新闻实习记者 潘体芳)

武汉大学教授、数字人文研究中心主任王晓光在华东师大闵行校区图书馆做了“全球视野下的数字人文:研究与实践”的演讲

数字人文兴起的时代背景

自然科学和社会科学主要是揭示研究对象的基本性质和规律,研究的目的是为了获得对象的普遍知识。但是人文学科更关心人的生存及其意义,更关心的是人的价值存在和价值实现。柏拉图说我们要建设理想和美好的社会,但是理想和美好的社会是什么样的?并不是规律,是我们探索的过程,而且不同的学者的认知、目标是有差别的。

2005年美国总统信息技术咨询委员会(PITAC)发布的报告中,提出计算机科学虽然本身就是一门学科,但是这门学科可以促进其他学科的发展,而且21世纪在经济上最有前途的研究前沿,都有可能通过熟练掌握的先进计算机技术并且运用技术得到解决,计算思维、计算技术的发展可以整体上推动美国所有学科的发展,保证它全方位的竞争力。不仅仅是在信息产业上的竞争力,计算有赋能的作用,可以赋予其他学科更大的能力。

我们现在关心的是怎样利用计算思维来和其他思维一起推动思维的进步,以及解决问题方式的进步。今天的计算机技术是上个世纪40年代开始发展的,60年代有了数据库,80年代有了互联网,90年代有了物联网,21世纪有了大数据,人工智能发展了,技术在不断进步,在进步的同时我们的理念在创新,技术不仅仅作为富有的赋能,还带来了人的思维改变。此外还有知识共享和开源。今天软件开发开源的思想是非常重要的,像谷歌公司把最重要的算法开源了,推动了算法不断迭代更新。还有大众的协同,比如维基百科,知识生产让每个人都能参与进来,而不仅仅是专家。还有人机协同,今天人工智能发展,未来人将会跟机器协同处理各种工作。

技术的进步同时,人的思维理念也在进步。在自然科学领域,计算机彻底改变了自然科学研究的面貌。自然科学领域里对于计算机的技术已经有相当深刻的运用,比如美国高校的化学研究,现在第一步就是做计算,用高性能计算机做模拟分析,筛选出几百个或者几十个分子式,再做传统的化学实验,而不是先做实验再计算。

在社会科学领域,研究怎么样利用计算机建模模拟和分析各种各样社会现象?怎么样利用计算机数据分析来做?用计算机和大数据来做,计算机相关技术已经在改变社科研究的基本过程。到了互联网时代,大量依靠大数据来做研究,比如传播研究领域用社交媒体来做,用社交媒体推特上的数据,而不是抽样的小样样本做社会关系方面的研究。

人文学科虽然关注的是个体、群体以及社会整体的精神或意义世界,但是这不意味着人文学术和知识生产活动不会受到技术的影响。有些学者尤其是资深老牌学者,可能对技术有一定抵触,但是我们发现人文学术研究不可能离开技术的影响,因为人文学科生产的知识成果,直接表现为各种形式化的符号,如文字、图像、声音、视频。

信息技术改变了目前的信息环境,信息化环境带来了互联网、带来了大数据,人文知识的表现样式也被改变了。信息技术已经在改变人文学术具体研究对象,研究对象很多时候就是符号,以及符号上承载的思想,进而通过改变、通过影响符号而影响整个人文学术的流程,所以人文学科的数字化转型,是社会数字化转型的重要的组成部分。但是在转型之中,我们必须要明白到底人文学科里面什么东西没有改变?人文学科的终极目标会否改变?会不会因为数字化影响发生改变?对于这个问题我们必须保持高度的警戒。

什么是数字人文

数字人文在最早的时候称之为人文计算,追溯到1949年意大利神父罗伯托布萨在IBM公司帮助下对神学家托马斯的研究工作。当年对于托马斯的作品使用的还是传统的计算机,拿的是传统的卡片,有500份,成本相当昂贵。到了1954年,出现了磁带,开始做迁移,转移到了磁带上,数据量达到了1500多万的数字量。

我们发现,人文计算的起点就是文献资料的电子化。电子技术把印刷的东西开始进行电子化,不仅改变了人们获取资料的方式,也改变了使用的方式。

计算机科学家说,使用的工具影响了思维方式和思维习惯,也将深刻影响我们的思维能力。在我们使用印刷术的时候和使用电子技术的时候,看起来好象是资料的一种改变,实际上在改变我们的思维,在改变我们的思维能力,这种认识就逐渐地推动了人文计算思维的发展。怎么样利用计算机技术来解决和发现人文问题,并解决人文问题新的思维模式,导致人文计算的产生。人文计算理念首先在于语言学,在此之后逐渐向其他领域扩展,向历史、艺术、音乐、宗教其他人文学科开始扩散。不仅仅是技术的扩散,实际上是思维模式的扩散。从人文计算到数字人文,这个词汇有变化的过程,西方在1980年代的时候一直用的是人文计算,从2004年开始,我们改变了话语。话语的改变有时候蕴含着一种思想的改变,计算这个词听起来对于人文学科来说有点刺耳,一直强调的是思想怎么计算有点刺耳。

数字人文研究什么?

数字人文研究什么?数字人文是计算或者数字技术和人文学科的交叉点,包括的是系统化使用数字资源。在人文研究领域里面使用数字资源,一方面包括数据,另一方面包括各种各样数字化工具,以及对这个过程的反思性的行为。数字人文宣言中也进行了尝试性的定义:用一种新的从事学术的方式(强调的是协作、跨学科、计算化的切入)在教学、出版和研究过程中使用计算技术(强调了这样的特征,把数字技术和数字方法、数字工具用到了人文研究里面)。

在这个领域里面,印刷不再是唯一的重要的媒介,数字工具、各种技术和数字媒介正在改变知识的生产和传播,媒介技术的改变对人类知识生产和传播、教学方面的改变是底层的,改变了知识的状态,这是非常颠覆性的改变。

今天,人类刚刚进入数字社会,我们在这样的初始阶段所认识到的数字技术对于社会的影响,仍然是不全面的,是非常粗浅的。

数字人文的研究主题、方法和工具

到底数字人文领域里面研究什么主题?传统的人文研究从来不会想到建模,说到建模是数学工作,或者是计算机领域的事,但是数字人文的研究非常强调建模,我们今天使用主题模型去做大的文本集合关键主题的提取,我们需要新工具方法帮助我们研究实现新的需求。

我把数字人文分成了三个方面。

第一,数字层面。怎么样利用新的信息化技术,创新方法和研究路径?比如说建设预料库挖掘,进行专题数据库进行挖掘统计分析,比如说通过文本挖掘技术,还有图像自动识别技术,去分析潜在的隐层的模式出来,让计算机辅助我们理解,以前这种情况主要靠人,但是大的模式人是解读不出来,所以需要计算机帮助我们来做,所以工具在任何时代、任何学科都是非常重要的解剖的工具。

第二,工具层面。我们需要开发新的工具或者软件平台,比如数字出版工具。

第三,数字人文研究不仅仅是强调资源上的改变、工具和方法的改变,更加强调的是面向未来真正新的问题。问题可能由技术带来的,比如互联网虚拟现实、大数据、人工智能带来新的问题。也可能是技术对于资本主义的影响,比如说对我们国家经济影响,电子商务、数据的遗忘权等。人类正在向数字社会迁移,在数字社会里面我们遇到新的传统的社会不会遇到的问题。

数字人文的研究流程,在方法上能分成:获取数据、创作、分享数据、分析数据、解释数据、分发数据和活动,这些活动都是数字分析方法的应用,涉及工具很多,比如在出版方面、图像的处理上面管理与分析方面,文本编码分析。

中国当代数字人文发展的重点

具体来看目前中国当代数字人文发展的重点是什么?目前来说重点对几大数据库,对它的研究项目做了统计,对国家社科教育部基金用数字数据库做了统计,我们发现相关的项目非常多,而且增长速度开始在加速增长,从2009年开始加速,在早期的时候量不是很大,但是从09年开始加速增长,如果看这个不是很清楚,我们再看看社科重大和重点基金代表了我们国家顶层,或者学者们的集中判断,他们的基本认识,重大和重点基金里面,在09年以前基本没有关于数字人文的项目,但是09年以后一下子变成了9个,2016年变成了18个翻倍了,到了2017年又再次翻倍达到37个,目前社科重大基金里面仅仅十分之一都是做数据库建设的,我们来看这些项目,拓本数据库、体育非物质文化数据库、方言数据库、俗语数据库、唐宋编辑地图、藏语语料库等等,抗战数据库,这些数据库项目是最重要的,目前我们还停留在数字资源建设的层面上,看词频越大代表词频越高,数据库语料数据库建设,目前数据库建设是数字人文研究里面基础设施建设的基础部分,是少不了。

我们起步并不算晚,最早的时候仅仅是项目检索结果可以追溯到1991年,那个时候武汉大学情报学院前身,现在是管理学院,那个时候老的系管主任,还有在91年清华大学也做了数据库建设,后来系主任焦老师也做了数据库的工作,都是比较早的。现在2017年社科重大的十分之一都和这个相关的,2018年我没有做统计,但是基本接近40多个都是做数据库建设的,社科重大基金里面,现在更加宽了,比如说铜鼓数字记录、少数民族民族数据库记录、手工艺要素数据库、户籍制度数据库、档案数据库、古籍档案、民间信仰数据库,族谱数据库等等,通过这些看到今天资料数据库整理是工作很重要的一部分。

还有数据平台建设,比如北京大学开放数据平台,复旦大学人文领域平台,一方面学者自己做数据库,高校做数据平台,支撑数据库建设很重要。我们介绍一下数据研究中心的工作,我们主要做智慧数据,主要是人文社科数据资料数字化处理方法,还有人文社科相关的数据分析软件,我们做软件开放出来给学者们使用。我们做成果,数据可视化、语音分析、文本挖掘等等开发成果,这是主题演化可视化分析语义增强、语义检索记录等等。这是我们做的诗歌制图,我们把以前的诗歌只是传统的样式,但是变成知识图谱,我们对文化图谱进行了标注,对敦煌相关文献做了知识图谱构造,这是以前不存在的工作。这是我们对莫高窟做了标注,用了多种方法。

为什么谈智慧数据?是战略问题,人文社科今天的研究,正在计算思维下有新的变化,比如有开放思维、计算量化思维、协同思维、跨学科思维和关联度思维,这是人文数字化以后带来新的思维变化,除了需要大数据支撑,还需要关联数据,需要开放资源,同时我们希望有Smart、data,有一些特征,比如说长达2000年全球协作、数据驱动、融合性的分析和视觉化的分析,这是数字人文基本特征,需要新的思维和新的数据作为支撑,这个时候我们这个学科干这个事,就是提供新的数据做支撑的,我们做什么?因为我们认识到基本的认识,就是数据科学正在成为所有的现代科学基础性的学科,尤其是在人文领域里面,随着传统文献资源数字化,一切文献都可能会成为一种可计算数据,数据科学不仅仅是自然科学,还在支撑人文社科,以前我们的人文社科主要靠脑袋想,以后可能还会有数据的处理问题,这个时候都依赖于数据科学的发展,而我们数据科学基础理论一个研究方向,而且数据处理和文献阅读对于人文学者来说是非常重要的,相对自然科学来说,人文学者更依赖于阅读和使用电子文献,因为花更多时间使用,但是工作当中发现有时候要的不是海量数据,要的是更高等级的智慧层面的数据,称之为Smart、data,更关心的是让数字资源组织水平更高,不再把传统的文献一册放在数字化,而是把文献内部的知识之间建立跨域的链接,就像刚才威尼斯里面提到的做跨域链接,知识应该超越图书,通过某种超媒介在图书之间相互关联,而这个工作如果关联起来,高级的知识组织状态就是Smart data。

智慧数据怎么样支撑人文研究?以前有原始数据,比如网页、小说、政策文本、行为数据、三维模型、古籍,我们通过语义化、数字化、关联化和形式化变成新的智慧数据的结构,用智慧数据的结构支撑在各种系统支撑下,交付系统、对话系统、软件终端发现语义支持系统,版本比对,有些问题得到解决,这些问题为人,同时分析需要机器参与,这是未来的目标,是比较宏大的目标。怎么建设智慧数据?我们人类编码能力一直在进步,从早些时候载体是拟办、族谱、文字,逐渐到网络,再到新的技术,这是图谱或者是关联数据,人类对于知识的编码能力一直在进步、一直在超越,所以智慧数据代表的是人类对知识、编码和表现的一种能力,一种进步,所以智慧数据可能代表了三个阶段,首先数字化,我们把传统的古籍图像扫描成图片,这就是数字化,得到了数字化的照片。

随后我们数据化,把知识结构化处理,进行细致地布置,我们得到了半结构的或者结构化的表格,CBBD数据库是表格化,是完全结构性的数据,这样可以做大规模统计分析,最终的目标我们希望是智慧化,可以看到这是钢铁侠,他和机器人战甲进行对话,同时是实体,但是同时也是数据体,就是平行世界里面的数字卵生,是非常新颖的概念,我们正在利用这个概念做文化管理方面的探索性的工作,一个实体本身应该是数据体,数据体能够反映实体的东西。对于图书、图书馆文献怎么在数字空间里面呈现和实体空间里面呈现,有什么样的对应关系?这就是我们要探索的目标。更多的智慧数据具体表现不再作更多解释,比如说数据本身必须解释,数据可以自描述机制,数据可以解释一切,这就是DNA,干细胞里面DNA有能力,智慧数据可溯源,数据必须是可信的。

为什么在今天历史研究里面数据不可信?因为证据没有证据,证据本身不可信,因为不可溯源,凭空产生,如果数据本身溯源,一切历史研究完全可以回到当下。智慧数据还有一些从高级状态到低级状态是兼容性的,想看原始数据、看古籍可以看,想看地图、GIS空间也可以看,智慧数据现在可以看到的几个雏形,可以看到未来的微光看到未来。第一个就是纳米出版物或者微型出版物,新的论文模型,大多数不会接触到。第二个是关联数据,这个慢慢很多图书馆会使用到它,比如说里面有很多博物馆、图书馆,把它们的数据关联化发布了,这样可以保证做探索,去发现自己,自己不知道,不知道自己不知道发现这种东西。

还有知识图谱,可以实现知识之间的推理,这样可以辅助找到不太明确的线索,这是我们让计算机怎么样辅助我们做研究的时候,更多体现在发现线索上面。这是我个人的工作,就是跨模态关联,中国在历史领域当中总是讲一个概念,就是左图右史,左边发现地图,右边看史书,看史书的时候看位置,这样古代学者研究理解地图是非常重要的,但是图像和文本在多的情况下被分离了,被分割的,在我们很多时候尤其博物馆看到实物和图不知道背后的知识,怎么样把壁画和壁画背后知识关联起来?需要做探索,我们希望用敦煌构造智慧数据的原型,智慧数据做探索,我们做了本体、数据模型,我们做了敦煌洞窟的本体,我们把几个综合起来做的工作。我们用本体、用知识图谱构建图像适度标注,标注完了之后再做展示,这样可以把图像内部的热点和知识点和背后知识关联起来,过程是一个数据驱动的模式,是一种数据驱动的。

大数据时代人文社科路径创新

人文社科一般遵循流程,发现问题、使用方法、寻找数据和文献、分析问题、发表成果,这是人文社科基本工作的学术流程和环节,看大数据对这些东西产生了什么影响,或者数字化技术和大数据对每个环节产生了什么影响?我们现在有一些说法,第一个就是新问题,大数据给我们带来了新的场景,新的场景产生新的问题,但是在新的场景下希望解决老问题,所以在问题层面上最重要的,我们需要创造一些新的环境解决老的问题,同时我们还要发现一些新的问题,在新的数据时代的场景下要解决新的问题。

在方法层面,我们需要有新的方法,比如说数据驱动,数据驱动的方法跟传统的人文社科研究、理论驱动方法要相结合,不能说谁替代谁,是应该相结合的。还有互联网观察法,互联网正在成为观察社会的基本视角,以前我们做田野调查,到村里面到市面上去,现在通过互联网本身可以做田野调查,比如说通过快手可以看大货车司机他们的生活状态,还有众包科学,以前很多研究方法上面采用的是专家,大多数学者研究是专家实现的,但是今天通过众包可以让大众参与到知识生产过程中,还有虚拟实验室方法,以前我们知道对一个问题的研究,很多时候是没有办法通过虚拟仿真实验的,但是我们通过VI在虚拟空间里面,比如第二人生游戏,可以推演一个事件,或者一个活动,这样给我们观察社会,或者研究某些活动给了你新的虚拟空间,这些是方法上的创新。

在数据和文献上面,今天我们通过文献数字化,可以把传统的文献变成了新的数字文献,但是更重要的是使用新数据,比如说互联网数据,互联网目前是非常庞大的数据载体,记载了人类社会的各个方面,所以我们很多数据都可以通过互联网数据获取,可以代替传统文献。其次,在物联网是更大问题,今天智慧地球、智慧城市的发展,可以给我们很多的物联网数据,这种数据对人文社科都非常有帮助的。比如说公共汽车,公共汽车的通行,什么人使用公共汽车?这些年有什么变化?如果有公共汽车的数据,马上公交的数据不仅仅是路线优化和数学问题,还反映了民生问题。还有移动手机,今天手机记录了所有的信息,人文问题、自然科学问题统统可以通过手机反映出来。

分析部分除了定性和定量相结合,空间分析和时间分析、演绎和归纳分析、整体和部分、人工+机器都要结合起来进行分析,再发表,科研成果不仅仅是做成印刷文献专著,还通过网站和手机,或者通过软件的方式当作科研成果,越来越多科研成果就是软件本身。今天大数据同时是一种数据支撑推动我们的研究,而本身数据也是一种社会时代,会改变社会生态,所以两种视角相结合,可能让我们把人文社科的研究会更加准确,但是需要注意的基本问题,比如数据只是简约事实,不代表全部,所以更代表信念,个人隐私不可以触碰,我们在快手研究的时候个人隐私不能泄漏,数据作为新时代必须遵循新时代的伦理,信息素养制约了人文学者对数据资源的利用,因为不知道数据怎么处理。人文信息思维可能是抽象和思辨能力,人作为研究者本身存在的基本意义。我们武汉大学资深教授马老师,在数据方法训练上作最后总结时候,作了非常精彩报告,如果把大数据分析利用自然方法研究自然社科,在同时千万不能忽略人文社会研究中的价值,还有主体参与的问题,尤其对于价值的观念,在任何时候不能被忽略了。

总结

数字人文作为一个印刷环境向数字环境变迁中的路标性意义的概念,不光人文学者从低档复杂的资料当中收集起来,还要从高层次发现,从而加快研究速度提升研究效率,人文研究数字人文推纳传统人文学者接纳新的理念、新的思维、新的方法、路径、工具、数据,推动人文研究在问题本身和手段的持续性的拓展和创新,数字人文基于传统的人文并不替代传统人文,而是传统人文学科在数字时代的自然延伸和发展,是借助于数字技术改变人文知识的生产获取,标注取向、比较阐释表现样式,是数字化式的一种学术活动,所以宏大意义上来说,数字人文致力于新的方式提出人文问题,定义人文问题和研究人文问题,而且数字人文为我们的数字原著文,为下一代提供了新的数字认知路径,数字人文对数字化革命单向、不可逆转的回应,数字人文成为未来数字活动里面人文框架里面本题型框架和基础性范式。

4月17日下午,武汉大学教授、数字人文研究中心主任王晓光在华东师大闵行校区图书馆做了“全球视野下的数字人文:研究与实践”的演讲,从数字人文的时代兴起的背景谈起,解释相关概念、研究对象、研究方法和工具、发展趋势等,最后谈到了在大数据时代关于人文社科研究路径创新的问题。该演讲系华东师范大学第五届思勉人文思想节的系列名家演讲活动中的一场,由华东师范大学中文系教授、图书馆馆长胡晓明主持。

(演讲现场速记稿由主办方提供,本文系讲稿节选。澎湃新闻实习记者 潘体芳 现场报道。)

    责任编辑:韩少华
    校对:张亮亮