“史料控”的福利:抗日战争与近代中日关系文献数据平台上线

澎湃新闻记者 钟源
2017-10-23 10:01
来源:澎湃新闻

近日,抗日战争与近代中日关系文献数据平台(http://www.modernhistory.org.cn)上线试运营,引起学界及历史爱好者的普遍关注,不到一周就有上千名用户注册使用。

目前,该数据平台已上线图书、报纸、期刊、档案、图片、舆图等各类文献二百万页。预计明年实现1000万页以上的文献在线浏览及下载,计划包括一百份民国旧报纸、近千种期刊、数万册民国图书,以及一到两百万页档案。当研究者足不出户,即可坐拥海量文献资料,随时检索、浏览并免费下载使用时,历史研究方式或许将发生改变。那么,这样一个文献数据库是怎样诞生的?又是如何运作的?将来能否持续运营下去?带着这些问题,澎湃新闻对该数据平台的运营团队进行了采访。

抗日战争与近代中日关系文献数据平台首页

缘起

谈起抗日战争与近代中日关系文献数据平台的缘起,中国社会科学院近代史研究所金以林副所长说:“近代以来,中日关系极为复杂,甲午战争、抗日战争深刻影响了中日两国的发展。在学术层面,抗日战争史和近代中日关系史是历史学科的重要内容,能够衍生出不可胜数的研究课题。但客观来说,对抗日战争史和近代中日关系史的研究尚十分薄弱,其中最主要的原因就是研究资料的获取和使用非常不便。相关资料散落于国内以及海外各文献资料收藏单位和学术研究机构,即便是一个很小的题目,靠研究者个人之力,也很难穷尽。因此,打造一个涵盖海内外有关抗战和近代中日关系的综合性文献共享平台和学术交流平台,具有巨大的学术价值和现实意义。”

有鉴于此,在全国哲学社会科学规划办公室领导下,中国社会科学院、国家图书馆和国家档案局合作筹建了这样一个数据平台。2016年6月,该数据平台的建设作为国家社科基金课题“抗日战争研究专项工程”立项,中国社会科学院副院长李培林研究员主持,由近代史研究所具体负责平台的建设,百度公司负责技术支持和维护。

据悉,抗战平台的设想是近代史研究所老所长步平先生在与病魔搏斗时形成的。2016年5月,他还亲自修订平台的相关申报材料,并反复强调“共享”、“公益”的理念。金以林说:“如果我们能在五年内实现3000-4000万页资料的上线,超越日本亚洲史料中心,达成老所长的夙愿。这将是对逝者最好的缅怀和纪念。”

步平先生照片

团队

数据平台的日常工作人员仅有十余人,且多为兼职。在这十余人中,80后做中坚,90后为骨干;参与平台建设的还有刚刚走进大学校门的00后。团队成员张燚明表示,是“史料控”这个共同的身份让他们这些年轻人走到一起。

“硬盘里的史料从不嫌多,图片清晰度从不满意,移动硬盘从不够用,人人都有‘松鼠症’。史料就好像桌上摊开的杂物一样遍布电脑的各个角落,找起来十分费劲儿,越是着急越是找不到。我们相信,在史料极大丰富的信息化时代,我们所面对的难题绝非孤例。而抗战平台项目对我们来说是‘书生意气正当时’。通过数据平台来完成史料的保存与利用可谓事半功倍,同时还能缓解我们的‘松鼠症’,何乐而不为?”

平台上线试运营后,从后台看着注册用户不断增加,浏览和下载量迅速上升,张燚明非常兴奋,也很有成就感。看到有人锲而不舍地用一个邮箱注册十多个账户时,他“还真不忍心去封禁它们”。

部分团队成员合影

特色

抗日战争与近代中日关系文献数据平台上线以来,用户普遍反映“好用”、“方便”。张燚明总结平台具有以下三个特色:

一、永久公益开放、注册即可免费下载。无论在任何地方,只要有网络,就相当于随身带着藏书数十万册的流动图书馆。

二、汇多库于一。集图书、期刊、报纸、档案、图片、舆图以及音频、视频等多种文献资料形式于一体,实现了跨类深度内容检索。图书、期刊已实现章节、篇名目录加版权页级的检索,档案将实现案卷甚至文件目录级的检索,极大满足了研究者对内容检索的需求。

三、“史料控”与“技术控”的优势互补。“史料控”们广泛吸收海内外各类文献数据库的优点,并结合自身的研究需要,不断向百度公司的“技术控”们提出用户需求,不厌其烦地不断优化平台。

除了不同类型文献的呈现之外,平台上还有一个“红色文献”专题版块,集中展示了有关中国共产党的各种文献资料。平台运营骨干周月峰解释说,“红色文献”不是一个独立版块,而是在一个主题下汇聚不同种类文献的总和,是向“研究型”数据库探索的尝试。希望以后能有更多诸如南京大屠杀、平型关战役、滇缅战场等不同专题。平台努力的方向是让每一个使用者都能定制自己感兴趣的专题库。

困难

创建如此大规模的综合数据库,有几个难题一直困扰着运营团队成员们,最主要的是标准制定、版权和经费问题。

首先,图书、期刊、报纸、档案以及音视频等都有不同的著录要求,而现有各级各类史料收藏机构也都有各自的标准。如何在这样一个综合性数据平台上做到全面检索,标准的制定与技术的结合相当困难。平台负责文献著录标准制定的专家茹静表示,单就一份期刊来讲,既要完成基本的版权、目录等信息的著录,又要实现著录信息与数字化文献的对应,还要与百度公司不断沟通技术瓶颈问题,这都要花费大量精力、时间和智慧。

其次是版权问题。据平台运营团队骨干田武雄介绍,抗日战争与近代中日关系文献数据平台的资料大致可以分三类:一是过了版权保护年限的公版文献,占很大比重;二是取得国家图书馆、社科院图书馆、各档案馆等单位授权的文献,这部分比重也不小;三是著作权人授权的文献。“因为文献数量巨大,可能偶有某一种文献仍存在版权问题,读者如有发现,可尽快跟我们联系,我们一定在第一时间加以解决。同时也希望更多学人将大作授权于我们平台发布,使历史文献及著作真正成为‘天下公器’,惠及学林。” 随着项目的开展,今后需要大规模购买各类已出版的档案文献、资料汇编等成果。这部分文献基本都是由各级政府财政资金资助出版,但是编者、出版社拥有出版权。要解决版权的问题,仍任重道远。

最后,随着内容的不断增加,工作量也在成倍提升,而采购与扫描数字化文献、完成信息著录、保障网站稳定运行等工作,需要更多的经费支持。平台运营骨干赵丽说,如何用有限的项目资金使平台持续运营并不断扩充文献数量,这是团队目前和未来将一直面对的难题。

未来

为了抗日战争与近代中日关系文献数据平台能够方便学界使用,很多功能还需要不断完善。运营团队成员告诉澎湃新闻:“我们在抓紧开发同义词库,这样更能方便大家通过模糊检索找到更合理准确、符合需求的结果。另外,我们还会继续完善个人中心系统,增加使用者对文献的标签设置功能,使得文献除了有平台设置的‘关键词’之外,还多了一层‘众筹’的‘身份标识’,以促进使用者之间的交流互动,提升读者对平台建设的参与度。”

“史料方面,将着重拓展其他地方少见的史料,不做重复劳动。在下一年度将继续完善报纸库的建设,开展部分稀见、罕见报纸的数字化工作,着重于各抗日根据地、正面战场前线以及沦陷区发行报纸的挖掘与整理。此外,对于广大读者十分关心的档案库,我们也会尽快加以完善。预计明年内将新增一百到两百万页档案文献。同时更希望民间‘史料控’能把他们收集的资料贡献出来,参与平台的建设。”

据悉,平台在未来将不仅提供抗日战争及近代中日的材料,还计划通过丰富的史料,展现出20世纪上半叶中国的方方面面。“我们建设这个平台,是以开放原则为指导,坚持学术性,保证内容的专业性,方便社会各界利用。我们希望广大的历史爱好者能同顶尖研究者一样,有机会在抗战平台上阅读、下载和使用同样的、内容丰富而全面的史料,打破学术壁垒,进而实现研究的平等,让历史研究从象牙塔真正‘走出来’,进而丰富和深化公众对历史的认知。”

最后,这批年轻的“史料控”们表示:“我们的最终目标是上传一亿页文献。平台的宗旨永远、永远、永远是‘共享’、‘公益’!”

    校对:丁晓