产业与治理|国际科创中心需要重视科学数据管理

卫军朝 许鑫
2023-06-02 09:55
来源:澎湃新闻

5月26日,上海市科学技术奖励大会隆重表彰为国家、为上海科技事业和现代化建设作出突出贡献的科技工作者。科学数据是科技工作者生产的一项重要成果。本文,想重点谈谈,科学数据管理的意义与价值,以及可持续运行的建议。

当下,数据已成为驱动经济增长和社会进步的重要基础。2018年3月国务院颁布《科学数据管理办法》进一步加强和规范科学数据管理,以制度形式规范科学数据管理。长三角三省一市分别于2018年11月18日出台了《安徽省科学数据管理实施办法》、2019年2月19日出台了《江苏省科学数据管理实施条例》、2021年1月6日出台了《上海市科学数据管理实施细则(试行)》、2022年3月1日出台了《浙江省公共数据条例》,浏览各项办法、条例、细则能发现,其主要关注的还是科学数据管理活动本身,对于科学数据管理的有效可持续运行仍缺乏具体方案。

2022年12月2日《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》发布,其中明确要建立公共数据的分类分级确权授权制度,建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制,其为市场化方式探索“共同使用、共享收益”的新模式指明方向和奠定基础。我们科学数据管理课题组从成本-效益分析出发,系统梳理国外科学数据管理研究和实践中的成本-效益模型,对比分析国内科学数据管理存在的问题,并借鉴国外科学数据管理可持续运行上的经验与成果,构建适应上海主要创新要素的可持续科学数据管理运行模式并提出策略建议。 

一、  国内科学数据管理可持续运行面临的问题

科学数据不仅是科技创新和国家发展的战略资源,也是政府部门制定政策、进行科学决策的重要依据。进行有效的、可持续的科学数据管理已成为大家的共识,而目前国内科学数据管理尤其在可持续方面还存在诸多问题,阻碍了创新能力的提升。

1、科学数据管理及其可持续运行研究相对匮乏

科学数据是大数据时代下的重要资源,而科学数据管理是贯穿于科学研究整个生命周期的管理活动。目前,国外各类科学数据管理平台建设发展迅猛,已经建设较多科学数据管理平台。同时,国外也有机构和组织尝试进行科学数据管理的可持续性研究,开始对科学数据管理的成本-收益相关模型进行实践与探索。反观国内,虽然大家已经意识到科研大数据以及科学数据管理的重要性,但国内的研究主要关注点在科学数据管理活动本身,包括科学数据的组织、存储、备份、开放、共享,以及科学数据管理平台的建设等,对于可持续科学数据管理的研究和实践较少。

2、当前国内科学数据管理运行成本普遍较高

国内科学数据管理平台隶属于高校、研究所、政府机构、企业等,其产生的科学数据大多数是以自主保存和管理为主。这意味着从科学数据的计划、产生、管理、存档、使用等各阶段,都存在科学数据管理的成本,包括设备成本、人力成本、物业成本、行政成本、管理成本、保存成本等。单以保存过程为例,一些较有效益的科学数据长期存档作业,就包括数据选择政策、与数据创建者协商提交协议;将数据转移到档案馆、知识库和其他保管机构,并安全销毁没有被选中进行长期管理的资料;提供适当的存储容量和设备来接收数据,将数据格式转换为存档所需的格式;生成保存过程中的管理元数据、描述性元数据、产品文档和用户文档,并且提供可以更新归档文件内容的机制以及原始数据文本解释的语义链接等一系列的有可能需要进行的流程,这些流程中涉及的人力、物力、时间等成本问题也随之而来。

3、科学数据的开放和共享程度仍不够高

由于科学数据多是以自主保存和管理为主,各机构成立信息中心、数据中心、计算中心,采购服务器以保存和管理本单位产生的科学数据,独立开发或购买相关的专业软件进行科学数据的保存和管理。对于机构本身产出的科学数据,机构的开放和共享意愿较低,科学数据的数据创建者对相关数据的共享兴趣不高,科学大数据的价值因而不能被最大化利用。加之共享过程中的设备、服务成本及担心知识产权纠纷的发生,科学数据拥有者共享的意愿便更低。

二、  国外科学数据管理可持续运行的启示

通过研究国外科学数据管理模型以及科学数据管理成本-效益模型,调研国外主要科学数据管理平台的最佳实践,可以给予国内机构、组织的可持续的科学数据管理运行模式及策略制定相关启示,保障科学数据管理的可持续性运行。

1、科学数据管理可持续运营依赖于成本-效益模型分析

成本-效益分析是实现科学数据管理可持续运行的主要分析方法之一。国外现已有众多成本-效益分析模型可供国内借鉴参考,如KRDS(Keeping Research Data Safe)模型能够帮助识别和确定科学数据管理与保存的成本,让机构意识到管理和保存活动会带来的收益,以此促进科学数据管理可持续运行;荷兰数据存档与网络服务(DANS)开发的ABC(Activity Based Costing)模型能帮助聚焦成本高的领域,确定影响这些成本的因素,衡量绩效,量化所执行活动的时间和成本方面的改进。从国外已建立模型来看,通过成本和收益的比较,评估科学数据管理整个生命周期的成本活动和成本因素、研究科学数据管理产生的预期收益,结合相关的科学数据管理政策制定可行的科学数据管理模式与策略,可以较好地保障科学数据管理的可持续运行。

2、多渠道筹措资金保障科学数据管理可持续运营

科学数据的管理和长期保存是一项长期工作,为了促进其可持续发展,需要积极探索多样化的经费来源途径。首先最主要的是保障国家及政府的科研基金支持,大部分科研机构科学数据管理的经费都主要来源于此,因此需要发挥国家职能,从政策、资金等方面给予支持。如对美国科研资助机构的数据管理政策调研显示,大部分科研机构表示,数据共享及管理产生的费用可以包含在项目的经费中。其次,各机构可以实施合作,共同承担一定的经费支出。如Geller 提出,参与合作项目可以节省小型图书馆的经费支出。此外,通过合作的方式还能够避免单个机构经费短缺对科学数据管理活动的影响。实施过程中明确,不同参与者的权利和义务,建立各方均能接受的经费承担方式,使参与的不同主体都享有收益,调动其积极性开展合作。在美国,基金会是重要的资金来源,多项数字信息资源长期保存项目都得到了安德鲁•W•梅隆基金会的支持。故还可通过强有力的、可持续性的领导,分析并宣传科学数据管理对整个社会的利益,积极争取社会各界的支持,拉动企事业单位、基金会、社会大众等提供一定的经费支持。

3、开发利用科学数据,优化科学数据管理活动

欧盟委员会此前测算, 截至2020年大数据可创造2060亿欧元的价值。大数据时代,如何开发利用机构的科学数据,使数据成为资产,为机构产生价值,成为研究人员努力的目标。可以通过科学数据的开放共享,建设数据产品,开发数据APP,合作开发数据等方式,实现科学数据的增值再利用。一方面,需要使得科学数据的价值最大化,加大开放共享力度,同时对数据进行合理的收费政策,遵循受益者付费的经费承担思路。这样对于数据拥有者而言,提升了其资源的长期稳定性,减少了自身在保存活动中的经费支出;对于资源利用者而言,为其便捷获得所需科学数据提供了相应途径。除共享数据外,还可利用保存的科学数据开展增值服务,如对内容的深度分析、数据挖掘、数据集成等。另一方面,科学数据管理是围绕数据生命周期而进行的概念化、创建或接收数据、评估和选择、摄取、保存、存储、访问和使用及再利用、转换等活动,这些活动会产生相应的科学数据成本。可以通过优化科学数据管理流程,简化科学数据管理活动,实现科学数据管理的自动化等方式降低科学数据管理成本。

4、构建科学数据管理共享平台,发挥信息化效用

科学数据管理平台是科学数据开放的主要承载方式。例如,牛津大学嵌入式机构数据管理服务(EIDCSR)平台、康奈尔大学DataStaR平台、普渡大学机构数据仓储平台PURR、英国数据存档库(UK Data Archive,UKDA)、美国哈佛麻省数据中心HMDC、美国约翰霍普金斯大学Data Conservancy平台、英国爱丁堡大学数据共享中心(Edinburgh DataShare)等,还有更多的政府以及学会、协会、委员会、基金会等NGO组织提供的科学数据管理平台。通过构建科学数据管理平台,将企业、高校、研究机构、政府等独立形成的科学数据进行有效管理和开放共享,通过信息化手段和平台化可持续运行使各主体都能快速访问、利用科学数据,使科学数据得到广泛开放利用,最大程度实现科学数据的增值。 

三、上海科学数据管理可持续运行的对策建议

上海建设全球科创中心过程中十分重视科学数据管理,出台了《关于落实〈科学数据管理办法〉的通知》,建设了上海科技创新资源数据中心,但在科学数据管理可持续运行方面还存在可进一步提升空间。

1、分析厘清科学数据管理所需各项成本

在当前国际形势走向不明,基础性科研投入加大的背景下,分析厘清科学数据管理所需各项成本是机构开展此项工作的基础,也是政府出台相关政策的前提。首先需解决的问题是梳理各机构拥有的科学数据资产,明确各机构数据资产现状,在机构数据资产的审计和调研基础上,才能进行下一步的数据管理策略制定。可用KRDS模型分析主要成本,通过制定规范和政策降低成本,减少不必要的成本活动。接下来可对科学数据的管理活动消耗的资源成本进行评估。最后对科学数据管理的成本因素进行识别。在制定科学数据管理计划时,考虑其中的成本影响因素,制定合理的数据管理计划。同样是KRDS模型,可以帮助科学数据管理机构在进行成本分析时识别管理活动中会影响成本的变量,通过具体变量的调整和变化来核算资源的消耗、成本和收益。

2、出台相关政策规定为科学数据管理提供资金保证

为使得科学数据管理中国家、政府提供的项目经费等主要资金来源有保证,需要用政策规定的形式,以白纸黑字的明文条款为项目开展提供可靠的资金来源。避免因人员变动、资金挪用或其他因素导致资金无法到位,最终影响项目实施的情况发生。具体实施层次上可以采取以下措施:运作成本由政府、研究机构和科学数据管理平台的增值服务收益来共同负担;建立一个永久的制度化的学术基金,科学数据可以被当作一个知识公共财产,以保证其持续运行和发展下去;颁布政策吸引鼓励各界捐赠,给予相应合理的利益诉求及回报。

3、落实政策法规对科学数据管理进行引导和支持

除了资金需要一定的政策保护,科学数据管理需要政策法规层面的指导和规范。中国已经制定《科学数据管理办法》,然而各地方单位在科学数据管理办法实施和推进细则上还需完善,上海可以先行先试,合理借鉴国外在法律系统性、一致性、完善性方面的经验,在结构上形成国家、地方、部门层级政策法规体系。既有类似《信息自由法》、《科学数据共享法》等宏观性的法律要求,也有《科学数据汇交细则》、《科学数据管理细则》等具体的指导性文件,对参与共享活动的国家政府部门、科研单位、网络中心、共享平台、数据使用者提出明确的权利和义务规定,规范共享秩序,使科学数据共享不但做到有法可依,还能做到有章可循。此外,在科研项目管理规定中,应该明确要求项目申请者必须提交相应的数据管理计划,并将科研过程中对科学数据的管理与保存纳入项目考核范围。

4、持续建设科学数据管理和共享平台

上海已建设的科学数据管理平台的效用和价值尚未充分显现,同时科学数据涵盖面较广泛,有一般的科学实验数据,也包括人文社科研究数据(还可能存在意识形态问题),还有大科学装置或者设施群的海量数据协同管理,需要实现分级分类管理,加大投入,持续建设。需要成立专门委员会,顶层设计规划,通过连接各个机构的可以共享的数据库,整合数据管理各主体的科学数据,构建跨政府、科研机构、企业、高校等的数据管理和共享平台。可以通过集中式、分布式或集中式+分布式的方式来进行整合和共享科学数据,使得各机构数据的共享更简便,也可使得存储科学数据的各项成本降低。平台能够支持不同主体对于自身数据的管理功能,通过平台可实现各主体关于科学数据的需求和服务,通过许可机制和服务机制也可保障各主体的利益。对于大科学装置平台,其科学数据管理有特殊性,可结合大科学计划的发起制定专门策略,搭建满足其需求的共享平台。 

(作者卫军朝系上海大学文化遗产与信息管理学院副教授;许鑫系华东师范大学经济与管理学部教授、博士生导师,上海高校智库主任。许鑫教授持续关注新技术、新产业、新业态、新模式等新型经济形态,关心新兴技术治理,本专栏以“产业与治理”为主题,探讨科技创新在经济社会发展中的前瞻性问题。)

    责任编辑:田春玲
    图片编辑:蒋立冬
    校对:丁晓