“开放获取”背后:数据库的查全率和查准率经得起考验吗?

2019-03-17 17:21
云南

网络上流传的中文“开放获取”的方法,基本可以归结为两种:

1. 以“国家哲学社会科学文献中心”为代表的OA期刊库;

2. 以“支付宝-浙江图书馆-知网”及“上海研发平台”为代表的第三方使用机制;

但这两种免费使用知网的方式真的全免费吗?究竟适用哪些人群呢?我们今天来探索一下。

众所周知,检验文献数据库最重要的两个指标就是查全率和查准率,查准率也是建立在查全率基础上的。中文数据库中,知网的期刊覆盖面远远比万方、超星、维普都要大。因此,接下来我们主要从查全率的角度来对“免费知网”和知网本身做一个对照测试。

举二个例子:

1.“国家哲学社会科学文献中心”

其依托于社科院图书馆建立,2016年12月30日上线,内含中文学术期刊2039种 。无论是其学科属性还是期刊种类,与知网的收录规模远远不能比。

如检索“政府大数据”,

知网结果:

哲社科文献中心结果(搜索词和检索结果数量标记红框):

结论:反复测试10余个关键词后,发现其主要开放的是有基金支持的论文,查全率较低。同时元数据切词效果也一般,没有利用语义支持的机制进行结果优化,导致查准率也不高。

2.第三方免费知网

我们选取了网上较为欢迎的两种方式:“支付宝”和上海研发平台。同样我们检索“政府大数据”,结果如下:

2.1 支付宝-浙江图书馆

采用方式:http://www.zjlib.cn/fwszzyfw/index.htm?li_id=2

检索结果:

2.2 上海研发平台

采用方式:http://cnki.sstir.cn/kns55/

检索结果:

结论:利用同一个检索词,知网(cnki.net)的检索结果为2263个、“支付宝-浙江图书馆”为218个、上海研发平台为194个。领域资源覆盖度无法同日而语。

如检索结果数量并不能作为实证的话,我们再来看下被引情况:

选取一篇发表4-5年、引用次数在100左右文献,如“大数据时代政府数据管理的机遇、挑战与对策”。

其在cnki.net的引用次数为123次:

“支付宝-浙江图书馆”为4次:

上海研发平台中为4次:

从被引情况可见,至少说明第三方免费库的更新周期是不同的。

针对上述这种情况,我们咨询了知网的工作人员,答复为:这类免费使用知网的渠道多为镜像访问,更新时间较慢。

综上所述

如读者是随机浏览和下载文献,则采用国家哲学社会科学文献中心或其他第三方免费使用方式皆可;但若做文献调研,最好还是利用所在单位的知网购买服务或是采用其他VPN等方式为佳。

开放获取运动如火如荼,我们在关心自愿免费开放的同时,是否也应该关注不同供应商在建设数据库时的用户体验?比如如何采用最新的大数据技术来优化检索结果的准确度、如何重塑第三方出版机制,甚至如何尽最大可能收录资源,这些并不是公益组织本身就可以做到的,这时商业驱动的数字资源建设不失为一个好的途径。而目前的主要问题在于,政府如何参与到学术资源的定价机制上来,这才是一个值得探索的问题。

    特别声明
    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。