“开放获取”背后:数据库的查全率和查准率经得起考验吗?
网络上流传的中文“开放获取”的方法,基本可以归结为两种:
1. 以“国家哲学社会科学文献中心”为代表的OA期刊库;
2. 以“支付宝-浙江图书馆-知网”及“上海研发平台”为代表的第三方使用机制;
但这两种免费使用知网的方式真的全免费吗?究竟适用哪些人群呢?我们今天来探索一下。
众所周知,检验文献数据库最重要的两个指标就是查全率和查准率,查准率也是建立在查全率基础上的。中文数据库中,知网的期刊覆盖面远远比万方、超星、维普都要大。因此,接下来我们主要从查全率的角度来对“免费知网”和知网本身做一个对照测试。
举二个例子:
1.“国家哲学社会科学文献中心”
其依托于社科院图书馆建立,2016年12月30日上线,内含中文学术期刊2039种 。无论是其学科属性还是期刊种类,与知网的收录规模远远不能比。
如检索“政府大数据”,
知网结果:
哲社科文献中心结果(搜索词和检索结果数量标记红框):结论:反复测试10余个关键词后,发现其主要开放的是有基金支持的论文,查全率较低。同时元数据切词效果也一般,没有利用语义支持的机制进行结果优化,导致查准率也不高。2.第三方免费知网
我们选取了网上较为欢迎的两种方式:“支付宝”和上海研发平台。同样我们检索“政府大数据”,结果如下:
2.1 支付宝-浙江图书馆
采用方式:http://www.zjlib.cn/fwszzyfw/index.htm?li_id=2
检索结果:
2.2 上海研发平台采用方式:http://cnki.sstir.cn/kns55/
检索结果:
结论:利用同一个检索词,知网(cnki.net)的检索结果为2263个、“支付宝-浙江图书馆”为218个、上海研发平台为194个。领域资源覆盖度无法同日而语。如检索结果数量并不能作为实证的话,我们再来看下被引情况:
选取一篇发表4-5年、引用次数在100左右文献,如“大数据时代政府数据管理的机遇、挑战与对策”。
其在cnki.net的引用次数为123次:
“支付宝-浙江图书馆”为4次:上海研发平台中为4次:从被引情况可见,至少说明第三方免费库的更新周期是不同的。针对上述这种情况,我们咨询了知网的工作人员,答复为:这类免费使用知网的渠道多为镜像访问,更新时间较慢。
综上所述如读者是随机浏览和下载文献,则采用国家哲学社会科学文献中心或其他第三方免费使用方式皆可;但若做文献调研,最好还是利用所在单位的知网购买服务或是采用其他VPN等方式为佳。
开放获取运动如火如荼,我们在关心自愿免费开放的同时,是否也应该关注不同供应商在建设数据库时的用户体验?比如如何采用最新的大数据技术来优化检索结果的准确度、如何重塑第三方出版机制,甚至如何尽最大可能收录资源,这些并不是公益组织本身就可以做到的,这时商业驱动的数字资源建设不失为一个好的途径。而目前的主要问题在于,政府如何参与到学术资源的定价机制上来,这才是一个值得探索的问题。