全国数据资源调查报告:场景牵引数据资源开发利用将成主流

澎湃新闻记者 张静
2024-05-24 20:00
来源:澎湃新闻

·我国数据产存转化待提升,一方面海量数据复用价值较低,大部分过程类数据产生后即被丢弃、覆盖;另一方面大模型、训练工具等支撑能力不足,海量数据开发利用价值低于存储成本,部分高价值数据在“大浪淘沙”过程中被遗弃。

·大模型对海量高质量数据提出迫切需求,垂直领域的数据应用需求将持续保持快速增长,并逐步从业务降本提效转向协同创新、市场拓展,数据驱动业务发展将成为主要应用诉求。

全国各地交易所快速铺开,19个省市建立数据交易机构,但交易机构在标准、规则方面尚未达成共识,场内交易吸引力不足。交易机构数据产品成交率不高,27家交易所上架数据产品中仅17.9%实现交易。这些数据情况出自5月24日在第七届数字中国建设峰会数据资源与数字安全论坛上发布的《全国数据资源调查报告(2023年)》。

目前,国内数据资源“产-存-算”规模优势基本形成,全国数据生产、存储、计算呈现规模大、增速快的特点。数据要素市场化进程中,各类主体不断涌现,为数据“供给-流通-应用”提供支撑。但数据资源管理和利用整体处于起步阶段。

报告显示,2023年,全国数据生产总量达32.85泽字节(ZB),同比增长22.44%。5G、AI、物联网技术的创新发展及智能设备的规模应用,推动数据生产规模快速增长。2023年,全国数据存储总量为1.73泽字节(ZB),生产总量中2.9%的数据被保存。

数据生产总量大,但数据产存转化率较低。存储数据中,一年未使用的数据占比约四成,数据加工能力不足导致大量数据价值被低估、难以挖掘复用。报告还显示,一方面海量数据复用价值较低,大部分过程类数据产生后即被丢弃、覆盖;另一方面大模型、训练工具等支撑能力不足,海量数据开发利用价值低于存储成本,部分高价值数据在“大浪淘沙”过程中被遗弃。

数据流通交易需求旺盛,多元流通模式待完善。

当下,消费领域数据交互活跃度较高,2023年,四大运营商数据显示全国数据总流量较去年同期增长7.6%,数据流量保持稳步增长。

近年来,各地交易所快速铺开,19个省市建立数据交易机构,上海、浙江、深圳、海南等地数据交易机构“百花齐放”,交易模式、数商生态、技术底座各具特色。但交易机构在标准、规则方面尚未达成共识,场内交易吸引力不足。数据交易机构供给水平也难以满足旺盛的数据需求,交易机构数据产品成交率不高,27家交易所上架数据产品中仅有17.9%实现交易,数据场内交易活跃度较低。

场内数据交易额行业分布情况。

报告显示,数据应用场景加速落地,数据价值有待释放。公共数据成为引领数据开发利用的催化剂,公共数据开放量同比增长超16%,授权运营初步探索。数据多场景应用、多主体复用难度大,样本企业中,96%的行业重点企业已实现数据场景化应用,但实现数据复用增值的大企业仅占8.3%,数据价值有待释放。

从发展趋势来看,数据规模将保持快速增长趋势,高质量数据资源将成为经济增长的重要源泉。数据生产能力将随着卫星通信、自动驾驶、生成式AI等新技术的规模化应用而持续提升,预计2024年数据生产量增长将超25%,同时,数据存储能力也将随硬件技术的升级迭代和成本降低提升。另一方面,数字化转型将促进各行业高质量数据形成,数据从设备、系统的分散状态释放、汇聚和应用。同时,AI大模型的迅猛发展对大规模、高质量、多样性数据集提出更高要求,有助于数据质量进一步提升。

报告提到,国家层面的数据交易规范进一步完善,一方面,随着数据流通基础规则不断完善,数据交易场所、数据服务商等流通载体将逐步走向规范有序发展;另一方面,场内场外流通交易模式更加多元化,各类细分领域交易机构向专业化发展。

此外,应用场景牵引的数据开发利用将成为主要趋势,AI技术成为数据开发利用的重要推动力。报告认为,一方面,应用需求涌现,场景逐渐丰富化。大模型对海量高质量数据提出迫切需求,垂直领域的数据应用需求将持续保持快速增长,并逐步从业务降本提效转向协同创新、市场拓展,数据驱动业务发展将成为主要应用诉求。另一方面,自然语言处理、语音识别等技术降低开发门槛,围绕数据增值的产品服务将逐渐成为数据供给的主要方式。

    责任编辑:宦艳红
    校对:张亮亮