以下文章来源于大数据技术标准推进委员会 ,作者CCSA TC601
大数据技术标准推进委员会.
大数据技术标准推进委员会(CCSA TC601)旨在凝聚产业链各个环节,识别和解决大数据发展面临的重大问题,开展大数据技术、数据资产管理、数据共享与流通、数据安全等共性基础标准研究,以标准推进工作为纽带,推动大数据与实体经济深度融合。
2024年12月18-19日,为推动打造行业交流平台,驱动产业创新共荣,大数据技术标准推进委员会以“数据重塑价值 智能链接未来”为主题,在北京召开为期两天的“2024数据资产管理大会”。


大家上午好,我是中国信通院云大所何宝宏。很高兴今天在这里为大家带来“下一代数据治理”的主题分享,为大家介绍我们在数据治理方面的最新洞察。

政策和企业自身数字化转型需求推动数据管理能力不断提升,数据治理需求愈发旺盛,截至2024年8月,已有4000余家企业完成数据管理能力成熟度评估,总体来看金融、通信、电力等行业数据管理能力较为突出,普遍达到三级以上水平,这些机构数据治理发展已进入深水区,正在寻求新的发展方向。



下一代数据治理主要有以下六大特点。
一是治理对象的全域化,企业未来需要将非结构化数据纳入治理体系,非结构化数据管理、合成数据等技术等备受关注。
二是数据研发模式的工程化,头部机构均开展DataOps的全面实践,构建数据开发、治理、运营一体化的能力,推动数据工程的敏捷化。
三是数据治理技术的智能化,传统数据治理是一项劳动密集型的工作,Text2SQL、数据安全智能分级分类、元数据智能补全等技术的应用极大地提升了数据开发治理的效率。
四是数据架构分布式化,面对大型企业复杂的组织架构,以Data Fabric为代表的架构理念致力于构建逻辑集中、物理分散的企业级数据架构,数据虚拟化、主动元数据等关键技术不断成熟。
五是数据安全治理的纵深化,一方面,随着大模型应用的普及,企业急需关注大模型引发的安全问题;另一方面,AI驱动的数据分类分级、安全风险评估监测、事件诊断等技术,有效提升数据安全治理的智能化水平和效率。
六是数据治理价值的显性化,数据资源估值重在感知和量化数据价值,数据资源入表关键在于精准核算数据相关的财务信息。2024年是数据资源估值和入表的“元年”,以央国企为代表的机构逐步探索构建数据资源估值体系,并同步开展数据资源入表试点工作。

同时人工智能的发展离不开数据,人工智能已经从“卷算法”向“卷数据”转变,通过对训练数据开展治理,从而形成可信的训练数据集是人工智能发展的必然选择。通过关注对非结构化数据的治理、合成数据的治理,研究配套的的方法论体系、技术平台以及标准规范,进而形成质量高、安全牢、观点正的可信数据集。

中国信通院依托大数据技术标准推进委员会,上半年发布了业界首本《面向人工智能的数据治理实践指南(1.0)》,指南将人工智能工作划分为九个阶段,提炼出每个阶段所需要的数据类型,并针对业界关注的数据质量、数据安全与隐私、数据伦理等问题提出针对性的解决方案,明确了治理技术。同时,围绕非结构化数据管理、合成数据等方向,TC601还在持续开展研究和标准化工作,推动我国数据治理工作向全域化发展。


依托DataOps标准,中国信通院开展了DataOps能力评估,已经在移动、联通、农行、工行等十多家机构落地,以评促建,帮助企业构建敏捷、精益地数据工程能力。未来,工作组还将结合各行业特征开展多个行业标准的制定,围绕全域数据工程体系开展理论研究、标准研制工作,为社会发布最新的研究成果。

“智能化数据治理”旨在借助人工智能技术手段开展数据治理工作。利用智能化技术在语义理解、逻辑推理、智能生成等方面的优势,帮助企业优化治理流程,提升治理效率及效果。在实践方面,中国工商银行的“用数助手”,以人机对话的方式降低员工用数门槛。邮储银行在数据标准制定、落地和检查评估三大核心场景实现了智能闭环管理,极大提高了贯标工作的效率与准确性。
未来,我们认为“数据治理agent”将是智能化数据治理成熟形态,有三方面优势。一是具备灵活的适应性,可以通过外部接口灵活响应外部监管要求。二是以任务落地为导向,帮助企业实现治理动作智能化实施。三是可通过对企业知识库的学习对企业偏好形成认知,并通过反馈不断优化治理方案规划,帮助企业智能决策。

数据编织是一种分布式数据管理的架构理念,支持对数据跨平台、跨域的灵活集成。采用逻辑集中、物理分散的管理方式,实现在正确的时间,从任意位置,将正确的数据与正确的人连接起来的终极目标。数据编织有以下特点:一是适配多源异构的数据来源;二是具备非常巨大的数据存储容量;三是采用分布式的数据管理架构;四是支持AI协同的自动化能力。

除了解决企业内数据管理和应用的问题,数据编织还可以作为企业数据空间的底层技术,实现多主体数据的逻辑统一管理。依托大数据技术标准推进委员会,国内数据编织的理论研究、技术标准制定等工作已经陆续开展。未来我们还将进一步联合各界的专家学者共同完善数据编织的理论体系、标准体系以及标准验证工作。

人工智能的发展给数据安全带来了新的机遇与挑战。一方面,人工智能技术的蓬勃发展,为数据安全领域带来了前所未有的机遇。借助大模型的强大算力与智能分析能力,有望突破数据资产识别、数据标记、数据分类分级、数据流转监测、数据库审计、数据安全态势感知等技术中的卡点问题,促进安全防护的精确度、效率与全面性,满足企业在数据安全方面的迫切需求。另一方面,数据作为大模型训练的重要燃料,在模型生成、训练、精调等过程面临数据窃取、数据泄露、数据篡改等一系列数据安全风险。企业亟需构建面向大模型的数据安全能力,通过识别并管控其中的数据安全风险,形成全面的安全能力屏障,构建严密的数据安全防线。

数据价值评估方面,头部企业已经构建数据价值评估体系。信通院去年和联通集团合作了“数据要素价值管理与实践”的研究报告,从成本投入、内部收益、外部收益全面评估了数据价值,指导企业进一步深化数据应用、优化数据管理模式。数据入表方面,截至到今年第三季度,已有50多家企业入表,累计入表金额超过15亿元,其中三大运营商入表规模占比很高,也是央企中率先开展入表披露的企业。数据交易流通方面,场内数据交易日趋规范,场外流通依然活跃。企业也在构建更多对外的能力,比如建行的产融平台、电信集团的“星海”大数据品牌都已良好运营,全力向数据要素型企业转型升级。

我的分享到此结束,谢谢大家!
联系人:
尹老师
15810811776
yinzheng@caict.ac.cn继续滑动看下一个轻触阅读原文

原标题:《中国信通院何宝宏:下一代数据治理》