观察|数字化深水期,数据存储成本和访问敏捷性的矛盾如何解决

澎湃新闻记者 邵文
2022-08-11 16:31
来源:澎湃新闻

·目前在云服务行业,一个获得共识的数据分类方式是以“数据的温度”为标尺,把 数据分为热、温、冷、冻四个层次。进展到智能分层,即系统根据每一份数据的实际访问频率来决定其温度,然后自动把数据分到合适的存储层级。

·IT化(企业信息化)已很少被提及,而将其当作向前发展的一个技术基础。现在,一个更时兴的分类为——云原生的现代化应用与传统的云端企业应用,存储的设计也要依此有专⻔的构建。

自“十四五”规划明确提出加快建设数字经济、数字社会以来,遍及千行百业的数字化转型拉开大幕。据埃森哲的全球调研数据显示,从2018年到2021年,在全球8300家标杆企业中,全面拥抱数字化技术的前10%的企业,与后25%的企业相比,营收增速快了5倍之多。

随着数字化转型的深入,当下产业界在实践中早已认识到,不是把数据搬到云上就万事大吉,促进营运效率的提升更需要具体考量如何在存储成本和数据访问敏捷性之间取得平衡。

“数据增长会带来很多问题,存储并不只是简单地把0和1的比特放在物理介质上这么简单,这里存在大量业务层面需要关注的问题。”亚马逊云科技大中华区产品部总经理陈晓建在接受包括澎湃新闻(www.thepaper.cn)在内的媒体采访时说。

如何应对海量数据增长所带来的成本急速上升与数据存储服务敏捷性能之间根深蒂固的矛盾?企业的业务数据来自各个渠道,性质不同,使用方式也不一样,存储设计如何与其相适应?

在陈晓建看来,解决问题的核心思路总结起来即:智能分层、专门构建。

从手机相册功能看为何要智能分层

随着云中数据量爆发式增长以及应用场景不断丰富,每个企业都要面对一个问题:是牺牲存储成本来保持读写性能,还是牺牲读写性能来维持成本不急速上升?

随着技术发展,云中存储成本在不断降低,陈晓建对澎湃新闻打比方道,2006年亚马逊云科技一份数据如果需要100块钱存储的话,到了今天只需要花15块钱,也就是说这16年间,整个存储成本降低了大约85%。

但是,数据存储成本并不是一个独立的问题,还要同时在真实实践场景中考虑数据来源多种多样、使用方法完全不同的问题。

目前在云服务行业,一个获得共识的数据分类方式是以“数据的温度”为标尺,把数据分为热、温、冷、冻四个层次。

简单来说,数据的使用有不同频率,比如交易系统里的交易数据,to C系统里的用户日志等,这些数据需要被频繁访问,被称之为热数据。而像一些企业的业务数据,包括网站数据,有可能需要按周或按月的频率访问,这些数据被称之为温数据。

再往下一层,如手机相册数据,有的数据可能几个月甚至一两年才会访问一次。“这些数据可以将它作为归档数据,一旦存储之后访问频率并不是很高,我们称之为冷数据。”陈晓建说道。

还有一种数据,一旦写入之后访问频率非常低,但是由于合法合规的要求,这些数据必须要能够进行持久化存储,比如医疗影像数据。国家规定这些数据必须存放30年,任何时候要用都可以及时拿出来。从业务特点来讲,这些数据本身对于存储读写性要求并不是很高,但是要求持久性,而且量非常大,那么对存储成本就会有非常高的要求,这是冻数据。

在具体业务上,陈晓建举例道,“我们提供的一个归档存储叫Amazon S3 Glacier,一个GB数据可以存200个19秒的短视频,一个月的存储成本只要人民币3分钱。但是代价也是有的,一旦要读取这个数据可能需要几分钟,甚至几个小时,这就是归档存储的特点。如果觉得这个存储速度太慢了,我需要更快的比如说秒级甚至毫秒级存储性能,那么就是‘温’的存储服务,但是价格比Amazon S3 Glacier贵3倍左右。”

这样听起来似乎非常简单易行,但在现实实践中会发现如何判断数据的温度,如何根据数据温度的变化积极进行存储策略调整,并不像想象的那么容易。比如一款游戏刚上线,对于其用户数,即游戏会大卖还是卖得不好实际上是未知的。

同时,随着业务逻辑改变,数据的温度也会改变。“举一个我自己亲身经历过的例子,一个互联网相册服务,用户可以上传自己的照片,可以社交分享给别人。这个业务在最开始时数据温度很容易判断,很显然上传照片越近、越新就越热,时间越久就越冷。几年以后业务上线了新功能——让用户看一看5年前、10年前拍了什么照片。那么一下子所有冷数据就变成温数据,甚至变成热数据了,这时候存储逻辑是不是要大改?以前按照归档来分,现在显然不行了,怎么办?”

于是进展到智能分层,系统根据每一份数据的实际访问频率来决定其温度,然后自动把数据分到合适的存储层级。这一方面大大降低了运营的复杂性,不再需要一个专人或复杂的运营逻辑来完成这部分工作,另一方面降低了运营成本。

“举个例子来说,对于文件系统,我们认为某种程度上也符合二八原则,20%的数据会被频繁访问,80%的数据则属于非频繁访问。如果按照智能分层把两类数据分开,假定非频繁访问层成本是频繁访问层的1/10,智能分层可以节省最多72%的成本。”陈晓建分析道。

和智能分层一样,数据保护的备份管理中也使用了备份库的冷热分层。以同样的逻辑,如果按照95%的备份数据做冷备份库,把5%的备份数据放在热备份库来处理,冷备份库的成本按照热备份库的20%来计算,通过冷热分层策略就可以有效降低约75%的成本。

为不同应用专门构建存储

当下,业界已经不再提IT化(企业信息化),而是将其当作向前发展的一个技术基础。现在更时兴的分类为——云原生的现代化应用与传统的云端企业应用。

如电商、游戏、社交等,这些应用大部分就诞生在公有云上,所以被称为“云原生”。而像ERP、CRM、EDA等已经存在很多年,流行于公有云出现以前,所以依赖的技术和架构并不会专门考虑云的存在。

那么,这两种应用产生的数据在处理上就会有明显不同。

云的特点是使用者不需要考虑底层架构,云原生应用的存储非常简单,只需要调用简单的API接口。

而对云端企业应用来说,此前已经存在快照、镜像、远程复制、多种存储协议等,要上云就必须支持这些。同时,企业应用还有各个行业的特点,比如高性能计算,“我们可以看到真正在跑的高性能集群往往是几百个节点,甚至几千个节点共享一份数据。这样就带来两个问题,首先需要共享的存储,其次由于这份数据要被几百个、几千个节点同时访问,所以对整个存储的性能和吞吐率也提出了非常高的要求。”陈晓建说。

高性能计算是陈晓建对企业应用四个分类中的一个。第二个是Windows为主的应用,即底层服务要完全满足Windows的环境,包括ACL文件访问控制权限、Active Directory兼容。第三个是ERP、CRM、EDA等多种多样的企业应用,要上云就必须完美兼容和支持之前提供的功能。第四个是大数据的环境,往往需要一些特殊的支持,比如ZFS,需要具备高吞吐、低延时的技术。

    责任编辑:吴跃伟
    图片编辑:张同泽
    校对:刘威