策略:大数据生命周期管理轨迹分析

   大数据     2019-04-17     《中国金融电脑》杂志    中国人民银行武汉分行    175    0    
核心提示:数据生命周期理论认为数据是有生命周期的,随着时间的推移,遵循数据访问频率变化与数据量累积变化成反比这一客观规律。因此,需要根据数据访问频率进行数据价值评估,对大量低价值信息采取低成本的数据保存手段,使数据的价值与存储的技术和管理相匹配,进而大幅降低整体数据存储成本。
随着大数据时代的到来,数据规模日益庞大,数据存储及处理能力面临着巨大的挑战,如何构建合理的数据架构体系,实现数据的高效存储及利用,保障数据安全,提高数据质量,以及充分发挥数据的利用价值等已成为目前数据管理的重点内容。数据中心的数据管理平台集中存储了数据中心的主要业务数据,并对外提供数据查询和导出接口,实现了数据中心数据的集中整合,为数据大集中背景下的数据利用奠定了坚实基础。

然而,数据管理平台的数据逐渐增多导致系统性能逐渐下降,严重影响了系统效用的发挥。因此,需以数据生命周期理论为方法,分析数据管理平台中数据的分类机制,管理优化数据管理平台的数据存储结构,控制在线数据规模,做好历史数据维护,提高系统资源使用效率,保障系统健康高效运行,实现数据生命周期管理在数据中心管理平台的落地,使数据在生命周期的各个阶段以最低的成本获得最大的收益。

一、数据生命周期管理综述
 1.数据生命周期管理的涵义
 数据生命周期管理是依据不同数据在不同阶段的价值实施不同的管理策略,以简单、可靠、经济、有效的方式使企业获取数据的最大价值,从而有效降低企业IT的总体拥有成本。数据生命周期管理是一种数据管理模型,即对数据进行贯穿其整个生命周期的管理,从创建和使用到归档和处理,它是一种针对数据进行主动管理的过程策略。
       
 2.数据生命周期管理的基本原理
数据生命周期理论认为数据是有生命周期的,随着时间的推移,遵循数据访问频率变化与数据量累积变化成反比这一客观规律。因此,需要根据数据访问频率进行数据价值评估,对大量低价值信息采取低成本的数据保存手段,使数据的价值与存储的技术和管理相匹配,进而大幅降低整体数据存储成本。
       
根据数据的这一运动规律,数据生命周期理论将数据的生命周期分为在线、近线、离线以及销毁4个阶段。
在线阶段,数据访问频率较高,数据从产生开始一直在生产系统中保存,并且数据的生成和利用需要使用高速存储,并提供相应的保护措施,保障数据的高可用性。
近线阶段,数据使用相对不频繁,数据并不总是有用户访问,其重要性逐渐降低。通常将数据保存在中低端存储设备中,但仍能够进行在线访问,由于处理能力有限,访问的响应时间比在线数据访问时间有所增加,而且近线数据一般不在线应用,因此,不会对业务系统产生影响。
 
离线阶段,数据一般是没有用户访问的,只是为了预防一些特殊事件,按规定必须长时间保留,主要考虑的是数据的海量存储。历史数据随着时间的推移在不断的增加,由于这些数据对于在线系统来说没有多大的实际意义,只是作为今后的备查,因而可备份到磁带上长时间保存。

销毁阶段,数据已过保存期,不再具有利用价值,可以进行销毁。

二、数据管理平台的运行现状
1.数据管理平台的基本功能
数据管理平台作为数据中心集中存储平台,集中存储了主要业务系统的数据,并对外提供数据查询和导出接口。数据中心主要应用系统每日导出文本格式的增量数据,通过数据管理平台的数据接收、加载、抽取等一系列操作,最终存储在数据管理平台中的DB2数据库中,并通过数据服务功能,提供业务数据的查询下载服务;通过数据源的抽取功能,将所需业务数据抽取至其它应用系统使用。数据管理平台统一了数据中心的数据标准,建立了各业务系统之间的联系,实现了业务数据的共享,并且统一管理和维护整合数据,降低了数据管理成本。

2.数据管理平台运行中存在的问题
首先,数据量不断增大,存储空间明显不足。各应用系统每日将增量数据加载至数据管理平台,数据量的逐渐增多导致磁盘空间占用率逐渐增大,存储空间日渐不足,影响了系统的正常使用。若要保证系统的稳定运行,扩存储空间是最快的解决方案,但并非根本的解决方法,因为这将导致占用存储空间越来越多、设备投入成本较大。

其次,系统的维护量变大。由于数据不断加载入库,数据管理平台的数据库表空间需要定时的进行扩充,否则会造成表空间满而数据无法入库的情况。由于存储空间有限,每次数据表空间扩充有限,因而需要定期监测表空间增长情况,防止系统出现数据库故障。此外,还需要定期备份并删除下发的文本形式的数据文件,目的也是尽可能的保障系统有足够的存储空间。

最后,系统运行压力大,无法满足大数据环境下数据综合利用的要求。
数据管理平台担负着几百张表的数据加载、入库、抽取任务,这些任务通常都在每日上午8:00-12:00进行,若在这个时间段查询数据,加上目前系统仅提供全表查询功能,将会导致等待时间加长,严重情况下可能出现死锁,既造成了数据入库等任务长时间处于等待分配或正在执行状态,无法正常完成,也造成了数据无法查询的情况,严重影响了数据的及时获取及数据的利用效率。

三、数据管理平台的数据分类模型
1.数据管理平台的数据分类机制
数据管理平台中的数据主要分为两类:非结构化数据和结构化数据。非结构化数据主要是以文本形式保存的各应用系统每日导出的数据文件,以及数据接收加载抽取处理过程中的日志文件;结构化数据主要是存储在DB2数据库中的数据,又分为永久类数据和历史类数据。其中,永久类数据是数据库中要永久保留的数据,没有生命周期,如一些参数信息等,而历史类数据有确定的保存期限。对于历史类数据,根据业务数据的重要程度和使用价值将其进一步细分为核心数据、重要数据以及一般数据三类。数据分类方式具体如表1所示。
大数据环境下数据中心的数据生命周期管理研究-表1.jpg

数据管理平台中的非结构化数据,规定保存期限为三个月,到期定时删除过期数据。数据管理平台结构化数据中的历史类数据,按数据的使用价值划分为核心数据、重要数据以及一般数据,并对这三类数据分别定义在线、近线以及离线阶段的数据保存期限。数据管理平台作为数据集中存储平台,整合各应用系统数据,目的是为数据的综合利用提供基础数据来源,为数据的统计分析奠定基础,以此为出发点确定不同历史类数据在数据生命周期不同阶段的保存时间,如表2所示。
大数据环境下数据中心的数据生命周期管理研究-表2.jpg

2.数据存储方案
结构化数据中永久类数据需要永久保存,主要是机构、部门、人员等公有信息以及一些参数信息等,数据量变动较少,仍然采用目前的数据存储方式。而针对结构化数据中历史类数据的在线、近线及离线阶段,提出这三个阶段的数据存储方案。

(1)在线阶段的数据存储方案
 在线阶段的数据使用频率高,因此对在线数据主要考虑如何提高系统的处理性能,在线数据的物理存储及逻辑存储思路具体如下所述。

在线数据的物理存储方式。
在线数据仍然采用目前数据管理平台的SAN网络存储方式,即数据管理平台数据库服务器通过光纤交换机连接光纤磁盘阵列以及磁带库。数据库服务器逻辑上通过4条链路连接至磁盘阵列,根据磁盘阵列光纤链路的双活特性,这4条链路既同时传输数据,又互为备份,保障了数据传输的速率和可靠性。

在线数据的逻辑存储方式。
在线数据的数据库存储方式上采用分区数据库方式存储数据,提高目前数据的装载以及查询性能。分区数据库常用的两种方式为数据库分区、表分区方式;数据库分区方式将表的数据行按哈希函数分布到多个数据库分区上,而表分区采用将同一范围(如同一月份)的数据放在独立的数据分区中。数据库分区支持大规模的并行处理,表分区支持快速的导入导出数据,由于省级数据管理平台的功能侧重在于数据的加载抽取,因此更适合采用表分区方式建立分区数据库。基于以上的分析,对省级数据管理平台中的历史类数据表采用表分区的方式,划分12个在线数据分区,分别存放l~12月的数据。数据在加载入库时,仅针对其中一个数据分区操作,在数据入库的同时,查询其它分区的数据,性能会得到极大的改善。

(2)近线阶段的数据存储方案
近线阶段的数据使用频率相对在线数据要低,通常因为特殊的原因需要查询其中的记录,因此对近线数据,系统处理性能不是主要的影响因素,需要提供较大空间的存储来保存这些数据。近线数据的物理存储及逻辑存储思路具体如下所述:
        
近线数据的物理存储方式。近线数据存储需要新增一套低端的SATA磁盘阵列,接入目前在线数据的SAN网络中,即SATA磁盘阵列通过目前已有的光纤交换机与数据管理平台数据库服务器、IBM磁带库连接。

近线数据的逻辑存储方式。
为便于在线数据的迁移,近线数据存储采用与在线数据相同的存储方式,即采用分区数据库的表分区方式。在数据管理平台中新建近线数据库实例及数据库,该数据库建立12个近线数据分区,与12个在线数据分区一一对应,用于在线数据库分区的数据转存至近线数据库对应的分区中。

(3)离线数据的数据存储方案
离线数据基本上不再使用,因此可以保存在离线设备或是磁带库中,不提供在线访问,仅当需要时,恢复至近线数据库进行访问,这类数据需要的是海量存储。离线数据的物理及逻辑存储思路具体如下所述:

离线数据的物理存储方式。
离线数据存储在目前的IBM磁带库中,IBM磁带库通过光纤交换机与近线数据存储相连,采用数据管理平台数据库服务器上安装的NBU备份软件,直接将近线数据备份至磁带库保存,不再提供在线的访问。

离线数据的逻辑存储方式。
离线数据以近线数据库逻辑备份的形式在磁带库的磁带中保存,当数据需要使用时,采用NBU备份数据恢复的方式恢复至近线数据库中进行查询。

2.数据访问策略
(1)在线数据的访问策略
通过优化数据管理平台提高在线数据访问效率。为提高数据查询性能、优化数据管理平台的数据查询模功能,查询列表默认显示当月数据,并提供按月的数据查询功能,改变目前查询和列表显示全表数据的方式。由于数据按月分区存储,每月数据查询可在一个数据分区处理,查询速率大大提高。
       
(2)近线数据的访问策略
在数据管理平台中新增近线数据的查询功能。数据管理平台增加按月查询近线数据的功能以及近线数据源的数据抽取功能,因此需要在数据管理平台新增近线数据JNDI数据源,并在数据管理平台应用服务器中编目近线数据库,使数据管理平台能够识别近线数据源,通过新增的查询以及数据抽取功能,从而可以方便的获取这些数据。
       
(3)离线数据的访问策略
离线数据存储在磁带库中,无法直接访问,当需要访问离线数据时,通过NBU备份软件的数据恢复功能将离线数据恢复至近线数据库对应的数据分区,通过数据管理平台的近线数据访问功能访问相关数据。
       
 3.数据迁移策略
目前数据管理平台生产环境采用的是单一数据分区的方式,要创建分区数据库,首先需要将目前数据库中的所有数据迁移至近线数据分区中,数据迁移完成后,删除原有的历史类数据库表,重新采用分区表的形式创建,分区表创建完成后,再将近线数据分区的数据恢复至在线数据分区。通过以上方式实现在线数据的分区存储。

在线数据按月分区存储,因此以月为数据转存周期,根据各类在线数据的保存期限,当前月所在分区的数据达到数据生命周期时,将到期数据通过数据库导出导入(export\load)方式转存至近线数据存储中对应的近线数据分区中,数据转存完成后采用Delete或Truncate方式清空在线分区中的过期数据。近线数据仍处于在线状态,可以通过省级数据管理平台查询或将数据抽取至其他应用系统使用。

在近线数据存储中数据仍然按月分区存储,因此仍以月为数据转存周期,根据各类近线数据的保存期限,当前月所在分区的数据达到数据生命周期时,将到期数据通过NBU数据库逻辑备份的方式备份至磁带库中保存,同时采用Delete或Truncate方式清空近线分区的数据。当需要使用离线数据时,通过NBU数据恢复功能将数据恢复至近线数据存储中进行查询。
当离线数据达到数据销毁年限时,可直接清除磁带库中的数据。

数据管理平台的数据存储及数据迁移如图1所示。
大数据环境下数据中心的数据生命周期管理研究-图1.jpg
4.非结构化数据的数据管理方案
数据管理平台的非结构化数据主要包括两种:数据文件和日志文件。数据文件是应用系统每日导出的以文本形式保存的增量数据。当数据库中的数据加载异常时,可以将数据文件中的数据重新导入数据库,该数据文件可以看作是文件形式的数据备份。但是数据文件量越来越多,占用较多的存储空间,而这部分数据主要在数据异常时恢复使用,可以恢复应用系统某一天的数据,比起数据库恢复更方便快捷。因此可以设置这部分数据文件的保存期限为三个月,每三个月将数据备份至磁带库保存,同时删除本地服务器上的数据文件。对于存放在磁带库上的数据文件,设置销毁期限,到期进行销毁。
 
日志文件主要是数据管理平台每日执行数据接收加载抽取任务时产生的任务日志,该日志文件主要用来排查任务执行过程中的异常情况,及时定位解决问题,当数据成功加载入库并完成抽取任务后,日志文件的作用已不是太重要。因此,对于这类日志文件,采用每三个月定时删除的方式进行清理。

文章来源:《中国金融电脑》杂志

--结束END--

有问题投稿请发送至: 邮箱/3107232748@qq.com    QQ/3107232748

本文标题: 策略:大数据生命周期管理轨迹分析

本文链接: https://www.fangan100.com/guancha/139.html (转载时请保留)

阅读更多
 
觉得有帮助,鼓励TA抓紧创作!
赞赏

 
 
加入方案圈子
扫管理员微信号
点击排行