300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > 数据治理 共享交换 数据仓库 数据中心的关系

数据治理 共享交换 数据仓库 数据中心的关系

时间:2020-06-20 03:10:05

相关推荐

数据治理 共享交换 数据仓库 数据中心的关系

数据中心不就是理解为搭建一套交换系统,将数据落地就OK了?

最近写投标文档,项目要建立大数据中心,就没怎么考虑还是按照前的想法,数据中心不就是理解为搭建一套交换系统,将数据落地就OK了,就没怎么思索按照历史经验就去写方案,结果被专家一顿批,提出数据汇聚、数据治理的概念,这才开始小心翼翼的开始学习。经验害死人,搞IT就得不断的学习,不能固步自封。先将一些学习总结分享一下。有拍砖的可以直接下手了:)

建数据中心离不开数据,以前设计数据库都是从事务性数据库考虑(做的都是业务系统,思维模式太固定了),没有从数据仓库的角度来统管分析。以下是从数据仓库的角度考虑数据中心的建设:

政府的数据中心建设基本就包括这几个步骤:

1、数据源:支持不同部门的各类来源数据,包括文件型、数据库型、Http服务型和JMS消息型,可以读取各类数据

2、数据汇聚:这里是通过软件实现原始数据的读取存储,将不同的数据都存储到各自的数据库;因为保证与每个部门不发生扯皮的问题,所以必须保证读取的原始数据是对的,要独立存储不做任何加工,组织就按照同步的部门科室进行存放;所以就对应数据仓库的ODS层

3、数据处理:这里是对汇聚的原始数据进行初步的ETL处理,实现对数据的清洗、加工,补全各类信息(包括编码字典解释等),这个步骤的目的是实现数据的规范化,这里的数据也是落地存储物理库,作为抽取中间库DWD层

4、数据融合:这里是对规范化的原始数据进行融合处理,建立数据之间的关系模型,比如抽取成独立的人口库模型:

数据融合主要是按照一个业务领域进行数据建模。

5、数据集市:是对领域模型数据进行汇总统计分析,将统计分析的结果进行存储,简单解释可以理解为一般业务统计的中间表(提高统计效率,将统计成果进行定期存储),当然这里不止这么点,结合现在时髦的大数据分析,也就是将分析结果在集市层存储,为上层应用提供数据源。

6、最后一个是核心的元数据库,这里的元数据核心要存储以上4个库的表及字段元数据,可以实现整个数据处理过程的追溯。

从以上分析,了解共享交换的同学,可能直接就说了上面的数据汇聚、数据处理不就是传统的交换吗?只是换了一个说法;这个说法也没问题,只是这里是从政府业务和数据仓库的角度来说,传统的交换是直接将原始数据文件读取到后进行了ETL处理,形成交换库;这里是从政府安全追责的角度分析,形成2个步骤;所以数据中心的建设是包括数据交换的,只是交换处理的思路在变化。

从数据处理到数据融合,这里是要创建业务模型,按照业务模型进行数据处理,处理的工具一般也是ETL工具;所以共享交换只是强调了软件技术,没有从整体进行规划,它只是真个数据中心建设里的一个技术工具之一。

从数据融合到数据集市,又有几种形态:1、传统的数据统计,2、数据挖掘,3、大数据分析;这几种技术都可以形成数据集市的数据。

数据治理是一个更大的概念:

上图是参考教授的说法整理

个人理解是在数据仓库的基础上,更加强调数据的质量与数据安全;现在的数据治理也是叫大数据治理,是大数据建设的基础,毕竟是强调大数据平台里的核心,数据部分。只有数据是可依靠的,才能用来做大数据分析,否则就是无源之水了,谁也不敢相信。

数据质量,核心就是要依靠元数据的管理;来实现整个数据处理过程的跟踪,知道目标数据的源头可以一步步的追溯到数据的提供者。

数据中心则是一个业务上的叫法,包括机制规范、相关软件、数据、处理过程的构建,都是数据中心建设的步骤。数据中心就是通过数据治理形成可以对外统一提供服务的数据。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。