浅谈元数据

Posted by 道行尚浅 on September 23, 2019

作为一个对世界充满好奇,而又学力不足的弱鸡,我经常问的问题和楼下保安大哥差不多:

image

这个糟糕的习惯,一直保持到现在.看到数据库中密密麻麻的数据,这三个问题,也在心中萦绕不去.直到我听说了一个高大上的名词~~: 元数据

作为一个即将被拍散的前浪,一个十几年的DBA,数据这玩意,我太熟了,但是这个元字,还是要好好的研究一下. 康熙字典记载为: 【唐韻】【集韻】【韻會】𠀤愚袁切,音原。【精薀】天地之大德,所以生生者也。元字从二从人,仁字从人从二。在天爲元,在人爲仁,在人身則爲體之長。【易•乾卦】元者,善之長也。又【爾雅•釋詁】元,始也。

好吧,我承认上面一堆,我基本看不懂,除了”元,始也”.上面文字的作用只是为了标榜咱也是个文艺青年.

image

元数据的概念

凡事了解一个事物一定要了解其概念,元数据的概念是什么呢?

维基百科的概念是:Metadata is data information that provides information about other data. 百度百科的概念是: 元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。 在«元数据:用数据的数据管理你的世界»( ISBN:9787508670782 )书中,定义元数据为对某个潜在信息性对象做出的陈述. 其中潜在的信息性对象是书中对数据的定义,之所以这么定义对象是因为数据原始,并且为经过任何处理.

元数据分类

元数据从分类上可以分为:

  • 业务元数据

业务元数据反映了数据背后的业务上下文,使用业务名称、定义、描述等信息表示企业环境中的各种属性和概念。常见的业务元数据应包含:

1.业务数据的定义 2.业务规则及相应算法 3.业务数据模型 4.数据质量描述 5.报表与数据

  • 技术元数据

技术元数据反映数据的结构、数据与分布,多面向数据管理人员,常见的技术元数据包含:

1.数据库信息 2.表信息 3.约束信息 4.视图信息 5.索引信息 6.物理数据模型

  • 操作元数据

操作元数据多反映运维相关信息,包括:

  1. ETL流程与规则
  2. 批量程序调用频率
  3. 备份恢复信息
  4. 多层数据间的血缘关系
  5. 数据访问模式与频率
  6. 版本维护信息
  • 流程元数据

流程元数据定义和描述系统的其他元素(流程、业务规则、程序、任务、工具等)的特性数据,包括:

1.管理机构与管理人员 2.角色与职责 3.流程定义 4.流程顺序 5.流程间的依赖

  • 管理性元数据
  • 管理性元数据是数据管理员监管制度流程和责任分配的数据。 数据管理元数据包括: 1.管理制度与规则 2.数据所有者 3.数据管理组织 4.数据管理员角色、权限与职责

为什么要进行元数据的管理 ?

1 消灭信息孤岛

企业数据分散至多个应用系统之中,数据间缺少有效的交换与共享,本质上是各应用团队对其他其他应用元数据缺少了解。

2 减少知识传递成本,提高数据理解速度,降低员工流失成本

通过对数据上下文,起源,变更逻辑,进行完整的记录,形成知识,并统一登记,开放共享,减少学习成本。

3 统一业务认识,减少技术团队与业务团队间分歧,提高数据价值产出效率。

4 降低数据变更风险

应用间联系愈发紧密,可利用元数据系统,迅速确定变更影响范围,降低投产失败风险。

5 为数据资产建设奠定基础

元数据是数据资产积累的第一步,也是最重要的一步,业务元包含反映企业核心业务流程,技术元数据包含系统核心的数据结构,二者相结合便可反映企业核心业务的数据流转信息,也就是业务数据化的核心内容。同时数据管理的其他方面(主数据与引用数据,数据架构,数据生命周期,数据质量、数据安全等),也都要依赖于元数据系统。

元数据系统功能导图:

image