数据湖的概念

什么是数据湖? 数据湖是一个存储各类数据的大型仓库.本质上来讲,数据湖是数据仓库基于大数据技术的一种实现方式.与传统的,基于关系型数据库技术实现的数据仓库,数据湖再以下几个方面更优秀:

支持海量数据,得益于分布式存储,数据湖可支持海量数据

支持多类数据,数据湖在同时支持结构化数据,半结构化数据与非结构化数据

运算速度快,分布式运算,计算能力可横向扩展.

但同时数据湖也面临如下挑战:

技术实现复杂: 对半结构化,非结构化数据进行处理,需要依赖更复杂的技术,如:图像识别,自然语言处理等

数据整合难度加大:接收的数据来源更为广泛,其中标准不一,需要进行数据整合.

价值密度低:数据的价值隐藏于海量的数据中,单条数据价值较低,需要经过大规模计算才能提取到有价值的数据

湖中数据分类

结构化数据也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范.

具有一定的结构性,但不符合关系模型或其他数据表中的数据,但可以通过标签进行标记,便于程序识别,拆分.典型的半结构化数据为JSON,XML

数据结构不规则,不完整.最典型的数据为自然语言.

来源于各类传感器,特点是数据量大,重复较多,数据意义依赖于附属信息:

数据来源数据标准数据产生频率数据量入湖的日期与时间

如温度监测数据,数值范围较窄,其含义依赖于监测日期,监测地点,单位(摄氏/华氏)等信息.

由于模拟信号数据较多,我们通常通过以下方式进行缩减

数据来源于应用程序特点是,数据价值密度高,数据量较小,数据表达清晰.

应用程序数据多来源于关系型数据库,其主要工作为数据整合,其主要工作内容为:

多与一个应用程序关联,分析难度较高,分析频率较低,且对数据技术要求较高. 其难点为:

元素提取

拼写转换

简称/代称识别

类别辨认

日期标准化

为将数据分类,在数据湖内部,建立不同的数据池. 在数据湖中,将数据池分为三层

虽然数据湖能带来种种的好处,但仍有自身的不足: