Lakehouse湖仓一体成为下一站灯塔数仓、数据湖架构即将退出群聊

时间:2021-09-15 01:25:18 采编:wangshuaigang 阅读:

  当前的大数据技术应用趋势表明,客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持,这使数仓用户可以从相同的SQL引擎查询数据湖表,但它不会使数据湖表更易于管理,也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。

  KeenData LakeHouse(湖仓一体)作为新一代大数据技术架构,将逐渐取代单一数据湖和数据仓库架构,成为大数据架构的下一站灯塔。

  KeenData LakeHouse(湖仓一体)可定义为基于低成本,可直接访问存储的数据管理系统,它结合了数据湖和数据仓库的主要优势,开放格式的低成本存储可通过前者的各种系统访问,而后者则具有强大的管理和优化功能。数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为企业的数据治理带来更多的便利性。

  传统数据仓库是指从业务数据中创建信息数据库,将业务数据库的数据收集到集中式仓库来帮助企业领导者获得分析见解,然后将其用于决策支持和商业智能,它是单个数据存储,出于分析性报告和决策支持目的而创建。

  传统数仓存储的数据类型,主要是以关系型数据库组织起来的结构化数据。数据通过转换、整合以及清理,导入到目标表中。在数仓中,数据存储的结构与其定义的schema是强匹配的。针对实时数据处理,非结构化数据处理能力较弱,以及在数据量支持方面相对有限。

  数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施,它就像一个大型仓库存储企业多样化原始数据以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理。拥有强大的信息处理能力和处理几乎无限的并发任务或工作的能力。

  数据湖从企业的多个数据源获取原始数据,数据可能是任意类型的信息,从结构化数据到完全非结构化数据,并通过与各类外部异构数据源的交互集成,支持各类企业级应用。结合先进的数据科学与机器学习技术,能帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。

  在储存方面上:数据湖中的数据为非结构化的,所有数据都保持原始形式仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取。在将数据加载到数据仓库之前,会对数据进行清理与转换。

  在数据抓取中:数据湖捕获半结构化和非结构化数据。而数据仓库则只捕获结构化数据并将其按模式组织。数据湖的目的是非常适合深入分析的非结构化数据。数据科学家可能会用具有预测建模和统计分析等功能的高级分析工具。而数据仓库就非常适用于BI分析等操作用途,因为它具有高度结构化。

  KeenData LakeHouse架构成为当下架构演进最热的趋势,将数据仓库的高性能与管理能力与数据湖的灵活性相互融合。

  企业创建数据仓库来支持商业智能,主要场景包括编制报表、发布下游数据集市(Data Marts),以及支持自助式商业智能等。数据湖来自于数据科学对数据的探索,主要场景包括通过快速实验创建和检验假设,以及利用半结构化和非结构化数据等。

  KeenData LakeHouse的最佳实践是基于存算分离架构来构建。存算分离最大的问题在于网络,特别是对于高频访问的数仓数据,网络性能至关重要。实现Lakehouse 的可选方案很多,比如Delta,Hudi,Iceberg。虽然三者侧重点有所不同,但是都具备数据湖通用的一些功能,比如:统一元数据管理、支持多元分析引擎、支持高阶分析和计算存储分离。

  如上图所示:蓝色数据流是离线数据流。实现离线数据湖能力,数据通过批量集成,存储到Hudi,再通过Spark进行加工。红色数据流是实时流。数据通过CDC实时捕获,通过Flink实时写入Hudi;通过Redis做变量缓存,以实现实时数据加工处理,之后送到诸如Clickhouse 、Redis、Hbase等专题集市里对外提供服务。

  KeenData LakeHouse有了自己的角色和定位,但是一项技术的发展壮大还不能就此停止,它还必须在完善自身功能的基础上去解决因为它的出现而导致的善后问题以及它出现之前的历史遗留问题,只有这样,它才能被真正广泛接受。比如对于已有的系统,特别是企业已经存在的庞大规模的基于HDFS存储的数据仓库和基于MPP架构的实时数据仓库系统,如何按照KeenData LakeHouse架构来实行?

  基于企业内的这些场景,科杰大数据总结十余年企业级大数据工作开展经验,融合数据湖和数据仓库的优势,不断优化数据架构,升级为统一数据采集层(离线、实时)、计算中心(离线、实时、机器学习)、服务发布中心的KeenData LakeHouse湖仓一体敏捷数据平台。

  新架构设计在具备数据湖开放文件存储灵活性的同时兼具数据仓库的使用效率,非常适合大规模下的数据集成、标准化、资产化以及数据安全管理的需求。

  提供多种数据抽取方式,将生产中大量结构化和非结构化的离线、实时数据抽取到数据仓库,实现数据汇聚为数据的资产化和标准化提供数据基础。

  提供数据库元数据管理功能,实现各种数据库和数仓的元数据无缝打通和统一管理;科杰湖仓一体敏捷数据平台将HiveMetaStore 中 database 映射为平台内的的Rowdata,对 Hive Database 的改动会实时反应在这个Rowdata中,实现lake+house一体化存储访问功能。

  提供多引擎计算能力,支持将多个数据存储内的数据通过HQL、Spark、MR、shell等开发任务,进行统一开发、智能调度、数据治理和任务管理能力;同时提供跨团队大规模项目的协同开发能力,极大的提升开发效率。

  提供全可视化任务开发配置功能,智能解析任务依赖,并在数据处理的全流程提供数据质量和标准管理,在数据从产生到消费的全生命周期自动沉淀数据资产。

  平台云原生架构,系统基于模块化、组件化、服务化构建,支持存储、服务、计算弹性伸缩。当部分设备发生故障时,仍可正常运行,满足企业对系统可用性的要求,可达99。99%以上。

  科杰大数据服务某能源企业,构建湖仓一体架构的敏捷数据平台。根据该能源企业的业务发展目标,结合数据平台建设的实际业务要求,面向能源开发全域数据内容,覆盖数据处理全过程,搭建大数据基础设施,建设统一数据管理与服务体系能力。通过数据汇聚、标准化、治理、ETL处理等过程,形成高可用的数据资产,实现数据资产的服务化。同时,运用有效数据管理机制,有效管理和提升数据质量、数据安全,实现数据资产的自动沉降更新。

  湖仓一体的敏捷数据平台使该客户在人效方面、数据建设及使用效率方面以及大规模业务智能落地方面均有明显的改善和提升。

  相较于传统的大数据基础平台,单点重复式的烟囱开发建设到基于敏捷数据平台数据资产之上进行高度复用的协同开发,整体开发模式和研发效率是质的改变,大大提升人效。

  其次,从数据开发人员方向上,传统的大数据研发对开发人员会有一定的技术壁垒,门槛较高,科杰提供的湖仓一体敏捷数据平台,让更多的人员在综合安全管理管控的情况下使用平台进行自助分析和开发,提高数据在企业内流转和使用效率。

  相较于传统大数据基础平台,湖仓一体的敏捷数据平台实现存算一体的升级和迭代,进行数据全链路血缘关系数据资产沉淀,形成统一公司内数据门户,大大提升企业数据资产的使用效率。

  湖仓一体的敏捷数据平台是一套企业级的大数据&AI基础设施,帮助企业建立数据资产、实现数据业务化、进而推进全线业务智能化,实现数据驱动下的企业数据智能创新,全面支撑企业未来大规模业务智能落地。

  20年的大数据发展,让我们看到了数据湖与数据仓库的不断创新与发展,也看到了湖仓一体化的技术架构为企业数据能力带来的提升。特别是云原生+大数据的时代,湖仓一体更能发挥出数据湖的灵活性与生态丰富性,以及数据仓库的成长性与企业级能力。

  未来,基于湖仓一体的数据架构应用将迎来爆发,以创造数据价值为核心目标,以技术驱动产品创新升级,推动大规模数据智能化落地,将成为数字化转型的一片“新蓝海”。

来源于:未知
版权声明:凡注有"科技之家"的稿件,转载必须注明来源为"科技之家",来源标注其他网站的所有内容,与科技之家无关。其原创性和内容未经本站证实,本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如发现本站文章存在版权问题,烦请用邮件发送至,我们将及时进行删除处理,谢谢合作!

分享: