聊聊流式数据湖Paimon(二)

2023-12-25 15:57 由又见阿郎发表于 #数据库

当前的问题

Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture) 数据的入湖；CDC 数据来自数据库。一般来说，分析需求是不会直接查询数据库的。

容易对业务造成影响，一般分析需求会查询全表，这可能导致数据库负载过高，影响业务
分析性能不太好，业务数据库一般不是列存，查询部分列 Projection 性能太差
没有 Immutable 的视图，离线数仓里面需要根据 Immutable 的一个分区来计算

所以需要通过 CDC 的方式同步数据库的数据到数据仓库或数据湖里。

CDC可以理解为是Changelog数据流。

目前典型的同步方式依然是 Hive 的全量与增量的离线合并同步方式。

在 Hive 数仓里维护两张表：增量分区表和全量分区表，通过：

(按需) 初始化时使用 DataX 或 Sqoop 等工具同步整张数据库表到 Hive 全量表的分区中。
每天定时 (比如凌晨0点30分) 同步增量数据 (通过 Kafka) 到 Hive 增量分区表，形成一个增量分区 T。
将增量分区 T 与全量分区 T-1 进行合并，产出今天的全量表分区 T。

这个流程在今天也是主流的同步方式，离线数据提供一个 Immutable 的视图，让数据的可靠性大大增加。
但是它的问题不少：

架构链路复杂度高：由于链路复杂，每天产出全量分区容易有问题导致不能按时产出，新增业务也比较复杂，全量和增量割裂。
时延高：至少 T + 1 延时，而且需要等全量和增量合并完成。
存储成本高：每天全量表一个分区存储所有数据，意味着 100 天就需要 100 倍的存储成本。
计算成本高：每天需要读取全量数据，与增量数据进行全量合并，在增量数据不多时浪费严重。

引入Paimon

和其它数据湖不同的是，Paimon 是从流世界里面诞生的数据湖，所以它在对接流写流读、对接 Flink 方面都要比其它数据湖做得更好。
Flink 结合 Paimon 打造的入湖架构如下：

步骤如下：

通过 Flink CDC 一键全增量一体入湖到 Paimon，此任务可以配置 Tag 的自动创建，然后通过 Paimon 的能力，将 Tag 映射为 Hive 的分区，完全兼容原有 Hive SQL 的用法。

只需一步。

Paimon 的每一次写都会生成一个 Immutable 的快照，快照可以被 Time Travel 的读取，但是快照会有过期被删除的问题，因此要解决此问题，可以基于快照创建 Tag；Tag 就是快照集合，通过Tag提供离线历史数据的访问。

流式入湖方式可以有如下多种方式：

Flink SQL 入湖，SQL 处理，可以有函数等 Streaming SQL 的处理
Paimon 一键 Schema Evolution 入湖，好处是 Schema 也会同步到下游 Paimon 表里：详见 https://paimon.apache.org/docs/master/cdc-ingestion/overview/

它的好处是：

架构链路复杂度低，不再因为各种组件的问题导致链路延时，你只用运维这一个流作业，而且可以完全兼容原有 Hive SQL 用法。
时延低：延时取决于流作业的 Checkpoint Interval，数据最低1分钟实时可见 (建议1-5分钟)。不但如此，Paimon 也提供了流读的能力，让你完成分钟级的 Streaming 计算，也可以写到下游别的存储。
存储成本低：得益于湖格式的 Snapshot 管理，加上 LSM 的文件复用，比如同样是存储 100天的快照，原有 Hive 数仓 100 天需要 100 份的存储，Paimon 在某些增量数据不多的场景只需要 2 份的存储，大幅节省存储资源。
计算成本低：得益于 LSM 的增量合并能力，此条链路只有增量数据的处理，没有全量的合并。可能有用户会担心，常驻的流作业会消耗更多的资源，对 Paimon 来说，你可以打开纯异步 Compaction 的机制，以 Paimon 优异的性能表现，只用少量的资源即可完成同步，Paimon 另有整库同步等能力帮助你节省资源。

参考

Flink + Paimon 数据 CDC 入湖最佳实践

获奖名单公示｜荣耀时刻，「第5届天池全球数据库大赛」决赛圆满收官

日前，由阿里云主办、阿里云瑶池数据库和天池平台承办的“第五届天池全球数据库大赛”圆满收官。历经过去4个多月的层层选拔，2大赛道20支队伍从7047支参赛战队中脱颖而出，成功晋级大赛决赛圈。最终，来自蔚来汽车等企业组队的「带对听花」队伍和来自北京大学&饿了么组队的「西二旗大头帮」队伍分别赢得赛道1（ ...阅读全文

数仓调优实践丨SQL改写消除相关子查询

本文分享自华为云社区《【调优实践】SQL改写消除相关子查询》，作者：门前一棵葡萄树。一、子查询 GaussDB(DWS)根据子查询在SQL语句中的位置把子查询分成了子查询、子链接两种形式。子查询SubQuery：对应于查询解析树中的范围表RangeTblEntry，更通俗一些指的是出现在FR ...阅读全文

聊聊流式数据湖Paimon(一)

翻译自 Apache Paimon官方文档概览概述 Apache Paimon (incubating) 是一项流式数据湖存储技术，可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。简单来说，Paimon的上游是各个CDC，即changlog数据流；而其自身支持实时sink与s ...阅读全文

【Redis】BigKey问题

面试题海量数据里查询某一固定前缀的key 生产上如何限制 keys * / flushdb / flushall 等危险命令以防止误删误用？ MEMORY USAGE 命令用过吗？ BigKey问题，多大算big？如何发现？如何删除？如何处理？ BigKey你做过调优吗？惰性释放lazyfree了 ...阅读全文

Linux Zookeeper在Docker 安装与简单通信

一、在本地计算机上安装Docker 1.安装Docker （安装最新的Docker版本） yum install docker-ce docker-ce-cli containerd.io docker-bulidx-plugin docker-compose-plugin 2.查看Docker版本 ...阅读全文

HBase Shell操作&Flink写入HBase

一、HBase Shell操作 1、基本操作 1）进入HBase客户端命令行 [root@bigdata1 hbase]$ bin/hbase shell 2）查看帮助命令 hbase(main):001:0> help 3）查看当前数据库中有哪些表 hbase(main):002:0> list ...阅读全文

ClickHouse(19)ClickHouse集成Hive表引擎详细解析

目录Hive集成表引擎创建表使用示例如何使用HDFS文件系统的本地缓存查询 ORC 输入格式的Hive 表在 Hive 中建表在 ClickHouse 中建表查询 Parquest 输入格式的Hive 表在 Hive 中建表在 ClickHouse 中建表查询文本输入格式的Hive表在Hive 中建 ...阅读全文

PostgreSQL. 异常“more than one owned sequence found”的解决方案

一、异常信息描述执行数据库操作时，主键id没有自增，且报“more than one owned sequence found”的异常，造成数据没有insert进去，下面是详细的异常信息： java.lang.reflect.InvocationTargetException at sun.ref ...阅读全文

掌握银行联行号查询Api接口：实现快速准确的联行号查询！

在经济社会发展的过程中，银行的角色愈发重要。随着金融体系不断完善，各大银行之间的交流、合作也变得尤为关键。而银行之间互相识别和通信的一种方式，就是通过联行号。联行号是指银行间互相识别的一种编码方式。每个银行都拥有一个唯一的联行号，用于区分不同的银行和分行。有了联行号，各大银行之间的交流和转账操作就 ...阅读全文

聊聊Flink必知必会(七)

What is State 虽然数据流中的许多操作一次只查看一个单独的事件（例如事件解析器），但某些操作会记住多个事件的信息（例如窗口算子）。这些操作称为有状态的(stateful)。有状态操作的一些示例：当应用程序搜索某些事件模式(event patterns)时，状态(state)将存储迄 ...阅读全文