继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

戴布拉克湖流(LakeFlow)技术概览

精慕HU
关注TA
已关注
手记 266
粉丝 24
获赞 116

当你看着一个湖,想过这里的水多么平静和舒适啊? 🚣‍♀️一旦你了解了 Databricks 的 Databricks LakeFlow 技术,你也会有同样的感受。😌

Databricks LakeFlow 在 2024 年 Data+AI 首次发布。LakeFlow 的口号是:

“从数据库、企业应用和云端摄取数据,使用SQL和Python进行批处理及近乎实时的转换并处理数据,并自信地部署和操作在生产环境中”

我们今天聚在这里就是要聊聊这一切的事情哦😉

LakeFlow 之前

让我们看看这位 Walter Mitty 的日常工作吧,🤭他参与过或即将参与的每一个项目,他的 ETL 流程如下:

摄入

我们的朋友沃尔特可能需要从Salesforce或SQL数据库中摄入数据,并通过一个连接器将这些数据上传到公司的云存储(Azure或AWS)。为此,沃尔特需要编写一段脚本代码来连接这些数据库并将数据上传到公司的云存储。

他可能会用Azure Data Factory或AWS Glue来做这个。🧐

变换

现在,一旦这些数据上传到他的云实例后,沃尔特就可以开始进行转换以生成所需的KPIs,以满足业务需求的KPI。我们知道他将使用什么工具来完成这些转换,即 APACHE SPARK。 🫡他可以使用Azure Synapse、传统的Databricks或DBT来进行转换。

策划

一旦数据被转换,你需要安排转换代码,使其能在预定时间自动运行。Walter 可能会用 Azure Data Factory、Apache Airflow 或 Databricks 工作流来构建从数据摄取、转换到加载到前端(如 Power BI)的整个流程。

实现生产数据的三个步骤

沃尔特遵循的步骤繁琐且成本高昂。 🤑这就是我们讨论Databricks新解决方案的原因:LakeFlow (LakeFlow)

LakeFlow

Databricks LakeFlow 是基于 Databricks Workflows 和 Delta Live Tables 构建的。下面我们来聊聊 LakeFlow 如何包含上述提到的所有步骤。

数据导入 — LakeFlow 连接器

LakeFlow 提供了一个叫做“LakeFlow Connect”的功能,它提供简单的连接器,方便数据接入几乎所有的数据库和企业软件。 😵

LakeFlow Connect 可连接的数据库列表如下!

LakeFlow Connect 是原生于 Lakehouse 的连接器,这使得从任何数据库到 Databricks 的数据加载非常简单。这些连接器完全集成了 Unity Catalog,从而提供了强大的数据治理功能。

但是,代表所有的数据工程师,我们不仅仅需要与源数据库连接,我们需要捕捉变更数据。 😓没有人希望每次管道运行时都要做全量加载。我们只需要每天获取新增的数据就好。

而且你知道实现CDC(捕获变更数据)有多么困难。😣这种繁重的工作也是由LakeFlow Connect完成了!🤯

转换:LakeFlow 管道

这个解决方案解决了传统转换步骤的问题,真是如释重负。 🙃LakeFlow管道背后的魔力在于,它允许你用简单的SQL表达批处理和流处理。而且,LakeFlow会将你的SQL转换成增量、高效且经济的管道! 🫠🫠

那怎么做?

你可以直接用SQL来转换你摄入的数据!不需要在Databricks笔记本中编写代码。

运行后,你就能在指定的位置看到输出结果了!

就这样了!! 😎

你注意到什么了吗?🤔理想情况下,要执行数据摄取和数据转换,你需要设置基础设施并启动一个集群。但在这里,什么都没有!你啥也不用管,啥都不用设。真的,就只需写 SQL 即可。🤯🤯

所有红色的内容都交给LakeFlow处理吧,你只需编写有价值的转换就行了。

没有“如果存在则创建表”这样的语句,也不需要用于模式演化的SQL。只需写出“有价值的转换SQL查询”(如下图中高亮显示的),你就可以动手了。

而且将其从批处理转换为流处理极为简单。只需在你的管道的末端/开始添加一个Kafka源/接收器,LakeFlow就会将其视为流处理管道!_无需任何代码更改。😱

协调 — LakeFlow 任务

LakeFlow Jobs 可以编排任何生产工作负载。这包括你在 Databricks 工作流中能做的一切,如图所示😅

所有这些任务都可以通过Databricks Jobs来完成。

不需要单独使用AIRFLOW,因为已经包含在工作流程中了😉

当我听到 Databricks 在 2024 数据+AI 峰会上宣布这个消息时,我的脑子简直要炸了。你可以在这里看完整视频 这里

现在数据领域正处于一个令人惊叹的时期,数据工程不仅限于掌握单一工具,更重要的是知道我们有哪些工具,并根据需求选择最适合的工具。🫡🫡

学习愉快!😆😆

如果你喜欢这篇博客,请点赞 👏 让更多数据工程师看到。

谢谢大家阅读! 😁

打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP