手记

Netflix数据工程开放论坛精华回顾

悠着点

简介

Xinran Waibel 来自 Data Engineer Things,几个月前她和几位同事一起发起并创建了 Netflix 数据工程开放论坛,这个论坛真是超出了大家的想象。那些没能亲自到场的人现在也能在网上看这些演讲了,所以我赶紧去看了一下,这里是我的几点心得。

数据质量评分

最近我写了很多关于数据质量的文章,大部分灵感都来自于Airbnb的实践,所以很高兴看到他们做了关于Midas以及数据质量在他们工作中变得越来越重要的演讲。他们提到数据质量和数据生产者以及使用者之间的关系是很有道理的。对于生产者来说,一个数据质量分数可以提供明确且可操作的改进步骤,而高质量的数据将更受欢迎,满足消费者的需求。对于使用者来说,这可以提高数据的可发现性,并有助于他们从上游来源获取高质量的数据,这是理所当然的。

我完全同意数据质量确实是双向的。在过去的几个月中,我们与利益相关者进行了很多互动,不断调整我们对产品所需数据质量的看法。引入评分的概念将进一步加强我们在这一领域的努力。

基于数据建模的生成式AI

我是不是也开始对生成式AI上瘾了?虽然不能说完全如此,但我确实觉得这些能力在数据建模中非常有用。奈飞有一个有趣的演示,展示了他们是如何构建数据本体模型的,并利用这个模型解析输入的查询,抓取相关的实体和属性。这有助于提供传统系统无法提供的数据语义理解。

数据架构师是否会过时吗?很可能不会,但如果说有一种流程能够帮助人们比任何具有极高成功率的人更快地找到他们想要的东西,为什么不更愿意把钥匙交给这样的工具呢?数据目录会朝这个方向发展(如果它们还没有这样做的情况),所以我们看看它们能否达到Netflix那样的规模吧。

自己的储存空间

那么,从录制这个演讲到现在,Tableau经历了一些大的变化,但这并没有减少独立存储的重要性。模块化架构都包含些什么?

  • 工程师掌控数据
  • 共享集中存储
  • 支持任何专用计算
  • 保护数据,而不是访问
  • 基于开放标准

这就是 Delta Lake 和 Iceberg 构建的一套原则(其中一部分内容),这也是为什么 Databricks 最近在 UniForm 上投入了如此多的时间。虽然在这一领域仍然存在一些挑战,但它正逐渐成为标准,该是我们一起加入的时候了。期待它未来会怎样发展。

结论部分

特别感谢辛然和团队带来的精彩活动,希望未来还能看到更多这样的活动,中立的论坛才是最好的。

0人推荐
随时随地看视频
慕课网APP