在过去十年中,元数据系统因其复杂的设置过程而受到批评。这导致了急躁和资金不足,使得许多项目停滞不前。虽然元数据对于追踪业务结果至关重要,但许多组织却难以有效利用它。尽管如此,元数据对于追踪业务结果至关重要。
上个月,我在2024年元数据与AI峰会上主持了一次与Grab、Slack和Checkout.com的元数据专家共同的小组讨论,讨论了如何充分利用元数据的好处,并分享了几点克服常见挑战的小贴士。
在这次总结中,我们将解释为什么元数据很重要,分享一些业内专家的实用技巧,并分享Slack、Checkout.com和Grab的一些个人心得。
为为什么制定元数据策略?随着公司的发展,其数据环境迅速扩展,尽早制定数据策略并定期评估其效果以解决数据发现、治理和可观测性方面的问题,以免这些问题变得无法解决。
李海辉,Grab 的二级工程经理,说 Grab 团队决定尽早着手制定元数据策略。几年前,Grab 就引入了企业数据目录,以便利用数据发现的好处,比如打破数据孤岛,使任何人都可以轻松找到所需的数据。
随着时间的推移,Grab的数据生态系统变得越来越复杂,随着越来越多的数据驱动应用场景的浮现。Grab团队发现现有的企业目录解决方案在解决超出数据发现范围的问题时灵活性不足。随着时间的推移,他们意识到现有的企业目录解决方案在解决不断变化的需求时灵活性不足。考虑到这一点,他们在2021年评估了几种开源解决方案,并选择了 DataHub 。
DataHub的架构最终符合了Grab的需求,合作就这样开始了,首先着手整理其数据血统——这是组织通常会面临的一个早期元数据挑战,另一个常见的挑战是数据所有权问题。
随着时间的推移,哈维解释说,Grab 扩大了其元数据的范围,以捕捉和分类三种类型:具体的元数据行为、用户行为元数据和业务相关元数据。通过使用生成式人工智能,该公司能够更加有效地捕捉业务相关的元数据,例如,利用 Gen AI 自动生成数据资产的文档。
Grab的需求方面与Slack的需求方面之间有几个相似之处。她(Nedra Albrecht,Slack的高级数据工程师这一职位)分享道,该公司最初启动他们的元数据之旅时,尝试在Hive和Airflow之间建立一个强大的数据血缘图。虽然这对数据发现很有帮助,但这对公司的日常运营并没有产生实质性的改善。
从那时起,Slack 更加重视在生成和维护其数据生态系统中健壮元数据方面的投入,远远超出了在数据仓库内部绘制血缘图。在整个数据生态系统中生成高质量的元数据已成为常态,从代码中定义一个事件,到该数据如何在仓库中转换,再到该数据如何作为指标展现。
这产生了一个强大的效果,不仅提供了从度量生成到定义整个生命周期的可见性,还推动了组织层面的度量标准,以衡量团队的表现、资源分配情况和成本分配情况。
马修·库德,Checkout.com 的数据工程师 II, 分享说他们面临了一个重大的挑战,这促使他们采取了一种新的元数据策略。尽管公司本身拥有丰富的数据,包括对产品开发和审计报告都非常有价值的见解,但那些最熟悉这些数据的员工却缺乏有效的工具来分享数据。
实施元数据策略后,赋予了数据所有者们所需的工具,使他们能够更高效地工作,从而提高了效率并减少了错误。
早期实施元数据策略的好处虽然制定元数据策略可能需要一些时间,但有许多快速成果可以立即产生价值,并且能够获得跨职能的支持和激发团队热情。
采用DataHub之后,Slack团队很快清楚地了解了跨平台数据的血统关系。Nedra解释说,这使她和她的团队能够更好地宣传元数据的力量,通过向利益相关者展示他们数据资产之间的清晰关联图,从而获得支持,以便进行更广泛的元数据标准化投资。
同样,Grab 团队通过将数据血统信息引入到 DataHub,解决了数据湖中数以万计的数据集之间一触即发的复杂依赖关系问题,这些依赖关系随着团队管理的数据集数量的增加而不断演变。此外,Harvey 分享了他们如何显著提升了数据所有权的覆盖率和准确性——例如,当有人离开组织时,系统可以自动识别下一个最佳的所有者。
Checkout.com 的第一个重大成就在于它能够将数据的继承与准确的所有权文件结合起来。这使得处理夜间突发事件变得更加容易,因为他们知道谁在管理这些数据。此外,Michael 分享说,他们能够在短短几个月内记录了超过1,000个来源!
数据管理的成长挑战任何新的策略在初期都会遇到挑战,重要的是尽快找出并解决这些问题。
在Checkout.com解决了最初的一些问题之后,下一步是明确各自的职责,并规划接下来的步骤。Couder提到,该组织缺乏明确的指南和工具来管理关键流程,比如废弃资产、授予访问权限、发布数据和调整数据模式。比如,缺乏处理这些关键流程的工具。
虽然建立这些实践需要时间,迈克尔提到,与一个特别关注结果的团队和/或利益相关者合作有助于加速进展。一旦你与直接的用户建立了易于遵循的协议,你就可以开始系统地执行这些标准,而不是让用户自行选择是否采纳。
初学元数据时的一些小建议我们知道制定和实施元数据策略可能会让人觉得难以应对,但这里有一些建议来自我们的专家们,作为最后的建议。
哈维·李建议将元数据管理视为一个持久的问题,而不是一个难以应对的挑战。从一个小地方开始,并花时间庆祝每一个小胜利。
从小事做起,庆祝每一个小小的成功,这很重要。
Nedra Albrecht 强调在源头采集元数据的重要性,也就是所谓的“左移”策略,以更快地向各利益相关者提供有价值的信息,从而加快向各种利益相关者提供有价值信息的速度。
迈克尔·库德认同左移的重要性,并指出这使他们在快速变化的数据生态系统中预防破坏性变更的能力得到了增强。
经常联系。无论你是刚开始元数据之旅,还是正处于旅途之中,请放心,你并不孤单!如果你想找更多关于元数据策略的技巧和窍门,可以加入 DataHub Slack,其中一起加入超过12000名数据从业者的行列。
你现在可以在线观看整个讨论环节,完整的小组讨论,并查看我对2024年元数据与AI峰会的总结,此处。
连接到DataHub吧加入我们的Slack频道](https://slack.datahubproject.io/?utm_source=dhblog_medium) · 订阅我们的通讯](https://mailchi.mp/a097b5cd0790/datahub-community-updates) · 订阅我们的日程安排](https://events.datahubproject.io/?utm_source=dhblog_medium)