手记

Visa公司如何利用数据实现大规模数据治理

对于 Visa 而言,作为构建了负责 全球资金流动 的庞大网络的公司,无缝、安全和信任是最重要的。它们驱动公司追求卓越,确保每一笔交易都能以最高的诚信和可靠性完成。这一承诺的核心是有效的数据治理。

正如你所能想象的,对于Visa而言,数据治理不仅仅是符合规范;它是负责任地处理数据的重要组成部分。这需要一个强大的基础设施,既能高效又合乎道德地管理数据。

在DataHub的马里镇,Jean-Pierre Dijcks,Visa的产品管理资深总监,加入我们分享如何帮助他们实现大规模的数据治理。

理解 Visa 的大数据和人工智能平台

在 Visa 运营的核心是其强大的数据及人工智能平台,该平台负责处理并分析其网络中流动的大量交易。

Visa数据生态系统和数据目录建设之旅的概览

Visa系统设置的关键组成部分包括Kafka消息队列、Spark用于大规模数据处理、多个Hadoop集群和各种数据库、常用的BI工具以及高级AI工具。

正如你所想象的,人工智能在Visa的运营中扮演着至关重要的角色,尤其是在欺诈检测方面,那里的AI监控系统至关重要,这一点毋庸置疑。

这引出了让-皮埃尔的关键观点。

AI与元数据:为何投资元数据编目是个好主意

有充分的理由来增加对目录和元数据的投资,为了使AI更好:AI系统的好坏取决于喂给它们的数据。

正如让-皮埃尔·迪克斯所说,“是时候超越常规的数据流动,开始思考如何连接和编录我们的AI系统了吧,不是吗?”

鉴于当前的法律环境以及人们对AI的极大热情,让-皮埃尔强烈建议团队加大对元数据的投资。这笔投资将有助于解决新兴AI技术中数据来源和使用不可避免的问题。Visa已经认识到元数据在提高数据质量方面的重要性,因此,对于Visa来说,元数据管理和编目至关重要。

Visa的数据之旅

大约五年前,Visa 开始构建数据目录,旨在通过优先使用元数据的方式来深入了解他们的数据使用情况。

虽然这种量身定制的方法提供了根据他们具体需求调整系统灵活性的灵活性,但也需要持续的关注和维护工作,这会占用原本用于创造价值的资源。

这一认识让他们来到了DataHub,自那以后,DataHub已成为Visa元数据管理策略的关键部分。

为为什么说DataHub(数据管理平台)是Visa来说合适的数据目录工具

DataHub向Visa提出申请,原因有几点。首先,它提供了例如消息和提醒等这些基本功能,减少了Visa自己开发和维护这些功能的需求。

不过,真正让DataHub显得特别的是其功能强大的API平台。这个平台能够与Visa现有的工具和系统无缝对接,并让使用体验更加友好,同时也让数据工程师和其他相关人员的工作更加便捷。

Visa的用户们对通过API强调的可访问性这一点产生了共鸣,其中许多用户更倾向于通过API而不是用户界面来使用目录。

正如让-皮埃尔·迪克所解释的,“我们发现DataHub很好地满足了我们的需求。我们最欣赏DataHub的还是其强大的API平台。”

使用数据目录工具应对数据治理扩展过程中的挑战

数据目录正迅速成为可扩展数据治理不可或缺的组件。通过集中管理元数据、简化数据查找和提高数据质量,它提供了应对现代数据治理挑战的可扩展解决方案。

Visa 是如何通过 DataHub 的数据目录来应对一些紧迫的治理问题的,如下所示:

挑战 #1:大规模处理分类、定义等等:

分类、定义等术语需根据具体行业背景调整使用。

签证团队旨在可扩展地管理和跨系统的各种属性的常见分类、定义、访问策略等,而不将业务元数据的管理权转移给数据工程师。

解决方案: 构建并提交了一个名为逻辑模型(Business Attributes)到DataHub项目中

Visa在数据方面的角色与贡献

“业务属性模型”是由Visa设计的一种逻辑模型,用于集中和管理关键业务信息。该模型由数据管理员和专家拥有和维护,汇集了各种与业务相关的元数据,包括术语定义、分类和数据访问政策,简化了数千个数据集和数百万数据列的管理。

通过一次性定义这些逻辑属性并将其映射到表格的列,访问目录的用户能够直接获得与业务属性直接相关联的精选的和相关的信息,确保这些实时更新既准确又相关。

提示:功能属性从 DataHub v0.13.3 版本起可用!

挑战2:获取高质量且经过验证的元数据

Visa团队希望有一种方式来鼓励数据所有者提供高质量并经过验证的数据资产信息标注。

DataHub的Structured Properties

DataHub的结构化属性方法正在帮助Visa的数据平台团队,a)简化元数据管理,b)优化开发人员体验并使API数据更高效地集成到应用程序中。

挑战 3:跨环境的数据集管理

在 Visa 的数据生态系统中,一个数据集通常会被复制到多个物理环境中。他们重视数据守护者和数据消费者能够轻松地发现和管理这些环境中的数据。

解决方法:定义和实现“逻辑数据集(Logical Datasets)”

数据在哪里呢?它在物理世界中又存在于哪里呢?它在业务环境中又代表什么呢?

这些问题就是逻辑数据集能解答的类型。

Visa 正在开发一种新的逻辑数据集功能(能力),以便在不同的物理环境之间轻松连接复制的表格。这不仅简化了治理工作,还使用户和保管人更容易导航。

借助逻辑数据集,旨在建立一个更具扩展性和高效性的治理模型,其中数据产品、合同和定义之间无缝连接——以更清晰的方式理解数据的位置、业务背景和整体数据管理。

这里让让-皮埃尔来分解一下。

热纳-皮埃尔·迪杰克斯解释了维萨公司关于在DataHub中支持逻辑数据集(Logical Datasets)的愿景。

Visa元数据旅程五年来的收获
1. 先从一个‘隐形目录’开始

在整个公司范围内规定工具可能会很有挑战性,但使用一个“隐形目录”是开始建立一个以元数据为核心的环境而不必强制规定公司范围内的工具的好起点。

使用 API 是入门的最好方法。

Visa团队能够利用DataHub的API功能,有效地在需要的地方整合了元数据功能。采用这种方法,Visa通过自建的工具实现了与目录API的直接交互,这样一来,Visa实现了自助数据访问。

2. 构建一个闭环系统,推动以元数据为核心的流程

尽管倡导了正确的原则,实施变更管理和确保问责制可能颇具挑战性。更务实的方法是建立一个闭环管理系统,它衡量并奖励行动,而不是规定做事的方式。

例如,您可以确保在新部署的数据集时,数据被摄入,并且相关利益相关者了解数据集的部署及其后续变更。这将让数据所有者能够掌控其数据集,维护元数据合规性,并确保数据的完整性。

简化数据治理流程可以提高效率,确保目录保持最新并无缝对接到组织工作流程中。

3. 仔细考虑维护数据目录所需的努力 (必要投入 vs. 购买)

注:原文中的 "table stakes" 和 "effort" 在此上下文较难直译,因此采用了更自然的表达方式。

在决定是自建还是购买解决方案的时候,需要在控制和努力之间做出权衡。虽然自建可以提供最大的控制,但需要花费很多时间和资源。购买可以减少自建所需的努力,但通常会限制定制和控制。

正如让·皮埃尔所分享的,像DataHub这样的开源解决方案“提供了一点构建和购买两者的优点”。开源提供了影响开发的机会,参与和利用社区资源,并为持续改进提供帮助的能力。

如果你的组织需要更多支持和稳定性,基于开源基础的SaaS解决方案,如Acryl Data这样的,可能正是你要找的。它结合了供应商支持的优势和活跃开源社区的力量,提供了可靠和稳定的保障。

想知道更多关于Visa的数据处理经验吗?点击这里观看完整视频

连接数据平台

加入我们的 Slack • 订阅我们的新闻通讯 • 订阅我们的活动日历

0人推荐
随时随地看视频
慕课网APP