手记

为什么要测试数据仓库项目

测试数据仓库实现已成为灌输对业务所依赖的数据的信任的必要条件。

既然每家公司都努力成为一家数据驱动型公司,那么数据质量就比以往任何时候都更加重要。据Gartner称,由于数据质量不佳,普通公司每年损失82亿美元。此外,Experian最近的一项研究发现,五分之四(83%)的企业将数据视为形成业务战略的一个组成部分,但他们怀疑30%的联系和潜在客户数据可能不准确。随着“改善客户体验”被称为2018年的首要任务,该研究还报告称,69%的人认为不准确的数据正在削弱他们提供此服务的能力。

测试数据仓库实现已成为灌输对业务所依赖的数据的信任的必要条件。复杂的业务规则和转换逻辑是使用ETL逻辑构建的,因此需要勤勉和彻底的测试。

为什么测试数据仓库项目?

以下是彻底测试数据仓库并应用特定于数据和ETL测试的QA流程的众多原因中的一小部分:

来自不同类型的数据存储库的源数据通常很多。

无法假设源数据的质量,应对其进行分析和清理。

源数据可能不一致和/或冗余。

许多源数据记录可能被拒绝; ETL /存储过程日志将包含必须对其执行操作的消息。

可能缺少必需的源字段值。

源数据历史记录,业务规则和源数据审核可能不可用。

企业范围的数据知识和业务规则可能无法用于验证数据。

由于数据ETL在加载到数据仓库之前必须经常经历多个阶段,因此必须对提取,转换和加载组件进行全面测试,以确保各个阶段中的各种数据的行为符合预期。

异构数据源(例如,大型机,电子表格,Unix文件)将随着时间的推移异步更新,然后逐步加载。

在数据仓库中很难实现事务级可跟踪性。

数据仓库将成为战略性企业资源,并且在很大程度上依赖于此。

数据仓库验证涉及什么?

对数据建模和源到目标数据映射的良好理解为测试人员提供了开发适当测试策略的信息。因此,在项目的需求分析阶段,QA团队最大程度地了解数据仓库的实施非常重要。在大多数情况下,数据仓库测试策略将是几个较小策略的联合体。这是由于数据仓库实现的性质。

数据仓库实施的不同阶段(源数据分析,数据仓库设计,ETL开发,数据加载和转换等)需要测试团队的参与和支持。与某些传统测试不同,测试执行不会在数据仓库实现结束时开始。简而言之,测试执行本身具有多个阶段,并且在数据仓库实现的整个生命周期中交错。

跨数据仓库项目测试阶段的验证可包括:

数据完整性:确保通过每个ETL过程加载所有预期数据。

数据转换:确保根据业务规则和设计规范正确完成所有要转换的数据。

数据质量:确保ETL过程正确拒绝,替换默认值,更正,忽略和报告无效数据。

性能和可伸缩性:确保数据加载和查询在预期的时间范围内执行,并确保技术体系结构具有可扩展性。

集成测试:确保ETL过程与其他上游和下游过程良好协作。

用户验收测试:确保数据仓库解决方案满足用户当前的期望并预测他们未来的期望。

回归测试:每次完成新版本的ETL代码和数据时,确保现有功能保持不变。



作者:大数据首席数据师
链接:https://www.jianshu.com/p/cdd403f00ffd


0人推荐
随时随地看视频
慕课网APP