数据质量决定了数据对业务的内在价值。信息技术只是这个内在价值的放大镜。因此,高质量的数据与有效的技术相结合是一项巨大的资产,但低质量的数据与有效的技术相结合也是一项巨大的责任。
数据管理需要对数据以及相应的数据定义或元数据进行适当的管理。它旨在确保(元)数据质量良好,因此是有效和高效管理决策的关键资源。数据质量(DQ)通常被定义为“适合使用”,这意味着该概念的相对性质。
在另一个决策环境中,即使是同一个业务用户,原来其质量可接受的数据可能被认为质量较差。例如,分析性销售预测任务的数据可能不能满足会计任务数据的要求。
数据质量决定了数据对业务的内在价值。信息技术只是这个内在价值的放大镜。因此,高质量的数据与有效的技术相结合是一项巨大的资产,但低质量的数据与有效的技术相结合也是一项巨大的责任。这有时也被称为GIGO或“无用输入,无用输出”原理,即使采用了最好的技术,也会导致获得错误数据的结果。
信息架构师
信息架构师负责设计概念数据模型,并与业务用户进行沟通和对话。其弥合了业务流程和IT环境之间的鸿沟,并与可能有助于选择概念数据模型类型(例如EER或UML)和数据库建模工具的数据库设计师密切合作。在数据准确性和数据完整性方面,一个良好的概念数据模型是存储高质量数据的关键要求。
数据库设计师
其职责是将概念数据模型转换为逻辑和内部数据模型,协助应用程序开发人员定义外部数据模型的视图,从而有助于数据安全。为了便于将来对数据库应用程序进行维护,数据库设计人员在创建强制实现数据一致性的各种数据模型时,应定义公司范围的统一命名约定。
数据管理员
数据管理员是数据质量(DQ)专家,负责确保实际业务数据和相应元数据的质量。他们通过执行广泛和定期的数据质量检查来评估数据质量(DQ)。除其他评估步骤外,这些检查涉及应用或计算最相关的数据质量(DQ)维度的数据质量指标和指标。
显然,他们也需要主动采取行动,并进一步处理这些评估的结果。第一类应采取的措施是采取纠正措施。但是,数据管理员不负责自行更正数据,因为这通常是数据所有者的责任。对数据质量评估结果采取的第二种行动涉及深入调查所发现数据质量问题的根本原因。
了解这些原因可能允许设计旨在消除数据质量问题的预防措施。预防措施可能包括修改数据来源的操作信息系统(例如,使字段成为强制性的,提供可能值的下拉列表,使界面合理化等)。
总体而言,防止错误数据进入系统通常比事后纠正错误更具成本效益。但是,由于输入数据中存在不必要的数据质量问题,因此应注意不要减慢关键流程。
数据库管理员
其职责是负责实施和监视数据库。其工作内容包括:安装和升级DBMS软件、备份和恢复管理、性能调整和监控、内存管理、复制管理、安全性和授权等。数据库管理员(DBA)与网络和系统管理员密切合作。
其还与数据库设计人员进行交流,以降低运营管理成本,并保证达成一致的服务水平(例如响应时间和吞吐率)。数据库管理员(DBA)可以提供数据可用性和可访问性,以及其他两个关键数据质量维度。
数据科学家
数据科学家在数据管理的背景下是一个相对较新的职位。其负责使用最先进的分析技术分析数据,以提供新的见解,例如客户行为。数据科学家具有将ICT技能(如编程)与定量建模(例如统计)、业务理解、沟通和创造力相结合的多学科特征。
一位优秀的数据科学家应该拥有Java、R、Python、SAS等语言的良好编程能力。编程语言本身并不重要,只要数据科学家熟悉编程的基本概念,并知道如何使用这些来自动执行重复任务或执行特定例程即可。
显然,数据科学家应该有统计学、机器学习和/或定量建模方面的全面背景。从本质上讲,数据科学是一项技术练习。分析模型和商业用户之间往往存在巨大差距。为弥合这一差距,沟通和可视化设施是关键。数据科学家应该知道如何通过使用交通信号灯方法,OLAP(在线分析处理)设施,如果当时的业务规则等以用户友好的方式表示分析模型、附带的统计数据和报告。
数据科学家至少需要两个层面的创造力:在技术层面上,重要的是在数据选择、数据转换和清理方面进行创新。在分析层面上,标准分析过程的步骤必须适应每个特定的应用,而“正确的猜测”往往可以产生很大的差异。分析是一个快速发展的领域。
新的问题、技术和相应的挑战不断涌现。数据科学家必须跟上这些新的发展和技术发展的步伐,并且有足够的创造力来看待他们如何能够创造新的商业机会。这些数据科学家在当今的就业市场很难获得,这并不奇怪。然而,数据科学家有助于提供新的数据和/或见解,这可以让企业利用新的战略商业机会。
总而言之,确保高质量的数据是综合各种技能的多学科练习。在此从数据质量的角度回顾了以下数据管理作业配置文件:信息架构师、数据库设计师、数据所有者、数据管理员、数据库管理员、数据科学家。
作者:加米谷大数据
链接:https://www.jianshu.com/p/edc483267066