MaxCompute2.0助力众安保险快速成长@慕课网原创_慕课网

摘要：2017云栖大会阿里云大数据计算服务（MaxCompute）专场，众安保险数据总监王超群带来MaxCompute助力众安保险方面的演讲。本文主要从MaxCompute优势开始谈起，进而谈及大数据能够公司运营带来的好处，最后重点分析了众安保险的数据平台建设，包括任务调度、元数据和数据质量监控等。

原文地址：http://click.aliyun.com/m/43993/

2017云栖大会阿里云大数据计算服务（MaxCompute）专场，众安保险数据总监王超群带来MaxCompute助力众安保险方面的演讲。本文主要从MaxCompute优势开始谈起，进而谈及大数据能够为公司运营带来的好处，最后重点分析了众安保险的数据平台建设，包括任务调度、元数据和数据质量监控等。

以下是精彩内容整理：

众安保险作为国内第一家互联网公司，我们从创立之初计算平台就使用MaxCompute。

为什么会选择MaxCompute？

成立之初我们也在自建平台和MaxCompute上作出了选择，我们主要从五方面考虑：健壮性、与应用系统交互、扩展性、强数据安全和低成本。

健壮性：7*24的服务能力、异常恢复时长；

与应用系统交互：数据源的获取与数据输出效率和成本；

扩展性：当数据成倍增长时，计算能力弹性；

数据安全：数据异常攻击防护，提供多层沙箱防护及权限体系；

成本：自建成本和MaxCompute成本对比。

首先，2013年能够提供完整能力的计算平台并不是很多，MaxCompute孵化于阿里金融的生产系统验证后对外输出，支持5000台以上的计算能力，满足我们对弹性和扩展性的要求；其次，我们对阿里云专业能力的信任，可以看到阿里云在国内的计算份额遥遥领先；最后，MaxCompute不仅仅是一个计算平台，它还提供了分析和挖掘工具的能力支持，提供可用的IDE（DataWorks、Studio）开发工具，这会降低我们最初加工开发过程中的开发成本。

大数据能给公司运营带来哪些颠覆？

云计算和大数据整体生态链的发展如图，国内云计算年增长率超60%，AWS新增功能数可观，云计算正日益接近生活，从hadoop诞生以来，十年间产品丰富性大大增加，生态圈越来越大。

大数据不仅仅在于它的工具、平台和生态圈，更在于它能够赋能于人、场景，通过赋能支持生态发展，阿里每天都有上万人在使用MaxCompute在工作，大数据是对人赋能创造的新职业，反过来从业者也会反馈大数据，丰富大数据的场景，在十年的发展中，人和资源的投入也在反馈结果，同时还有资本的良性回报继续投入大数据行业，形成闭环。

众安是一家以保险为核心的公司，我们提供跨生态的连接，与各个子行业进行跨生态合作，包括电商、3C、汽车等，这些产品打通了各个生态伙伴同时也会增加我们对用户的接触，通过与300多个生态伙伴的合作，我们积累了大量用户数据及信息。最终，我们希望众安既能服务这些生态，又能通过数据积累、客户积累、品牌积累来做大做强众安自己的开放平台。

截至到2016年底，我们服务的用户为4.92亿，保单数72亿，为中国互联网的新生代提供了第一张保单。其中，30岁以下人群大约占比50%，说明众安保险代表这新的生活理念方式，而且这群人群有着充足的资产生产能力，他们对保险的认可度和意识是更高的，他们是将来的消费主力。

众安保险的数据平台建设

每串数字后面都是公司全体员工努力的结果，那么，基于MaxCompute数据平台做了哪些事情呢？怎样支撑业务快速发展？

数据平台分为平台工具、数据监控和数据服务。数据本身是有多源异构数据，数据价值体现在于它的流动性和开放性，只有把数据经过加工、质检提供到用户手中，才能产生价值。平台工具包括MaxCompute、数据同步、任务调度和计算存储管理；数据监控有预警系统、元数据、血缘关系和数据质量；数据服务包括数据门户、自助取数和服务API。

任务调度系统

任务调度本质上是要完成数据加工工作流的状态，数据加工是一个多链路的过程，如何保证数据顺序的正确性，我们支持日、周、月等不同周期调度，支持分组优先级，支持小时任务，支持自定义时间调度，日任务量超1W。

任务调度是一个有向图，每一个节点都可以看到来源数据是非常多的，红色数据代表出错状态，蓝色代表成功，绿色代表正在运行，黄色是存在的状态。不同任务加工来源于很多的数据源，就会给我们带来困惑，如果信息出现错误，那么到底是自身任务出错还是上游数据源结果引来的问题呢？那么，怎么让开发更快的定位问题，减轻开发成本，提供统一口径？我们通过元数据来解决。

元数据

数据包括打通数据和数据间关系，利于模型优化和异常定位，打通数据与人之间的关系，利于成本优化。数据关系包括数据字典信息、血缘信息、存储和产出信息、表责任人信息和业务元数据信息，推动存储计算优化来降低MaxCompute使用成本。

左图为数据间的基本信息，还有数据产出信息、血缘关系；右图展示表的来源，输出会影响下一轮哪些表，获取信息以后，我们会把数据和数据之间打通，人和数据之间打通。

存储优化后成本下降了30%，通过存储计算优化降低无效存储，计算效率会提升。

数据质量监控

数据质量监控通过切片方式嵌入到任务自身执行状态中，执行任务的自处理，自己判定自己的状态，基于规则与模板验证数据的准确性，只有Ok才会被下游使用，这样避免了数据污染，自身暴露错误不依赖于下游。它的特点是利用MaxCompute的统计项收集功能，规则是统计项规则，包含表和字段级别，模板为规则+周期+统计函数的整合，把事后监控变为事中监控，支持用户自定义，覆盖重点任务，覆盖率30%。

数据服务与安全

在消费时，我们会去考虑哪些东西呢？数据是要开放和流通的，在开放和流通中我们还要小心什么？数据泄露和安全都会导致公司的灾难。

在技术上，我们基于ACL与角色管理，赋予不同等级，我们做了表和字段级别的权限等级控制，建立敏感信息掩码、涉密信息的加密审批流程，开放与安全,基于技术控制和流程控制，各种角色需要数据。开放基础是安全控制，开放关键在流程管理，我们在开放与安全间做平衡。

在数据平台的建设中，要保持可用、易用、适用三个阶段，需要经历多次迭代升级系统。数据即服务，要满足用户不同的数据需求，数据是基础设施，每家公司都面临数据平台的搭建和使用。

MaxCompute生态的丰富，资源与工具的共享，对挖掘算法的深入及支持都可强大到满足我们的使用需求，我们可以有更多时间去接触用户，为用户创造价值。MaxCompute成本也在逐步下降。未来，希望MaxCompute提供更多种模式支持，包括UDF\资源库如IP库，包括挖掘的python算法包、人工智能平台支持。

作者：猫耳呀
链接：https://www.jianshu.com/p/3842a4e9846e