人类正在进入数据时代
“Big data is like teenage sex:everyone talks about it,nobody really knows how to do it,everyone thinks everyone else is doing it,so everyone claims they are doing it…"
—-Dan Ariely,Duke University
- 谷歌Eric Schmidt:2.5EB/天
- Cisco 估算:66%年复合增长率
- IDC 预测:2020年达到40ZB
- 传统数据库支持:10-100TB
- 1ZB=1024EB=1024^2PB =1024^3TB
- 人与人的连接产生数据
- 设备与设备的连接产生数据
- 工具服务之间的连接产生数据
- 大数据(5v)
- Volume:数据量(绝对总量大)
- Velocity:速度(产生、获取、更新)
- Variety:广度(数据种类繁多)
- Value:价值(应用在特定领域)
- Veracity:真实(数据可信度高)
什么是数据
- 区分数字、数量和数据;
- 简单来说数据是一种量化事物的手段,就像身高、体重、三围一样,它们都是一个数字指标,代表了事物现实存在的客观情况;
- 数据最大的特征就是客观性,无论我们是否触碰它,它就在那里。
- 数据分析的价值
- 不靠感觉、有据可依
- 脸书UI界面改版
- 量化标准,驱动产品改进
- 挖掘隐藏需求
- 春秋航空终止点添加热门城市
- 提升精细化能力,降低运营成本
- 膜拜红包车(车辆调度)
- 不靠感觉、有据可依
业务指标体系和四个层级
指标是一种度量,用于追踪和评估商业进程的状态
基础指标:新增用户、活跃用户、启动次数
- 流量指标:PV、UV、跳出率
- 使用数据:使用时长、频率、二次访问间隔
- 业务指标:订单量、客单价、复购率、扫码率
- 细化指标:女性用户在双111大促的客单价
- 成本指标:CAC(获客成本)、LTV(生命周期总价值)、PBP(成本回收周期)
培养数据指标敏感度的方式:多看多记
- 烂熟于心
- 公司平均每天/每周/每月营业额,活跃量,流量大小
- 周末和周中一般差别,早上、中午、晚上用户关键差别
- 北京和上海或其他各主要地域的市场份额、消费能力
- 公司下个季度预期增长率,预期今年的营业额
- 桌面和移动的活跃比例、收入比
- 免费用户和付费用户比例、主要差异
- 主要漏斗,如注册、登录、付费、提交等,每一步的转化率、流失率
- 获取用户的成本,用户的生命周期价值
什么样的指标是好的指标
- 可比:好的指标具有可比较性
- 简单:好的指标是简单易懂的
- 大众舆论,收韭菜
- 比率:好的指标通常是一个比率
指标区分
- 定性指标(无法量化)vs量化指标
- 探索性指标(方向指标)vs 报告性指标
- 先见性指标 vs 后见性指标
- 相关性指标 vs因果性指标
- 虚荣指标(无价值,比如PV高,但是转化率低)vs可付诸行动指标
- 北极星指标(核心指标)
- 一级指标:衡量公司战略和目标
- 北极星指标是企业为用户、客户带来的核心价值的体现,是指引公司提升长期价值的方法
- 提升公司的文化和价值观,明确公司长期优先级,凝聚团队
- 二级指标:一级指标的路径
- 三级指标:二级指标的路径
- MySpace、SocialCam:只观测虚荣指标、进行盲目扩张往往会导致企业浪费资源甚至死亡
- 硅谷科技公司的北极星指标
- Facebook:月活跃用户数(MAU)
- Linkedln:高质量注册人数(Quality Sign-ups)
- 什么算是高质量注册用户?
- 新注册用户
- 完善个人资料,罗列出至少一个职位信息
- 建立至少一个连接
- 开放社交权限,可以被Linkedln其他用户搜索
- 通过数据分析和机器学习手段,由产品和数据分析团队定义,用以衡量长期用户活跃度,同时比较容易被理解。
- Pinterest:每周重复使用Pinterest的用户数据量(Weekly Active Repinners)
- Slack:发送超过2000条信息的团队数量(Teams who have sent 2,000 messages)
衡量北极星指标的6个标准
- 你的产品的核心价值是什么?这个指标可以让你知道你的用户体验到了这种价值吗?
- 这个指标能够反映用户的活跃程度吗?
- 如果这个指标变好了,是不是能说明你的整个公司是在向好的方向发展?
- 这个指标是不是很容易被你的整个团队理解和交流呢?
- 这个指标是一个先导指标,还是一个滞后指标?
- 这个指标是不是一个可操作的指标?
5种互联网常见商业模式产品的核心指标
- 双边市场:商品数量/用户规模/买家数量/卖家数量/成交金额/交易达成率等
- UGC产品:优质内容产生数量/可生产内容用户数/消费内容用户数/广告收入等
- 媒体型产品:优质内容数量、用户访问量、广告收入等
- 互联网金融:资金规模、利润、绑卡用户数、对外投资优质资产数量、活跃投资用户数
- 工具应用:使用用户数、付费用户/企业数、商业化收入等
一级指标(Tier 1 Metrics)
- 衡量公司的战略和目标
- Tier 1 Metrics 是我们常常说的一级指标,用于衡量公司整体目标达成情况,以及战略目标的结果
- 管理层认可并针对公司所有层级的员工,都有核心指导意义
- 选择 Tier 1指标时,数量控制在5到8个(根据业务的复杂度可以进行增减),与商业结果和公司战略目标紧密结合
- 例如:GMV,订单数量,周/日活跃用户数量,商城活跃用户数量等
- 与行业紧密结合,指标定义最好按照行业标准制定,并同时有可参考的类似行业指标
- 不应该仅仅为财务指标,但同时也能衡量公司的商业结果
- 从公司与用户两个角度出发定义Tier 1指标
二级指标(Tier 2 Metrics)
- Tier 2 Metrics(二级指标)是针对一级指标的路径型分析拆解,并且可以更高效的定位Tier1指标中波动的原因
- 例如,如果每日GMV和订单数字上升,潜在路径拆分可能是:1)货品单价上升;2)活跃用户数量增多;3)某站内渠道推广效果
- 选择 Tier 2指标过程,应该通过历史经验,在拆解一级指标中定位的原因,作为监控的对象;公司内部可选择的指标有上百甚至上千个,这是最直接能够确定Tier2指标的方式
- Tier 2 指标是流程中的指标
三级指标(Tier 3 Metrics)
- 类似,Tier 3 Metrics(三级指标)是针对一级指标的路径型分析拆解,并且可以更高效的定位Tier2指标中波动的原因
- 同样的逻辑,选择 Tier3指标过程,应该通过历史经验,在拆解二级指标中定位的原因,作为监控的对象
- 第三级指标应该有直接指引日常运营、决策的作用;一线市场,产品同学,在看到三级指标的结果后,往往应该有直接的行为产生
- 三级指标通常以子流程或个体的方式定义
如何搭建指标体系:OSM模型
- 业务目标(Objective):公司/业务/产品/功能存在的目的是什么。
- (用户视角)让用户通过搜索高效找到心仪的住宿;
- (业务视角)提高通过搜索下单的转化率。
- 目标的确定
- 目标是一级级传承的,跟你的上级领导确认
- 考虑长期目标和近期目标
- 综合考虑AARRR各个业务环节
- 返回与用户搜索词相匹配的搜索结果
- 提供有效的搜索结果排序
- 搜索无结果(或数量过少)时进行有效的推荐
- 原则
- 制定业务目标,需要满足以下4个原则:
- 切实可执行(Doable)
- 易于理解(Understandable)
- 可干预可管理(Manageable)
- 正向的有益的(Beneficial)
- 避免2个误区:
- 过于模糊(不可执行)
- 过于保守(无法激励团队成员)
- 制定业务目标,需要满足以下4个原则:
- 业务策略(Strategy):为了达成上述业务目标所采取的策略
- 策略是结果(outcome/conversion)驱动的
- 需要同时考虑宏观层面和微观层面的转化
- 度量方法(Measurement):合理的度量方法可以衡量策略有效性
- 反应业务目标和策略有效性非常重要的指标
- 目标:提高下单量
- 策略:返回与用户搜索词匹配的搜索结果
- 度量方法:
- 搜索到详情页的转化率:达到30%
- 详情页到下单转化率:达到20%
- 用分析工具追踪指标
AARRR各环节常用指标
案例:非标住宿APP搜索模块如何搭建指标体系?
衡量产品用户体验的HEART模型
用户体验是很主观的东西,难于衡量?在面对业务KPI时往往妥协让步?
- Google提出的衡量用户体验的指标框架
- Happiness
- 净推荐值(NPS)=(推荐者数/总样本数)×100%-(贬损者数/总样本数)×100%
- NPS(净推荐率)是一个流行的满意度指标
- 通常认为,30不错50很好70优异
- 2017年3月调查,特斯拉97分
- 用户调研
- APP内评价投诉
- Engagement 参与度
- 每天/每周每个用户的平均访问量
- 每天/每周平均每个用户上传照片的数量
- 每天发生的分享数
- …
- Adoption 接受度
- 升级速率;
- 堆积图显示不同版本用户占比,衡量新版本普及速度,如从发布到古比60%的花费时间
- 新版本体验好更多用户使用新版本
- 新版本体验好更少用户卸载装回旧版本
- 堆积图显示不同版本用户占比,衡量新版本普及速度,如从发布到古比60%的花费时间
- 新功能的使用比例
- 新用户购买转化率
- …
- 升级速率;
- Retention 留存率
- 衡量用户回访的比例,良好的体验能够让用户持续回访
- 拆分到不同用户分群的留存率,产品功能留存率
- Task success 任务成功/失败率
- 用户是否能通过你的产品解决问题/完成任务?是否高效?例如:
- 搜索结果成功率
- 上传照片平均时长
- 个人资料创建完成率
- 用户是否能通过你的产品解决问题/完成任务?是否高效?例如:
数据分析的五个步骤
- 前提
- 知道分析目标,不要为了数据而数据
- 做好预期规划,有预期和结果才能对比
- 一般流程
- 数据获取
- 数据清洗
- 数据分析
- 验证发现
- 可视化
数据获取
- 数据可以以文件形式进行下载
- 数据可以通过服务器访问日志查看
- 数据可以通过交互界面访问,例如phpmyadmin
- 数据可以通过应用程序接口(APl)访问
- 数据可以通过技术抓取手段采集
数据清洗
哪些数据需要清洗?
- 缺失值
- 垃圾信息
- 规范化
- 重复记录
- 特殊值
- 合并数据集
七种数据分析的常用手段
- 聚合符合某特定行为/画像的用户,聚类分析
- 选择特定的用户群进行分析,有助于有针对性的研究问题所在,增强优化效果;
- 例如,如果我们要优化注册流程,可以考虑分群主要地区移动端客户的注册效果。
- 实时了解多维度趋势,便于产品迅速迭代
- 建立趋势图表是常见的分析手段之一,可以帮助迅速了解市场,用户或产品feature的基本表现;
- 把指标根据不同维度进行切分,定位优化点,有助于决策的有效性。
- 按照已知转化路径,分析每一步的转化
- 漏斗分析是最常见的分析手段之一,可以通过由先到后的顺序
- 还原某一用户的路径,分析每一个转化节点的转化数据;
- 列如,关注注册流程的每一个步骤,可以有效定位高损耗节点。
- 探索性了解某组用户的行为轨迹
- 了解用户的行为轨迹,有助于运营团队关注具体的用户使用体验,发现具体问题
- 根据用户使用习惯设计产品,投放内容。
- 了解行为/行为组与回访之间的关联
- 留存老用户的成本要远远低于获取新用户,所以分析中的留存是非常重要的指标之一;
- 除整体用户回访率外,市场部也可以仔细关注各个渠道获取用户的留存度,或各类内容吸引来的注册用户回访率,产品团队
- 关注每一个新feature对于用户的回访的影响等。
- A/B测试
- 对比不同产品设计/算法对结果的影响
- A/B测试是常见的分析手段,一般在高密度数据情况下被使用。以某一核心KPI或多个KPI来比对不同展现形式的效果,多变量测试(Multi-variant Test)也是类似的衍生手段之一;
- 产品在上线过程中经常会使用A/B测试的手段来测试产品效果,而市场也会通过A/B测试来完成不同creative的测试;
- A/B 测试在公司数据规模(例如流量)较大时使用会更加精准,更容易得到统计显著的结果。
- 建立预测模型优化商业结果
- 当一个商业目标与多种行为,画像等信息有关联性时,我们通常会使用数据挖掘的手段进行建模,预测该商业结果的产生;
- 例如:作为一家SaaS企业,当我们需要预测判断客户的付费意愿时,可以通过用户的行为数据,公司信息,用户画像等数据建立付费温度模型。
验证发现
- 警惕三种常见谬误:
- a.虚假相关
- b.因果倒置
- c.沉默数据
- 注意没有暴露出来的数据
数据可视化(略)
A/B测试
A/B 测试是为Web或APP制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析评估出最好版本正式采用。
用进化论的视角理解A/B测试
- 物竞天择,适者生存
- 提供多个方案并行测试
- 不同方案之间只存在一个变量
- 以某种标准判定结果,筛出最优方案
A/B 测试的价值
- 建立数据驱动、持续不断优化的闭环过程;
- 消除用户体验设计中不同意见的纷争,根据实际效果确定最佳方案;
- 通过对比试验,找到问题的真正原因,提高产品设计和运营水平;
- 通过A/B测试,降低新产品或新特性的发布风险,为产品创新提供保障。
置信区间
在统计学中,一个概率样本的置信区间(Confidence interval),是对这个样本的某个总体参数的区间估计。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%,60%),那么他的真实支持率落在50%和60%之区间的机率为95%。—维基百科