继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

【九月打卡】第1天 数据分析体系课学习笔记part-1

黑暗军兔
关注TA
已关注
手记 48
粉丝 9
获赞 6


课程名称:数据分析体系课

课程章节:走进数据分析

课程讲师: DeltaF

课程内容:数据导论

包括以下章节

什么是数据查看

什么是统计指标查看

统计指标之集中趋势查看

统计指标之离散趋势查看

统计指标之分布形态查看

异常值的识别查看

异常值的处理查看

数据分析的流程查看


             学而不思则罔,思而不学则殆


数据分析的应用:了解数据背后与实际业务的关系,通过数据的表征确定背后的业务情景,进行归因分析。

而且计算机本身的诞生场景就是计算验证,数据分析也是脱胎于技术及情报验证科学,比如NASA的云杉,CCCP的箭,可以广泛的应用到冶金、航天、生物制药、通讯、政府决策等数据计算,运用有限元算法等进行方案数据验证,降低研发成本提高准确率。


课程导学部分对比课程有不同理解:

  1. 实际企业的数据分析岗,对行业业务知识的理解是基本要求,也是核心的硬技能。

  2. 课程描述的硬技能,其实是工具的使用的软技能,包括但不限于:execl ,tabule,R,Python.以及其他BI类工具,配套使用的还有思维导图,PPT等表述类工具。

  3. 底层的逻辑知识按照岗位不同还应该包括 财务知识、应用知识、行为心理学、统计学、高等数学  逻辑学,美学设计 沟通技巧


数据和信息的关系:

数据:对客观事物的性质、状态以及相互关系等进行记载的物理符号或是这些物理符号的组合,也包含数值数据和非数值数据。 

信息:是数据经过加工处理后得到的另一种形式的数据,这种数据在某种程度上影响接收者的行为。具有客观性、主观性和有用性。 

数据和信息的关系:信息是数据的含义,数据是信息的载体。


实际应用中数据 分为2个部分  指标 和 维度。

指标与维度最基本的作用是描述与衡量,维度与指标往往成对出现,搭配使用

维度:可以简单理解成为<标签>,即:分类属性

指标:标识数据特征,

比如说温度: 20℃, 温度即为维度,20代表指标。

分析的主要目标:定性分析 定量分析

http://img3.sycdn.imooc.com/6315a2230001299f17271141.jpg



定性分析和定量分析的方法

定性分析中,一般的结论做个大致分类分级,例如年终奖工资水平定性分析,分类可以是“很低”“比较低”“一般”“比较多”“很多”,最终结论一定是个形容词。


定量分析呢,可能需要有量化评估的模型,例如年终奖组成是什么,包括“几个月的工资”“项目奖”“年终抽奖”“股票分红”等等。然后分别计算,最终结论一定是一个“数字”。

3、定性分析和定量分析的关系

定性分析和定量分析都是分析、解决问题的一种方式。在实际解决问题的过程中,通常两者是结合在一起应用的。先对目标问题进行拆解,进行量化分析,实现定量分析,在输出结论的时候,根据适用场景会给出定性分析的结论还是定量分析的结论。

当然,要是目标问题,实在没有办法进行量化分析,就只能定性的描述描述了。


课程里的数据处理流程:
数据处理的步骤:

http://img4.sycdn.imooc.com/6315a2f7000131e624421043.jpg

1.问题的定义:明确目的和思路(具有数据思维)

问正确的问题往往是成功的一半。——邱老师


首先你需要确定去分析的问题是什么?你想得出哪些结论?即,先明确分析目的:问题的定义可能需要你去了解业务的核心知识,并从中获得一些可以帮助你进行分析的经验。


然后梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标(各类分析指标需合理搭配使用)。同时,确保分析框架的体系化和逻辑性。


2.数据收集

一般数据来源于四种方式:


1)内部数据:如公司的数据库;

2)第三方统计数据:如专业的调研机构的统计年鉴或报告、市场调查;

3)编写网页爬虫,去收集互联网上的数据;

3.数据预处理

数据处理主要包括:


数据清洗:如异常值、重复值等的处理,缺失值的处理

数据转化:如将男女,转化为01

数据抽取:特征的选择()

数据合并:几项数据的汇总成一项特定的数据项

数据计算

这些处理方法,将各种原始数据加工成为数据分析所要求的样式。


4.数据分析

在这个部分需要了解基本的数据分析方法、数据挖掘算法,了解不同方法适用的场景和适合的问题。


1)常用的数据分析工具,掌握Excel的数据透视表,就能解决大多数的问题。需要的话,可以再有针对性的学习SPSS、R等工具。


2)数据挖掘是一种高级的数据分析方法,侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。


5.数据展现

一般情况下,数据是通过表格和图形的方式来呈现的。


常用的数据图表包括饼图、柱形图、条形图、折线图、气泡图、散点图、雷达图等。进一步加工整理变成我们需要的图形,如金字塔图、矩阵图、漏斗图、帕雷托图等。


一般能用图说明问题的就不用表格,能用表说明问题的就不用文字。


图表制作的五个步骤:

1、确定要表达主题

2、确定哪种图表最适合

3、选择数据制作图表

4、检查是否真实反映数据

5、检查是否表达观点


6.报告撰写

数据分析报告不仅是分析结果的直接呈现,还是对相关情况的一个全面的认识。我们经常看到一些行业分析报告从不同角度、深入浅析地剖析各种关系。所以你需要一个讲故事的逻辑,如何从一个宏观的问题,深入、细化到问题内部的方方面面,得出令人信服的结果,这需要从实践中不断训练。


一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。


1)结构清晰、主次分明可以使阅读者正确理解报告内容;

2)图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。

3)好的数据分析报告需要有明确的结论、建议或解决方案。

5.数据分析的四大误区

1.分析目的不明确,为了分析而分析,这是菜鸟常常容易出现的问题;


2.缺乏行业、公司业务认知,分析结果偏离实际。数据必须和业务结合才有意义。摸清楚所在产业链的整个结构,对行业的上游和下游的经营情况有大致的了解,再根据业务当前的需要,制定发展计划,归类出需要整理的数据。同时,熟悉业务才能看到数据背后隐藏的信息;


3.为了方法而方法,为了工具而工具,只要能解决问题的方法和工具就是好的方法和工具;


4.数据本身是客观的,但被解读出来的数据是主观的。同样的数据由不同的人分析很可能得出完全相反的结论,所以一定不能提前带着观点去分析。


二.常用的统计和建模方法

回归

分类

聚类

关联分析

降维:主成分分析、奇异值分解

http://img1.sycdn.imooc.com/631708f80001997626031443.jpg



打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP