重新开始学习一遍吧。
机器学习与数据分析?
一、 demo - 图片按照色彩聚类
特征工程,占了机器学习的70%的工作
ImageToVector: 特征工程,把图片转成一个12个数字组成的向量
机器学习简单认知
一.什么是机器学习:
1.利用计算机从历史数据中找到规律,并把这些规律用到对未来不确定场景的决策。
2.不确定事件:例如本年度第三季度业绩情况(判断+决策),(靠规律),而不是例如太阳从东边升起的确定性事件
3.机器学习和数据分析不同:
主体的不同:计算机--机器学习、人--数据分析。
数据分析是依靠人从历史数据中找到规,学习效果很大程度以来于人的经验与知识水平,机器学习就是想要抛弃对人的依赖,靠机器来挖掘规律。
4.
数据:机器学习只是解决问题的框架、算法,需要数据,数据量越大越准确。
规律:通过机器学习不同的算法去找规律,不同的算法结果不同。规律=数学函数=数学公式
二.从数据中寻找规律
《概率论》《数据统计》是机器学习的基石
传统的统计学,抽取一定量的样本然后 进行概率统计,然后得到结论 之后进行假设检验
传统的统计学受运算能力的限制,所以是用抽样的方式;
而现在计算能力足够强,就不需要采用抽样的方式了。
做数据分析要对数据进行量化,才方便计算、比较。
传统统计:抽样-描述统计-结论-假设检验-推断
机器学习不受计算量的限制,直接跳过抽样
统计学受限于计算能力,依赖于采样的方法,再反作用于原来的数据。步骤:抽样-->描述统计-->结论-->假设检验。
现在无需考虑数据量的问题,无需抽样技术,直接全样。可利用可视化技术来观察数据。要进行数据分析,需要先进行量化,用模型拟合规律,函数-->函数曲线-->拟合。高维度时很难用可视化的方法,只能用数学运算。
三.机器学习发展的原动力
1. 从历史数据中找出规律,把这些规律用到对未来自动作出决定。
2. 用数据代替expert——业务逻辑
3. 经济驱动,数据
四.业务系统发展历史
1、基于专家经验 (运维和产品头脑风暴,程序员写逻辑)
2、基于统计---分维度统计。数据分析,受限于数据分析人员的经验(数据报表,:联机事务处理OLAPP(on-line transaction processing))
3、机器学习模式
模式①:离线机器学习,每天定时更新,跑算法,生成一个新的模型,循环,生成新的模型。对昨天数据的研究,用算法分析形成一个模型,指导明天的活动。缺点:存在偶然性,没法给出正确的模型,如双11的集中购物。
模式②:在线机器学习,实时的数据进行分析,不断的形成模型对用户进行指导
五.机器学习的经典应用
(一)购物篮分析
关联算法,纸尿裤和啤酒
(二)用户细分精准营销
聚类:把用户消费数据拿过来喂给算法,计算机运算,人为设置想要分为几类。 分完类后,业务人员总结每类人员共同的消费特征。
(三)
朴素贝叶斯的算法:垃圾邮件识别
决策树: 信用卡欺诈:
ctr预估:点击预估,核心为线性逻辑回归 如:互联网广告 百度搜索的广告推广
推荐系统:协同过滤算法,例如淘宝 买此产品的人同时购买了。
自然语言处理:情感分析(对文本抓关键情感词),实体识别(提取文本主要数据,人名等)
深度学习:图像识别
更多应用:语音识别,人脸识别,手势控制,智慧机器人,实时翻译
六.机器学习和数据分析区别
1:处理的数据不同
数据分析:交易数据、少量数据、采样分析。对数据一致性要求严格,使用关系型数据库sql serve、mysql、oracle。
机器学习:行为数据、海量数据、全量分析。需要保证数据吞吐量,数据一致性可以打折扣,所以用NoSQL数据库(MongoDB、nosql)和分布式数据分析平台(Hadoop、Spark)
交易数据 :电商网站用户下单、银行存取款账单
行为数据:用户的搜索历史、浏览历史、点击历史、评论
2.解决业务问题不同
数据分析,报告历史上发生的事情。
机器学习:通过历史上发生的事情,来预测未来的事情。
3.技术手段不同
数据分析:分析方式是用户(数据分析师)驱动的,交互式分析。分析能力受限于数据分析师的能力,数据属性和维度很有限。
机器学习:分析方式是数据驱动的,自动进行知识发现。数据属性和维度数量级很大。
4.参与者不同
数据分析,分析师能力决定结果,目标用户是公司高层。
机器学习,数据质量决定结果,目标用户是个体。
七.机器学习算法分类
算法分类1:根据数据有无标签Y进行分类
对样本数据进行一些训练,得到模型,通过模型判断X与Y的关系。
有监督学习:训练数据中已经明确给出了该数据的Y,给数据打上了标签。如:已对邮件打上了“垃圾邮件”、“正常邮件”的标签。包括:分类算法、回归算法。
无监督学习:训练数据并没有Y,数据没有任何标签。典型算法:聚类。
半监督学习:也叫强化学习,数据越多,模型越好。
算法分类2:根据解决问题进行分类
分类与回归、聚类、标注
算法分类3(重要,直指本质)
生成模型:用来说明分类问题。返回的是属于各个类的概率。
判别模型:用来说明分类问题。直接给一个函数,数据输入到函数中,直接返回类别。
八.机器学习常见算法
1.分类---C4.5使用决策树算法,可以解决【分类】&【回归】问题;
2.聚类---K-Means算法,属于无监督方法,解决电信用户分类问题;
3.统计学习---SVM(支持向量机)可以解决分类(主)和回归问题,有很好的表现和深厚的数学理论支撑,曾经被认为是最好的分类算法。现在光芒被【深度学习】掩盖了。有一定的数学门槛,面试中经常被问。
4.关联分析---Apriori应用于“尿片和纸尿裤”案例,最早解决了频繁项集问题。由于需要频繁访问数据库,已被淘汰。取代它的是华人开的【FP-Growth】算法。应用:电商的推荐系统,但目前有更好的替代方法。
5.统计分析---EM算法是一个算法框架,用于解决一系列问题。
6.连接挖掘---PageRank。Google使用的网页排序算法,很著名。
7.集装与推进---AdaBoosts算法,应用于人脸识别,本质为改进的决策树算法,属于有监督的分类算法。
8.分类---kNN。相对简单的分类算法,有监督。
9.分类---Naive Bayes朴素贝叶斯算法,用于识别垃圾邮件。
目前不常用的算法:Apriori和CART。
高阶算法:
FP-Growth---关联分析Apriori的改进版,华人发明的。
逻辑回归---推荐 搜索结果的排序。
RF随机森林---梯度提升决策树GBDT,与AdaBoost都属于对决策树的改进。
LDA---文本分析,自然语言处理。
Wod2Vector---文本挖掘,最终是一个结果。
HMM---隐马尔可夫模型,CRF条件随机场,自然语言处理,文本挖掘。
九.机器学习解决问题的框架
解决问题的框架:
1. 确定目标
业务需求:知道要做什么。
数据:学习的基础(数据可以直接就喂给算法,数据对模型的影响非常大,数据决定了最终的预测结果)
特征工程:数据预处理,提取特征 70%-数据的提取非常重要
2. 训练模型(重点)
定义模型:确定算法。
定义损失函数:找出算法的偏差。
优化算法:对算法进行优化,让损失函数取最小
3. 模型评估
交叉验证:将不同的算法带入同一类数据中,验证效果。
效果评估:可以看出几个算法之间具体的差别、效果
第7章 图片识别demo演示
7-1机器学习—图片识别demo演示
图片按照色彩聚类
图片转换为若干数字组成的向量
特征工程:将文字文本图片转化为向量形式
特征工程转化之后,做聚类
1. 机器学习的典型应用
关联规则(啤酒+尿片)
聚类(全球通,动感地带,神州行)
朴素贝叶斯(垃圾邮件)
决策树(信用卡欺诈)
CTR 预估(互联网广告)
协同过滤(推荐系统)
自然语言处理(情感分析,实体识别)
图像识别(深度学习)
更多应用……
2. 数据分析和机器学习的区别
(1) 从数据角度
交易数据 vs 行为数据
交易数据:银行存取款账单;电商用户订单;电信运营商花费账单
行为数据:搜索历史,点击历史,浏览历史,评论……
少量数据 vs 海量数据
采样分析 vs 全量分析
(2) 从解决业务问题角度
报告过去的事情 vs 预测未来的事情
(3) 从技术手段角度
用户驱动,交互式分析 vs 数据驱动,自动进行知识发现
(4) 从参与者角度
分析师 vs 数据+算法
3. 机器学习算法分类
分类一
监督学习:分类算法(Y类:垃圾邮件,Y值已知;X类:正常邮件),回归算法
无监督学习:聚类(Y值未知)
半监督学习:小孩子学走路(Y值逐渐强化)
分类二:
分类与回归
聚类
标注:我在 努力地(副词)学习(动词)《机器学习》(名词)
分类三(重要):
生成模型
判别模型
大概分析步骤,在进行分步实现即可。
先确定需要进行色彩分类 。
将图像转成向量。(重点,如何将每一张图像解析HSV如何处理转为向量的过程)
聚类算法进行分类。
机器学习
《概率论》、《数据统计》
统计学受限于运算能力的限制,
统计学依赖于采样的数据,需要验证结论
观察数据:上下波动、总体上升
且模型刻画规律, 函数-》公式
-----------------------------------------
机器学习发展的原动力:
经济驱动,数据变现
-----
业务系统发展的历史:
基于专家经验
基于统计--分纬度统计
机器学习--在线学习(电商、搜索 实时学习、分析、推荐)
离线机器学习(不实时)
------
机器学习的典型应用:
购物篮分析:
算法是:关联规则(典型的数据挖掘的算法)
用户细分精准营销:
聚类
垃圾邮件识别:
朴素贝尔斯
信用卡欺诈:
决策树
互联网广告:
ctr预估(点击率的预估)
推荐系统:
协同过滤。
-------
典型应用自然语言处理和图像识别
自然语言处理:
情感分析、
实体识别
图像识别:
深度学习
语音识别
个性化医疗、自动驾驶、智慧机器人、
机器学习无处不在
------------
机器学习和数据分析的区别
传统:交易数据、少量数据、采样分析
现:行为数据、海量数据、全量分析(no sql 只能处理行为数据)
区别2:
传统:报告解决历史事情、
现:预测未来
技术手段不同:
传统:用户驱动、交互式分析
现:数据驱动、自动进行知识发现
参与者不同:
数据分析:分析师
机器学习:数据+算法
目标用户:
数据分析:公司高层
机器学习:个体
------------------
机器学习算法分类:
算法分类:
有监督学习:分类算法、回归算法
无监督学习:聚类
半监督学习(强化学习算法):
算法分类2:
分类与回归
聚类
标注
算法分类3:
生成模型
判别模型
机器学习常见算法一览
(大部分的人脸识别是通过 adaboost 算出来的,是决策树的改进版。apriori基本被淘汰,FP-Growth是它的升级版,是一个美籍华人发明出来的、)
百度搜索的排序就是用的 “逻辑回归”的算法
推荐算法:各大电商网站的标配
LDA是用途文本分析的。
------
机器学习解决问题:
总的框架:(公用的思想)
确定目标
业务需求、
数据、
特征工程(投入70%)
训练模型:
定义模型、
定义损失函数、
优化算法
模型评估:
交叉验证、
效果评估
1.利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策中。
2.概率论和数据分析
3.原动力 自动决定 数据代替专家 经济驱动
4..业务系统发展历史 基于专家经验 基于统计-分纬度统计 机械学习-在线学习
5.离线学习 在线学习
6.购物篮分析 关联规则 啤酒加尿布
7.用户细分精准营销 聚类
8.垃圾邮件 朴素贝叶斯算法
9.信用卡欺诈 决策树
10.互联网广告 ctr预估
11.推荐系统 协同过滤
12.自然语言处理 情感分析 实体识别
13.图像识别 深度学习
14.语音识别 个性化医疗 情感分析 人脸识别 自动驾驶 智慧机械人 私人虚拟助理 手势控制 视频内容自动识别 机械实时翻译
15.数据分析和机械学习的区别 交易数据VS行为数据 少量数据VS海量数据 采样分析VS全量分析 历史VS未来 用户驱动VS数据驱动目标用户公司高层VS普通个体
16.算法分类1 有监督学习 分类算法 回归算法 无监督学习 聚类 半监督学习 越学越好
17.算法分类2 分类与回归 聚类 标注
18.算法分类3 生成模型 判别模型
19.常见算法 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN NaiveBayes CART FP-Growth LDA 逻辑回归 RF GBDT Word2Vector HMM CRF 推荐算法 深度学习
20.机械学习解决问题的框架 特征工程 损失函数
21.案例 图片按照色彩聚类
1.机器学习就是利用计算机从历史数据中找规律,把这些规律用到对未来不确定场景的决策。【关键词 不确定因素 判断 决策 依靠的是计算机的历史数据的规律挖掘】 2.机器学习依靠计算机 数据分析依靠人的经验 知识水平 3.机器学习发展的原动力是 从历史数据找规律用到对未来自动做决定 用数据代替expert【业务逻辑】 经济驱动,数据变现 4.业务系统发展的历史:基于专家经验->基于统计(离线学习)->机器学习(在线学习) 5.典型应用:关联规则 算法 【啤酒和纸尿裤】 6.用户细分精准营销:聚类 算法 【神州大众卡,全球通,神州行,动感地带。。。】 7.垃圾邮件:朴素贝叶斯 算法 8.信用卡欺诈:决策树 9.互联网广告:ctr预估【预测点击率进行排序】 10.推荐系统:协同过滤 11.自然语言处理 情感分析,实体识别 12.图像识别:深度学习 13.更多应用:语音识别,个性化医疗,智慧机器人,私人虚拟助理,手势控制,人脸识别,自动驾驶,视频内容自动识别,机器实时翻译
机器学习和数据分析的区别 数据特点 交易数据【跟钱有关系】【一致性强】 VS 行为数据【用户的历史行为】【no SQL数据库 像mongoDB】 少量数据 VS 海量数据 采样分析 VS 全量分析 15.数据分析(OLAP)(报告过去的事情) 机器学习(预测未来的事情) 16.机器学习算法分类 有监督学习【已经打上标签】 无监督学习【聚类 自己推测标签】 半监督学习 根据内容: 分类与回归 聚类 标注 很重要: 生成模型【告诉你样本属于哪个类的概率】 判别模型 【告诉你结果】 17.分类 C4.5 聚类 K-Means 统计学习 SVM 关联分析 Apriori 【基本淘汰 代价太大】 统计学习 EM 链接挖掘 PageRank 【谷歌】 集装与推进 AdaBoost [人脸识别] 分类 kNN Naive Bayes CART 高级算法: FP-Growth 逻辑回归 RF GBDT 推荐算法 LDA Word2Vector HMM CRF 深度学习 18.机器学习解决问题 确定目标: 业务需求 收集数据 特征工程【70%】 训练模型: 定义模型-产生公式(根据具体要解决的问题) 定义损失函数(预测的结果与真实的结果之间的偏差最小的函数) 优化算法(使损失函数取极小值) 模型评估: 交叉验证 效果评估 19.图片中的每一个像素点是以一个rgb来存的red,green,blue来表示每个成分有多大来存 的,每个图是一个二进制的文件 20.K-Means聚类的算法,特征工程就是将图片以向量或是其他的形式来表示的
机器学习课程小结
PyCharm