第一章 认识机器学习
一、什么是机器学习
利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策
主体:计算机---机器学习 依赖:历史数据
主体:人---------数据分析 依赖:经验、知识水平
二、发展历史
基于专家经验-->基于统计,统计分析师,报表-->机器学习,在线学习
机器学习两个模式:
离线机器学习:每天生成一个新的模型,每天不断生成
在线机器学习:实时调整训练模型,考虑实时数据流
第二章 机器学习典型应用
关联——啤酒和尿片的故事,买啤酒的同时也会购买尿片
聚类——用户细分,精准营销
朴素贝叶斯——垃圾邮件分类
决策树——信用卡欺诈,风险识别,银行判断是否有偿还能力
Ctr预估——互联网广告,点击率预估,点击率越高的广告越放到前面
协同过滤——推荐系统,买了一件商品给你推荐你可能会购买的东西
自然语言处理——情感分析:对某段评论或文本进行识别分析出是否是积极用户还是消极用户;实体识别:对文章或某段文本中的人名、地名或时间等主干提取出来
深度学习——图像识别 识别图片是猫是狗?等等。。。。。。
第三章 数据分析和机器学习的区别
处理对象:数据分析:交易数据——与钱有关的存取款账单、用户订单、话费账单等等数据
机器学习:行为数据——搜索历史、点击历史、浏览历史、发过哪些评论等等。。。
数据特点:数据分析:交易数据——少量数据 采样分析 只能用传统的关系型SQL
机器学习:行为数据——海量数据 全量分析 可以用分布式的NOSQL
NOSQL:只能用来处理行为数据,强调分布式、CAP理论,在保证吞吐量的情况下将数据的一致性打一个折扣——所以与钱有关的不能用NOSQL(Not Only)
解决的业务问题不同:
数据分析:报告过去的事情
机器学习:预测未来的事情
技术手段不同:
数据分析:由用户(数据分析师)驱动,交互式分析 分析师能力决定结果
机器学习:靠数据、算法驱动,自动进行知识发现 数据质量决定结果
第四章 机器学习常用算法和分类
①算法分类1:有监督学习:已经打上标签、明确给出了训练数据的结果y
无监督学习:不知道要分为几类,没有提前给出结果y
半监督学习:强化学习
有监督学习:分类算法SVM KNN 朴素贝叶斯
回归算法
无监督学习:聚类算法K-Means
②算法分类2:分类与回归
聚类
标注
③算法分类3:生成模型:告诉属于哪一类的概率
判别模型:直接告诉你非1即2
C4.5/CART-决策树算法(分类算法)-有监督学习
K-Means-聚类算法-无监督学习
SVM-分类算法(也可解决回归问题)
K-Means也算EM的一种
PageRank —— Google
AdaBoost —— 解决分类问题,大部分人脸识别所用算法,决策树改进版
FP-Growth:华人发明
逻辑回归:谷歌百度搜素排名
RF、GBDT:随机森林,决策算法的改进
推荐算法:各大电商网站的标配
LDA:文本分析、自然语言算法
Word2Vector:文本挖掘
第五章 机器学习解决问题的框架
准备数据
特征工程(预处理):数据清洗、数据特征提取——决定高度
训练模型:定义模型、定义损失函数、优化算法(让损失函数取最小)——最难点
模型评估:交叉验证、效果评估