继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

机器学习初步认识

阿萌萌1128
关注TA
已关注
手记 3
粉丝 0
获赞 4

第一章 认识机器学习

一、什么是机器学习

利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策

主体:计算机---机器学习   依赖:历史数据

主体:人---------数据分析   依赖:经验、知识水平

二、发展历史

基于专家经验-->基于统计,统计分析师,报表-->机器学习,在线学习

机器学习两个模式:

离线机器学习:每天生成一个新的模型,每天不断生成

在线机器学习:实时调整训练模型,考虑实时数据流

第二章  机器学习典型应用

关联——啤酒和尿片的故事,买啤酒的同时也会购买尿片

聚类——用户细分,精准营销

朴素贝叶斯——垃圾邮件分类

决策树——信用卡欺诈,风险识别,银行判断是否有偿还能力

Ctr预估——互联网广告,点击率预估,点击率越高的广告越放到前面

协同过滤——推荐系统,买了一件商品给你推荐你可能会购买的东西

自然语言处理——情感分析:对某段评论或文本进行识别分析出是否是积极用户还是消极用户;实体识别:对文章或某段文本中的人名、地名或时间等主干提取出来

深度学习——图像识别 识别图片是猫是狗?等等。。。。。。

第三章  数据分析和机器学习的区别

处理对象:数据分析:交易数据——与钱有关的存取款账单、用户订单、话费账单等等数据

          机器学习:行为数据——搜索历史、点击历史、浏览历史、发过哪些评论等等。。。

数据特点:数据分析:交易数据——少量数据  采样分析  只能用传统的关系型SQL

          机器学习:行为数据——海量数据  全量分析  可以用分布式的NOSQL

NOSQL:只能用来处理行为数据,强调分布式、CAP理论,在保证吞吐量的情况下将数据的一致性打一个折扣——所以与钱有关的不能用NOSQL(Not Only)

解决的业务问题不同:

数据分析:报告过去的事情

机器学习:预测未来的事情

技术手段不同:

数据分析:由用户(数据分析师)驱动,交互式分析   分析师能力决定结果

机器学习:靠数据、算法驱动,自动进行知识发现     数据质量决定结果

 

第四章 机器学习常用算法和分类

①算法分类1:有监督学习:已经打上标签、明确给出了训练数据的结果y

             无监督学习:不知道要分为几类,没有提前给出结果y

             半监督学习:强化学习

有监督学习:分类算法SVM KNN 朴素贝叶斯

            回归算法

无监督学习:聚类算法K-Means

②算法分类2:分类与回归

             聚类

             标注

③算法分类3:生成模型:告诉属于哪一类的概率

             判别模型:直接告诉你非1即2

 

C4.5/CART-决策树算法(分类算法)-有监督学习

K-Means-聚类算法-无监督学习

SVM-分类算法(也可解决回归问题)

K-Means也算EM的一种

PageRank —— Google

AdaBoost —— 解决分类问题,大部分人脸识别所用算法,决策树改进版

FP-Growth:华人发明

逻辑回归:谷歌百度搜素排名

RF、GBDT:随机森林,决策算法的改进

推荐算法:各大电商网站的标配

LDA:文本分析、自然语言算法

Word2Vector:文本挖掘

 

第五章 机器学习解决问题的框架

准备数据

特征工程(预处理):数据清洗、数据特征提取——决定高度

训练模型:定义模型、定义损失函数、优化算法(让损失函数取最小)——最难点

模型评估:交叉验证、效果评估


打开App,阅读手记
1人推荐
发表评论
随时随地看视频慕课网APP