机器学习常见算法(1)ICDM
1.分类---C4.5使用决策树算法,可以解决【分类】&【回归】问题;
2.聚类---K-Means算法,属于无监督方法,解决电信用户分类问题;
3.统计学习---SVM(支持向量机)可以解决分类(主)和回归问题,有很好的表现和深厚的数学理论支撑,曾经被认为是最好的分类算法。现在光芒被【深度学习】掩盖了。有一定的数学门槛,面试中经常被问。
4.关联分析---Apriori应用于“尿片和纸尿裤”案例,最早解决了频繁项集问题。由于需要频繁访问数据库,已被淘汰。取代它的是华人开的【FP-Growth】算法。应用:电商的推荐系统,但目前有更好的替代方法。
5.统计分析---EM算法是一个算法框架,用于解决一系列问题。
6.连接挖掘---PageRank。Google使用的网页排序算法,很著名。
7.集装与推进---AdaBoosts算法,应用于人脸识别,本质为改进的决策树算法,属于有监督的分类算法。
8.分类---kNN。相对简单的分类算法,有监督。
9.分类---Naive Bayes朴素贝叶斯算法,用于识别垃圾邮件。
目前不常用的算法:Apriori和CART。
机器学习解决问题的框架
1)预测问题:
1.1分类:离散型变量
1.2回归:连续性变量
2)聚类问题:
3)确定目标:
业务需求-数据-特征工程(数据预处理,70%,最重要)
算法分类1:根据数据有无标签Y进行分类
对样本数据进行一些训练,得到模型,通过模型判断X与Y的关系。
有监督学习:训练数据中已经明确给出了该数据的Y,给数据打上了标签。如:已对邮件打上了“垃圾邮件”、“正常邮件”的标签。包括:分类算法、回归算法。
无监督学习:训练数据并没有Y,数据没有任何标签。典型算法:聚类。
半监督学习:也叫强化学习,数据越多,模型越好。
算法分类2:根据解决问题进行分类
分类与回归、聚类、标注
算法分类3(重要,直指本质)
生成模型:用来说明分类问题。返回的是属于各个类的概率。
判别模型:用来说明分类问题。直接给一个函数,数据输入到函数中,直接返回类别。
2、解决业务问题不同
数据分析,报告历史上发生的事情。
机器学习:通过历史上发生的事情,来预测未来的事情。
3、技术手段不同
数据分析:分析方式是用户(数据分析师)驱动的,交互式分析。分析能力受限于数据分析师的能力,数据属性和维度很有限。
机器学习:分析方式是数据驱动的,自动进行知识发现。分析能力不受限于人,数据属性和维度数量级很大。
4、参与者不同
数据分析,分析师能力决定结果,目标用户是公司管理决策层。
机器学习,数据质量决定结果,目标用户是个体。
机器学习与数据分析的区别
处理的数据类型和特点
交易数据 vS 行为数据
少量数据 vs 海量数据
采样分析 vs 全量分析
数据分析:
数据类型:主要处理交易数据,例如电商网站用户下单、银行存取款账单等。
数据量:通常涉及的数据量较少。
数据分析方法:倾向于采用采样分析,因为数据量不大,可以对样本进行深入分析。
数据一致性:对数据一致性要求严格,尤其是在金融交易等场景中,数据的准确性至关重要。
数据库使用:因此,数据分析通常使用关系型数据库,如SQL Server、MySQL、Oracle等,这些数据库能够保证事务的ACID属性(原子性、一致性、隔离性、持久性),确保数据的准确性和一致性。
机器学习:
数据类型:主要处理行为数据,例如用户的搜索历史、浏览历史、点击历史、评论等。
数据量:涉及的数据量庞大,通常需要处理海量数据。
数据分析方法:倾向于进行全量分析,以捕捉数据中的所有模式和趋势。
数据一致性:对数据一致性的要求相对较低,更注重数据吞吐量和处理速度。
数据库使用:因此,机器学习通常使用NoSQL数据库(如MongoDB)和分布式数据分析平台(如Hadoop、Spark),这些技术能够处理大规模数据集,并且具有高吞吐量和灵活性。
2. 数据处理方法和工具
数据分析:
侧重于使用统计方法和查询语言(如SQL)来分析数据,以支持决策制定。
工具和语言包括Excel、R、Python(Pandas库)等。
机器学习:
侧重于使用算法和模型来从数据中学习模式,并进行预测或分类。
工具和框架包括TensorFlow、PyTorch、Scikit-learn等。
-----
用 Nosql 处理行为数据,跟钱相关的数据,是不会用 nosql 去处理的。
什么是机器学习?
利用计算机从历史数据中找出规律;并把这些规律用到对未来不定场景的决策
机器学习的典型应用
关联规则:啤酒+纸尿片,购物篮分析
聚类:用户细分精准营销
朴素贝叶斯:垃圾邮件检测
决策树:风险识别
ctr预估:互联网广告:百度的前多少个词条(商业广告)(按照点击率排序)
协同过滤:推荐系统(电商购物车推荐,应用市场下载应用后的推荐等等)
自然语言处理:情感分析(对文本抓关键情感词),实体识别(提取文本主要数据,人名等)
深度学习:图像识别
更多应用:语音识别,人脸识别,手势控制,智慧机器人,实时翻译
机器学习的典型应用:
购物篮分析——美国超市啤酒和纸尿裤——关联规则
用户细分精准营销—— 中国移动全球通、动感地带、神州行——聚类
垃圾邮件识别——朴素贝叶斯
信用卡欺诈——决策树
Î
机器学习的典型应用
用户细分精准营销
• 聚类 用机器对用户群体分类,判断用户具体需要什么。
购物篮分析
关联算法,纸尿裤和啤酒
业务系统发展的历史
基于专家经验
基于统计——分纬度统计
机器学习——在线学习
机器学习两种使用场景 离线学习和在线学习。
离线学习:批处理的方式,对以前的数据进行学习,从而运用到后面的指导中
在线学习:对实时产生的数据进行学习,再对实时得业务进行指导
两种场景使用的算法都是一样的。
机器学习发展的原动力
从历史数据中找出规律,把这些规律用到对未来自动作出决定。
用数据代替expert
经济驱动,数据变现
《概率论》《数据统计》是机器学习的基石
传统的统计学,受运算能力的限制,所以是用抽样的方式, 抽取一定量的样本然后进行概率统计,然后得到结论之后进行假设检验
统计学受限于计算能力,依赖于采样的方法,再反作用于原来的数据。步骤:抽样-->描述统计-->结论-->假设检验。
现在无需考虑数据量的问题,无需抽样技术,直接全样。可利用可视化技术来观察数据。要进行数据分析,需要先进行量化,用模型拟合规律,函数-->函数曲线-->拟合。高维度时很难用可视化的方法,只能用数学运算。
什么是机器学习?
利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策
数据分析是依靠人从历史数据中找到规,学习效果很大程度以来于人的经验与知识水平,
机器学习就是想要抛弃对人的依赖,靠机器来挖掘规律。
数据:机器学习只是解决问题的框架、算法,需要数据,数据量越大越准确。
规律:通过机器学习不同的算法去找规律,不同的算法结果不同。
一、 demo - 图片按照色彩聚类
一、机器学习解决问题的框架
训练模型
定义模型
定义损失函数
优化算法
模型评估
交叉验证
多个算法分别带入同一类数据,验证效果
效果评估
评估多个算法间的差异
一、机器学习解决问题的框架
聚类问题
预测问题
二、各个算法共同的思想
机器学习 —— 确定目标
业务需求
数据
特征工程(数据预处理)
一、机器学习算法
SVM:支持向量机
关联分析: FP-Growth
AdaBoot: 有监督学习,人脸识别
二、常用算法
FP-Growth
逻辑回归
搜索结果的排序等
RF、GBDT
决策树的改进
推荐算法
各个推荐系统的算法
LDA
自然语言处理算法
Word2Vetor
文本挖掘
HMM、CRF
文本挖掘
深度学习
图像识别等
一、机器学习算法分类
有监督学习
分类算法
回归算法
无监督学习
聚类
半监督学习(强化学习)
其他
标注
生成模型(属于各个类的概率)
判别模型 (分类)
一、机器学习和数据分析的区别
解决业务问题不同
数据分析:报告过去
机器学习:预测未来
技术手段不同
数据分析:用户驱动、交互式分析
机器学习:数据驱动、自动进行知识发现
参与者不同
数据分析:数据分析师
机器学习:数据 + 算法
一、机器学习和数据分析的区别
数据特点:
数据分析:交易数据,少量数据,采样分析
机器学习:行为数据,海量数据,全量分析
一、机器学习的典型应用
自然语言处理
情感分析
实体识别
深度学习
图像识别
语音识别
个性化医疗
人脸识别
自动驾驶
智慧机器人
私人虚拟助理
手势控制
视频内容自动识别
机器实时翻译
一、机器学习典型应用
CTR预估
互联网广告:百度搜索广告,排序
协同过滤
推荐系统:电商推荐
一、机器学习典型应用
朴素贝叶斯
垃圾邮件识别
决策树
信用卡欺诈:骗子或还款能力差的人识别
一、机器学习典型应用
用户细分精准营销
聚类:“全球通”用户专门服务
一、机器学习典型应用
关联规则
购物篮分析:“啤酒 + 尿片”
一、业务系统发展的历史
基于专家经验
基于统计 —— 分纬度统计
机器学习 —— 在线学习
一、机器学习发展的原动力
从历史数据中找出规律,把这些规律用到对未来自动做出决定
用数据代理专家
专家:片面性、主观性
经济驱动,数据变现
大数据的出现
一、从数据中寻找规律
基石:概率论、数理统计
统计学(计算力不足 ):
抽样 —— 描述 统计—— 假设验证
机器学习(计算力充足):
用模型拟合规律
一、机器学习
机器学习:利用计算机从历史数据中找出规律,并把这些规律用到未来不确定场景的决策中。
数据分析:人来驱动;机器学习:机器驱动。
算法:从数据中寻找规律
数学函数 / 数学公式
特征工程,占了机器学习的70%的工作