手记

分类算法(1)-LR逻辑回归

Logistics regression

Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。之前在经典之作《数学之美》中也看到了它用于广告预测,也就是根据某广告被用户点击的可能性,把最可能被用户点击的广告摆在用户能看到的地方,然后叫他“你点我啊!”用户点了,你就有钱收了。这就是为什么我们的电脑现在广告泛滥的原因了。万物的发生都可以用可能性或者几率(Odds)来表达。“几率”指的是某事物发生的可能性与不发生的可能性的比值。

分类算法是针对离散数据而言的,如果预测值是连续值,那此类学习任务就是回归。

 Logistic regression主要是二分类。通过利用一致的自变量来预测一个离散型因变量的值。 其预测的是一个处于0到1之间概率值,也就是这个样本属于正类的可能性是多少。


1. 假设方程

y=0或1表示负类或正类(二分类问题),x是m维的样本特征向量,σ是sigmoid/logistic函数,θ是回归系数(也就是x对应的权值),目标是拟合θ。

sigmoid fuction:

hypothesis function

2. 假设函数的形状(假设函数何时将y预测为0,何时为1.)

决策边界(并非数据集属性 取决于假设函数的参数)线性、非线性

decision boundary


3.  如何拟合参数(使用数据集来确定参数取值)

how to choose θ

cost function(凸函数) 

在单弓形函数上使用梯度下降法

逻辑回归的cost function

4. 简化代价函数和梯度下降

Cost(h(x),y)=-ylog(h(x))-(1-y)log(1-h(x))

用极大似然法得出

找出让J(θ)取得最小值的参数θ

何时停止?

5. 高级优化

高级算法

6. 多元分类


优点:计算代价不高,易于理解和实现 

缺点:容易欠拟合,分类精度可能不高 

适用数据类型:数值型和标称型数据



作者:大鸭头骗子
链接:https://www.jianshu.com/p/29a69af3b887


0人推荐
随时随地看视频
慕课网APP