假设我们有一个线性分类器:
我们要求得合适的 W ,使 0-1 loss 的期望值最小,即下面这个期望最小:
一对 x y 的 0-1 loss 为:
在数据集上的 0-1 loss 期望值为:
由 链式法则 将概率p变换如下:
为了最小化 R(h),只需要对每个 x 最小化它的 conditional risk:
由 0-1 loss 的定义,当 h(x)不等于 c 时,loss 为 1,否则为 0,所以上面变为:
又因为
所以:
为了使 条件风险 最小,就需要 p 最大,也就是需要 h 为:
上面的问题等价于 找到 c*,使右面的部分成立:
取 log :
在二分类问题中,上面则为:
即,我们得到了 log-odds ratio !
接下来就是对 log-odds ratio 进行建模,最简单的就是想到线性模型:
则:
于是得到 sigmoid 函数:
由此可见,log-odds 是个很自然的选择,sigmoid 是对 log-odds 的线性建模。