手记

「半监督学习」笔记(一)

假设有如下的数据集,其中训练集为 X_l+X_u,测试集为 X_{test},标记样本数目为 l,未标记样本数目为 ul \ll u

  • 标记样本 (X_l,\,Y_L) = \{({\mathbf x_i},\,y_i)\}_{i=1}^l

  • 未标记样本 X_U = \{\mathbf x_j\}_{j=l+1}^{l+u},训练时可用

  • 测试样本 X_{test} = \{\mathbf x_k\}_{k=l+u+1}^{\infty},只有在测试时才可以看到

纯半监督学习是一种归纳学习(inductive learning),可以对测试样本X_{test} 进行预测。也即纯半监督学习是基于「开放世界」的假设。

直推学习是 transductive 学习,仅仅可以对未标记样本 X_U 进行标记,模型不具备对测试样本 X_{test} 进行泛化的能力。直推学习是基于「封闭世界」的假设。

直推学习假设未标记的数据就是最终要用来测试的数据,学习的目的就是在这些数据上取得最佳泛化能力。相对应的,纯半监督学习在学习时并不知道最终的测试用例是什么。


0人推荐
随时随地看视频
慕课网APP