假设有如下的数据集,其中训练集为 ,测试集为 ,标记样本数目为 ,未标记样本数目为 ,
标记样本
未标记样本 ,训练时可用
测试样本 ,只有在测试时才可以看到
纯半监督学习是一种归纳学习(inductive learning),可以对测试样本 进行预测。也即纯半监督学习是基于「开放世界」的假设。
直推学习是 transductive 学习,仅仅可以对未标记样本 进行标记,模型不具备对测试样本 进行泛化的能力。直推学习是基于「封闭世界」的假设。
直推学习假设未标记的数据就是最终要用来测试的数据,学习的目的就是在这些数据上取得最佳泛化能力。相对应的,纯半监督学习在学习时并不知道最终的测试用例是什么。