Active learning Survey
主动学习的来世今生
核心思想:主动学习可以基于较少的已标注的数据量得到同样好的模型准确率。
在几乎所有的机器学习问题中,虽然未标注数据很丰富且易于获得,但是标注数据却很少或者需要大量的人工标注(成本问题)。所以主动学习是解决问题的核心方法之一。
这篇文章提供了一个主动学习详细的介绍和相关文献的总结。主要包括解决方案,查询策略框架,主动学习的分析,设置变量的问题,实际问题考虑,相关研究领域。
reference:
Burr Settles. Active Learning Literature Survey. Computer Sciences Technical
Report 1648, University of Wisconsin–Madison. 2009.
————————————
1.1 主动学习
主动学习,又称查询学习,最优实验设计,是机器学习的一个子领域。关键的假设前提是算法可以选择一部分数据去学习。
流程如下:
active learning vs passive learning:
2 解决方案
在文献中有三种主要的设想:成员查询合成,基于流的选择性抽样,基于池的抽样
具体差别如下:
3 查询策略框架
3.1 不确定性抽样
最简单最常用的框架。主要是计算最小自信度。为了克服最小自信度仅仅考虑正确标注的问题,边际抽样被提出来解决多酚类不确定抽样问题。再后来,一种更广义的抽样策略(最著名)被提出,适用香农熵来抽样。
这三种方法几乎相同当一类的后验概率接近于0.5。
三种方法的区别如上图所示,entropy的最高信息提取区域最大适用性最强,但是在一个特殊分类标注的数据上不如前两者(比如仅有一个标注是高度不可能的)
不确定抽样可以应用于分类问题,也可以应用于连续变量的回归问题。
到这里为止, 我发现我需要解决的问题是,怎么使得中文文本变成可分析可计算的样本呢,怎么分句,怎么选择,怎么计算字的信息熵从而实现不确定性抽样得到我所需要的高信息熵的未标注文本样本呢。