不论是皮肤癌监测、黄瓜自动分拣还是检测故障电梯,机器学习都让计算机有了全新的能力。
但是在机器学习内部,整个机制又是如何运作的呢?我们先举一个简单的例子,然后由此详细解读机器学习从数据当中获得解答的整个过程。
请看 Yufeng 为大家带来的讲解:
视频时长约10分钟,建议WIFI环境下观看
我们先假设这样一个需求:建立一个能够回答面前这杯液体是啤酒还是红酒的问答系统。我们要建立的这一问答系统被称为“模型”,而此模型的建立过程被称为“训练”。训练的目的是创建出一个在绝大多数情况下能正确回答问题的精准模型。为了进行这样的训练,我们必须要搜集足够的数据,而这就是整个流程的起点。
红酒还是啤酒?
我们的数据要从一杯一杯的红酒和啤酒当中搜集。而它们汲取可数据之处颇多,诸如泡沫数量和酒杯的形状等特征都是搜集的重点。
此处,我们从中选取两个方面来搜集数据:酒水颜色(光波长)和酒精含量(浓度)。预期的效果就是通过这两项因子就分辨出两种酒水。后文中,我们会称“颜色”和“酒精浓度”为数据的“特征”。
好了,现在第一步就是到商店去买各式各样的啤酒和红酒,同时还需要淘一些测量所需的装备——测光波长的分光仪和测酒精浓度的液体比重仪。
搜集数据
一旦所有食(jiu)材(shui)和装备都齐全了,就进入了“七步走”的第一步:搜集数据。这一步至关重要,因为你所搜集的数据量和质量将决定最终形成的预测模型的好坏。比如我们的流程中,所采集的数据就是每一个样本的颜色(即透射光波长)和酒精浓度。
一种一种测完之后,大致会形成类似上述表格的数据。
数据准备
几个小时之后,我们搜集到了不少数据,接下来就要进入下一步骤:数据准备。这一步中,我们将会把数据导出到一个适当的地方,以备后期训练模型时使用。
首先将所有数据放在一起,然后将其顺序打乱。由于顺序不是判断酒水的依据,我们并不期望顺序影响到模型学习到的内容。换言之,我们判断一种酒是红的还是啤的,并不需要知道前一种或是接下来有什么酒出现。
这时,可以着手绘出可视化的数据分析结果,这些分析图将有助于你发现不同变量之间的潜在相关性,并且能帮你发现是否有数据失衡。比如,假若我们的数据中大量结果都表现出啤酒的特征,那么模型大多数时候都遇到了啤酒,所以它的推测也将倾向于啤酒。但是真实世界中,模型需要判断的啤酒和红酒的量很有可能是相同的,假若它按照训练的结果得出的大部分都是啤酒,那么它有不少时候都得出了错误的结论。
我们还需要将数据分成两部分。
第一部分用于训练模型,它们将占全部数据中的绝大多数。
另一部分则是用于评估模型的判断能力的。
显然我们不希望用于训练的数据被拿来检测模型,因为这些数据很可能被模型给直接记住了,答案脱口而出。这就好像你在考试里总不会出现平时的作业原题那样。有时我们得到的数据需要一些其他形式的调整和操作,比如去重、规范化和纠错等等,这些都需要在数据准备的过程当中完成。 而我们的这个问答系统训练用的数据并不需要进一步操作,所以现在进入下一环节。
选择模型
下一步就是要选择模型了。这些年,研究者和数据科学家研究出了很多很多的通用模型。其中不少都非常适用于图像数据,另有一些则适用于连续性数据(比如文本和音频),一些适用于数值型数据,另外的则擅长处理基于文本的数据。在我们的例子当中,由于仅仅只有两项特征,所以可以使用小型的线性分析模型,一种非常小但是又足够完成分析的模型。
训练模型
接下来就是整个机器学习过程中最重要的步骤了——训练模型。经过这一过程,我们的模型将会逐步提高判断酒水是红是啤的能力。
从某种程度上讲,这与一个人初学开车是类似的。一开始,他并不知道踏板、把手和按钮各有什么作用,但经过一系列的联系,并且在教练的纠(chou)正(ma)之后,他逐渐成长为合格的新手。经过多次磨练,他会越来越娴熟,直至成为秋名山车神一样的老司机。
我们会在自己的模型上进行一个小规模的训练。一条直线的方程是 y = m * x + b,x 是输入,m 是直线的斜率,b 是纵轴的截距,y 是直线上对应 x 的值。我们需要训练的值就是 m 和 b。由于整个表达式只有输出 y 和输入 x,所以只有该两个变量需要训练。
机器学习中,有多少特征就有多少个 m,而 m 的值通常都用一个矩阵来表达,我们用“W”标记以表示“weight”(权重)。类似的,我们将 b 也用矩阵表示,简记为“b”,也就是“biases”(偏差)。
训练的过程,将会给 W 和 b 一定的初始值,然后用这些值来尝试预测。如你所料,一开始的结果往往不符合要求,但我们可以通过与“应得结果”比较,并修改 W 和 b 来得到比较准确的预测。
上述过程将会重复进行,每一次迭代或者循环都被称为训练过程的“阶”。
我们再回头看看整个过程。一开始,我们好似随机画了一条线来分开红酒和啤酒。接下来,每一次循环,这条线都进行一定的移动,逐渐逼近那条理想的、假想的红酒和啤酒分界线。
评估模型
一旦训练完毕,我们就要对得到的模型进行评估。此时,早前我们留下的那一小部分数据就派上用场了。在评估中,我们使用之前从未使用过的数据来测试模型,得到输出并与正确的判定结果对比。这种方法能够让我们知道模型在遇到未接触的数据时的表现情况,同时也展示了模型在现实世界的表现。
推荐训练和评估所用的数据比例是 4:1 或 7:3。选取何种比例取决于原始数据集的规模。如果你的数据非常多,那么用于验证的数据可能就不需要那么多了。
参数微调
评估结束,你也许想要尝试着改善训练的成果,此时可以进行参数微调。在训练过程中,我们可能隐式使用了一些假设,而现在就回过头去验证这些假设或是改变它们的值。
举个例子,其中一个可行的调整是针对训练次数的。通过调整重复次数,我们可以一定程度提高模型的精度。
另外还有“学习频率”,会影响到每一次训练结束时相对上一次训练变化的程度。这些值都决定了我们最终模型的精度和训练耗时。
对于更加复杂的模型,初始条件对结果的影响也是非常大的。究竟是使用一系列 0 值还是一系列离散值作为初始值是引起这类影响的关键,而采用离散值则需要决定怎样的离散形式。
从前文的内容可见,训练的过程中我们需要考虑非常多的内容。并且,什么时候结束、什么程度算是“到火候了”都是需要考虑的问题,不然可能会出现反复纠结的情形。
这一类的参数往往被称为“超参数”,调整和优化它们更像是一种技巧而不是一种理论。这是一个实验性的过程,并且取决于你的数据集类型、模型种类和训练手段。
训练完毕、微调结束,你得到了满意的模型,那么是时候来实操了!
预测
机器学习是一个通过数据解决问题的过程,所以预测(或是推断)就是获取答案的关键一步。这也是实现机器学习价值的关键一步。
通过给出颜色(光波长)和酒精浓度,我们的模型将能够判断出你面前的是一杯红酒还是啤酒。
触类旁通
机器学习的强大之处在于它使得我们可以判断出酒的品类,而不需经过亲自品尝和人为判断。你可以将今天案例中的中心思想举一反三到其他的预测中,它们都遵循如下准则:
搜集数据
准备数据
选择模型
训练模型
评估模型
参数微调
预测