【机器学习笔记】:什么是机器学习
Published:
本文主要内容,来自于本人在阅读周志华《机器学习》[1]这本书过程中,总结出来的重要知识点。
基本概念
“机器学习”这个概念最早是由美国计算机科学家阿瑟·萨廖尔提出的。他在 IBM 工作期间研制了一个西洋跳棋程序,这个程序通过对大量棋局的分析、学习,来提高下棋水平。在1956年举办的达特茅斯会议[2]上,他介绍了这个程序,并正式提出了“机器学习”这个概念。
“机器学习”致力于让计算机程序,从数据中学习经验,抽象出一个模型,来完成特定的任务。比如,我们去菜市场挑西瓜,可以根据西瓜的色泽、根蒂、敲声来判断这个瓜是不是好瓜。现在,我们希望让计算机也拥有判断西瓜好坏的能力。于是,我们便把一系列包含西瓜特征(色泽、根蒂、敲声)以及西瓜好坏的样本输入到计算机中,让计算机从这些样本中学会判别西瓜好坏。
编号 | 色泽 | 根蒂 | 敲声 | 好/坏 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 好 |
2 | 乌黑 | 蜷缩 | 浊响 | 好 |
3 | 青绿 | 硬挺 | 清脆 | 坏 |
4 | 乌黑 | 稍蜷 | 沉闷 | 坏 |
上面,西瓜的特征(色泽、根蒂、敲声)以及好坏的标记,就是数据。
学习的过程就是计算机程序从数据中总结出某种潜在的规律(比如:色泽青绿,根蒂蜷缩,敲声浊响的是好瓜)。给定一个新数据,计算机程序会根据总结出的规律,来对该数据某种特性作出假设(hypothesis),而该特性的真实值被称为真相(ground truth)。
根据瓜的色泽、根蒂、敲声来判别瓜的好坏,这是一个分类(classification)问题,即判断结果无非两种:好瓜/坏瓜。而且,由于这个问题里面只涉及两种类别,所以称之为二分类(binary classification)任务,通常称其中一个类为正类,另一个类为反类。更一般的分类问题可能涉及更多的类别,比如给我们一个瓜,它可能是西瓜、冬瓜、木瓜、甜瓜等,这就是一个多分类任务。
除了分类问题,还有一种常见的机器学习任务:聚类(clustering)任务,比如给我们一堆瓜,我们把西瓜分到一组,冬瓜分到一组,木瓜分到一组…… 每组被称为一个簇(cluster)。在聚类任务中,我们不需要给每一个数据划分类别,而是让计算机程序根据数据自身的特征,把特征相似的归为一个簇。所以,数据没有标记(label)。根据训练数据是否拥有标记信息,机器学习任务可以分为两大类:监督学习(supervised learning)和无监督学习(unsupervised learning)。
机器学习算法的归纳偏好
考虑一个简单问题,在二维空间用一条曲线拟合一系列的点,如下图所示。由于训练数据是有限的,因此曲线 A 和曲线 B 都可以穿过所有的数据点。而且,可以有无数条曲线,可以穿过这些数据点。哪一个更好呢?
在此种情形下,可以用“奥卡姆剃刀(Occam’s razor)原则”来选择模型。
若有多个假设与观察一直,则选最简单的那个。
根据奥卡姆剃刀原则,曲线 A 胜出。实际上,机器学习算法在学习过程中对某种类型假设是有偏好的。还是这个曲线拟合问题,有的算法就容易得到曲线 A 这种平滑曲线,有的机器学习算法就容易得到曲线 B 这种陡峭的曲线。这种偏好,叫做归纳偏好(inductive bias)。归纳偏好是一个有效的机器学习算法所必备的,否则它如何能最终给出一个确定的学习结果呢?如果一个算法,觉得曲线 A 和曲线 B 都很好,那么最终它是无法归纳出一个有效的模型的。
根据奥卡姆剃刀原则,曲线 A 更好,这个结论是不是通用的呢?要知道,由于待拟合的数据点是有限的,我们只能根据它们来预测未知的点应该分布在一条什么样的曲线上。实际上,这些未知的点可能的确分布于曲线 A 上,如下图(a)所示。但是有没有可能,未知的点分布在曲线 B 上呢,如下图(b)所示?完全有可能。所以,我们这里讨论的算法的好坏是要具体问题具体分析的。只有当问题是确定的时候,评价一个算法的好坏才有意义。比如,这个曲线拟合问题是一个抛物线拟合,那么显然曲线 A 就是比曲线 B 要好。
人工智能发展历程 下表简单描述了二十世纪五十年代以来人工智能的发展的各个阶段。
阶段 | 解释 | 代表性工作 |
---|---|---|
1950s - 1970s (推理期) | 人们认为只要能赋予机器逻辑推理能力,机器就能具有智能。 | 逻辑理论家程序、通用问题求解程序 |
1970s - 现在 (知识期) | 人们认为要使机器具有智能,就必须设法使机器具有知识。 | 专家系统、机器学习 |
下表简单描述了二十世纪五十年代以来机器学习的发展的各个阶段。
阶段 | 解释 | 代表性工作 |
---|---|---|
五十年代 | 萌芽阶段,“机器学习”相关研究开始出现。 | 基于神经网络的“连接主义”学习(感知机) |
六十到八十年代 | 各种机器学习奠基理论产生。 | 基于逻辑表示的“符号主义”学习(结构学习系统、基于逻辑的归纳学习系统、概念学习系统)、决策理论学习、强化学习 |
九十年代 | 统计学习 | 支持向量机、核方法 |
二十一世纪以来 | 深度学习 | 神经网络 |
近年来,深度学习成为机器学习的主流方法。最主要的推动因素就是海量数据的产生以及计算能力的大幅增强。深度学习在图像、语音、文字处理和分析等方面均取得了重大的进展。
参考
[1] 周志华《机器学习》 [2] Dartmouth Workship https://en.wikipedia.org/wiki/Dartmouth_workshop