第一部分 模型篇

第1章 机器学习简介

1.1 引言

我们以生活中常见的挑选西瓜为例。到了夏天,大家喜欢吃西瓜,希望买到好西瓜。怎么挑到好西瓜呢?我们会根据西瓜的一些属性特点(如根蒂、敲声、触感和纹理等)进行挑选,一般认为根蒂凹陷、敲声浑响、触感硬滑和纹理清晰的西瓜是好瓜。这些挑选西瓜的经验是人类掌握的知识,是在无数次挑选西瓜后总结出来的。

具体怎么掌握挑选西瓜的知识呢?假设开始时,我们对西瓜没有任何了解,西瓜的好坏只能随机猜测。为了提高判断的准确率,一般来说会这么做:拿到一个西瓜,切开,亲口品尝,确定西瓜的好坏,然后记录这个西瓜相关的属性特点。这时由于掌握的知识十分有限,所以必须记录大量的属性,以确保没有遗漏重要的相关属性。随着品尝西瓜数量的增加,逐渐能总结、归纳出一些挑选西瓜的知识。总结出知识的可靠性也随着西瓜数量的增加而提高,但是提高速度会越来越慢,最后有可能趋于饱和,即品尝再多的西瓜,也不能产生新的属性特点。

机器学习的目的就是让计算机像人类一样,能区分西瓜的好坏。那么如何让计算机学习这些知识,就是机器学习的核心内容。