1.1 什么是机器学习

机器学习是一门通过编程让计算机从数据中进行学习的科学(和艺术)。

下面是一个稍微通用一点的定义:

 机器学习是一个研究领域让计算机无须进行明确编程就具备学习能力。

  ——亚瑟·塞缪尔(Arthur Samuel),1959

还有一个更工程化的定义:

 一个计算机程序利用经验E来学习任务T,性能是P,如果针对任务T的性能P随着经验E不断增长,则称为机器学习。

  ——汤姆·米切尔(Tom Mitchell),1997

例如,垃圾邮件过滤器就是一个机器学习程序,它可以根据给定的垃圾邮件(由用户标记)和普通电子邮件(非垃圾邮件,也称为ham)学习标记垃圾邮件。系统用来学习的样例称为训练集。每个训练样例称为训练实例(或样本)。机器学习系统中学习和做出预测的部分称为模型。例如,神经网络和随机森林就是模型。

在这个示例中,任务T是标记新邮件是否为垃圾邮件,经验E是训练数据,需要定义性能度量P,例如,你可以使用正确分类电子邮件的比率。这种特殊的性能指标称为精度(accuracy),通常用于分类任务。

如果你只是下载所有维基百科文章的副本,那么虽然你的计算机会拥有更多的数据,但它并不会突然变得更擅长任何任务。这不是机器学习。