1.3 基本术语与符号

本章讨论了监督学习、无监督学习和强化学习这三大类机器学习,下面将介绍本书中常用的基本术语。1.3.1节将介绍我们在引用数据集时将会用到的常用术语,以及更精确和高效地进行沟通所采用的数学符号。

因为机器学习领域广阔而且跨学科,所以肯定会遇到许多指向相同概念的不同术语。1.3.2节收集了机器学习文献中的许多常用术语,希望在你阅读更多不同的机器学习文献时能够有所帮助。

1.3.1 本书中使用的符号和约定

图1-8摘要描述了鸢尾属植物数据集,这是机器学习领域的典型示例。该数据集包含了山鸢尾、变色鸢尾和弗吉尼亚鸢尾三种不同鸢尾属植物的150多朵鸢尾花的测量结果。数据集每行存储一朵花的样本数据,每列存储每种花的度量数据(以厘米为单位),也称之为数据集的特征。

023-01

图 1-8

为了能简单而且高效地实现符号表示,我们将会用到线性代数的一些基础知识。下面的章节中将用矩阵和向量符号来表示数据。我们将按照约定将每个样本表示为特征矩阵X的一行,每个特征表示为一列。

鸢尾属植物数据集包含150个样本和4个特征,可以用150×4矩阵023-02表示:

023-03

008-01

标注约定

除非特别注明,本书的其余部分将用上标i指第i个训练样本,下标j表示训练样本的第j个维度。

用小写和粗体字符表示向量023-04,用大写和粗体字符表示矩阵023-05。分别采用斜体字符x(n)或者023-06表示向量或者矩阵中的某个元素。

例如024-01表示第150个鸢尾花样本的第一个维度,即萼片长度。因此,该矩阵的每行代表一朵花的数据,可以写成4维行向量024-02

024-03

每个特征维度是150个元素的列向量024-04,例如:

024-05

类似地,可以把目标变量(这里是类标签)存储为150个元素的列向量:

024-06

1.3.2 机器学习的术语

机器学习领域非常广泛,而且因为有许多科学家来自其他的研究领域,因此学科的交叉现象比较严重。很多似曾相识的术语和概念被重新认识或者定义,名称可能会有所不同。为方便起见,下面精选了常用术语及其同义词,希望对大家阅读本书和其他人工智能书籍有所帮助。

  • 训练样本:表中的行,代表数据集的观察、记录、个体或者样本(在多数情况下,样本指训练样本集)。
  • 训练:模型拟合,对参数型模型而言,类似参数估计。
  • 特征,缩写为x:指数据表或矩阵的列。与预测因子、变量、输入、属性或协变量同义。
  • 目标,缩写为y:与结果、输出、响应变量、因变量、分类标签和真值同义。
  • 损失函数:经常与代价函数同义。有时也被称为误差函数。在有些文献中,术语损失指的是对单个数据点进行测量的损失,而代价是对整个数据集进行测量(平均或者求和)的损失。