1.3 基本术语与符号_Python机器学习（原书第3版）-QQ阅读男生轻小说网

1.3　基本术语与符号

本章讨论了监督学习、无监督学习和强化学习这三大类机器学习，下面将介绍本书中常用的基本术语。1.3.1节将介绍我们在引用数据集时将会用到的常用术语，以及更精确和高效地进行沟通所采用的数学符号。

因为机器学习领域广阔而且跨学科，所以肯定会遇到许多指向相同概念的不同术语。1.3.2节收集了机器学习文献中的许多常用术语，希望在你阅读更多不同的机器学习文献时能够有所帮助。

图1-8摘要描述了鸢尾属植物数据集，这是机器学习领域的典型示例。该数据集包含了山鸢尾、变色鸢尾和弗吉尼亚鸢尾三种不同鸢尾属植物的150多朵鸢尾花的测量结果。数据集每行存储一朵花的样本数据，每列存储每种花的度量数据（以厘米为单位），也称之为数据集的特征。

图　1-8

为了能简单而且高效地实现符号表示，我们将会用到线性代数的一些基础知识。下面的章节中将用矩阵和向量符号来表示数据。我们将按照约定将每个样本表示为特征矩阵X的一行，每个特征表示为一列。

鸢尾属植物数据集包含150个样本和4个特征，可以用150×4矩阵 023-02 表示：

008-01

标注约定

除非特别注明，本书的其余部分将用上标i指第i个训练样本，下标j表示训练样本的第j个维度。

用小写和粗体字符表示向量 023-04 ，用大写和粗体字符表示矩阵 023-05 。分别采用斜体字符x（n）或者 023-06 表示向量或者矩阵中的某个元素。

例如 024-01 表示第150个鸢尾花样本的第一个维度，即萼片长度。因此，该矩阵的每行代表一朵花的数据，可以写成4维行向量 024-02

每个特征维度是150个元素的列向量 024-04 ，例如：

类似地，可以把目标变量（这里是类标签）存储为150个元素的列向量：

机器学习领域非常广泛，而且因为有许多科学家来自其他的研究领域，因此学科的交叉现象比较严重。很多似曾相识的术语和概念被重新认识或者定义，名称可能会有所不同。为方便起见，下面精选了常用术语及其同义词，希望对大家阅读本书和其他人工智能书籍有所帮助。

训练样本：表中的行，代表数据集的观察、记录、个体或者样本（在多数情况下，样本指训练样本集）。
训练：模型拟合，对参数型模型而言，类似参数估计。
特征，缩写为x：指数据表或矩阵的列。与预测因子、变量、输入、属性或协变量同义。
目标，缩写为y：与结果、输出、响应变量、因变量、分类标签和真值同义。
损失函数：经常与代价函数同义。有时也被称为误差函数。在有些文献中，术语损失指的是对单个数据点进行测量的损失，而代价是对整个数据集进行测量（平均或者求和）的损失。