目前我们已经讨论了机器学习的三大方法:监督学习、无监督学习和强化学习。在此,我们介绍一下下一章将要用到的一些基本术语。下面表格摘录了鸢尾花数据集(Iris dataset)中的部分数据,鸢尾花数据集是机器学习领域的一个经典示例,它包含了Setosa、Versicolor和Virginica三个品种总共150种鸢尾花的测量数据。其中,每一个样本代表数据集中的一行,而花的测量值以厘米为度量单位存储为列,我们将其定义为数据集的特征。
为了保证描述过程中所用符号及推理过程简单、高效,我们将采用线性代数(Linear algebra)中的一些基本知识。在后续章节中,我们将主要使用矩阵和向量来标识数据。并做如下约定:矩阵X中的每一行代表一个样本,而样本中的每个特征都表示为单独的列。
在鸢尾花数据集中,包含150个样本和4个特征,因此将其记作150×4维的矩阵X∈R150×4:
在本书中,我们将使用上标(i)来指代第i个训练样本,使用下标(j)来指代训练数据集中的第j维特征。
类似地,可以用一个150维的列向量来存储目标变量(在本例中为类标):