一、模型学习

机器学习

训练数据 :令 表示包含 个样本的数据集,其中 表示第 个样本

个样本 中的 个属性描述, 个属性上的取值,此时 称为样本 的维度。可以将 ,看作是 维空间 中的一个向量 ,此时 称为「输入空间

个样本 中的 称之为 的「标记」,令 为所有标记的集合,即「输出空间」。

所谓的机器学习,就是从训练数据中学习某个“模型”,即寻找从输入空间到输出空间的某种映射 ,从而利用该模型对新的测试数据进行预测或分类。

不同的学习算法可以学得不同的模型,可以使用泛化能力评价不同模型的好坏

二、经验误差与过拟合

1. 经验误差

机器学习的目的是希望得到泛化误差尽可能小的学习器。

2. 过拟合与欠拟合

三、评估方法

常用的评估方法包括留出法交叉验证法自助法

不同类型数据集的作用

  • 训练集(Training):用于模型训练
  • 验证集(Validation):参与模型训练过程,对不同模型参数的结果进行交叉验证,选择模型的最优超参数
  • 测试集:用于独立评估模型的泛化能力,不参与模型训练。

模型参数」(parameter):大多数学习算法的模型原型中都有一些参数需要设定;参数配置不同,最终的模型性能可能有较大差别

调参」(Parameter tuning):在进行模型评估与选择时,还需要对算法参数进行设定。学习算法的很多参数在实数范围内取值,对每个参数都训练模型不太现实。通常采用的方法是”逐步搜索法“,即在参数的取值范围内,按照某个步长进行参数取值,并评估最好的参数设置。例如某参数取值在 内,可以按照步长 进行参数评估,共需要评估 11 个不同的参数设置。

最终模型」:给定包含 的样本的数据集 ,在模型评估与选择过程中由于需要留出一部分进行评估测试。事实上我们只使用了一部分数据训练模型。因此,在模型选择完成后,学习算法和参数配置已选定,此时应该用数据集 重新训练数据,这个模型在训练过程中使用了所有 个样本,这才是我们最终提交给用户的模型。

四、性能度量

五、偏差与方差

六、小结

  • 模型学习的基本概念:假设空间,归纳偏好,奥卡姆剃刀原则等
  • 经验误差与过拟合:经验误差,泛化误差,欠拟合与过拟合
  • 评估方法:训练基地划分方法,包括留出法、交叉验证法以及自助法
  • 性能度量:主要介绍了横梁学习器泛化误差的标准,包括错误率与精度、查准率与查全率与 ,ROC 和 AUC、代价敏感错误率与代价曲线
  • 偏差与方差:可将泛化误差分解为偏差、方差和噪声之和。