机器学习
训练数据 :令 表示包含 个样本的数据集,其中 表示第 个样本
第 个样本 中的 由 个属性描述, 是 个属性上的取值,此时 称为样本 的维度。可以将 ,看作是 维空间 中的一个向量 ,此时 称为「输入空间」
第 个样本 中的 称之为 的「标记」,令 为所有标记的集合,即「输出空间」。
所谓的机器学习,就是从训练数据中学习某个“模型”,即寻找从输入空间到输出空间的某种映射 ,从而利用该模型对新的测试数据进行预测或分类。
不同的学习算法可以学得不同的模型,可以使用泛化能力评价不同模型的好坏
机器学习的目的是希望得到泛化误差尽可能小的学习器。
常用的评估方法包括留出法,交叉验证法和自助法。
不同类型数据集的作用
「模型参数」(parameter):大多数学习算法的模型原型中都有一些参数需要设定;参数配置不同,最终的模型性能可能有较大差别
「调参」(Parameter tuning):在进行模型评估与选择时,还需要对算法参数进行设定。学习算法的很多参数在实数范围内取值,对每个参数都训练模型不太现实。通常采用的方法是”逐步搜索法“,即在参数的取值范围内,按照某个步长进行参数取值,并评估最好的参数设置。例如某参数取值在 内,可以按照步长 进行参数评估,共需要评估 11 个不同的参数设置。
「最终模型」:给定包含 的样本的数据集 ,在模型评估与选择过程中由于需要留出一部分进行评估测试。事实上我们只使用了一部分数据训练模型。因此,在模型选择完成后,学习算法和参数配置已选定,此时应该用数据集 重新训练数据,这个模型在训练过程中使用了所有 个样本,这才是我们最终提交给用户的模型。
模型性能度量