「交叉验证法」(cross validation)是一种模型评估的方法。
将数据集 划分为 个大小相似的互斥子集,即 ,。每个子集尽可能保持数据分布的一致性。
每次用 个子集的并集作为训练集,剩下一个做测试集。进行 次测试,结果取均值。
评估结果的稳定性和保真性很大程度上取决于 的取值。常见的 取值包括 等。极端情况下,每个样本都对应一个子集,此时称为特征留一法
其中下图为 10 折交叉验证的示意图
首先将训练集 划分为 10 个大小相似的子集,每次将其中的一部分作为测试集,其余数据集作为训练集;最后得到 10 次的测试结果,求取平均