留出法

「留出法」(hold-out)直接将数据集 划分为两个互斥的集合,其中一个作为训练集,另一个作为测试集,即 。常见的做法是将大约 的样本用于训练,剩余样本用于测试。

上训练模型后,用 来评估测试误差,作为泛化误差的估计

注意

  • 保持训练数据分布的一致性,如分层采样(Stratified Sampling)保持样本的类别比例
  • 一般要采用若干次随机划分、重复进行试验评估后取平均值作为留出法的评估结果

例如,通过对 进行分层采样而获得含 样本的训练集 和含 样本的测试集 ,若 包含 500 个正例和 500 个反例,则分层采样得到的 应包含 350 个正例、350 个反例,而 则包含 150 个正例和 150 个反例。

另外,可以把数据集 中的样本排序,然后把前 350 个正例放在训练集中,也可以将最后 350 个正例放在训练集,这些不同的划分将导致不同的训练/测试集