自助法

对于模型评估问题,在留出法交叉验证法中,由于保留了部分样本用于测试,因此实际评估的模型所使用的训练集 小,会引入因训练样本规模不同而导致的估计偏差。由此引入「自助法」(Bootstrapping)

  • 采用自助法生成训练集 ,每次随机从 中挑出一个样本,将其拷贝放入 ,然后再将该样本放回初识数据集中,重复执行 次后,得到包含 个样本的数据集 。注意, 中有一些样本可能在 中多次出现。
  • 采用自助法得到的数据集:数据集 中未出现在 中的所有样本作为测试集,即

显然,样本在 次采样中不出现在训练集 的概率为

即通过自助采样,初始数据集 中约有 的样本为出现在采样数据 中。

特点

  • 优点:适用于数据集较小、较难划分训练/测试集,能够从初识数据集中产生不同的训练集,对集成学习等方法有很多好处。
  • 缺点:产生的训练集改变了初始数据集的分布,引入估计误差。