评估一个机器学习模型的好坏关键在于泛化误差的大小,因此需要选取一个「测试集」,以测试集上的测试误差作为泛化误差的估计。通常,我们假设测试样本也是从样本的真实分布中独立同分布采样得到的。
注意,测试集应当尽量与训练集互斥,即测试样本尽量不在训练集中出现,未在训练过程中使用过。