算法

「Stacking 算法」是学习法的典型代表。这里我们把个体学习器称为「初级学习器」,用于结合的学习器称为「次级学习器」或「元学习器」(meta-learner)

Staking 先从初始数据集训练出初级学习器,然后生成一个新数据集,用于训练次级学习器。在这个新数据集中,初级学习器的输出被当作样例输入特征,而初始样本的标记仍被当作样例标记。

输入:训练集 ,初级学习算法 ,次级学习算法

输出:
过程:

在训练阶段,次级训练集是利用初级学习器产生的,若直接用初级学习器的训练集来产生次级训练集,则过拟合风险会比较大。利用交叉验证或留一法,训练初级学习器为使用的样本用于产生刺激学习器的训练样本

折交叉验证为例

  • 初始训练集 被随机划分成 个大小相似的集合 ,令 表示第 折的测试集和训练集
  • 给定 个初级学习算法,初级学习器 ,则由 所产生的次级训练样本的示例部分为 ,标记部分为
  • 在整个交叉验证过程结束后,从这 个初级学习器产生的次级训练集是 ,然后 将用于训练次级学习器