基本流程

Bagging 算法是并行式集成学习方法代表,基于自助法产生数据集

Bagging 的基本流程就是采样出 个含 个训练样本的采样集,然后给予每个采样集训练出一个基学习器,再将这些基学习器进行结合。

结合预测输出的常用方法

  • 分类任务:投票法
  • 回归任务:平均法

若分类预测时出现两个类收到同样票数的情形,最简单的做法是随机选择一个,也可以进一步考察学习器投票的置信度来确定最终胜者。其伪代码如下

输入:训练集 ,基学习算法 ,训练轮数

输出:

过程:

    • // 是自助采样产生的样本分布

特点

  • Bagging 能不经修改地用于多分类、回归等任务
  • Bagging 的计算复杂度与直接使用基学习算法训练一个学习器的复杂度同阶
  • 偏差-方差分解的角度看,Bagging 主要关注降低方差,在易受样本扰动的学习器上效果明显。