决策树剪枝

由于数据中的噪声和孤立点,许多分枝反映的是训练数据中的异常,造成对新样本的判断不准确。

剪枝」是指将一颗子树的子结点全部删掉,根节点作为叶子节点。决策树剪枝的基本策略有预剪枝(pre-pruning) 和后剪枝(post-pruning)

为什么要剪枝处理?

  • 决策树充分考虑了所有数据点,有可能出现过拟合的情况,决策树越复杂,过拟合的程度会越高。
  • 剪枝修剪分裂前后分类误差相差不大的子树,能否降低决策树的复杂度,降低过拟合出现的概率。