决策树缺失值处理

实际决策树任务中，往往会遇到含有缺失值的数据，不能删除这些样本或属性，那么决策树应该怎么应对这样的数据集呢？

对于缺失值的处理，需要解决两个问题

首先我们做如下定义来针对含缺失值的数据集

给定训练集和属性，表示中在属性上没有缺失值的样本子集。属性可取值，令表示在属性取值为的样本子集，令表示中属于类（）的样本子集。我们为每一个样本赋予一个权重 ( 初始化为 1），并定义

表示的样本所占的比例

表示的样本中第类所占的比例

表示的样本中取值为的样本所占的比例。

对于问题（1），我们可基于上述定义将信息增益推广为

其中

对于问题（2），给定划分属性划分样本。