多变量决策树
若我们将每个属性看成是坐标空间中的一个坐标轴,则 个属性描述的样本就对应了 维空间中的一个数据点。对样本进行分类意味着在这个坐标空间中寻找不同样本之间的分类边界。决策树所形成的边界有一个明显的特点:「轴平行」(Axis-parallel),即它的分类边界由若干个与坐标轴平行的分段组成。
以下图中的西瓜数据 为例,将它作为训练集可学得如下决策树,及其对应的分类边界。显然,分类边界的每一段都是与坐标轴平行的。这样的分类边界是的学习结果有较好的可解释性,因为每一段划分都直接对应了某个属性取值。但在学习任务的真实边界比较复杂时,必须用很多段划分才能获得较好的近似。
「多变量决策树」(Multivariate Decision Tree)使用斜的划分边界,从而简化决策树模型,以实现斜划分的多变量决策树为例,在此类决策树中,非叶节点不再是仅对某个属性,而是对属性的线性组合进行测试;换言之,每个非叶节点时一个形如 的线性分类器,其中 时属性 的权重, 和 可在该节点所含的样本集和属性集上学习的到。与前面介绍的单变量决策树不同,在多变量决策树的学习过程中,不是为每个非叶节点寻找一个最优属性划分,而是试图建立一个线性的分类器。