以Gini 值定义以属性
可以采用基尼系数进行属性划分。在候选属性集合中,每次选择使得划分后基尼指数最小的属性作为最优划分属性。
这样生成的决策树称为「CART 决策树」
(机器学习理论作业 2.6)
对于下面的数据集
顾客 ID | 性别 | 车型 | 衬衣尺码 | 类 |
---|---|---|---|---|
1 | 男 | 家用 | 小 | C0 |
2 | 男 | 运动 | 中 | C0 |
3 | 男 | 运动 | 中 | C0 |
4 | 男 | 运动 | 大 | C0 |
5 | 男 | 运动 | 加大 | C0 |
6 | 男 | 运动 | 加大 | C0 |
7 | 女 | 运动 | 小 | C0 |
8 | 女 | 运动 | 小 | C0 |
9 | 女 | 运动 | 中 | C0 |
10 | 女 | 豪华 | 大 | C0 |
11 | 男 | 家用 | 大 | C1 |
12 | 男 | 家用 | 加大 | C1 |
13 | 男 | 家用 | 中 | C1 |
14 | 男 | 豪华 | 加大 | C1 |
15 | 女 | 豪华 | 小 | C1 |
16 | 女 | 豪华 | 小 | C1 |
17 | 女 | 豪华 | 中 | C1 |
18 | 女 | 豪华 | 中 | C1 |
19 | 女 | 豪华 | 中 | C1 |
20 | 女 | 豪华 | 大 | C1 |
要求:
解:根据 Gini 指数公式
分别求出
车型的 Gini 系数最小,因此选择车型作为划分依据。
尽管根据“顾客ID”分割的数据集在统计上显示出很低的 Gini 不纯度,这种分割却没有实际的预测价值。这是因为顾客ID是唯一的,对于模型来说,使用这样的属性创建分割条件相当于对每个个体制定了一个规则,这既不具有泛化能力,也无法对新的、未见过的数据进行有效预测。此外,使用这样的属性作为测试条件会导致模型过拟合,即模型在训练数据上表现得很好,但在新的或未见过的数据上表现很差。