「基尼值」(Gini Value)用于衡量数据集 的「纯度」。对于一个有 类的数据集 ,有
其中 ,即 类样本在数据集 中出现的频率。
基尼值反映了从 中随机抽取两个样本,其类别不一致的概率。 的值越小,则集合 的纯度越高。