多样性

集成学习

(主要在于理解)

「多样性度量」(Diversity Measure)用于度量集成中个体样本的多样性,即估算个体学习器的多样化程度,典型做法是考虑个体分类器的两两相似/不相似性。

给定数据集 ,对二分类任务,,分类器 的预测结果联列表为

其中 表示 均预测为正类的样本数目, 含义由此类推,

常见的多样性度量有

不合度量

的值域为 ,值越大则多样性越大

相关系数

的值域为 ,若 无关,则值为 ;若 正相关,则值为正,否则为负

Q-统计量

与相关系数 的符号相同,且

-统计量

若分类器 在数据集 上完全一致,则 ,若它们仅是偶然达到一致,则 通常为非负值,仅在 达成一致的概率甚至低于偶然性的情况下取负值

其中, 是两个分类器取得一致的概率, 是两个分类器偶然达成一致的概率。

多样性增强

多样性增强的一般思路:在学习过程中引入随机性,常见做法主要是对数据样本、输入属性、输出表示、算法参数进行扰动

数据样本扰动

给定初始数据集,可从中产生不同的数据子集,再利用不同的数据子集训练不同的个体学习器。数据样本扰动通常是基于采样法。例如 Bagging 中使用的自助采样,在 AdaBoost 中使用序列采样

输入属性扰动

训练样本通常由一组属性描述,不同的子空间提供了观察数据的不同视角。从不同子空间训练出的个体学习器必然有所不同。著名的随机子空间算法就依赖于输入属性扰动,该算法从初始属性集中抽取出若干个属性子集,再基于每个属性子集训练一个基学习器。

输出表示扰动

基本思路是对输入表示进行操纵以增强多样性。可对训练样本的类标记稍作变动,如“翻转法”随机改变一些训练样本的标记;也可对输出表示进行转化,如“输出调制法”将分类样本转化为回归输出后构建个体学习器;还可将原任务拆解为多个可同时求解的子任务

算法参数扰动

基学习算法一般都有参数需要进行设置,例如神经网络的隐藏层神经元数,初始连接权值等,通过随机设置不同的参数,产生差别较大的个体学习器。