(主要在于理解)
「多样性度量」(Diversity Measure)用于度量集成中个体样本的多样性,即估算个体学习器的多样化程度,典型做法是考虑个体分类器的两两相似/不相似性。
给定数据集
其中
常见的多样性度量有
若分类器
其中,
多样性增强的一般思路:在学习过程中引入随机性,常见做法主要是对数据样本、输入属性、输出表示、算法参数进行扰动
给定初始数据集,可从中产生不同的数据子集,再利用不同的数据子集训练不同的个体学习器。数据样本扰动通常是基于采样法。例如 Bagging 中使用的自助采样,在 AdaBoost 中使用序列采样
训练样本通常由一组属性描述,不同的子空间提供了观察数据的不同视角。从不同子空间训练出的个体学习器必然有所不同。著名的随机子空间算法就依赖于输入属性扰动,该算法从初始属性集中抽取出若干个属性子集,再基于每个属性子集训练一个基学习器。
基本思路是对输入表示进行操纵以增强多样性。可对训练样本的类标记稍作变动,如“翻转法”随机改变一些训练样本的标记;也可对输出表示进行转化,如“输出调制法”将分类样本转化为回归输出后构建个体学习器;还可将原任务拆解为多个可同时求解的子任务
基学习算法一般都有参数需要进行设置,例如神经网络的隐藏层神经元数,初始连接权值等,通过随机设置不同的参数,产生差别较大的个体学习器。