多样性

（主要在于理解）

「多样性度量」（Diversity Measure）用于度量集成中个体样本的多样性，即估算个体学习器的多样化程度，典型做法是考虑个体分类器的两两相似/不相似性。

给定数据集，对二分类任务，，分类器与的预测结果联列表为

其中表示与均预测为正类的样本数目，含义由此类推，。

常见的多样性度量有

不合度量

的值域为，值越大则多样性越大

与相关系数的符号相同，且

若分类器与在数据集上完全一致，则，若它们仅是偶然达到一致，则，通常为非负值，仅在与达成一致的概率甚至低于偶然性的情况下取负值

其中，是两个分类器取得一致的概率，是两个分类器偶然达成一致的概率。

多样性增强的一般思路：在学习过程中引入随机性，常见做法主要是对数据样本、输入属性、输出表示、算法参数进行扰动

给定初始数据集，可从中产生不同的数据子集，再利用不同的数据子集训练不同的个体学习器。数据样本扰动通常是基于采样法。例如 Bagging 中使用的自助采样，在 AdaBoost 中使用序列采样

训练样本通常由一组属性描述，不同的子空间提供了观察数据的不同视角。从不同子空间训练出的个体学习器必然有所不同。著名的随机子空间算法就依赖于输入属性扰动，该算法从初始属性集中抽取出若干个属性子集，再基于每个属性子集训练一个基学习器。

基本思路是对输入表示进行操纵以增强多样性。可对训练样本的类标记稍作变动，如“翻转法”随机改变一些训练样本的标记；也可对输出表示进行转化，如“输出调制法”将分类样本转化为回归输出后构建个体学习器；还可将原任务拆解为多个可同时求解的子任务

基学习算法一般都有参数需要进行设置，例如神经网络的隐藏层神经元数，初始连接权值等，通过随机设置不同的参数，产生差别较大的个体学习器。