一、为什么对数据进行预处理

现实世界的数据是”脏的“,数据多了,什么问题都会出现

1. 脏数据

1. 数据不完整

缺少数据值;缺少某些重要属性;仅包含汇总数据

成因:

  • 数据熟悉的时候就缺乏合适的值
  • 数据收集时和数据分析时的不同考虑因素
  • 人为/硬件/软件的为他

2. 数据噪声

包含错误或孤立点

  • 数据收集工具的问题
  • 数据输入时的人为/计算机造成的错误
  • 数据传输过程中产生的错误

3. 数据不一致

在编码或命名上存在差异

成因:

  • 不同的数据源
  • 违反了某种一致性规则

没有高质量的数据,就没有高质量的挖掘结果。高质量的决策必须依赖高质量的数据。重复值或者空缺值将会产生不正确的挖掘结果。数据预处理是数据挖掘过程中占工作量最大的一个步骤。(60% 的工作量)

数据质量的多维度量

一个广为认可的多维度量观点

  • 精确度
  • 完整度
  • 一致性
  • 可信度
  • 附加价值
  • 可解释性

数据预处理的主要任务

  • 数据清理:填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性。
  • 数据集成:集成多个数据库或文件
  • 数据变换:规范化:将数据规范化到统一的范围内
  • 数据归约:得到数据集的压缩表示,它比原始数据集小得多,但是可以得到相同或相近的挖掘结果

二、数据对象及其统计描述

数据的统计描述

数据的中心趋势

分布式度量」(Distributive Measure):将函数用于 个聚集值得到的结果和将函数用于所有数据得到的结果一样。如 sum(), count(), min(), max()

代数度量」(Algebraic Measure):通过应用一个代数函数于一个或多个分布度量计算的度量,如average(), mean()

加权平均

截断平均:去掉高低极端值后的均值。减小极端值的影响。

「整体度量」(

中位数估计

其中, 是中位数区间的下界, 是整个数据集中值的个数, 是低于中位数区间的所有区间的频率和, 是中位数区间的频率,而 是中位数区间的宽度。

数据的离散趋势

2.2.5 方差和标准差

个观测值 的「方差」是

方差的平方根称为「标准差」,记为

  • 是关于平均值的离散的度量,因此仅当选平均值做中心度量时使用。
  • 所有观测值相同则

2.2.6 分位数图

分位数图」是一种观察单变量数据分布的方法。对于增序数据 为与 配对的百分数,分位数图描述的是大约 的数据小于

分位数-分位数图」对着另一个单变量的分位数,绘制一个单变量分布的分位数,允许用户观察是不是又从一个分布到另一个分布的迁移。

2.2.7 散布图

散布图」是一种观察双变量数据分布的防范,两个数据之间的联系、模式或趋势。散布图中的每个值都被视为代数坐标对,作为一个点画在平面上。从散度图中可以看出数据之间的相关性

2.2.8 直方图

三、数据相似性与相异性的度量

四、数据清洗

数据清理的任务

  • 填写空缺的值
  • 识别离群点和平滑噪声数据
  • 纠正不一致的数据
  • 解决数据集造成的冗余

1. 空缺值处理

数据并不总是完整的。例如数据库表中,很多条记录对应字段没有相应值,比如销售表的顾客收入

引起空缺值的原因

  • 设备异常

  • 与其他已有数据不一致

  • 因为误解而没有被输入的数据

  • 在输入时,有些数据因为得不到重视而没有被输入

  • 对数据的改变没有进行日志记载
    空缺值需要经过推断补上。可行的方法有:

  • 人工填写空缺值,工作量大

  • 使用属性的中心度量(均值或中位数)填充空缺值(若数据分布是倾斜的,则使用中位数)

  • 使用与给定元组属于同一类的所有样本的平均值或中位数

  • 使用最可能的值来填充空缺值,如 Bayesian 公式,判定树等

2. 噪声数据

引起噪声的原因

  • 数据收集工具的问题

  • 数据输入错误

  • 数据传输错误

  • 技术限制

  • 命名规则等不一致
    如何处理噪声数据

  • 计算机和人工检查结合

    • 计算机检测可以数据,然后对它们进行人工判断
    • 效率较低
  • 分箱

  • 回归:让数据适应回归函数来平滑数据

  • 聚类:监测并去除孤立点

2.1 分箱

首先排序数据,并将他们分到箱子中。然后可以按照箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等

  • 统一权重(等深分箱法):按记录行数进行分箱,每箱具有相同的记录数
  • 统一区间(等宽分箱法):按区间范围平均分布各箱)
  • 最小熵:使在各区间分组内的记录具有最小的熵,数据集的熵越低说明数据之间的差异越小。
  • 自定义区间:用户根据实际需要自定义区间。

2.2 回归

用一个函数拟合来平滑数据

五、数据集成与变换

合并多个数据源中的数据,并存放在一个一致的数据存储终端过程称为「数据集成」。存在的问题有

  • 实体识别:一个数据库中的域与另一个数据库中的域是相同的
  • 属性冗余:一个属性可由另一组属性表达。
  • 数据重复
  • 数据冲突值的检测与处理:表示、尺度、编码可能不同

集成多个数据库时,经常会出现冗余数据。属性冗余可以被相关分析检测到

其中 为样本 的属性 A 的值, 为样本 的属性 的值。 分别为属性 A 和属性 B 的均值。,则属性 呈正相关,值越大,相关性越强。

离散数据的相关性检测,可以通过 测试来实现

假设属性 个不同的值 ,属性 个不同的取值 分别为观测品读和期望频度。

的值越大,意味着两个变量相关的可能性越大。期望值和观测值之间相差越大,值也将越大。注意,相关性并不意味着因果关系。

2.2 数据变换

将数据转换成适合挖掘的统一形式的过程称为「数据变换」。

「规范化」:将数据按比例进行缩放,使之落入一个小的特定区间

  • 最小-最大规范化
  • z-score 规范化

最小最大规范化

z-score 规范化

当最大、最小值未知时适用

六、数据归约

为什么需要进行数据规约?

  • 数据集中往往存有海量数据
  • 在整个数据集上进行复杂的数据分析与挖掘需要很长时间

数据规约可以用于

常用的数据规约策略有:

  • 维规约,如移除不重要的属性
  • 数据压缩
  • 数值规约,如使用模型来表示数据

注意,用于数据规约不应当超过或“抵消”在规约后的数据上执行挖掘节省的时间。

1. 维规约

通过删除贡献低的属性或维,用以减少数据量。

  • 常用方法:主成分分析来实现降维

「主成分分析」(Principal Components Analysis,PCA)将 维特征映射到 维上,这 维时全新的蒸饺特征也被称为主成分,是在原有 维特征的基础上重新构造出来的 维特征。其中 从而实现降维

主成分分析从原始的空间中顺序地照一组相互正交的坐标轴:第一个新坐标轴选择时原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。以此类推,可得到 个这样的坐标轴

  • 相互正交,意味着所求的两个投影坐标轴协方差为 0
  • 相互正交+方差最大,意味着协方差矩阵对角化,除了对角线外的其他元素化为零
  • 方差最大的特征为度对应协方差矩阵的较大对角线元素

大部分方差都包含在前面 个坐标轴中,后面的坐标轴所含的方差几乎为零

只保留前面 个含有绝大部分方差的坐标轴(相当于保留了包含绝大部分方差的维度特征,而忽略包含方差几乎为零的特征为度,实现对数据的降维处理。

  • 在短轴方向上,数据变化很少;长轴的方向能够解释这些点的变化
    • 为主成分方向
    • 在二维空间中取和 方向正交的方向
    • 不相关
    • 个数据在 轴上的离散程度最大,因此方差最大,数据在 上的投影代表了原始数据的绝大部分信息,即使不考虑 ,信息损失也不多
    • 仅考虑 时,二维降为一维

2. 数据压缩

数值规约

通过选择替代的活较小的数据表示形式来减少数据量

  • 有参方法
    • 使用一个参数模型估计数据,最后只存储参数即可,不用存储数据
    • 常用方法:线性回归方法;多元回归
  • 无参方法
    • 不使用模型的方法来存储数据
    • 常用方法啊:直方图,聚类,选择

直方图

「直方图」是一种流行的数据归约技术。将某属性的数据划分为不相交的子集,或桶,桶中放置该值出现的频率

聚类

将数据集划分为聚类,然后通过聚类本身来表示数据集。

如果数据可以组成各种不同的聚类,则该技术非常有效;反之,如果数据界线模糊,则聚类方法无效。

聚类的定义和算法都有很多选择,将在第五章对聚类分析进行深入探讨。

采样

用较少的随机样本来表示原始数据集

对数据集 的样本选择

  • 个样本无放回简单随机抽样:从 个元组中抽取 个样本
  • 个样本有放回简单随机抽样,过程同上,只是元组被抽取后,将被回放,可能再次被抽去
  • 聚类选择: 中元组被分入 个互不相交的聚类中,可在其中的 个聚类上进行简单随机抽样