现实世界的数据是”脏的“,数据多了,什么问题都会出现
缺少数据值;缺少某些重要属性;仅包含汇总数据
成因:
包含错误或孤立点
在编码或命名上存在差异
成因:
没有高质量的数据,就没有高质量的挖掘结果。高质量的决策必须依赖高质量的数据。重复值或者空缺值将会产生不正确的挖掘结果。数据预处理是数据挖掘过程中占工作量最大的一个步骤。(60% 的工作量)
数据质量的多维度量
一个广为认可的多维度量观点
「分布式度量」(Distributive Measure):将函数用于 sum(), count(), min(), max()
「代数度量」(Algebraic Measure):通过应用一个代数函数于一个或多个分布度量计算的度量,如average(), mean()
加权平均
截断平均:去掉高低极端值后的均值。减小极端值的影响。
「整体度量」(
中位数估计
其中,
「分位数图」是一种观察单变量数据分布的方法。对于增序数据
「分位数-分位数图」对着另一个单变量的分位数,绘制一个单变量分布的分位数,允许用户观察是不是又从一个分布到另一个分布的迁移。
「散布图」是一种观察双变量数据分布的防范,两个数据之间的联系、模式或趋势。散布图中的每个值都被视为代数坐标对,作为一个点画在平面上。从散度图中可以看出数据之间的相关性
数据清理的任务
数据并不总是完整的。例如数据库表中,很多条记录对应字段没有相应值,比如销售表的顾客收入
引起空缺值的原因
设备异常
与其他已有数据不一致
因为误解而没有被输入的数据
在输入时,有些数据因为得不到重视而没有被输入
对数据的改变没有进行日志记载
空缺值需要经过推断补上。可行的方法有:
人工填写空缺值,工作量大
使用属性的中心度量(均值或中位数)填充空缺值(若数据分布是倾斜的,则使用中位数)
使用与给定元组属于同一类的所有样本的平均值或中位数
使用最可能的值来填充空缺值,如 Bayesian 公式,判定树等
引起噪声的原因
数据收集工具的问题
数据输入错误
数据传输错误
技术限制
命名规则等不一致
如何处理噪声数据
计算机和人工检查结合
分箱
回归:让数据适应回归函数来平滑数据
聚类:监测并去除孤立点
首先排序数据,并将他们分到箱子中。然后可以按照箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等
用一个函数拟合来平滑数据
合并多个数据源中的数据,并存放在一个一致的数据存储终端过程称为「数据集成」。存在的问题有
集成多个数据库时,经常会出现冗余数据。属性冗余可以被相关分析检测到
其中
离散数据的相关性检测,可以通过
假设属性
将数据转换成适合挖掘的统一形式的过程称为「数据变换」。
「规范化」:将数据按比例进行缩放,使之落入一个小的特定区间
当最大、最小值未知时适用
为什么需要进行数据规约?
数据规约可以用于
常用的数据规约策略有:
注意,用于数据规约不应当超过或“抵消”在规约后的数据上执行挖掘节省的时间。
通过删除贡献低的属性或维,用以减少数据量。
「主成分分析」(Principal Components Analysis,PCA)将
主成分分析从原始的空间中顺序地照一组相互正交的坐标轴:第一个新坐标轴选择时原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。以此类推,可得到
大部分方差都包含在前面
只保留前面
通过选择替代的活较小的数据表示形式来减少数据量
「直方图」是一种流行的数据归约技术。将某属性的数据划分为不相交的子集,或桶,桶中放置该值出现的频率
将数据集划分为聚类,然后通过聚类本身来表示数据集。
如果数据可以组成各种不同的聚类,则该技术非常有效;反之,如果数据界线模糊,则聚类方法无效。
聚类的定义和算法都有很多选择,将在第五章对聚类分析进行深入探讨。
用较少的随机样本来表示原始数据集
对数据集