~
分类与预测是数据挖掘的重要课题
给定一个数据集和一个类别集合,数据分类(Classification)就是通过定义一个映射,为数据集中的每条数据分类 C 中的一个类。
例如银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的。
构造一个映射将申请者分为两类,即安全和有风险。
它是一种特殊的分类,当分类的类别是一个连续值时,就是数据预测(Prediction)。
例如银行贷款员需要分析数据,来预测贷给某个顾客多少钱是安全的。即构造一个映射来预测一个连续值。
数据分类和预测的步骤如下,首先建立模型,然后使用模型。以分类为例讨论这两个步骤。
第一步,建立模型。训练数据集:由若干数据(通常用 n 维属性向量表示)和他们对应的类标号组成。训练样本为训练数据集中的单个数据及其类标号。
从训练数据集学习相关知识来构造分类模型。分类模型可能会以分类规则、决策树或数学公式等形式呈现出来
第二步,使用模型。对未知类别的数据进行分类
在执行分类过程之前,通过对数据进行预处理,可以提高分类过程的准确性、高效性和可伸缩性。
预处理包括数据清理,相关分析和数据变换。
分类的评价标准:性能度量
假设:给定测试集
对于测试集的第个类别,分类结果如下
准确率表示测试集中被正确分类的数据所占的比例
例如,在文字识别中,经常统计识别准确率,以此来表示识别系统的性能
查全率表示在本类样本中被正确分类的样本所占的比例
查准率表示被分类为该类的样本中,真正属于该类的样本所占的比例
F 是查全率和查准率的组合表示,越大越好