一、分类和预测的定义

分类与预测是数据挖掘的重要课题

1. 分类

给定一个数据集和一个类别集合,数据分类(Classification)就是通过定义一个映射,为数据集中的每条数据分类 C 中的一个类。

例如银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的。

构造一个映射将申请者分为两类,即安全和有风险。

2. 预测

它是一种特殊的分类,当分类的类别是一个连续值时,就是数据预测(Prediction)。

例如银行贷款员需要分析数据,来预测贷给某个顾客多少钱是安全的。即构造一个映射来预测一个连续值。

数据分类和预测的步骤如下,首先建立模型,然后使用模型。以分类为例讨论这两个步骤。

第一步,建立模型。训练数据集:由若干数据(通常用 n 维属性向量表示)和他们对应的类标号组成。训练样本为训练数据集中的单个数据及其类标号。

从训练数据集学习相关知识来构造分类模型。分类模型可能会以分类规则、决策树或数学公式等形式呈现出来

第二步,使用模型。对未知类别的数据进行分类

二、数据分类方法

在执行分类过程之前,通过对数据进行预处理,可以提高分类过程的准确性、高效性和可伸缩性。

预处理包括数据清理,相关分析和数据变换。

分类的评价标准:性能度量

假设:给定测试集

  • 表示训练集中的样本个数
  • 表示测试集中第个样本
  • 表示样本的类编号

对于测试集的第个类别,分类结果如下

  • 模型正确地将第类分为第类的样本数量,即真正
  • 模型错误地将第类分为非第类的样本数量,即假负
  • 模型错误地将非第类分类为第类的样本数量,即假正
  • 模型正确地将非第类分类为非第类的样本数量,即真负

准确率表示测试集中被正确分类的数据所占的比例

例如,在文字识别中,经常统计识别准确率,以此来表示识别系统的性能

查全率表示在本类样本中被正确分类的样本所占的比例

查准率表示被分类为该类的样本中,真正属于该类的样本所占的比例

F 是查全率和查准率的组合表示,越大越好

1. 基于距离的分类

给定一个数据集和一组类,则分类问题是要分类每个到满足如下条件的类。其中被称为相似度

相似度在实际的计算中往往用距离来表征。距离越近,相似度越大;距离越远,相似度越小。

距离的计算方法有多种,最常用的是通过计算每个类的中心来完成

通过对每个元组和各个类的中心来比较,从而可以找出它的最近的类中心,得到确定的类别标记

三、数据预测方法

1. 线性回归

2. 非线性回归