数据分类

给定一个数据集 和一个类别集合 ,「数据分类」就是通过定义一个映射 ,为数据集 中的每条数据 分配 中的一个类 。分类是机器学习数据挖掘的重要问题

通过学习建立一个分类模型,该模型可以很好地拟合训练数据中属性与类别之间的联系,并能对新数据样本提供分类依据。

比如按气候将国家分类,按汽油消耗定额将汽车分类,常用方法有决策树支持向量机神经网络等。

过程

1. 建立模型

训练数据集由若干数据(通常用n维属性向量表示)和它们相对应的类标号组成。训练样本为训练数据集中的单个数据及其类标号。

从训练数据集“学习”相关知识来构造分类模型。分类模型可能会以分类规则、决策树或数学公式等形式呈现出来。

2. 使用模型

使用模型对未知类别的数据进行分类(分配类别标号)。