决策树

ID3 算法

计算各个属性划分法对应的类别信息熵,从而计算信息增益

选择信息增益最大的类别

C4.5 算法

改进

CART 算法

计算各个属性划分法对应的类别的基尼值,然后加权得到基尼系数,选择基尼指数最小的

缺失值处·

模型评估

真正例 TP,假正例 FP,假反例 FN,真反例 FP

查全率

查准率

F1 分数

AUC

贝叶斯

条件风险

m 估计

  • 是在训练数据中观察到特征 的次数。
  • 是训练数据集中的总样本数。
  • 是先验概率。
  • 是用于平滑的常数。

拉普拉斯修正。令 表示训练集 中可能的类型数, 表示第 个属性可能的取值数,则

贝叶斯网络

  • 同父结构」:给定父节点的取值,则各个子节点条件独立
  • 顺序结构」:给定中间节点的取值,则因节点与果节点条件独立。
  • V 型结构」:给定子节点的取值,则各个父节点不独立。

线性模型

最小二乘法

梯度下降法

对于函数 ,给定初始出发点 ,利用梯度下降法求其极值

因此

最终 ,终止迭代

神经网络

BP 算法

无论是输出层还是隐藏层,都遵循

其中 为学习率, 为上一层对应节点的输出,Err 为误差,如果是输出层,则为

其中 为网络输出, 为对应的标号。如果是中间层,则为

为隐藏层输入, 为隐藏层输出, 为后层误差

SVM

间隔定义 ,支持向量定义

拉格朗日法

先写出关于 的表达式

然后利用约束条件 消去一个 ,然后尝试对其进行最大化。分别求偏导找出对应的一组 ,然后结合 取到最合理的 后,计算超平面参数 向量,即

用两个支持向量分别计算后取平均

核函数

直接把 带进去算出来,然后看看结果能否被拆成高维空间的内积

集成学习

AdaBoost

先选一个分类器,然后计算训练集误差 ,首先计算分类器的权值 ,然后算各个训练样本的新权重。首先计算出一个 ,然后求和 ,再归一化计算

最后的分类器是所有分类器的加权和。

聚类

性能指标

外部指标

为同一簇, 为一个模型中同簇,另一个不同, 为都不同。

Jaccard 系数
FM 系数

Rand 系数

内部指标

样本间的平均距离为

样本间的最远距离

与簇 最近样本间的距离

与簇 中心点之间的距离

DB 指数

Dunn 指数

K 均值算法

  • 中随机选择 个样本作为初始均值向量
  • 重复:
    • 基于每个簇的平均值,将每个样本重分配到与之最相似的簇中
    • 为每个簇重新计算平均值
  • 直到不发生变化