简单匹配方法

对于标称型属性,给定两个 维样本 如何计算他们之间的相异度?

若记 为匹配的数目, 为全部属性的数目,则数据对象 之间的相异性可以表示为

Jaccard 系数法

现为每个变量创建一个新的二元变量,然后再使用Jaccard 系数计算样本之间的相异度。具体来说,对有 个取值的多值离散型属性,可依据该属性的每种取值分别创建一个新的二值离散型属性,这样可将多值离散型属性转换成多个二值离散型属性。

例题

给定数据样本

样本序号 年龄段 学历 收入
青年 研究生
青年 本科
老年 本科以下
中年 研究生

若使用 Jaccard 系数法,则对各属性进行独热编码,得到

样本序号 青年 中年 老年 本科以下 本科 研究生
1 0 0 0 0 1 1 0 0
1 0 0 0 1 0 0 0 1
0 0 1 1 0 0 0 1 0
0 1 0 0 0 1 1 0 0

然后使用 Jaccard 系数计算即可