对于标称型属性,给定两个
若记
现为每个变量创建一个新的二元变量,然后再使用Jaccard 系数计算样本之间的相异度。具体来说,对有
给定数据样本
样本序号 | 年龄段 | 学历 | 收入 |
---|---|---|---|
青年 | 研究生 | 高 | |
青年 | 本科 | 低 | |
老年 | 本科以下 | 中 | |
中年 | 研究生 | 高 |
若使用 Jaccard 系数法,则对各属性进行独热编码,得到
样本序号 | 青年 | 中年 | 老年 | 本科以下 | 本科 | 研究生 | 高 | 中 | 低 |
---|---|---|---|---|---|---|---|---|---|
1 | 0 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | |
1 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | |
0 | 0 | 1 | 1 | 0 | 0 | 0 | 1 | 0 | |
0 | 1 | 0 | 0 | 0 | 1 | 1 | 0 | 0 |
然后使用 Jaccard 系数计算即可