基础
算法
输入:
输出:
- $y$:待分类预测样本$x$对应的类别
决策规则:
- 找出训练样本集中与预测样本$x$距离相近的$k$个样本,根据这$k$个样本对应的类别,采取多数表决的规则来确定预测样本$x$的类别
参数选择
$k$
- 在二元(两类)分类问题中,选取$k$为奇数有助于避免两个分类平票的情形
- 在此问题下,选取最佳经验$k$值的方法是自助法
- 常用的是交叉验证方法来选取$k$
距离度量
进阶
修正之加权KNN
上面提到的计算规则中,$k$邻域的样本点对预测结果的贡献度是相等的
但我们直观理解,距离更近的样本点应有更大的相似度,其贡献度应比距离更远的样本点大
所以可以加上权值$w_i = \frac{1}{\left| {x_i - x} \right|}$进行修正,则式(1)变成: