K近邻(K-nearest neighbour, KNN)是最基础的分类方法之一。它通过测量不同特征值间的距离来进行分类。具体来说,如果一个样本在特征空间中的K个最接近的邻居中,大多数属于某一类别,那么该样本也会被归为此类别。通常,K的取值范围在1到20之间。KNN算法的一个关键特点是,它选择的邻居都是已经正确分类过的数据。
在KNN算法中,通常使用欧氏距离或曼哈顿距离来计算对象间的距离。这些距离用来衡量对象之间的相似性,从而避免了复杂的匹配问题。
在训练集中的数据和标签已知的情况下,输入测试数据,然后将测试数据的特征与训练集中的对应特征进行比较。找到与测试数据最相似的前K个数据,测试数据的类别就是这K个数据中出现次数最多的类别。具体步骤如下: