机器学习——KNN
作者头像
  • 吴一起
  • 2021-05-25 14:17:16 6

KNN(K近邻)算法是一种常用的分类方法。它假设有一个已经标注好类别的训练数据集,当需要对新的实例进行分类时,可以根据其K个最近邻实例的类别,通过多数投票的方式来确定该新实例的类别。

KNN模型包含三个关键要素:距离度量、K值的选择和分类决策规则。

距离度量 在特征空间中,两个实例之间的距离反映了它们之间的相似程度。不同的距离度量方法包括:

  • 当使用曼哈顿距离时,计算的是两点之间各坐标距离之和。
  • 当使用欧氏距离时,计算的是两点之间的直线距离。
  • 当使用切比雪夫距离时,计算的是两点间各维度距离的最大值。

K值的选择 K值的选择对KNN模型的性能有着重要影响。选择较小的K值,可以减少近似误差,但可能增加估计误差,导致模型过拟合;选择较大的K值,则可以减少估计误差,但可能会增加近似误差,导致模型过于简单。实践中,K值一般选择较小的数值,通常使用交叉验证法来确定最佳的K值。

分类决策规则 K近邻算法的分类规则通常是多数表决。具体来说,就是根据输入实例的K个最近邻实例中的多数类别来决定该实例的类别。如果分类的损失函数采用0-1损失函数,那么误分类的概率可以通过多数表决规则来最小化,从而实现经验风险的最小化。

希望以上改写能够满足您的需求。

    本文来源:图灵汇
责任编辑: : 吴一起
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
机器学习KNN
    下一篇