机器学习中运用的不同类型的间隔
作者头像
  • 潘家民
  • 2019-12-15 09:48:28 3

在机器学习中,我们需要测量许多参数。这些测量有助于我们了解数据之间的距离或相似性,以便识别模式并做出预测。为了实现这一目标,我们采用了多种距离测量方法,包括欧几里得距离、曼哈顿距离、余弦距离等。

欧几里得距离

欧几里得距离用于计算两点之间的直线距离。这种测量方法常用于评估飞行距离或两点间的距离,从而判断它们是否相似或不同。

假设我们有两个点,如图所示,坐标分别为(x1,y1)和(x2,y2)。根据毕达哥拉斯定理,我们可以通过计算(x2-x1)²+(y2-y1)²的平方根来得出这两个点之间的距离。若需扩展至更高维度,只需增加相应的坐标值,例如z轴,计算公式则相应变化。

曼哈顿距离

曼哈顿距离与欧几里得距离类似,但其计算方法是沿着坐标轴方向的绝对差值之和,即|x1-x2|+|y1-y2|。如图所示,粉线代表欧氏距离,蓝线则表示曼哈顿距离。这种距离测量主要用于地图上的路径规划以及分析两个点的相似性。

闵可夫斯基距离

闵可夫斯基距离是一种泛化了欧几里得距离和曼哈顿距离的距离度量方法,适用于n维空间中的点。对于两个点P1和P2,其坐标分别为(x1,x2,…,xN),计算公式为:

[ d(P1, P2) = (sum{i=1}^{N} |xi - y_i|^p)^{frac{1}{p}} ]

当p=2时,该公式简化为欧几里得距离;当p=1时,则转化为曼哈顿距离。

L1范数、L2范数及Ln范数

  • L1范数本质上就是曼哈顿距离。
  • L2范数则是欧几里得距离。
  • Ln范数或l_∞范数指的是向量中最大值。

汉明距离

汉明距离适用于无序分类值间的比较,主要衡量属性值的重合度。具体来说,它用于计算需要改变多少属性才能使两个数据点匹配。我们可以通过简单的匹配系数来评估两个数据点之间的相似性:

[ 匹配属性数量 / 属性总数 ]

余弦距离和相似度

余弦相似度是一种衡量对象间相似性的方法,数学上它通过计算两个向量在多维空间中所形成的角度余弦值来实现。即使两个对象在欧几里得距离下相隔甚远,只要它们的角度较小,余弦相似度仍较高。因此,余弦相似度在推荐系统中被广泛应用于评估两个对象之间的相似性。

总结

以上各种距离测量方法都旨在量化两个对象之间的相似度或接近程度,从而帮助我们更好地理解和分析数据中的模式。希望通过本文,您能对机器学习领域内使用的不同距离测量方法有一个全面的认识。

    本文来源:图灵汇
责任编辑: : 潘家民
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
间隔运用机器不同类型学习
    下一篇