机器学习分类算法之k近邻算法

2019-12-15 12:41:12 2

本文将介绍机器学习入门算法之一——k近邻算法，并通过实例演示如何使用此算法进行分类任务。

首先，我们回顾一下分类和回归的区别。分类问题通常涉及将数据分为不同的类别，例如，识别文章的类别，其中1代表体育，2代表科技，3代表娱乐。这些都是分类问题，需要使用分类算法。另一方面，回归问题涉及预测具体数值，例如票房或股票价格，这属于回归问题，需要使用回归算法。此外，我们还会补充介绍机器学习中两个重要概念：转化器和估计器。

转化器与估计器

转化器

转化器是指那些继承自Transformer类的对象。这些对象能够对数据进行转换操作。例如，fit_transform()方法可以直接对输入数据进行转换，而fit()方法则用于计算数据的统计特性，但不对数据本身进行操作。transform()方法则是实际执行数据转换的部分。

fit_transform()：同时执行fit()和transform()两个步骤，用于设定转换标准并按照该标准进行数据转换。
StandardScaler是一个实现了TransformerMixin接口的例子，它是一种常用的标准化工具。

估计器

估计器在sklearn库中扮演着重要角色。无论是分类还是回归任务，都可以使用估计器来实现。以下是一些常见的估计器：

分类器：
- sklearn.neighbors.KNeighborsClassifier：k近邻算法
- sklearn.naive_bayes.GaussianNB：贝叶斯分类器
- sklearn.linear_model.LogisticRegression：逻辑回归
回归器：
- sklearn.linear_model.LinearRegression：线性回归
- sklearn.linear_model.Ridge：岭回归

分类算法——k近邻算法

k近邻算法是一种简单的分类算法，其基本思想是根据与目标样本最接近的k个邻居的类别来判断目标样本的类别。具体而言，如果一个样本在特征空间中的k个最相似的样本大多数属于某一类别，则该样本也属于这个类别。

k近邻算法的原理

特征空间：k近邻算法依赖于计算样本间的距离。常用的距离度量方式是欧氏距离。
标准化：当特征维度较大时，标准化有助于提高算法的准确性。
API：sklearn.neighbors.KNeighborsClassifier提供了灵活的配置选项，包括邻居数（n_neighbors）和距离计算方法（algorithm）。