C++机器学习库引见

韩悦
2020-07-29 21:58:40 0

引言

我对C++有着深厚的兴趣。它是我在学习编程过程中接触的第一门语言，也是我在机器学习项目中常用的语言之一。

之前，我曾撰写过一篇关于构建机器学习模型的文章。有人在评论中问及C++是否也有类似的机器学习库。这是一个很合理的问题，因为像Python和R这样的语言拥有大量的库和工具包，可以方便地完成各种机器学习任务。那么，C++是否有相应的工具支持呢？

为什么要使用机器学习库？

很多初学者可能会对使用机器学习库的目的感到困惑。实际上，机器学习库的重要性在于它们能显著提高效率和准确性。这些库通常由经验丰富的开发者精心设计，经过了广泛测试，可以提供高效的解决方案。使用这些现成的库，无论是进行机器学习研究还是开发实际应用，都能大大简化工作流程，节省时间和精力。

C++中的机器学习库

在本节中，我们将介绍C++中两个流行的机器学习库：SHARK库和MLPACK库。

1. SHARK库

SHARK库是一个功能强大的模块库，主要用于实现监督学习算法，如线性回归、神经网络、聚类和k-means等。此外，它还提供了线性代数和数值优化功能，这些都是机器学习任务中不可或缺的数学工具。

首先，我们需要安装SHARK库并配置好环境。以下是安装步骤（以Linux为例）：

bash sudo apt-get install cmake cmake-curses-gui libatlas-base-dev libboost-all-dev git clone https://github.com/Shark-ML/Shark.git cd Shark mkdir build cd build cmake .. make

如果一切顺利，安装过程应该不会报错。如果遇到问题，可以通过搜索引擎查找解决方法。对于其他操作系统，也可以通过网络找到详细的安装指南。

接下来，我们将展示如何使用SHARK库进行线性回归。

初始化阶段

首先，我们需要包含必要的头文件：

```cpp

include

```

然后，我们将加载CSV格式的数据文件。这里有两个文件：input.csv 和 label.csv。数据的示例如下：

X,Y 1,2 2,3 3,4 ...

接下来，我们需要创建数据容器来存储CSV文件中的数据：

cpp Data<RealVector> inputs; // 存储x值 Data<RealVector> labels; // 存储y值

使用SHARK提供的导入函数将数据导入到容器中：

cpp importCSV(inputs, "input.csv"); importCSV(labels, "label.csv");

之后，我们需要实例化一个回归数据集对象：

cpp RegressionDataset data(inputs, labels);

现在，我们可以使用SHARK库来训练线性回归模型：

```cpp LinearRegression trainer; LinearModel<> model;

// 训练模型 trainer.train(model, data);

// 输出模型参数 cout << "intercept: " << model.offset() << endl; cout << "matrix: " << model.matrix() << endl;

// 计算损失 SquaredLoss<> loss; Data prediction = model(data.inputs()); cout << "squared loss: " << loss(data.labels(), prediction) << endl; ```

最后，编译程序：

bash g++ -o lr linear_regression.cpp -std=c++11 -lboost_serialization -lshark -lcblas

编译成功后，运行程序即可得到结果。

2. MLPACK库

MLPACK是一个用C++编写的高效且灵活的机器学习库。它的目标是提供快速且可扩展的机器学习算法实现。MLPACK可以作为一个简单的命令行程序使用，也可以通过Python、Julia和C++绑定集成到更大的机器学习解决方案中。

首先，我们需要安装MLPACK及其依赖项（以Linux为例）：

bash sudo apt-get install libboost-math-dev libboost-program-options-dev libboost-test-dev libboost-serialization-dev binutils-dev python-pandas python-numpy cython python-setuptools wget http://mlpack.org/files/mlpack-3.2.2.tar.gz tar -xvzpf mlpack-3.2.2.tar.gz cd mlpack-3.2.2 mkdir build && cd build cmake .. make -j4 sudo make install

在许多Linux系统上，默认情况下MLPACK会安装在 /usr/local/lib，你可能需要设置 LD_LIBRARY_PATH 环境变量：

bash export LD_LIBRARY_PATH=/usr/local/lib

接下来，我们将展示如何使用MLPACK库来实现K-means聚类算法。

初始化阶段

首先，我们需要包含必要的头文件：

```cpp

include

using namespace std; ```

接下来，我们将创建一些基本变量来设置簇的数量、程序的维度、样本的数量以及最大迭代次数：

cpp int k = 2; // 簇的数量 int dim = 2; // 维度 int samples = 50; // 样本数量 int max_iter = 10; // 最大迭代次数

然后，我们将创建数据。我们将使用Armadillo库来创建数据容器：

cpp arma::mat data(dim, samples, arma::fill::zeros);

接下来，我们将向数据容器中添加一些随机数据：

cpp int i = 0; for (; i < samples / 2; ++i) { data.col(i) = arma::vec({1, 1}) + 0.25 * arma::randn<arma::vec>(dim); } for (; i < samples; ++i) { data.col(i) = arma::vec({2, 3}) + 0.25 * arma::randn<arma::vec>(dim); }

至此，我们的数据已经准备好了。接下来，我们将进入训练阶段。

训练阶段

首先，我们需要创建两个容器来保存聚类结果和质心：

cpp arma::Row<size_t> clusters; arma::mat centroids;

然后，我们将实例化K-means类：

cpp mlpack::kmeans::KMeans<> mlpack_kmeans(max_iter);

接下来，我们将调用K-means类的Cluster成员函数来进行聚类：

cpp mlpack_kmeans.Cluster(data, k, clusters, centroids);

最后，我们可以打印出质心的位置：

cpp centroids.print("Centroids:");

编译程序：

bash g++ k_means.cpp -o kmeans_test -O3 -std=c++11 -larmadillo -lmlpack -lboost_serialization && ./kmeans_test

编译成功后，运行程序即可得到结果。

结语

本文介绍了C++中两个流行的机器学习库：SHARK库和MLPACK库。通过使用这些库，我们可以更高效地完成各种机器学习任务。希望这些信息对你有所帮助！

图灵汇

责任编辑：：韩悦

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

C++引见机器学习

韩悦

2020-07-29

引言

目录

为什么要使用机器学习库？

C++中的机器学习库

1. SHARK库

include

include

include

include

2. MLPACK库

include

include

include

结语

2020下半年，值得关注的10本机器学习、深度学习好书