机器学习实战-sklearn引见

近年来，机器学习成为了一个非常热门的研究领域。然而，许多人认为要在这个领域取得成就，必须拥有研究生学历。但实际上，对于那些想要自学的人来说，入门也并非难事。

接下来的文章将向大家介绍如何开始学习机器学习，并提供一些实际应用的方法。

Scikit-learn，通常简称sklearn，是Python中广泛使用的机器学习库之一。它建立在NumPy、SciPy和matplotlib的基础上，提供了一系列高效的数据挖掘和数据分析工具。更重要的是，它是完全开源的，基于BSD许可证，可以用于商业用途。这为用户提供了无限的可能性。

当前，TensorFlow在社区中的热度较高，很多人会问为什么不用TensorFlow，这两个库有什么区别？我们可以从以下几个方面进行比较：

功能定位：sklearn主要定位于通用的机器学习库，而TensorFlow则侧重于深度学习。
特征工程：sklearn提供了诸如降维和特征选择等功能，但这并不意味着TensorFlow在这方面较弱。传统机器学习中，sklearn需要用户手动处理数据，例如特征选择、降维和数据格式转换。而TensorFlow则能在数据训练过程中自动提取有效特征，减少了人工干预。
易用性和封装程度：sklearn在这方面更为友好，很多用户对此深有体会。
项目规模：sklearn更适合中小型项目，尤其是数据量不大的情况。这种情况下，用户需要手动处理数据并选择合适的模型，这些计算通常在CPU上即可完成。相比之下，TensorFlow更适用于大型数据集，通常需要GPU加速。目前许多公司的数据量并不大，因此在选择库时可以参考这一点。