机器学习到底是个啥

陈妮
2020-02-10 14:52:17 1

+关注

什么是机器学习？

机器学习是一种工具，通过一系列通用算法帮助你从数据中找出潜在的规律或模式。在这个过程中，你不需要编写额外的代码，只需要提供数据，算法会根据数据自动学习。

例如：

分类算法：可以自动将数据分成不同的类别。
回归算法：可以预测输入数据对应的输出结果。
聚类算法：可以自动将相似的数据归为一类。

简单的例子

比如手写数字识别（一个经典例子）和垃圾邮件分类。通过不同的数据处理方式，将数据输入机器学习算法，可以得到相应的结果。其他类似的分类算法也可以借鉴这种方法。

机器学习就是这些“神奇”算法的集合。

机器学习有哪些算法？

有监督学习（数据有标签）

无监督学习（数据无标签）

此外还有半监督学习、弱监督学习和强化学习等。

有监督学习 - 案例

假设你是某楼盘的销售经理，需要帮助新入职的实习生了解市场行情。你将影响房价的因素罗列出来，并分享了销售数据，让他们根据这些数据预测房价。

这个过程就是有监督学习的原理。你知道每间房屋可以卖多少钱，因此可以通过数据寻找规律。监督学习可以将这些数据标准化，然后输入算法，算法会自动学习数据之间的潜在数学关系。

无监督学习 - 案例

如果你不想透露销售价格，但仍然希望实习生了解市场规律，可以采用无监督学习。例如，通过销售数据，你可以发现郊区的购房者更倾向于购买大面积的房子，而市中心的购房者则更喜欢小面积但房间较多的房子。此外，还可以检测出哪些销售记录特别“异常”，这些可能代表着更高的提成。

尽管无监督学习看似简单，但它本质上是在模仿人类大脑的学习过程，通过接触一段时间的事物，能够准确地识别和分类。

机器学习的本质

机器学习的核心在于模拟人类的学习和预测能力，让计算机更好地为人类服务。不过，目前的机器学习算法主要针对具体问题，在有限的范围内进行训练。

实践中的应用

我们来看一个具体的例子：如何估计房屋售价。

传统方法

python def estimate_house_sales_price(num_of_bedrooms, sqft, neighborhood): price = 0 price_per_sqft = 200 if neighborhood == "hipsterton": price_per_sqft = 400 elif neighborhood == "skid row": price_per_sqft = 100 price = price_per_sqft * sqft if num_of_bedrooms == 0: price -= 20000 else: price += num_of_bedrooms * 1000 return price

机器学习方法

机器学习的目标是自动学习这些参数，从而更准确地预测房价。

python def estimate_house_sales_price(num_of_bedrooms, sqft, neighborhood): price = 0 price += num_of_bedrooms * 1000 price += sqft * 200 price += neighborhood * 100 return price

我们可以通过调整这些参数来自动估算合适的售价。

如何评估模型

我们需要一个指标来评估模型的好坏。这个指标就是成本函数（Cost）。成本函数的值越低，说明模型预测的结果越接近实际值。我们的目标是不断调整参数，使成本函数的值降到最低。

过程的意义

计算机算出来的参数比人工准确得多。
计算机只是做计算，不关心问题的本质。
尽管你可能不了解它是怎么计算的，但结果确实有用。

这些过程不仅适用于房价预测，也适用于自动驾驶等各种高科技领域。

总结

机器学习可以做的事情非常多，从高级的应用如自动驾驶和游戏，到低级的应用如作业辅导。只要有足够的数据，机器学习就能解决很多问题。但机器学习只有在问题有明确解决方案时才有效。此外，机器学习无法创造未知的解决方案，只能简化现有的工作流程。

记住，机器学习就像钱一样，虽然不是万能的，但在很多情况下是必不可少的。

图灵汇

责任编辑：：陈妮

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

机器到底学习

陈妮

2020-02-10