机器学习(ML)近年来备受关注,它正在改变从图像识别到金融、医疗健康乃至交通等多个领域。然而,机器学习的概念常常让人感到难以捉摸。本文将用通俗易懂的语言,帮助大家更好地理解机器学习的核心原理和实际应用。
机器学习的核心其实非常简单。大多数机器学习算法的任务可以概括为一项基本操作:画线。具体来说,机器学习是利用一些数据来画线。这听起来可能有些抽象,但让我们通过一个简单的例子来说明。
假设你是一名计算机工程师,收集了许多苹果和桔子的图像。从这些图像中,你可以判断出水果的颜色和大小。你的目标是把这些图像分类为苹果或桔子。
很多机器学习算法的第一步是获取标记好的训练数据。在我们的例子中,你需要大量被标记为苹果或桔子的图像。通过这些图像,你可以提取颜色和大小信息,然后分析它们与苹果或桔子的关系。例如,标记好的训练数据可能是这样的:
红色的点代表苹果,橙色的点代表桔子。你可以观察到,这些数据点形成了特定的模式。苹果主要集中在图像的左侧,因为它们大多是红色的;桔子则集中在右侧,因为它们大多是橙色的。我们希望通过算法学习这些模式。
在这个例子中,我们的任务是在两类标记数据之间画一条线,这条线被称为“决策边界”。对于我们的例子,最简单的决策边界可能是这样:
苹果和桔子之间只有一条直线。不过,更复杂的机器学习算法可能会画出更复杂的决策边界,例如:
通过这些标记好的训练数据,我们所画的决策边界应该能够在任何新图像中准确地分辨苹果和桔子。
这就是机器学习的力量。我们通过训练数据训练算法,画出决策边界,然后将所学的知识应用到新的数据上。
当然,区分苹果和桔子是一个相对简单的问题。但同样的策略可以应用于更复杂的问题,比如将肿瘤分类为良性或恶性,将电子邮件标记为垃圾邮件或非垃圾邮件,或者分析用于安全系统的指纹。
这种通过画线来分离数据的方法,只是机器学习的一个子领域,称为“分类”。另一个子领域是“回归”,它涉及绘制描述数据趋势的线。接下来的文章将探讨回归。
宁波格密链网络科技有限公司目前专注于全同态加密、机器学习和区块链生态系统的研究开发。
文章首发于微信公众号:btc201800
知识星球ID:28018093
音频发布在喜马拉雅上“区块链杂谈 (第2季)” http://xima.tv/Bjq4se
宁波格密链网络科技有限公司专注于区块链领域的密码技术研究。