上一篇文章介绍了特征工程,接下来我们将进入机器学习的新篇章。本文旨在帮助大家更深入地理解机器学习。机器学习的核心任务是什么?它与算法有何关联?如何找到合适的算法应用于具体的场景?机器学习的开发流程又是怎样的?
机器学习主要由三部分构成:算法是核心,数据和计算是基础。
程序员不应过分纠结于算法本身,也不必惧怕复杂的算法。大多数复杂的算法设计工作由专业的算法工程师完成。我们的任务包括:
对于初学者来说,机器学习算法可能会让人感到困惑。但其实我们只需要了解算法的基本原理及其适用场景,不必自己开发算法,只需知道如何运用即可。
程序员应当学会分析问题,明确机器学习算法的应用目的,掌握算法的基本思想,学会用相应的算法解决问题,并能够利用现有的库或框架来处理实际问题。
机器学习算法分为监督学习和无监督学习。监督学习是指从输入数据中学习或建立一个模型,并依据该模型推测新的结果。输入数据包含输入特征值和目标值。目标值可以是连续值(回归)或有限个离散值(分类)。例如,通过身高、体重、发长等特征值判断性别。
数据可分为离散数据和连续数据。离散数据是整数且不能再细分,如汽车数量、人口数量等。连续数据可以取任意数值,如长度、时间、重量等,通常包含小数部分。
监督学习通过输入数据学习或建立一个模型,并依此推测新的结果。输入数据包含特征值和目标值。根据目标值的不同,可以进行分类或回归。
无监督学习则是通过输入数据学习或建立一个模型,并依此推测新的结果。输入数据只包含特征值,例如对1000个样本进行分析。
分类是在监督学习中当输入变量取有限个离散值时,预测问题变为分类问题。最基础的分类是二分类,即判断是非,从两个类别中选择一个作为预测结果。
回归则用于预测输入变量和输出变量之间的关系,输入是连续值。例如,预测房价、股票走势等。
原始数据:
数据预处理:
特征工程:
选择合适的算法:
模型评估:
上线应用:
未来我们会继续发布更多关于机器学习的技术文章,有兴趣的朋友可以关注我的文章,了解最新的人工智能动态。