在处理成绩时,我们通常会遵循一个特定的框架,那么机器学习的框架又是怎样的呢?
机器学习,顾名思义,就是让机器能够像人一样学习并作出判断。人们在处理某件事情之前,往往会基于以往的经验和判断来做出决策。在机器学习领域,“经验”以数据的形式存储,并通过各种算法生成“模型”。运行这些模型可以得出解决问题的方法。
简单来说,机器学习任务可以分为几种类型:
这一步包括了解数据的类型、含义及取值范围。通过描述性统计分析和可视化分析等手段,探索数据特性。具体包括检查数据类型和缺失值、观察数据随时间的变化趋势、绘制箱型图以了解数据的分布情况(如均值、标准差、最小值、分位数、最大值、众数、中位数等)。
这一步主要是选择与预测结果高度相关的特征进行建模。具体包括特征选择和特征工程。在特征选择中,要挑选相关系数高的特征,剔除相关系数低的特征。在特征工程中,主要包括删除特征、从现有特征中提取新特征、组合现有特征创建新特征、将分类特征和数值特征离散化等操作。
机器学习算法种类繁多,不同的任务有不同的算法。例如,分类任务可以采用逻辑回归、支持向量机、朴素贝叶斯、决策树、随机森林、感知器、人工神经网络等算法;回归任务可以采用线性回归、多项式回归、逐步回归、岭回归、人工神经网络等算法;聚类任务可以采用K均值聚类、层次聚类、最大期望聚类、基于密度的聚类等算法;推荐系统可以采用协同过滤、深度学习等技术。因此,明确任务性质和类型,并选择合适的算法进行优化或创新,才能确保建模过程顺利进行,并取得最佳效果。
总的来说,机器学习的核心不在于数据建模本身,而在于如何更好地理解和处理数据,针对模型的需求和特点进行数据工程和特征工程,从而将数据以最优的方式特征化。在实际应用中,前两个步骤占据了大约70%的工作量。