人工智能是指研究、开发用于模拟、延伸和扩展人类智能的技术科学,旨在使计算机能够像人一样思考和行动。这一概念较为广泛,最终目的是让计算机拥有与人相同的智能水平。
大约在上世纪五十年代,人工智能开始兴起,但由于当时的数据和硬件条件有限,其发展速度较慢。
机器学习是人工智能的一个分支,旨在通过算法使计算机具备学习能力,从而获取新的知识或技能,并不断提升性能。机器学习在上世纪八十年代开始迅速发展,产生了许多基于数学和统计学的模型。
深度学习则是机器学习的一个子集,灵感来源于人脑的神经网络结构。它通过多层神经网络进行学习,其中“深度”通常指神经网络中的隐藏层数量。深度学习在2012年后迅猛发展,广泛应用于各类场景。
国外知名学者对机器学习的定义是:“机器学习研究的是计算机怎样模拟人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构,使之不断改善自身。”
从实际角度来看,机器学习依赖于大量数据的支持,通过各种算法进行深层次的统计分析,使计算机具备归纳推理和决策能力。
通过经典的垃圾邮件过滤应用,我们可以更好地理解机器学习的原理,以及定义中的T、E、P分别代表什么:
机器学习的三大要素包括数据、模型和算法。它们之间的关系可以通过下图来表示:
数据:数据驱动意味着我们基于客观的量化数据,通过数据分析来支持决策。与之相对的是经验驱动,例如“拍脑袋”。
模型:在数据驱动的范畴内,模型是指基于数据X做决策Y的假设函数,可以有不同的形态,例如计算型和规则型。
算法:算法是指具体计算模型的方法,通常是一个最优化问题。它包括选择最优模型的过程,并考虑计算方法。
人工智能一词最早出现于1956年,用于探索有效解决方案。1960年,美国国防部借助“神经网络”这一概念,训练计算机模仿人类的推理过程。
直到2010年之前,谷歌、微软等科技巨头改进了机器学习算法,将查询的准确度提升到了新的高度。随着数据量的增加、先进算法的出现、计算和存储容量的提高,机器学习得到了更进一步的发展。
机器学习的核心技术主要包括分类、聚类、异常检测和回归。
机器学习的工作流程包括数据预处理、模型学习、模型评估和新样本预测。
机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别和机器人等领域。
其他名词还包括示例/样本、属性/特征、属性空间/样本空间/输入空间X、特征向量、标记、分类、假设、真相、学习过程和泛化能力等。
机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要设计和分析一些让计算机自动学习的算法。
机器学习理论主要关注行之有效的学习算法,很多推论问题属于无程序可循难度,因此部分机器学习研究是开发容易处理的近似算法。
机器学习最主要的类别包括监督学习、无监督学习和强化学习。
分类问题是机器学习的重要组成部分。其目标是根据已知样本的某些特征,判断新的样本属于哪种已知的样本类。分类问题可以细分如下:
了解更多分类算法包括KNN算法、逻辑回归算法、朴素贝叶斯算法、决策树模型、随机森林分类模型、GBDT模型、XGBoost模型和支持向量机模型等。
了解更多回归算法包括决策树模型、随机森林分类模型、GBDT模型、回归树模型和支持向量机模型等。
了解更多聚类算法包括聚类算法等。
了解更多降维算法包括PCA降维算法等。
机器学习最典型的监督学习包括分类与回归问题。分类问题中,我们学习出一条“决策边界”来区分数据;在回归问题中,我们学习出拟合样本分布的曲线。
以房价预估为例,讲述一下涉及的概念。
在训练集的数据上进行学习。模型在训练集上的误差称为“经验误差”。经验误差并非越小越好,因为我们希望模型在新的数据上也有良好的表现。
过拟合指的是模型在训练集上表现良好,但在交叉验证集合测试集上表现一般,即模型对未知样本的预测表现不佳,泛化能力较差。防止过拟合的方法包括早期停止、数据集扩增、正则化和Dropout等。
偏差指的是模型拟合的偏差程度。简单模型通常高偏差,而复杂模型通常低偏差。
方差指的是模型的平稳程度。简单模型的方差很小,而复杂模型的方差很大。
偏差与方差的平衡是模型选择的关键。
性能度量是衡量模型泛化能力的数值评价标准,反映了当前任务的需求。回归问题常用的性能度量指标包括平均绝对误差、均方误差、均方根误差和R平方等。分类问题常用的性能度量指标包括错误率、精确率、查准率、查全率、F1、ROC曲线和AUC曲线等。
常见的评估方法有留出法、交叉验证法和自助法。留出法是从训练数据中保留出验证样本集,这部分数据不用于训练,而用于模型评估。交叉验证法是将数据分成k份,每次用k-1份数据训练,剩下一份数据验证,重复k次。自助法是一种通过有放回抽样生成大量伪样本的方法,通过对伪样本进行计算,获得统计量的分布,从而估计数据的整体分布。
我们希望找到对当前问题表达能力强且模型复杂度低的模型。表达能力强的模型可以较好地学习训练数据中的规律和模式;复杂度低的模型方差较小,不容易过拟合,有较好的泛化能力。
以上便是改写后的内容,确保了不扭曲原文事实和核心信息,并提高了文章的紧凑性和可读性。