在这篇文章中,数据科学家Vincent Granville探讨了数据科学领域内不同角色的划分,以及数据科学与其他相关领域,如机器学习、深度学习、人工智能、统计学、物联网、运筹学和应用数学的交集与区别。Granville指出,由于数据科学是一个涵盖广泛的学科,他首先介绍了在商业环境中可能遇到的不同类型的数据科学家。事实上,你可能会发现自己其实就是一个数据科学家。
和其他科学领域一样,数据科学也会借鉴其他相关学科的技术;同时,数据科学领域也开发出了一套独特的方法和技术,特别是那些能够实现自动化处理大规模非结构化数据集的方法和技术,从而实现实时交易和预测。
要深入了解数据科学家的种类,可以参考以下文章链接: - 数据科学家与数据架构师:[链接] - 数据科学家与数据工程师:[链接] - 数据科学家与统计学家:[链接] - 数据科学家与业务分析师:[链接]
近期,数据科学家Ajit Jaokar讨论了A型和B型数据科学家的区别:
A型数据科学家:擅长编写处理数据的代码,但不一定具备专家水平。A型数据科学家可能是实验设计、预测、建模、统计推理或统计学方面的专家。然而,数据科学家的主要工作成果通常不是“p值和置信区间”——这些概念常被学术界用于传统行业如制药业。在谷歌,A型数据科学家被称作统计学家、定量分析师、决策支持工程师或数据科学家。
B型数据科学家:这类数据科学家擅长构建与用户互动的模型,主要负责提供推荐(如产品推荐、可能认识的人、广告、电影、搜索结果等)。
在业务优化方面,作者提出了四个方向:分析科学(Analytics Science)、业务科学(Business Science)、计算机科学(Computer Science)和数据科学(Data Science)。数据科学家的工作角色可能包括数据分析、数据挖掘、数据工程、研究、统计分析、模型构建和软件开发。
尽管数据科学家通常被认为是熟练掌握R、Python、SQL、Hadoop等编程技能且精通统计学的专业人士,但这仅仅是冰山一角。真正的数据科学家不仅限于这些技能,他们的专业知识还包括生物信息学、信息技术、模拟与量化控制、计算金融、流行病学、工业工程、数论等领域。
在过去十年中,作者专注于机器到机器和设备到设备的通信,开发能够自动处理大数据集的系统,以及执行自动化交易(如购买网络流量或自动生成内容)。这意味着需要开发处理非结构化数据的算法,这些算法属于人工智能、物联网和数据科学的交叉领域,也称为深度数据科学。虽然这种工作对数学的要求较低,但编程需求相对较少(主要是调用API),却高度依赖于数据密集型系统和全新的统计技术。
在此之前的作者工作集中在实时信用卡欺诈检测。在职业生涯早期,作者开发了图像遥感技术,包括识别卫星图像中的形状和特征,如湖泊,并进行图像分割。这段时期的研究被称为计算统计学,但与邻近的计算机科学系所做的工作基本相同,只不过后者称为人工智能。
今天,这项工作被称为数据科学或人工智能,其子领域包括信号处理、计算机视觉等。
此外,数据科学家还可以出现在各种数据科学项目中,从数据收集和探索到统计建模和现有系统的维护。
在探讨数据学习与机器学习的区别之前,我们先简要讨论一下机器学习与深度学习的区别。机器学习是一系列在数据集上训练算法的方法,目的是做出预测或优化系统。例如,基于历史数据,监督分类算法可以用于潜在客户或贷款申请的分类。根据任务的不同,使用的具体技术也不同,如朴素贝叶斯、支持向量机、神经网络、集成方法、关联规则、决策树或多种方法的结合。
这些都是数据科学的一部分。当这些算法被应用于自动化场景时,如自动飞行或无人驾驶汽车,它们被称为人工智能,特别是深度学习。如果数据来自传感器并通过互联网传输,则属于机器学习或数据科学的应用,特别是深度学习在物联网上的应用。
有些人认为深度学习是具有更多层次的神经网络,这是一种机器学习技术。关于深度学习与机器学习的区别,Quora上有详细解释: - 人工智能是计算机科学的一个子领域,旨在解决对人类而言简单但对计算机而言复杂的任务。强大的人工智能系统应该能够完成人类能完成的所有任务,如规划、移动、识别物体和声音、说话、翻译、完成社交或商业事务、创造性工作等。自然语言处理只是人工智能的一部分。机器学习是人工智能的一个方面,指的是在没有程序员介入的情况下,通过大量数据自动确定“正确”的行为。典型的机器学习过程需要一些外部流程来判断行为是否正确。因此,机器学习的目标是自动化地建立数学函数模型。如果程序表现出人类行为,但参数不是从数据中自动学习的,那么它不是机器学习。深度学习是目前非常流行的一种机器学习技术,涉及一种特殊类型的数学模型,可以由简单的模块组合而成,这些模块可以调整以更好地预测最终输入。
《机器学习与统计学》这篇文章试图解答这一问题。作者认为统计学是带有置信区间的机器学习,目的是预测或估计数量。然而,作者不同意这一观点,因为他也建立过不需要数学或统计知识的工程敌对的置信区间。
机器学习和统计学都是数据科学的一部分。机器学习中的“学习”一词意味着算法依赖于数据(作为训练集)来调整模型或算法参数。这包括许多技术,如回归、朴素贝叶斯或监督聚类。但并不是所有技术都适合机器学习。例如,无监督聚类,这种技术在没有任何先验知识或训练集的情况下检测集群和集群结构,以协助分类算法。这种情况下需要人工标记集群。一些技术是混合的,如半监督分类。某些模式检测或密度评估技术适合机器学习。
数据科学比机器学习更广泛。数据科学中的数据可能不是来自机器或机器处理(如调查数据可能是手动收集的,临床试验涉及小数据集)。但主要的区别在于数据科学涵盖了整个数据处理过程,不仅仅是算法或统计部分。数据科学还涉及: - 数据集成 - 分布式架构 - 自动化机器学习 - 数据可视化 - 仪表板和商业智能 - 数据工程 - 生产模式下的部署 - 基于数据驱动的自动化决策
在许多公司内,数据科学家可能只专注于这些流程中的一个。
对于这篇文章,技术顾问Suresh Babu给出了回复,机器之心将其整合到了以下内容:
这篇文章解释了运用机器/计算机处理类似人类决策任务的统计学习的基本术语是件费力的事。但文章中的某些表述似乎有些随意。当计算机/机器尚未普及时,统计学家和数据科学家的工作与现在的区别很大。例如,当制造业开始采用计算机辅助时,生产速度和产量发生了巨大变化——但它仍然是制造业。用机器代替人类做程序化工作的想法最早可以追溯到19世纪初的Jacquard和Bouchon等人。Jacquard织布机的工作原理与今天的计算机控制织布机基本相同。
如今,数据科学是一个涵盖统计学和计算方法的知识体系(不同领域的比例有所不同)。机器学习(或使用其他术语,如深度学习、认知计算)旨在使机器像人类一样思考和推理,基本上是指通过人工方法(即人工智能)代替人类天生的自然智能——涉及的任务从简单到复杂不等。例如,无人驾驶汽车(目前)正在模拟人类驾驶,驾驶条件也是人类在自然环境中会遇到的——我在这里提到“目前”,是因为将来人类可能很少直接驾驶机器,“驾驶”这个词本身也可能改变含义。
这个领域中有些滑稽的事情,例如,一个下国际象棋或围棋的算法被认为可以解释人脑的工作方式。就我们目前的知识水平而言,解释鸟类或鱼类大脑的工作方式已经非常困难了——这表明我们还没有真正理解学习的机制。为什么果蝇只有几百个神经元却能完成如此多的事情?这是神经科学的一个未解之谜。认知是什么以及其在自然环境下的工作方式也是数据科学认为自己能够解决的重大问题。(无论如何,降维是一种无监督学习的方法。)
在很多方面,工具以及我们使用工具所做的事情自人类诞生以来一直在引导着我们的学习。但这已经超出了本文的范围。
希望以上改写的内容能够满足您的需求。如果有任何进一步的修改或补充,请随时告诉我。