随着大数据和计算能力的迅速提升,AI技术得到了迅猛的发展。在2019年的杭州云栖大会上,阿里云的高级技术专家吴威和江宇分享了他们关于EMR E-Learning平台及其新开发的核心特性——TensorFlow on Spark的见解。
EMR E-Learning平台融合了大数据和AI技术,通过算法和历史数据建立机器学习模型,进行训练和预测。机器学习技术已在多个领域广泛应用,例如人脸识别、自然语言处理、推荐系统及计算机视觉等。
AI开发的核心要素包括算法、数据和算力。EMR作为一个强大的大数据平台,集成了多种数据类型和强大的资源调度能力,能够高效利用GPU和CPU资源。结合机器学习算法,EMR成为一个优秀的AI平台。
AI开发通常包括数据收集、处理、模型训练、评估和部署几个步骤。数据首先被导入大数据框架Data Lake,随后进行ETL处理和特征工程,接着进行模型训练,最后对模型进行评估和部署。这个过程循环进行,形成闭环。
当前AI开发主要面临两个问题:一是需要维护两套独立的集群,这增加了运维的复杂性;二是数据传输和模型传输导致训练效率低下。
EMR作为一个统一的大数据平台,整合了许多关键特性,包括资源调度、数据存储、数据接入、计算引擎和分析功能。它支持多种AI框架,如TensorFlow、MXNet和Caffe等,并且具有完善的应用程序和集群监控系统。
EMR E-Learning平台的特性包括统一的资源管理和调度、对多种框架的支持、Spark的数据处理能力、Spark与深度学习框架的集成、资源监控和报警系统以及易用性。
TensorFlow on Spark旨在解决数据ETL和特征工程阶段使用Spark,而后续阶段使用TensorFlow的问题。它通过PySpark框架实现了特征工程和深度学习任务的调度,同时优化了数据传输效率。
TensorFlow on Spark通过Apache Arrow实现了高速数据传输,提高了训练效率。此外,它还具备容错机制,确保在出现故障时能够恢复训练。
TensorFlow on Spark支持多样化的部署环境、多种TensorFlow架构和API,同时也易于与其他AI框架集成。
EMR平台被广泛应用于互联网公司,特别是在广告推送等场景。TensorFlow on Spark在此过程中负责数据处理和模型训练,实现了高效的数据处理和模型优化。
TensorFlow on Spark提供了一个基类,用户可以通过实现特定的方法来进行数据读取、ETL处理、特征工程和模型训练。
以推荐系统为例,EMR平台通过Spark和TensorFlow共同作用,实现了高效的电影推荐功能。
EMR E-Learning平台结合了大数据处理、深度学习、机器学习和数据湖等功能,提供了全面的一站式解决方案。TensorFlow on Spark则通过高效的数据交互和完整的训练流程,加速了用户的训练过程。EMR平台已服务于众多客户,并取得了显著的成功。