分享几点 Spark Streaming 调优实际阅历

品评科技网
2019-11-06 15:21:00 8

+关注

本文主要介绍了一些在Spark Streaming调优过程中积累的实际经验。

我们将从以下几个方面展开讨论：

数据序列化
广播变量
并行度
批处理时间间隔
内存管理

在使用Spark和Spark Streaming部署应用程序时，可能会遇到运行缓慢、资源消耗过多或不稳定等问题。这时就需要进行一些优化以提升性能。有时候，一个简单的优化措施就能带来显著的改进，使程序更加高效，资源利用更为合理。本文将介绍一些可以提高应用程序性能的参数和配置。

需要注意的是，优化是一项具体的工作，不同的应用场景会有不同的优化策略，没有统一的优化标准。本文将简要探讨一些在实际项目中遇到的常见问题及其解决方法。

数据序列化

在分布式应用中，序列化对性能的影响十分显著。如果使用了一种序列化慢且占用大量字节的格式，将会大幅降低计算效率。在Spark中，序列化主要涉及以下三个方面：

当在算子函数中使用外部变量时，这些变量需要被序列化后在网络上传输。
当自定义类型作为RDD的元素时，所有自定义类型的对象都需要进行序列化。因此，这些自定义类必须实现Serializable接口。
使用可序列化的持久化策略（如MEMORYONLYSER）时，Spark会将RDD中的每个分区序列化为一个大的字节数组。

Spark综合考虑了易用性和性能，提供了两种序列化库：Java序列化和Kryo序列化。默认情况下，Spark使用Java序列化，但它通常较慢且会产生较大的序列化结果。相比之下，Kryo序列化更快且占用空间更小，但并非所有Serializable类都能被支持。为了使用Kryo序列化，需要在SparkConf初始化时调用conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")。在Spark 2.0.0以后的版本中，Kryo序列化已经成为基本类型RDD的默认序列化方式。

在Spark Streaming中，优化序列化格式可以减少数据序列化的成本。此外，在Streaming中还需要处理两种类型的数据序列化：输入数据和持久化的RDD。

广播变量

在Spark和Spark Streaming的应用中，当需要在集群节点之间传输大量数据时，序列化和反序列化会带来高昂的成本。例如，如果某个任务需要使用Driver节点上的大型配置查询表，可以通过广播变量的方式将该表发送到每个Worker节点，从而显著减少传输和序列化的开销。

当大型配置查询表被广播出去后，每个节点可以读取配置项来进行任务计算。然而，如果配置发生动态变化，如何通知各个节点更新配置表？广播变量是只读的，因此需要通过某种方式更新广播变量。一种方法是使用Spark的unpersist()函数，它可以按最近最少使用原则（LRU）删除旧数据。通过这种方法，可以动态更新大型配置项变量，而无需重启计算服务。

并行度

作为分布式系统，增加数据接收和处理的并行度是提高整体系统性能的关键。这可以充分利用集群中的计算资源。在Spark中，分区数量和并行度密切相关，它们都涉及到数据分片。通过设置默认的分片数量（Spark.default.parallelism），可以控制分片数量。对于特定的RDD操作，也可以显式指定分片数量。

在Spark Streaming中，增加数据接收的并行度可以缓解数据接收成为瓶颈的问题。每个输入DStream会创建一个接收器来接收数据流。为了提高并行度，可以创建多个输入DStream来接收不同分支的数据。对于Kafka数据接收，可以采用Direct连接方式，以达到足够的并行度。

批处理时间间隔

为了保持系统的稳定性，Spark Streaming应用程序需要确保处理数据的速度能够跟上数据接收的速度。这意味着每个批次的数据生成后需要尽快处理完毕。可以通过设置合理的批处理间隔来实现这一目标。选择合适的批处理时间间隔需要根据实际情况进行试验和观察。

内存管理

内存管理是所有应用开发中不可忽视的一部分。尽管Spark已经为开发者做了很多内存方面的优化和默认设置，但在实际应用中仍需针对具体情况作出调整。内存管理主要包括三个方面的考量：对象本身所需的内存、访问这些对象所需的内存开支以及垃圾回收（GC）带来的开支。

在优化内存使用时，可以从数据结构设计、序列化存储以及垃圾回收等方面入手。例如，可以通过减少对象数量、使用基本数据类型及对象数组、避免使用Java或Scala标准库中的集合类等方法来优化内存使用。对于较大的对象，可以采用序列化方式存储，这样虽然访问速度会有所下降，但可以显著减少内存消耗。

总结

通过上述几个方面的优化，可以显著提高Spark Streaming应用程序的性能。数据序列化、广播变量、并行度、批处理时间间隔以及内存管理都是关键因素。在实际应用中，需要根据具体情况灵活调整这些参数，以达到最佳效果。希望本文提供的建议对读者有所帮助。

图灵汇

责任编辑：：品评科技网

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

阅历 Streaming 实际分享 Spark

微软科技

2019-11-06

机器学习评价目的 AUC 综述