Spark学习之路（十二）SparkCore的调优之资源调优

• 2019年06月12日

** Spark学习之路（十二）SparkCore的调优之资源调优：** <Excerpt in index | 首页摘要> 在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效率低下，甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个清晰的认识，并知道在Spark作业运行过程中，有哪些资源参数是可以设置的，以及如何设置合适的参数值。…

Spark学习之路（十一）SparkCore的调优之Spark内存模型

• 2019年06月11日

** Spark学习之路（十一）SparkCore的调优之Spark内存模型：** <Excerpt in index | 首页摘要> Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者有一定的 Spark 和 Java 基础，了解 RDD、Shuffle、JVM 等相关概念。在执行 Spark 的应用程序时，Spark 集群会启动 Driver 和 Executor 两种 JVM 进程，前者为主控进程，负责创建 Spark 上下文，提交 Spark 作业（Job），并将作业转化为计算任务（Task），在各个 Executor 进程间协调任务的调度，后者负责在工作节点上执行具体的计算任务，并将结果返回给 Driver，同时为需要持久化的 RDD 提供存储功能[1]。由于 Driver 的内存管理相对来说较为简单，本文主要对 Executor 的内存管理进行分析，下文中的 Spark 内存均特指 Executor 的内存。…

Spark学习之路（十）SparkCore的调优之Shuffle调优

• 2019年06月10日

** Spark学习之路（十）SparkCore的调优之Shuffle调优：** <Excerpt in index | 首页摘要> 大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此大家务必把握住调优的基本原则，千万不要舍本逐末。下面我们就给大家详细讲解shuffle的原理，以及相关参数的说明，同时给出各个参数的调优建议。…

Spark学习之路（九）SparkCore的调优之数据倾斜调优

• 2019年06月09日

** Spark学习之路（九）SparkCore的调优之数据倾斜调优：** <Excerpt in index | 首页摘要> 有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。…

cache和persist的区别

• 2019年06月08日

** cache和persist的区别：** <Excerpt in index | 首页摘要> cache和persist都是用于将一个RDD进行缓存的，这样在之后使用的过程中就不需要重新计算了，可以大大节省程序运行时间。…

Spark学习之路（八）SparkCore的调优之开发调优

• 2019年06月08日

** Spark学习之路（八）SparkCore的调优之开发调优：** <Excerpt in index | 首页摘要> 在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark作业进行合理的调优，Spark作业的执行速度可能会很慢，这样就完全体现不出Spark作为一种快速大数据计算引擎的优势来。因此，想要用好Spark，就必须对其进行合理的性能优化。…

Spark学习之路（七）Spark 运行流程

• 2019年06月07日

** Spark学习之路（七）Spark 运行流程：** <Excerpt in index | 首页摘要> Spark学习之路（七）Spark 运行流程…

map与flatMap的区别

• 2019年06月06日

** map与flatMap的区别：** <Excerpt in index | 首页摘要> map与flatMap的区别…

Spark学习之路（五）Spark伪分布式安装

• 2019年06月05日

** Spark学习之路（五）Spark伪分布式安装：** <Excerpt in index | 首页摘要> Spark学习之路（五）Spark伪分布式安装…

Spark学习之路（四）Spark的广播变量和累加器

• 2019年06月04日

** Spark学习之路（四）Spark的广播变量和累加器：** <Excerpt in index | 首页摘要> 在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的，但是，Spark还是为两种常见的使用模式提供了两种有限的共享变量：广播变（broadcast variable）和累加器（accumulator）…