Spark学习之路（十七）Spark分区

• 2019年06月17日

** Spark学习之路（十七）Spark分区：** <Excerpt in index | 首页摘要> 　　分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因此任务的个数，也是由RDD(准确来说是作业最后一个RDD)的分区数决定。…

Spark学习之路（十六）SparkCore的源码解读（二）spark-submit提交脚本

• 2019年06月16日

** Spark学习之路（十六）SparkCore的源码解读（二）spark-submit提交脚本：** <Excerpt in index | 首页摘要> Spark学习之路（十六）SparkCore的源码解读（二）spark-submit提交脚本…

Spark学习之路（十五）SparkCore的源码解读（一）启动脚本

• 2019年06月15日

** Spark学习之路（十五）SparkCore的源码解读（一）启动脚本：** <Excerpt in index | 首页摘要> Spark学习之路（十五）SparkCore的源码解读（一）启动脚本…

Spark学习之路（十四）SparkCore的调优之资源调优JVM的GC垃圾收集器

• 2019年06月14日

** Spark学习之路（十四）SparkCore的调优之资源调优JVM的GC垃圾收集器：** <Excerpt in index | 首页摘要> 垃圾收集 Garbage Collection 通常被称为“GC”，它诞生于1960年 MIT 的 Lisp 语言，经过半个多世纪，目前已经十分成熟了。 jvm 中，程序计数器、虚拟机栈、本地方法栈都是随线程而生随线程而灭，栈帧随着方法的进入和退出做入栈和出栈操作，实现了自动的内存清理，因此，我们的内存垃圾回收主要集中于 java 堆和方法区中，在程序运行期间，这部分内存的分配和使用都是动态的。…

Spark学习之路（十三）SparkCore的调优之资源调优JVM的基本架构

• 2019年06月13日

** Spark学习之路（十三）SparkCore的调优之资源调优JVM的基本架构：** <Excerpt in index | 首页摘要> Spark学习之路（一）Spark初识…

Spark学习之路（十二）SparkCore的调优之资源调优

• 2019年06月12日

** Spark学习之路（十二）SparkCore的调优之资源调优：** <Excerpt in index | 首页摘要> 在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效率低下，甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个清晰的认识，并知道在Spark作业运行过程中，有哪些资源参数是可以设置的，以及如何设置合适的参数值。…

Spark学习之路（十一）SparkCore的调优之Spark内存模型

• 2019年06月11日

** Spark学习之路（十一）SparkCore的调优之Spark内存模型：** <Excerpt in index | 首页摘要> Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者有一定的 Spark 和 Java 基础，了解 RDD、Shuffle、JVM 等相关概念。在执行 Spark 的应用程序时，Spark 集群会启动 Driver 和 Executor 两种 JVM 进程，前者为主控进程，负责创建 Spark 上下文，提交 Spark 作业（Job），并将作业转化为计算任务（Task），在各个 Executor 进程间协调任务的调度，后者负责在工作节点上执行具体的计算任务，并将结果返回给 Driver，同时为需要持久化的 RDD 提供存储功能[1]。由于 Driver 的内存管理相对来说较为简单，本文主要对 Executor 的内存管理进行分析，下文中的 Spark 内存均特指 Executor 的内存。…

Spark学习之路（十）SparkCore的调优之Shuffle调优

• 2019年06月10日

** Spark学习之路（十）SparkCore的调优之Shuffle调优：** <Excerpt in index | 首页摘要> 大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此大家务必把握住调优的基本原则，千万不要舍本逐末。下面我们就给大家详细讲解shuffle的原理，以及相关参数的说明，同时给出各个参数的调优建议。…

Spark学习之路（九）SparkCore的调优之数据倾斜调优

• 2019年06月09日

** Spark学习之路（九）SparkCore的调优之数据倾斜调优：** <Excerpt in index | 首页摘要> 有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。…

cache和persist的区别

• 2019年06月08日

** cache和persist的区别：** <Excerpt in index | 首页摘要> cache和persist都是用于将一个RDD进行缓存的，这样在之后使用的过程中就不需要重新计算了，可以大大节省程序运行时间。…