logo头像
Snippet 博客主题

Parquet文件存储格式

** Parquet文件存储格式:** <Excerpt in index | 首页摘要> ​ Parquet文件存储格式…

数据集网站汇总

** 数据集网站汇总:** <Excerpt in index | 首页摘要> ​ 如果用一个句子总结学习数据科学的本质,那就是: 学习数据科学的最佳方法就是应用数据科学。 如果你是一个初学者,你每完成一个新项目后自身能力都会有极大的提高,如果你是一个有经验的数据科学专家,你已经知道这里所蕴含的价值。…

RDD、DataFrame和DataSet的区别是什么

** RDD、DataFrame和DataSet的区别是什么:** <Excerpt in index | 首页摘要> ​ RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同:DataFrame多了数据的结构信息,即schema。RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。…

Spark学习之路 (十七)Spark分区

** Spark学习之路 (十七)Spark分区:** <Excerpt in index | 首页摘要>   分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。…

Spark学习之路 (十四)SparkCore的调优之资源调优JVM的GC垃圾收集器

** Spark学习之路 (十四)SparkCore的调优之资源调优JVM的GC垃圾收集器:** <Excerpt in index | 首页摘要> ​ 垃圾收集 Garbage Collection 通常被称为“GC”,它诞生于1960年 MIT 的 Lisp 语言,经过半个多世纪,目前已经十分成熟了。 jvm 中,程序计数器、虚拟机栈、本地方法栈都是随线程而生随线程而灭,栈帧随着方法的进入和退出做入栈和出栈操作,实现了自动的内存清理,因此,我们的内存垃圾回收主要集中于 java 堆和方法区中,在程序运行期间,这部分内存的分配和使用都是动态的。…