前面一篇文章提到大数据开发-Spark Join原理详解,本文从源码角度来看cogroup 的join实现 1.分析下面的代码 import org.apache.spark.rdd.RDD impo……继续阅读 » 2年前 (2022-03-19) 2913浏览 0评论2988个赞
1.Spark计算依赖内存,如果目前只有10g内存,但是需要将500G的文件排序并输出,需要如何操作? ①、把磁盘上的500G数据分割为100块(chunks),每份5GB。(注意,要留一些系统空间!……继续阅读 » 3年前 (2021-01-31) 1631浏览 0评论1676个赞