05-SparkRDD原理和编程接口

1.弹性分布式数据集RDD
1.1.RDD概述
1.1.1.什么是RDD
RDD(Resilient Distributed DataSet)弹性分布式数据集。是spark中最基本的数据抽象,是一个不可变的、可分区的、可并行计算的集合。
Resilient:数据可以选择性的存储在内存中,或者磁盘中
Distributed:分布式存储、分布式计算
DataSet:用于存放数据的数据集合
1.1.2.RDD的属性
A list of partitions:分区列表,数据集基本组成单位 说明:每个分区对应一个计算任务,决定并行计算的粒度。比如:读取hdfs上数据文件产生的RDD分区数,与数据存储block的个数相等 A function for computing each split:计算每个分区的函数 比如:在单词计数任务中的textFile、flatMap、map等函数 A list of

05-SparkRDD原理和编程接口最先出现在Python成神之路

版权声明:
作者:lichengxin
链接:https://www.techfm.club/p/25496.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>