RDD基本概念与算子

RDD
1、什么是RDD1.1、RDD五大核心属性
2、RDD转换算子2.1、单value2.2、双value2.3、Key-Value
3、RDD行为算子

1、什么是RDD
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。
弹性 存储的弹性:内存与磁盘的自动切换; 容错的弹性:数据丢失可以自动恢复; 计算的弹性:计算出错重试机制; 分片的弹性:可根据需要重新分片。分布式:数据存储在大数据集群不同节点上数据集:RDD 封装了计算逻辑,并不保存数据数据抽象:RDD 是一个抽象类,需要子类具体实现不可变:RDD 封装了计算逻辑,是不可以改变的,想要改变,只能产生新的 RDD,在新的 RDD 里面封装计算逻辑可分区、并行计算

RDD基本概念与算子最先出现在Python成神之路

版权声明:
作者:感冒的梵高
链接:https://www.techfm.club/p/13929.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>