Spark之累加器

主机优惠 • 2022-02-13 14:04 • 好物分享

一、系统累加器
累加器：分布式共享只写变量。（Executor和Executor之间不能读数据）
累加器用来把Executor端变量信息聚合到Driver端。在Driver中定义的一个变量，在Executor端的每个task都会得到这个变量的一份新的副本，每个task更新这些副本的值后，传回Driver端进行合并计算。

定义：SparkContext.accumulator(initialValue)方法
object accumulator01_system {
def main(args: Array[String]): Unit = {
val conf: SparkConf = new SparkConf()
.setAppName("WC")
.setMaster("local[*]")
val sc: SparkContext = new SparkContext(conf)
val dataRDD: RDD[(Strin

Spark之累加器最先出现在Python成神之路。

版权声明：
作者：主机优惠
链接：https://www.techfm.club/p/20168.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

linux驱动与寻址内存映射

< <上一篇

uboot移植

下一篇>>

搜索内容

Spark之累加器

取消回复

共有 0 条评论

Ads