Hadoop(10):MapReduce程序运行模式

1.MapReduce 的输入和输出

MapReduce 框架运转在键值对上,也就是说,框架把作业的输入看成是一组键值对,同样也产生一组键值对作为作业的输出,这两组键值对可能是不同的。

一个 MapReduce 作业的输入和输出类型如下图所示:可以看出在整个标准的流程中,会有三组键值对类型的存在。

2.MapReduce 的处理流程解析
2.1Mapper 任务执行过程详解

第一阶段是把输入目录下文件按照一定的标准逐个进行逻辑切片,形成切片规划。默认情况下,Split size = Block size。每一个切片由一个MapTask 处理。(getSplits)  第二阶段是对切片中的数据按照一定的规则解析成对。默认规则是把每一行文本内容解析成键值对。key 是每一行的起始位置(单位是字节),value 是本行的文本内容。(TextInputFormat)第三阶段是调用 Ma

Hadoop(10):MapReduce程序运行模式最先出现在Python成神之路

版权声明:
作者:感冒的梵高
链接:https://www.techfm.club/p/14841.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>