Hadoop（10）：MapReduce程序运行模式

感冒的梵高 • 2022-01-19 20:33 • 好物分享

1.MapReduce 的输入和输出

MapReduce 框架运转在键值对上，也就是说，框架把作业的输入看成是一组键值对，同样也产生一组键值对作为作业的输出，这两组键值对可能是不同的。

一个 MapReduce 作业的输入和输出类型如下图所示：可以看出在整个标准的流程中，会有三组键值对类型的存在。

2.MapReduce 的处理流程解析
2.1Mapper 任务执行过程详解

第一阶段是把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。默认情况下，Split size = Block size。每一个切片由一个MapTask 处理。（getSplits）第二阶段是对切片中的数据按照一定的规则解析成对。默认规则是把每一行文本内容解析成键值对。key 是每一行的起始位置(单位是字节)，value 是本行的文本内容。（TextInputFormat）第三阶段是调用 Ma

Hadoop（10）：MapReduce程序运行模式最先出现在Python成神之路。

版权声明：
作者：感冒的梵高
链接：https://www.techfm.club/p/14841.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

nginx配置前缀后前端404问题解决

< <上一篇

微服务注册中心Nacos底层源码分析

下一篇>>

搜索内容

Hadoop（10）：MapReduce程序运行模式

取消回复

共有 0 条评论

Ads