大数据方法论之优化Map-Reduce过程

congcong • 2021-12-22 21:37 • 好物分享

大家在写Map-Reduce程序的时候，有时候会发现任务执行时间太长了，可通过下面的方法进行优化。
在Map-Reduce过程中有Counter

首先可以优化Map任务的个数：
Map任务的个数是由Input Splits的个数确定的，每个Input Split对应于一个HDFS文件块。
可通过mapred.min.split.size修改map的个数。
如果一个HDFS文件块里面包含的任务数目太多，例如每一个url是一个视频的链接，但是url占不了几个字符，所以很可能一个HDFS块里面包含了所有的视频的url，则一个map任务处理所有的视频，显然并行不起来。这可以使用NLineInputFormat，几行形成一个map任务，而非整个HDFS文件块作为一个map任务。
如果每个源文件太小，例如每个文件1k，则每个文件一个map任务，这样并行的任务太多了，因而可以使用CombineFileInputFormat，减少并行的数目。
更多的map任务代表着更好的并行度，会使得任务执行速度加快。而且如果任务失败的时候，可以重新执

大数据方法论之优化Map-Reduce过程最先出现在Python成神之路。

版权声明：
作者：congcong
链接：https://www.techfm.club/p/10466.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

当发现你的OpenStack虚拟机网络有问题，不妨先试一下这16个步骤

< <上一篇

玩转Openvswitch第十站：Flow Table

下一篇>>

搜索内容

大数据方法论之优化Map-Reduce过程

取消回复

共有 0 条评论

Ads