Hadoop-MapReduce知识点总结
目录
一、常识
二、MapReduce的计算流程
三、MapReduce 的架构
四、MapReduce 案例分析
五、MapReduce 源码分析
六、面试题
一、常识
mapreduce必须构建在hdfs之上一种大数据离线计算框架 计算向数据靠拢,将计算传递给有数据的节点上进行工作 mapreduce不会马上得到结果,他会有一定的延时
二、MapReduce的计算流程
2.1复述过程
从HDFS上拉取Block用于计算,可能Block小于计算节点的数量,为了动态的调整本次参数计算的节点的数据,为了使得计算块的数量和集群的计算能力匹配,对Block进行split切片操作,split是一种逻辑概念,在不改变现在数据存储的情况下,可以控制参与计算的节点数目。一般切片大小为Block块的整数倍(1/2倍 ,2倍等)。 一个split切片对应一个map,及一个MapTask。Map开始从对应的切片读取数据,最终读取的是Block的数据,默认的读取器每次从Block读取一行数据,读到内存中,根据自己写的map方
共有 0 条评论