大数据之Hadoop

感冒的梵高 • 2023-05-16 23:50 • 杂文

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（Hadoop Distributed File System）。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

Hadoop 2.x MapReduce中剥离出了资源分配的Yarn。

HDFS

分布式文件系统（Hadoop Distributed File System）

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。

MapReduce

分布式计算系统编程模型

MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷主要是为了解决其搜索引擎中大规模网页数据的并行化处理。Google公司发明了MapReduce之后首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于MapReduce可以普遍应用于很多大规模数据的计算问题，因此自发明MapReduce以后，Google公司内部进一步将其广泛应用于很多大规模数据处理问题。Google公司内有上万个各种不同的算法问题和程序都使用MapReduce进行处理。

Hadoop部署问题

部署配置

部署规划

	hadoop102 /hdp02	hadoop103/hdp03	hadoop104/hdp04
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager JobHistoryServer	ResourceManager NodeManager	NodeManager

常用端口

端口名称	Hadoop2.x	Hadoop3.x
NameNode内部通信端口	8020 / 9000	8020 / 9000/9820
NameNode HTTP UI	50070	9870
MapReduce查看执行任务端口	8088	8088
历史服务器通信端口	19888	19888

版权声明：
作者：感冒的梵高
链接：https://www.techfm.club/p/47481.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

大数据

二维码

幻想日记恶魔的战斗

< <上一篇

人生起伏，做到冷暖无忧

下一篇>>

搜索内容

大数据之Hadoop

Hadoop

HDFS

MapReduce

YARN

Hbase

Spark

Hadoop部署问题

部署配置

取消回复

共有 0 条评论

Ads