Hadoop生态圈

参考链接
1.为什么需要分布式计算系统?
当前大数据的数据量已达PB级别(1PB=1024TB),可以说是庞大无比。同时数据还有结构化(如数字、符号等)、非结构化(如文本、图像、声音、视频等)之分,兼具大量、复杂的特点,使得如何又快又好又便宜得进行大数据的存储,管理和处理变成一个亟待解决的问题。
于是分布式计算作为一种低成本的方案被提出来了。
原理:把一组计算机通过网络相互连接组成分散系统,尽管分散系统内的单个计算机的计算能力不强,但是每个计算机只计算一部分数据,多台计算机同时计算,最后将这些计算结果合并得到最终的结果。就整个分散系统而言,处理数据的速度远高于单个计算机,且比集中式计算的大型机要划算的多。

2.三者的介绍:
· Hadoop用于离线复杂大数据处理
·Spark 用于离线快速的大数据处理
·Flink 用于在线实时的大数据处理。
3.三者之间的关联:
Spark分布式计算是在Hadoop分布式计算的基础上进行的一些架构上的改良。
Spark与Hadoop最大的不同点在于,Hadoop用硬盘存储数据,而S

Hadoop生态圈最先出现在Python成神之路

版权声明:
作者:cc
链接:https://www.techfm.club/p/16241.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>