Hadoop生态圈

cc • 2022-02-07 23:15 • 好物分享

参考链接
1.为什么需要分布式计算系统？
当前大数据的数据量已达PB级别（1PB=1024TB），可以说是庞大无比。同时数据还有结构化（如数字、符号等）、非结构化（如文本、图像、声音、视频等）之分，兼具大量、复杂的特点，使得如何又快又好又便宜得进行大数据的存储，管理和处理变成一个亟待解决的问题。
于是分布式计算作为一种低成本的方案被提出来了。
原理：把一组计算机通过网络相互连接组成分散系统，尽管分散系统内的单个计算机的计算能力不强，但是每个计算机只计算一部分数据，多台计算机同时计算，最后将这些计算结果合并得到最终的结果。就整个分散系统而言，处理数据的速度远高于单个计算机，且比集中式计算的大型机要划算的多。

2.三者的介绍：
· Hadoop用于离线复杂大数据处理
·Spark 用于离线快速的大数据处理
·Flink 用于在线实时的大数据处理。
3.三者之间的关联：
Spark分布式计算是在Hadoop分布式计算的基础上进行的一些架构上的改良。
Spark与Hadoop最大的不同点在于，Hadoop用硬盘存储数据，而S

Hadoop生态圈最先出现在Python成神之路。

版权声明：
作者：cc
链接：https://www.techfm.club/p/16241.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

SQL76 考试分数(五)

< <上一篇

Bomb Game

下一篇>>

搜索内容

Hadoop生态圈

取消回复

共有 0 条评论

Ads