hadoop分布式系统基础架构v3.3.0 官方版

2023-03-10发布者:涂涂小可爱大小: 下载:0

文件大小:

软件介绍

hadoop是什么?

hadoop是一个用于运行应用程序在大型集群的廉价硬件设备上的框架.hadoop为应用程序透明的提供了一组稳定/可靠的接口和数据运动.在hadoop中实现了google的mapreduce算法,它能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执行.此外,hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据,并提供了对数据读写的高吞吐率.由于应用了map/reduce和分布式文件系统使得hadoop框架具有高容错性,它会自动处理失败节点.已经在具有600个节点的集群测试过hadoop框架.

image.png

hadoop分布式文件系统功能

1、在hdfs中提供了完整的https支持

2、通过抢占yarn capacityscheduler支持强服务等级协议sla、

3、提供hdfs中的滚动升级原生支持

4、支持hdfs中的访问控制列表

5、使用protocol-buffer对hdfs fsimage平稳运维升级

6、通过应用历史服务和应用时间轴服务增强对yarn新应用的支持

7、支持yarn资源管理器resourcemanager、的自动故障切换

整体框架

1、hdfs是一个分布式文件系统,有着高容错性的特点,适合那些超大数据集的应用程序;

2、hive是基于hadoop的一个工具,提供完整的sql查询,可以将sql语句转换为mapreduce任务进行运行;

3、pig是一个基于hadoop的大规模数据分析平台,pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口;

4、zookeeper:高效的,可拓展的协调系统,存储和协调关键共享状态;

5、mapreduce是一种编程模型,用于大规模数据集大于1tb、的并行运算;

6、hbase是一个开源的,基于列存储模型的分布式数据库;

菜鸟教程

1、完全分布式安装


完全分布式模式才是生产环境采用的模式,hadoop 运行在服务器集群上,生产环境一般都会做ha,以实现高可用.


2、hadoop本地模式安装


hadoop 本地模式只是用于本地开发调试,或者快速安装体验 hadoop,这部分做简单的介绍.


3、linux环境安装


hadoop是运行在linux,虽然借助工具也可以运行在windows上,但是建议还是运行在linux系统上,第一部分介绍linux环境的安装、配置、java jdk安装等.


4、hadoop ha安装


ha是指高可用,为了解决hadoop单点故障问题,生产环境一般都做ha部署.这部分介绍了如何配置hadoop2.x的高可用,并简单介绍了ha的工作原理.


安装过程中,会穿插简单介绍涉及到的知识.希望能对大家有所帮助.?


5、hadoop伪分布式模式安装


学习 hadoop 一般是在伪分布式模式下进行.这种模式是在一台机器上各个进程上运行 hadoop 的各个模块,伪分布式的意思是虽然各个模块是在各个进程上分开运行的,但是只是运行在一个操作系统上的,并不是真正的分布式.

image.png

发表评论(共0条评论)
请自觉遵守互联网相关政策法规,评论内容只代表网友观点,发表审核后显示!

版权声明:

1 本站所有资源(含游戏)均是软件作者、开发商投稿,任何涉及商业盈利目的均不得使用,否则产生的一切后果将由您自己承担!

2 本站将不对任何资源负法律责任,所有资源请在下载后24小时内删除。

3 若有关在线投稿、无法下载等问题,请与本站客服人员联系。

4 如侵犯了您的版权、商标等,请立刻联系我们并具体说明情况后,本站将尽快处理删除,联系QQ:2499894784

返回顶部