Hadoop课程(基于hadoop的课程设计)

健康新闻 2023-05-01 10:08健康生活www.xingbingw.cn

  Hadoop课程(基于hadoop的课程设计),新营销网红网本栏目通过数据整理汇集了Hadoop课程(基于hadoop的课程设计)相关信息,下面一起看看。

  朋友们,你们好!

  欢迎来到数据与智能课堂。今天的课程内容是《Hadoop生态系统》。

  本内容将分为四个部分Hadoop的介绍、Hadoop的特点、Hadoop1.0和2.0的区别、Hadoop生态系统的构成。

   1.Hadoop简介

  说到hadoop,不得不提一个人,——Doug Cutting,他是hadoop之父,也是Apache Lucene的创始人。

   Hadoop是Apache下的开源分布式计算平台,可以运行在计算机集群上,提供可靠的、可扩展的分布式计算功能。Hadoop的核心是分布式文件系统(HDFS)和并行编程框架MapReduce。

   Hadoop与三篇论文密切相关

   2003年Google发表的分布式文件系统GFS的论文,可以用来解决海量数据存储的问题。

   2004年Google发表了一篇关于MapReduce的论文,可以用来解决海量数据计算的问题。

   2006年,Google发布了BigTable的论文,这是一个以GFS为底层数据存储的分布式存储系统。

   2003年关于Google分布式文件系统GFS的年度Google论文,2004年关于MapReduce的论文,2006年关于BigTable的论文GFS、MapReduce和BigTable就是我们常说的“三驾马车”。

   Hadoop与这三篇论文的关系如下

   Hadoop中的HDFS是GFS的开源实现;Hadoop中的MapReduce是Google MapReduce的开源实现;Hadoop中的HBase是Google BigTable的开源实现。

   2.Hadoop的特点

  跨平台hadoop基于java语言开发,具有良好的跨平台性,可以运行在Linux平台上;

  高可靠性hadoop中的HDFS是一个分布式文件系统,可以存储冗余分布在不同机器节点上的海量数据。即使一个机器副本出现故障,其他机器副本也能正常运行;

  高容错性HDFS将文件分布存储在多个不同的机器节点上,可以自动保存多个副本,某个节点上的任务出现故障后可以自动重新分配;

  效率hadoop的核心组件HDFS和MapReduce负责分布式存储和分布式处理,可以处理PB级数据;

  低成本高扩展hadoop可以运行在廉价的计算机集群上,所以成本相对较低,可以扩展到上千个计算机节点,完成海量数据的存储和计算。

   3.Hadoop 1.0和2.0的区别

   Hadoop1.0和2.0最大的区别是hadoop2.0在Hadoop 1.0的基础上增加了一个yarn框架。

   Hadoop1.0由hdfs、MapReduce等组件组成。

   Hdfs负责数据存储,MapReduce负责数据计算和资源调度(数据处理过程中要分配资源,比如CPU多少,内存多少,磁盘多少等。).

   Hadoop2.0由hdfs、MapReduce、yarn等组件组成。

   Hdfs负责数据存储,MapReduce负责数据计算,yarn负责资源调度。

   4.Hadoop生态系统的组成

   Hadoop有HDFS和MapReduce两个核心组件,还包括yarn、hbase、hive、pig、mahout、zookeeper、sqoop、flume和Apache Ambari等功能组件。

   HDFS:hadoop分布式文件系统,可以运行在大型廉价的计算机集群上,以流的方式读取和处理海量文件。HDFS要掌握的概念有Namenode、DataNode、二级NameNode,后面会有专门一章讲解。

   Yarn:资源调度和管理框架,包括ResourceManager、ApplicationMaster和NodeManager。ResourceManager负责资源管理,ApplicationMaster负责任务调度和监控,NodeManager负责任务执行。

   MapReduce:分布式并行编程框架,核心思想是“分而治之”。MapReduce=地图缩减.Map函数负责分片,reduce函数负责整合和归约。

   HBase:是Google bigtable的开源实现。它不同于传统的关系数据库,因为它是基于列存储的。传统数据库基于行存储,HBase基于列存储,具有高效可靠处理非结构化数据的能力。

   Hive:是基于hadoop的数据仓库工具,可以简单处理数据集。它有一个类似sql的查询语言hive-sql。

   Pig:是一种数据流语言,提供了一种类似sql的语言pig latin,可以用来查询半结构化数据集。

   Mahout:是Apache的开源项目,提供分类、聚类、过滤等机器学习领域的一些经典算法。

   Zookeeper:是一个高效可靠的分布式协同工作系统。

   SQOOP:SQL-to-hadoop的缩写,意思是在关系数据库和Hadoop之间交换数据。

   Flume:一个海量日志收集、聚合和传输系统。它还可以简单地处理数据。

   (11) Apache Ambari:是一个支持Apache Hadoop集群安装、部署、配置和管理的工具。

  相关文章粤语歌网(经典粤语歌汇总)

  北京奥特莱斯(来北京必去的12家商场)

  英雄超级放肆(还记得英雄超级放肆吗?)

  龚自珍资料(清代诗人龚自珍生平事迹简介)

  象牙塔是什么意思?(“象牙塔”有什么不好?)

  彩色风信子(水培风信子容易养)

  京字怎么读?

  于吉是哪里人?(古代著名美女于吉在哪里?)

  三本事业单位(我们还有哪些“三本”?)

  电子酒柜(酒柜最全指南)

  德州景点(德州62个景点)

  玉兰油官网(玉兰油发布高端精华系列)

  更多Hadoop课程(基于hadoop的课程设计)相关信息请关注本文章,本文仅仅做为展示!

Copyright@2015-2025 www.xingbingw.cn 性病网版板所有