申请免费体验一次课程

Hadoop海量数据实时处理

New Horizons的Hadoop海量数据实时管理课程旨在帮助您成为顶级的Hadoop开发人员。在本课程中,我们的专家教练将帮助您:

  • 掌握HDFS和MapReduce框架的概念

  • 了解Hadoop 2.x体系结构

  • 设置Hadoop群集并编写复杂的MapReduce程序

  • 使用Sqoop和Flume了解数据加载技术

  • 使用Pig,Hive和YARN执行数据分析

  • 实现HBase和MapReduce集成

  • 实施高级使用和索引

  • 使用Oozie计划作业

  • 实施Hadoop开发的最佳实践

  • 在现实生活中的大数据项目分析

  • 了解Spark及其生态系统

  • 学习如何在Spark中使用RDD

适合群体

大数据分析市场在全球不断增长,这种强劲的增长为所有IT专业人士带来了巨大的机会。以下领域的专业人员掌握大数据技术将对职业发展直接受益。

  • 开发工程师和架构师

  • BI/ETL/DW专业人员

  • 高级IT专业人员

  • 测试专业人员

  • 主机专业人员

  • 其他对Hadoop感兴趣的人士

对本课程针对具备一定Java和SQL技术基础的您而设计,欢迎详询。

课程周期
3天
课程内容

1.了解大数据和Hadoop     
在本单元中,您将了解大数据,大数据问题现有解决方案的局限性,Hadoop如何解决大数据问题,常见的Hadoop生态系统组件,Hadoop架构,HDFS,文件写入和读取解析, MapReduce框架如何工作。

2. Hadoop架构和HDFS     
在本单元中,您将学习Hadoop集群架构,Hadoop集群中的重要配置文件,数据加载技术,如何设置单节点和多节点hadoop集群。

3. Hadoop MapReduce框架     
在本单元中,您将了解Hadoop MapReduce框架和MapReduce对存储在HDFS中的数据的工作。您将了解使用不同数据集的MapReduce中的输入拆分,组合器和分区器以及MapReduce上的演示等概念。

4.高级MapReduce     
计数器,分布式缓存,MRunit,减少连接,自定义输入格式,序列输入格式,Xml文件使用MapReduce解析。

5.Pig    
在本单元中,您将学习Pig,使用案例的类型,Pig和MapReduce之间的紧耦合,Pig Latin脚本,PIG运行模式,PIG UDF,Pig Streaming,测试PIG脚本。

6.Hive    
此模块将帮助您了解Hive概念,Hive数据类型,在Hive中加载和查询数据,运行hive脚本和Hive UDF。

7.高级Hive和HBase    
在本单元中,您将了解高级Hive概念,如UDF,动态分区,Hive索引和视图,hive中的优化。您还将获得有关HBase,HBase架构,运行模式及其组件的深入知识。

8.高级HBase     
此模块将涵盖高级HBase概念。我们将在批量加载,过滤器上看到演示。你还将了解Zookeeper是什么,它如何帮助监控集群,为什么HBase使用Zookeeper。

9.使用Apache Spark处理分布式数据     
在本单元中,您将学习Spark生态系统及其组件,如何在Spark,SparkContext中使用scala。你将学习如何在Spark中的RDD工作。演示将在Spark Cluster上运行应用程序,比较MapReduce和Spark的性能。

10. Oozie和Hadoop项目
本单元中,您将了解在Hadoop实现中多个Hadoop生态系统组件的工作,以解决大数据问题。我们将讨论项目的多个数据集和规范。该模块还将涵盖Flume&Sqoop演示,用于Hadoop作业的Apache Oozie工作流调度程序和Hadoop Talend集成。

本门课程提供半天的免费试听名额,感兴趣请填写以下表格

姓名: *
联系电话: *
邮箱: *
补充咨询:
扫一扫