close
登录/ 注册
大数据架构师实战班
打造全网项目贯穿式教学,20周积累三年大数据工作经验拉开薪资差距,就在这20周!
¥8999
即将涨价至
¥ 12999
限时优惠
立即报名
01. Linux 操作系统
02. Hadoop 生态圈
03. Hive
04. HBase
05. Zookeeper
06. Sqoop
07. Flume
08. Oozie
09. Scala
10. Kafka
11. Spark Core
12. Spark SQL
13. Spark Streaming
14. Storm
01. Linux 操作系统
在企业中无一例外的是使用 Linux 来搭建或部署项目,在平常我们也经常在 Linux 环境下进行开发。进入大数据领域就要打好 Linux 基础,以便更好地学习 Hadoop,Kafka,Spark,Storm 等众多课程。
  • 1.linux 来源与发展概况
  • 2.Linux 目前的发行版
  • 3.Linux 系统安装与流程说明
  • 4.Linux ⽬录结构介绍
  • 5.Linux 目录完整参数列表说明
  • 6.Linux 过滤目录输出列表
  • 7.Linux 常⽤文件命令:创建文件、复制文件、链接文件、重命名文件、删除文件
  • 8.Linux 常用目录命令:创建目录、删除目录
  • 9.Linux 查询文件统计信息
  • 10.Linux 查看文件类型
  • 11.Linux 查看整个文件、查看部分文件
  • 12.Linux 文件权限说明及权限修改
  • 13.Linux 压缩解压缩数据文件
  • 14.Liunx 检测磁盘空间
  • 15.Linux⽤户与⽤户组,添加新用户,删除新用户,添加用户组和修改组
  • 16.Linux sudo 权限说明
  • 17.Linux 环境配置讲解、全局环境变量和局部环境变量、删除环境变量、设置 PATH
  • 18.Linux vim 编辑器基础,编辑数据,复制和粘贴,查找和替换
  • 19.Linux 进程: 探查进程,实时检测进程,结束进程
  • 20.Linux Shell 脚本编程基础
  • 21.Linux Shell 结构化指令,for 循环,if else 语句详解
  • 22.Linux 符号,输入输出重定向,管道符号说明
  • 23.Linux Shell 脚本任务调度
02. Hadoop 生态圈(离线计算)
Hadoop 是一种分析和处理大数据的软件平台,是 Appach 的一个用 Java 语言所实现的开源软件的加框,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。在本章节中不仅将用到前面的 Linux 知识,而且会对 hadoop 的架构有深入的理解,并未你以后架构大数据项目打下坚实基础。
hadoop
  • 1.hadoop 介绍,发展简史,诞生来由
  • 2.hadoop 生态圈体系结构,组件说明
  • 3.hadoop 伪分布式环境搭建及完全分布式环境说明
HDFS
  • 1.HDFS 分布式文件系统说明
  • 2.HDFS block 概念
  • 3.HDFS namenode ,datanode 详解
  • 4.HDFS HA 详解
  • 5.HDFS 命令行接口,读取数据
  • 6.HDFS 命令行接口,写⼊数据
  • 7.HDFS 命令行接口,删除数据
  • 8.HDFS 命令行接口,distcp 跨集群分布式拷 数据
  • 9.HDFS 压缩和分片
  • 10.HDFS 文件格式:textfile,sequencefile,rcfile,orcfile,parquet
  • 11.HDFS 各类文件格式比较
YARN
  • 1.经典的 Mapreduce 1 结构弊端
  • 2.Mapreduce 2 中 YARN 的引入
  • 3.YARN 的核心结构说明
  • 4.YARN 的⼯作机制
  • 5.YARN 的架构剖析
  • 6.YARN 内置调度器:公平调度和容量调度
  • 7.YARN 上任务的执行环境
  • 8.YARN 上任务的推测执行机制
  • 9.YARN 上任务的 JVM 重用
Mapreduce
  • 1.MapReduce 整体流程说明
  • 2.MapReduce 目录输入,多目录输入,inputformat 子类介绍
  • 3.Mapreduce map 过程
  • 4.Mapreduce combine 过程
  • 5.Mapreduce reduce 过程
  • 6.Mapreduce 结果输出,outputformat 子类介绍
  • 7.MapReduce 世界的 helloword 之 wordcount 操作演练
  • 8.MapReduce Wordcount 项⽬打包,运⾏
  • 9.MapReduce 内置计数器含义讲解
  • 10.Mapreduce 实例讲解之全排序
  • 11.Mapreduce 实例讲解之部分排序
  • 12.Mapreduce 实例讲解之 join map 端连接
  • 13.Mapreduce 实例讲解之 join reduce 端连接
  • 14.Mapreduce 实例讲解之 ⼤矩阵相乘
  • 15.Mapreduce 自定义的 format
  • 16.Mapreduce MRUnit 单元测试使用
Hadoop Streaming
  • 1.hadoop streaming 引入的目的
  • 2.Hadoop streaming 机制讲解
  • 3.使⽤Python 编写 hadoop streaming
  • 4.使⽤Shell 编写 hadoop streaming
03. Hive(数据仓库)
是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的MapReduce 应用,十分适合数据仓库的统计分析 。Hive 是工作中最常用到的部分,也是面试的重点
  • 1.Hive 简介
  • 2.Hive Hbase Pig 三者的不同点
  • 3.Hive 系统架构
  • 4.Hive 安装搭建与常用参数配置
  • 5.Hive shell 命令使用
  • 6.Hive 数据库数据表操作
  • 7.Hive 数据导出
  • 8.Hive 数据加载
  • 9.Hive 外部表与分区表讲解
  • 10.HiveQL 常用语句
  • 11.HiveServer2 讲解
  • 12.Hive 函数介绍
  • 13.Hive 分析函数与窗口函数
  • 14.Hive 自定义 UDF / UDAF 函数
  • 15.Hive 优化和安全
04. HBase(分布式数据库)
HBase 是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的 BigTable 建模,实现的编程语言为 Java。HBase 在列上实现了 BigTable 和布隆过滤器。HBase 的表能够作为 MapReduce 任务的输入和输出,可以通过 Java API来访问数据。也可以通过 REST、Avro 或者 Thrift 的 API 来访问。虽然最近性能有了显著的提升,HBase 还不能直接取代 SQL 数据库。如今,它已经应用于多个数据驱动型网站,包括 Facebook 的消息平台。
  • 1.HBase 综合概述
  • 2.HBase 数据库特点
  • 3.HBase 搭建
  • 4.HBase Shell 操作讲解
  • 5.HBase Java API 讲解
  • 6.HBase 协处理器使用
  • 7.HBase 与 Mapreduce 集成使用讲解
  • 8.HBase backup master 讲解
  • 9.HBase 数据模型讲解
  • 10.HBase 数据库数据存储与读取思想讲解
  • 11.HBase 数据在线备份思路讲解
  • 12.HBase 数据迁移与导入方案讲解
  • 13.Region 寻址方式
  • 14.HBase 二级索引构建方案
  • 15.HBase RowKey 设计原则
  • 16.HBase 性能调优
05. Zookeeper
ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby一个开源的实现,是 Hadoop 和 Hbase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
  • 1.分布式协调技术起源概述
  • 2.分布式协调技术架构原理分析
  • 3.Zookeeper java 客户端使用演示
  • 4.Zookeeper 环境搭建注意事项
  • 5.Zookeeper 常见命令使用和 API 精讲
  • 6.Zookeeper 通信协议介绍
  • 7.Zookeeper 请求处理过程分析
  • 8.Zookeeper 数据存储和选举机制分析
  • 9.Zookeeper 配置管理实战/监测连接数
06. Sqoop(数据迁移工具)
sqoop 主要用于在 Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。
  • 1.Sqoop 框架介绍
  • 2.Sqoop 框架原理分析
  • 3.Sqoop 框架安装步骤演示
  • 4.Sqoop1 和 Sqoop2 分析对比
  • 5.Sqoop 深入了解数据库导入原理
  • 6.Sqoop 导出数据原理分析
  • 7.Sqoop 设置存储格式与使⽤压缩
  • 8.Sqoop 导入数据到 hdfs 分析实战
  • 9.Sqoop 增量导⼊功能代码实现
  • 10.Sqoop RDBMS 与 Hive 的操作演示
07. Flume(分布式日志收集系统)
Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume 支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume 提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
  • 1.Flume 框架原理和应用场景分析
  • 2.Flume 框架使用场景分析
  • 3.Flume 概述以及原理解析
  • 4.Flume 中 Event 的概念和 Socket 的关联
  • 5.Flume 运行机制分析
  • 6.NetCat Source 源码分析
  • 7.Flume agent 原理说明和 shell 配置
08. Oozie(工作流程调度管理系统)
Oozie 是 Yahoo 针对 Apache Hadoop 开发的一个开源工作流引擎。用于管理和协调运行在 Hadoop 平台上(包括:HDFS、Pig 和 MapReduce)的 Jobs。Oozie 是专为雅虎的全球大规模复杂工作流程和数据管道而设计。
  • 1.Oozie 综合概述
  • 2.Oozie 架构简析
  • 3.Oozie 搭建部署
  • 4.Oozie 管理界面的使用
  • 5.Oozie Helloworld
  • 6.Oozie Cli 的使用
  • 7.Oozie Job 配置
  • 8.Oozie 流程处理文件
  • 9.Oozie hDPL 语言定义节点
09. Scala
Scala 是一门多范式的编程语言,一种类似 java 的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。
  • 1.scala 环境配置
  • 2.scala 体系结构
  • 3.scala 解释器、变量、常用数据类型等
  • 4.scala 的条件表达式、输入输出、循环等控制结构
  • 5.scala 的函数、默认参数、变长参数等
  • 6.scala 的数组、变长数组、多维数组等
  • 7.scala 的映射、元组等操作
  • 8.scala 的类,包括 bean 属性、辅助构造器、主构造器等
  • 9.scala 的对象、单例对象、伴生对象、扩展类、apply 方法等
  • 10.scala 的包、引入、继承等概念
  • 11.scala 的特质
  • 12.scala 的操作符
  • 13.scala 异常处理
10. Kafka(流处理平台)
Kafka 是在大数据流处理场景中经常使用的分布式消息系统,配合 Spark 内存计算框架,是流处理场景中的黄金组合。本课程以实战的方式学习 Kafka 分布式消息系统,包括Kafka 的安装配置、Producer API 的使用、Consumer API 的使用以及与第三方框架(Flume、 Spark Streaming)的集成开发。每个知识点的学习,都有编程实战和操作实战,用眼见为 实的方式学习抽象的理论概念。
  • 1.Kafka 入门
  • 2.Kafka 集群搭建理论与实践
  • 3.Kafka Topic 实战
  • 4.Kafka 开发 Producer 理论与实践
  • 5.Kafka 开发 consumer 理论与实践
  • 6.Kafka 发送和接收结构化数据
  • 7.Kafka 发送和接收非结构化数据
  • 8.Kafka 整合 Flume 框架
  • 9.spark 读取 kafka 数据
11. Spark Core
Spark 内存计算框架,是当前最流行的大数据计算框架,Spark 已经成为大数据开发人员以 及数据科学家的必备工具。本课程主要学习 Spark Core 的内容。包括 Spark 集群安装、Spark 开发环境搭建,SparkCore 编程模型、Spark 程序运行原理、Spark 性能调优等。
  • 1.Spark 的起源及其哲学思想
  • 2.Spark 集群的安装、启动、测试
  • 3.Spark 基本架构及 API 介绍
  • 4.Spark 开发环境搭建并开发运行 wordCount 程序(Scala、 Java)
  • 5.wordCount 程序的集群部署及 Spark UI 简介
  • 6.Spark 计算框架的核心抽象--RDD(理论及入门)
  • 7.Spark RDD 创建实战(Scala、 Java)
  • 8.Spark RDD 操作--transformation 算子实战(Scala、 Java)
  • 9.Spark RDD 操作--action 算子实战(Scala、 Java)
  • 10.Spark RDD 计算结果保存实战(Scala、 Java)
  • 11.Spark RDD 缓存及持久化实战(Scala、 Java)
  • 12.Spark 分布式共享变量实战--累加器和广播变量(Scala、 Java)
  • 13.Spark 程序集群部署方式实战
  • 14.Spark 程序运行流程分析
  • 15.Spark 程序的监控和调试
  • 16.Spark 内核解读
  • 17.Spark 性能调优(shuffle)
  • 18.Spark Core 数据分析实战
12. Spark SQL
本课程将深入浅出学习 Spark 的结构化 API(DataFrame、Dataset 和 SQL)。SparkSQL是在大数据项目中,Spark 开发工程师经常使用的 Spark 模块,除了深入讲解 SparkSQL本身的每个知识点、SparkSQL 性能调优,还会涉及到 HDFS、Hive、HBase、MongoDB、Oracle、MySQL 等第三方数据存储框架。每个知识点都以代码实战的方式讲解,知其然,更知其所以然。
  • 1.Spark SQL 背景介绍
  • 2.SparkSQL、 DataFrame、 Dataset 之间的关系
  • 3.SparkSQL 概述
  • 4.SparkSQL 数据类型
  • 5.SparkSQL join 操作实战
  • 6.SparkSQL 读写数据实战
  • 7.SparkSQL 操作 Hive 中的数据
  • 8.SparkSQL 调优
  • 9.SparkSQL 数据分析案例实战
13. Spark Streaming(流处理平台)
Spark streaming 是 Spark 核心 API 的一个扩展,它对实时流式数据的处理具有可扩展性、 高吞吐量、可容错性等特点。我们可以从 kafka、flume、Twitter、 ZeroMQ、Kinesis 等 源获取数据,也可以通过由高阶函数 map、reduce、join、window 等组成的复杂算法计 算出数据。最后,处理后的数据可以推送到文件系统、数据库、实时仪表盘中。事实上,你 可以将处理后的数据应用到 Spark 的机器学习算法、图处理算法中去。
  • 1.Spark Streaming 框架机制
  • 2.Spark Streaming 时间和窗口的概念
  • 3.Spark Streaming DStream 和 RDD 的关系
  • 4.Spark Streaming 性能调优
14. Storm (分布式实时数据计算系统)
Storm 是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。而且支持水平扩展,具有高容错性,保证每个消息都会得到处理。Storm 处理速度很快(在一个小集群中,每个结点每秒可以处理数以百万计的消息)。Storm 的部署和运维都很便捷,更为重要的是可以使用任意编程语言来开发应用。
  • 1.Storm 简介
  • 2.Storm 原理和概念
  • 3.Storm 与 Hadoop 的对比
  • 4.Storm 环境搭建
  • 5.Storm API 入门
  • 6.Storm Spout
  • 7.Storm Grouping 策略及并发度
  • 8.Storm 优化引入 zoolkeeper 锁控制线程
  • 9.Storm 去重模式
  • 10.Storm shell 脚本开发
  • 11.Storm 批处理事务
  • 12.Storm 普通事务分区事务
  • 13.Storm 按天计算
  • 14.Storm 不透明分区事务
  • 15.Storm 事务
  • 16.Storm Trident
立即获取详细大纲
立即申请试听
我有疑问
咨询客服小姐姐