close
登录/ 注册
大数据学习正当时
Why?薪资高!前景好!发展空间大!
学习一门发展潜力无限大的技能——大数据开发
  • 高需求

    根据国际数据公司IDC、Gartner预测,到2020年,企业基于大数据计算分析平台的支出将突破5000亿美元。目前,我国大数据人才供不应求,未来3到5年,大数据开发相关人才缺口更是达百万级别。

  • 高薪资

    大数据良好的发展前景,意味着强大的变现能力和人才需求。大数据开发相关职位实习工资可达7K,中级工程师薪水在20K以上,高级工程师薪水高达50K以上!!!

  • 强趋势

    马云说:未来的时代将不是IT时代,而是DT的时代,最大的能源是数据!现如今,医疗、能源、通信、零售、金融、体育、游戏、影视、旅游、交通行业等各行业都离不开大数据,大数据发展迅猛,在各个环节产生巨大的经济价值。

  • 政策支持

    在国家政策的大力扶持下,我国大数据产业发展迎来利好期,李克强总理曾签批,国务院印发《促进大数据发展行动纲要》,系统部署大数据发展工作。

为什么是hadoop方向

在招聘大数据工程师方面,8成以上的公司会给出Hadoop开发工程师的岗位

  • 技术层面

    Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

  • 从成本层面看

    Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。

  • 需求层面

    hadoop工程师的需求量大,各种公司都是从Hadoop开发工程师开始培养,逐渐培养成大数据挖掘师、大数据分析师、大数据算法工程师、大数据架构师。

免费试听
大数据一线师资团队
菜鸟窝的老师均为来自一线互联网的技术大咖,拥有多年开发和管理项目经验。
  • Jesson
    北大博士
    10年以上研发经验
    了解更多
    曾就职于华为、 百度、平安等知名互联网公司。近几年埋首大数据领域相关技术,对神经网络、机器学习有深入了解。热爱新技术,乐于学习与分享。
  • Brave
    高级软件架构师
    11年软件开发经验
    了解更多
    曾任金蝶(中国)软件公司技术顾问,卫华集团高级需求分析师,曾主导开发多个大数据项目,精通Kafka、Spark等大数据相关技术。
  • Dennis
    大数据架构师
    12年软件研发经验
    了解更多
    先后从事通信协议栈(C语言)、J2EE、Android等开发,曾在Nokia主导大型网关集群研发、近几年主要从事大数据及相关系统架构设计、擅长Hadoop大数据生态,尤其擅长图数据库及相关处理技术。
  • Franco
    百度数据仓库高级工程师
       
    了解更多
    曾任猎豹移动推荐算法工程师,newsrepublic海外推荐信息流推荐算法工程师,精通大数据算法推荐,有丰富的大数据项目开发经验。
  • Kolin
    大数据架构师
    10年软件研发经验
    了解更多
    曾任职联想集团架构师,获联想创投总裁奖,现为某著名通讯公司的大数据平台支撑部技术负责人,产品达85PB 数据量。能将实战积累的经验精粹生动传递给学员,以独特的风格和教学精神影响着学员们。

企业级真实大数据项目

先进的技术+项目,以一线互联网公司为技术背景,让你快速get大数据工作经验

企业电商用户Session日志检测系统

  • 项目来源:

    一线电商线上系统

  • 项目介绍:
    在电商项目中,为了收集更多的数据需要通过客户端、PC网页进行相关埋点统计,为了支撑运营团队进一步的进行产品运营策略,需要对公司产品销售数据、网站uv/pv指标进行数据分析。本项目从电商企业实战出发,进行总结和提升。包含3块子项目,销售数据分析统计,Storm架构代码实战、Cloudera Manager实战。
  • 技术要点:
    Storm知识点全覆盖、
    Storm Trident企业级开发实战、
    大数据可视化组件HighCharts图表、
    Kafka中间件知识、
    Cloudera Manager大数据组件协调框架、
    Hadoop集群搭建、
    HDFS/MapReduce编码、
    YUM维护操作命令、
    企业大规模大数据安装组件监管、
    Zookeeper在大数据集群中的高可用性架构分析、
    Hbase大数据存储代码编写、
    企业级项目架构设计、优化、思路解析等。
  • 项目实战:
    实战Day1:CM5架构分析,CDH5和CM5集成环境搭建,CDH5组件安装,CM主界面管理
    实战Day2:Kafka优化、架构指导,高级特性分析,高吞吐量实现方式,kafka集群搭建,kafka API实战,思考面试之道,Flume集成Kafka
    实战Day3:kafka监控kafkaOffsetMonitor,ECharts、HignCharts实战大数据可视化,Hbase快速入门(NOSQL),Hbase读写流程,Hbase优化&面试考察点
    实战Day4:Zookeeper框架精讲,Storm流式处理高级进阶,Storm流式处理聚合总结,Trident topologies的执行,Storm集群安装和DRPC,Storm集群打包发布Topology
    实战Day5:Storm项目需求分析和架构设计
    实战Day6:项目总结,简历面试指导

课程大纲

6大模块,116个核心知识点,从基础到进阶层层深入,更易掌握

  • LINUX 操作系统
  • HADOOP生态圈
  • HIVE
  • HBASE
  • SQOOP
  • STORM
模块一:Linux 操作系统
在企业中无一例外的是使用 Linux 来搭建或部署项目,在平常我们也经常在Linux环境下进行开发。进入大数据领域就要打好 Linux 基础,以便更好地学习Hadoop,Kafka,Spark,Storm,Redis 等众多课程。
  • 1.linux来源与发展概况
  • 2.Linux目前的发行版
  • 3.Linux系统安装与流程说明
  • 4.Linux⽬录结构介绍
  • 5.Linux目录完整参数列表说明
  • 6.Linux过滤目录输出列表
  • 7.Linux常⽤文件命令:创建文件、复制文件、链接文件、重命名文件、删除文件
  • 8.Linux常用目录命令:创建目录、删除目录
  • 9.Linux查询文件统计信息
  • 10.Linux查看文件类型
  • 11.Linux查看整个文件、查看部分文件
  • 12.Linux文件权限说明及权限修改
  • 13.Linux压缩解压缩数据文件
  • 14.Liunx检测磁盘空间
  • 15.Linux⽤户与⽤户组,添加新用户,删除新用户,添加用户组和修改组
  • 16.Linux sudo权限说明
  • 17.Linux环境配置讲解、全局环境变量和局部环境变量、删除环境变量、设置PATH
  • 18.Linux vim编辑器基础,编辑数据,复制和粘贴,查找和替换
  • 19.Linux 进程: 探查进程,实时检测进程,结束进程
  • 20.Linux Shell脚本编程基础
  • 21.Linux shell结构化指令,for循环,if else语句详解
  • 22.Linux 符号,输入输出重定向,管道符号说明
  • 23.Linux shell脚本任务调度
模块二:Hadoop生态圈(离线计算)
Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。在本章节中不仅将用到前面的 Linux 知识,而且会对 hadoop 的架构有深入的理解,并未你以后架构大数据项目打下坚实基础。
  • hadoop
  • 1.hadoop 介绍,发展简史,诞生来由
  • 2.hadoop 生态圈体系结构,组件说明
  • 3.hadoop 伪分布式环境搭建及完全分布式环境说明
  • HDFS
  • 1.HDFS分布式文件系统说明
  • 2.HDFS block概念
  • 3.HDFS namenode ,datanode 详解
  • 4.HDFS HA 详解
  • 5.HDFS命令行接口,读取数据
  • 6.HDFS命令行接口,写数据
  • 7.HDFS命令行接口,删除数据
  • 8.HDFS命令行接口,distcp跨集群分布式拷贝数据
  • 9.HDFS压缩和分片
  • 10.HDFS文件格式:textfile,sequencefile,rcfile,orcfile,parquet
  • 11.HDFS各类文件格式比较
  • YARN
  • 1.经典的Mapreduce 1结构弊端
  • 2.Mapreduce 2 中YARN的引入
  • 3.YARN的核心结构说明
  • 4.YARN的工作机制
  • 5.YARN的架构剖析
  • 6.YARN 内置调度器:公平调度和容量调度
  • 7.YARN上任务的执行环境
  • 8.YARN上任务的推测执行机制
  • 9.YARN上任务的JVM重用
  • Mapreduce
  • 1.MapReduce整体流程说明
  • 2.MapReduce目录输入,多目录输入,inputformat子类介绍
  • YARN
  • 1.经典的Mapreduce 1结构弊端
  • 2.Mapreduce 2 中YARN的引入
  • 3.Mapreduce map 过程
  • 4.Mapreduce combine过程
  • 5.Mapreduce reduce 过程
  • 6.Mapreduce结果输出,outputformat子类介绍
  • 7.MapReduce世界的helloword之wordcount操作演练
  • 8.MapReduce Wordcount 项目打包,运算
  • 9.MapReduce 内置计数器含义讲解
  • 10.Mapreduce 实例讲解之全排序
  • 11.Mapreduce 实例讲解之部分排序
  • 12.Mapreduce 实例讲解之 join map端连接
  • 13.Mapreduce 实例讲解之 join reduce端连接
  • 14.Mapreduce 实例讲解之 ⼤矩阵相乘
  • 15.Mapreduce自定义的format
  • 16.Mapreduce MRUnit单元测试使用
  • Hadoop Streaming
  • 1.hadoop streaming引入的目的
  • 2.Hadoop streaming机制讲解
  • 3.使用Python编写 hadoop streaming
  • 4.使用Shell 编写 hadoop streaming
模块三:Hive(数据仓库)
是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析 。Hive是工作中最常用到的部分,也是面试的重点.
  • 1.Hive 简介
  • 2.Hive Hbase Pig三者的不同点
  • 3.Hive 系统架构
  • 4.Hive 安装搭建与常用参数配置
  • 5.Hive shell命令使用
  • 6.Hive 数据库数据表操作
  • 7.Hive 数据导出
  • 8.Hive 数据加载
  • 9.Hive 外部表与分区表讲解
  • 10.HiveQL 常用语句
  • 11.HiveServer2讲解
  • 12.Hive 函数介绍
  • 13.Hive 分析函数与窗口函数
  • 14.Hive 自定义UDF / UDAF函数
  • 15.Hive 优化和安全
模块四:HBase(分布式数据库)
HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java。HBase在列上实现了BigTable论文提到的压缩算法、内存操作和布隆过滤器。HBase的表能够作为MapReduce任务的输入和输出,可以通过Java API来访问数据。也可以通过REST、Avro或者Thrift的API来访问。虽然最近性能有了显著的提升,HBase还不能直接取代SQL数据库。如今,它已经应用于多个数据驱动型网站,包括 Facebook的消息平台。
  • 1.HBase 综合概述
  • 2.HBase 数据库特点
  • 3.HBase 搭建
  • 4.HBase Shell 操作讲解
  • 5.HBase Java API 讲解
  • 6.HBase 协处理器使用
  • 7.HBase 与Mapreduce集成使用讲解
  • 8.HBase backup master讲解
  • 9.HBase 数据模型讲解
  • 10.HBase 数据库数据存储与读取思想讲解
  • 11.HBase 数据在线备份思路讲解
  • 12.HBase 数据迁移与导入方案讲解
  • 13.Region 寻址方式
  • 14.HBase 二级索引构建方案
  • 15.HBase RowKey设计原则
  • 16.HBase 性能调优
模块五:Sqoop(数据迁移工具)
sqoop 主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
  • 1.Sqoop框架介绍
  • 2.Sqoop框架原理分析
  • 3.Sqoop框架安装步骤演示
  • 4.Sqoop1和Sqoop2分析对比
  • 5.Sqoop深入了解数据库导入原理
  • 6.Sqoop导出数据原理分析
  • 7.Sqoop 设置存储格式与使⽤压缩
  • 8.Sqoop导入数据到hdfs分析实战
  • 9.Sqoop 增量导⼊功能代码实现
  • 10.Sqoop RDBMS与Hive的操作演示
  • 备注:sqoop主要是源码分析和API使用,考虑到中小型公司使用频次,将会在项目中演示用法。
模块六:Storm (分布式实时数据计算系统)
Storm 是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。而且支持水平扩展,具有高容错性,保证每个消息都会得到处理。Storm处理速度很快(在一个小集群中,每个结点每秒可以处理数以百万计的消息)。Storm 的部署和运维都很便捷,更为重要的是可以使用任意编程语言来开发应用。
  • 1.Storm 简介
  • 2.Storm 原理和概念
  • 3.Storm 与 Hadoop 的对比
  • 4.Storm 环境搭建
  • 5.Storm API 入门
  • 6.Storm Spout
  • 7.Storm Grouping 策略及并发度
  • 8.Storm 优化引入 zoolkeeper 锁控制线程
  • 9.Storm 去重模式
  • 10.Storm shell 脚本开发
  • 11.Storm 批处理事务
  • 12.Storm 普通事务分区事务
  • 13.Storm 按天计算
  • 14.Storm 不透明分区事务
  • 15.Storm 事务
  • 16.Storm Trident
咨询客服小姐姐