首页 找课程 找学校 教育新闻 培训问答 课程大全

北京优就业培训中心

15830143330 预约试听 在线客服

您的位置: 首页 > 北京培训 > 北京优就业培训中心 > 数据库工程师培训 > 北京学习大数据开发的机构都有哪些

北京学习大数据开发的机构都有哪些

班制:

其它

[ 开班提醒 ]
上课地址:

北京优就业培训教育中心

活动倒计时
11: 59: 59
马上抢

课程介绍

为什么你要学习大数据

大数据作为中国官方重点扶持的战略性新兴产业,已逐步从概念走向落地“大数据”和“虚拟化”两大热门领域,得到了广泛关注和重视。90%企业都在使用大数据,大数据开发人员的薪资待遇也水涨船高。统计数据显示,大数据开发工程师的就业薪资在5000-27000之间,有工作经验者更高。你选择了大数据就意味着高薪和广阔的未来。

千锋大数据开发靠什么引领群雄?

很多人想要站在大数据时代的风口却无从下手,千锋作为中国IT职业教育的领 先品牌顺势而为重磅推出大数据课程,采用“技术+管理”集合的方式,让你快速掌握大数据生态体系的各个模块的功能和开发技术,成为当下企业紧缺的“复合型”研发人才。

2018年,大数据产业业态和资源要素加速汇聚,大数据核心区引领发展雏形彰显,大数据创新能力开始显现,大数据引领创新发展的体制机制进一步健全和理顺。大数据的技术体系逐步完善,大数据技术的开源模式有效降低了产业技术的壁垒,基础技术在大数据创新中的作用依然存在,但其重要性将逐步降低,大数据创新将更多地依赖于数据驱动和应用驱动。数据驱动创新源于大数据的基础技术体系。

大数据产业已进入发展的“快车道”,急需大量优秀的大数据人才作为后盾。能够在大数据行业崛起的初期进入到这个行业当中来,才有机会成为时代的弄潮儿。千锋大数据开发新进企业级服务器实战教学,20周带你一站式搞定匪夷所思的大数据开发技术。


课程介绍

Spark生态体系
01Spark简介
- 什么是Spark
- Spark大数据处理框架
- Spark的特点与应用场景
- Spark SQL原理和实践
- Spark Streaming原理和实践
- GraphX SparkR入门
- Spark的监控和调优
02Spark部署和运行
- 部署准备与下*
- Spark生态和安装部署
- Local YARN模式部署
- Local模式运行
- Spark Standalone HA安装
- YARN模式运行Spark
- Spark应用程序部署工具spark-submit
03Spark程序开发
- 启动Spark Shell
- 加载text文件
- RDD操作及其应用
- RDD缓存
- 构建Eclipse开发环境
- 构建IntelliJ IDEA开发环境
- 创建SparkContext对象
- 编写编译并提交应用程序
04Spark编程模型
- RDD特征与依赖
- 集合(数组)创建RDD
- 存储创建RDD
- RDD转换 执行 控制操作
- 广播变量
- 累加器
05作业执行解析
- Spark组件
- RDD视图与DAG图
- 基于Standalone模式的Spark架构
- 基于YARN模式的Spark架构
- 作业事件流和调度分析
- 构建应用程序运行时环境
- 应用程序转换成DAG
06Spark SQL与DataFrame
- Spark SQL架构特性
- DataFrame和RDD的区别
- 创建操作DataFrame
- RDD转化为DataFrame
- 加载保存操作与Hive表
- Parquet文件JSON数据集
- 分布式的SQL Engine
- 性能调优 数据类型
07深入Spark Streaming
- Spark Streaming工作原理
- DStream编程模型
- Input DStream
- DStream转换 状态 输出
- 优化运行时间及内存使用
- 文件输入源
- 基于Receiver的输入源
- 输出操作
08Spark MLlib与机器学习
- 机器学习分类级算法
- Spark MLlib库
- MLlib数据类型
- MLlib的算法库与实例
- ML库主要概念
- 算法库与实例
09GraphX与SparkR
- Spark GraphX架构
- GraphX编程与常用图算法
- GraphX应用场景
- SparkR的工作原理
- R语言与其他语言的通信
- SparkR的运行与应用
- R的DataFrame操作方法
- SparkR的DataFrame
10spark项目实战
- 大数据分析系统
- 系统资源分析平台
- 在Spark上训练LR模型
- 获取二级邻居关系图
11scala编程
- scala编程介绍
- Scala基本语法
- Scala开发环境搭建
- Scala开发Spark应用程序
12Python编程
- Python编程介绍
- Python的基本语法
- Python开发环境搭建
- Pyhton开发Spark应用程序
Hadoop生态体系
01Hadoop起源与安装
- 大数据概论
- Google与Hadoop模块
- Hadoop生态系统
- Hadoop常用项目介绍
- Hadoop环境安装配置
- Hadoop安装模式
- Hadoop配置文件
02MapReduce**入门
- WordCount准备开发环境
- MapReduce编程接口体系结构
- MapReduce通信**
- 导入Hadoop的JAR文件
- MapReduce代码的实现
- 打包、部署和运行
- 打包成JAR文件
03Hadoop分布式文件系统
- 认识HDFS及其HDFS架构
- Hadoop的RPC机制
- HDFS的HA机制
- HDFS的Federation机制
- Hadoop文件系统的访问
- JavaAPI接口与维护HDFS
- HDFS权限管理
04Hadoop文件I/O详解
- Hadoop文件的数据结构
- HDFS数据完整性
- 文件序列化
- Hadoop的Writable类型
- Hadoop支持的压缩格式
- Hadoop中编码器和解码器
- gzip、LZO和Snappy比较
05MapReduce工作原理
- MapReduce函数式编程概念
- MapReduce框架结构
- MapReduce运行原理
- Shuffle阶段和Sort阶段
- 任务的执行与作业调度器
- 自定义Hadoop调度器
- YARN架构及其工作流程
06MapReduce编程开发
- WordCount案例分析
- 输入格式与输出格式
- 压缩格式与MapReduce优化
- 辅助类与Streaming接口
- MapReduce二次排序
- MapReduce中的Join算法
- 从MySQL读写数据
- Hadoop系统调优
07Hive数据仓库工具
- Hive工作原理、类型及特点
- Hive操作及Hive复合类型
- Hive的JOIN详解
- Hive优化策略
- Hive内置操作符与函数
- Hive用户自定义函数接口
- Hive的权限控制
08开源数据库HBase
- HBase的特点
- HBase访问接口
- HBase存储结构与格式
- HBase设计
- 关键算法和流程
- HBase的Shell操作
- HBase客户端
09Sqoop与Oozie
- 安装部署Sqoop
- Sqoop数据迁移
- Sqoop使用案例
- Oozie简介
- Oozie与Hive
- Azkaban工作流



第三阶段、大数据计算框架体系
课程名称 重点内容 目标
一、Python课程
1) 介绍Python以及特点
2) Python的安装
3) Python基本操作(注释、逻辑、字符串使用等)
4) Python数据结构(元组、列表、字典)
5) 使用Python进行批量重命名小例子
6) Python常见内建函数
7) 更多Python函数及使用常见技巧
8) 异常
9) Python函数的参数讲解
10) Python模块的导入
11) Python中的类与继承
12) 网络爬虫案例
13) 数据库连接,以及pip安装模块
14) Mongodb基础入门
15) 讲解如何连接mongodb
16) Python的机器学习案例
Python语言的部分大家在学习后可以完全掌握Python的精髓,并经过这部分的学习给大家打好一个基础,在其他计算框架中多语言的使用上都会涉及到Python这门流行的语言。同时课程里会经过机器学习的案例让大家学习Python的同时去更好的理解机器学习
二、Scala课程
1) scala解释器、变量、常用数据类型等
2) scala的条件表达式、输入输出、循环等控制结构
3) scala的函数、默认参数、变长参数等
4) scala的数组、变长数组、多维数组等
5) scala的映射、元组等操作
6) scala的类,包括bean属性、辅助构造器、主构造器等
7) scala的对象、单例对象、伴生对象、扩展类、apply方法等
8) scala的包、引入、继承等概念
9) scala的特质
10) scala的操作符
11) scala的高阶函数
12) scala的集合
13) scala数据库连接
Scala课程 在此部分内,将更注重scala的各种语言规则与简单直接的应用,而不在于其是如何具体实现,经过学习本课程能具备初步的Scala语言实际编程能力。本部分课程也可以视为大家下面学习Spark课程的铺垫,供大家扫盲熟悉Scala,提前进行热身运动。
三、Spark大数据处理
1) 1) Spark介绍
2) Spark应用场景
3) Spark和Hadoop MR、Storm的比较和优势
4) RDD
5) Transformation
6) Action
7) Spark计算PageRank
8) Lineage
9) Spark模型简介
10) Spark缓存策略和容错处理
11) 宽依赖与窄依赖
12) Spark配置讲解
13) Spark集群搭建
14) 集群搭建常见问题解决
15) Spark原理核心组件和常用RDD
16) 数据本地性
17) 任务调度
18) DAGScheduler
19) TaskScheduler
20) Spark源码解读
21) 性能调优
22) Spark和Hadoop2.x整合:Spark on Yarn原理
Spark大数据处理 本部分内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark Streaming流式计算原理与实践,Spark SQL,Spark的多语言编程以及SparkR的原理和运行。不仅面向项目开发人员,甚至对于研究Spark的学员,此部分都是非常有学习指引意义的课程。
四、Spark—Streaming大数据处理
1) Spark Streaming:数据源和DStream
2) 无状态transformation与有状态transformation
3) Streaming Window的操作
4) sparksql 编程实战
5) spark的多语言操作
6) spark新版本的新特性
Spark—Streaming是流式计算里zui有特点的框架,便于机器学习上模型的使用,当下公司Spark默认就是Streaming,可见它的重要性,对于微批处理的流式计算,框架简介,Dstream的模型使用
五、Spark—Mlib机器学习
1) 介绍

a) Spark MLlib组件介绍

b) 基本数据类型

2) 回归算法

c) 广义线性模型

d) 逻辑回归

3) 分类算法

e) 朴素贝叶斯

f) 决策树

g) 随机森林

4) 第四章 推荐系统
5) 第五章 聚类
6) spark新版本的新特性

h) Kmeans

i) Sparse kmeans

j) Kmeans

k) Kmeans II

l) Streaming kmeans

m) Gaussian Mixture Model

前面课程大家已经掌握第1代机器学习工具R,而后又学习了第二代机器学习工具Mahout,这里大家将会学习第三代机器学习工具MLlib,大家不仅将会了解MLlib的组件及其调用,而且会经过Spark的项目深入了解MLlib的现实使用。经过此部分大家也可以看出课程不仅着眼于现在,更是着眼于大家的未来在行业中的发展。
六、Spark—GraphX 图计算
a) 二分图
b) 概述
c) 构造图
d) 属性图
e) PageRank
这节课程是 Apache的开源的图计算框架Giraph,以及卡内基梅隆大学主导的GraphLab等,当然还有本文的主角——基于Spark的GraphX
七、基于Spark的推荐系统(某一线公司真实的项目)
项目技术架构体系:

a) 实时流处理 Kafka,Spark Streaming

b) 分布式运算 Hadoop,Spark

c) 数据库 Hbase,Redis

d) 机器学习 Spark Mllib

e) 前台web展示数据 Struts2,echart

f) 分布式平台 Hadoop,Spark

g) 数据清洗 Hive

h) 数据分析 R RStudio

i) 推荐服务 Dubbox

j) 规则过滤 Drools

k) 机器学习 MLlib

个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类**增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务
八、Kafka课程
1) kafka是什么
2) kafka体系结构
3) kafka配置详解
4) kafka的安装
5) kafka的存储策略
6) kafka分区特点
7) kafka的发布与订阅
8) zookeeper协调管理
9) java编程操作kafka
10) scala编程操作kafka
11) flume 和kafka 的整合
12) Kafka 和storm 的整合
Kafka是当下流行的队列,可以说是从数据采集到大数据计算承上启下的重要环节,大家在此部分将会详细学习它的架构,kafka在大家大数据的项目中几乎都会涉及到。
九、Strom实时数据处理
项目技术架构体系:

1) Storm的基本概念

2) Storm的应用场景

3) Storm和Hadoop的对比

4) Storm集群的安装的linux环境准备

5) zookeeper集群搭建

6) Storm集群搭建

7) Storm配置文件配置项讲解

8) 集群搭建常见问题解决

9) Storm常用组件和编程API:Topology、 Spout、Bolt

10) Storm分组策略(stream groupings)

11) 使用Strom开发一个WordCount例子

12) Storm程序本地模式debug、Storm程序远程debug

13) Storm事物处理

14) Storm消息可靠性及容错原理

15) Storm结合消息队列Kafka:消息队列基本概念(Producer、Consumer、Topic、Broker等)、消息队列Kafka使用场景、Storm结合Kafka编程API

16) Storm Trident概念

17) Trident state 原理

18) Trident开发实例

19) Storm DRPC(分布式远程调用)介绍

20) Storm DRPC实战讲解

21) Storm和Hadoop 2.x的整合:Storm on Yarn Storm开发实战: Kafka Storm Hbase redis项目实战,以及多个案例

本部分学习过后,大家将全面掌握Storm内部机制和原理,经过大量项目实战,让大家拥有完整项目开发思路和架构设计,掌握从数据采集到实时计算到数据存储再到前台展示,所有工作一个人搞定!譬如可以一个人搞定淘宝双11大屏幕项目!不光从项目的开发的层次去实现,并可以从架构的层次站在架构师的角度去完成一个项目。
十、Strom项目实战
项目技术架构体系:Storm hbase kafka flume echarts

a) flume实时采集日志

b) kafka缓冲队列

c) storm实时处理

d) Hbase dao存储处理结果

e) 前端Web实时展示报表

中国移动基站**平台一个市级移动公司,每天的产生海量话务数据(一线城市更高),经过大数实时分析,监控每个基站的掉话率,基站通话总数,基站掉话总数,基站告警,3g/4g上网流量实时监控。对以上维度进行实时分析以达到对基站工作情况的监控。

大数据11_wx.jpg

千锋互联


欢迎点击访问:北京大数据开发课程汇总

欢迎您访问到我们网站如果想了解更多北京软件系统类别课程请访问:北京软件系统课程汇总

课程定制与咨询:010-64707530 QQ:264567689  金老师

倒计时
11: 59: 19
课程热线:15830143330 | 客服时间:9:00-22:00(其他时间请在线预约报名或留言)
机构介绍
优就业是中公教育IT培训品牌,致力于培养面向互联网领域的高端人才,以学员就业为目的,优质就业为宗旨,是一家集互联网营销师、UI交互设计师、Web前端工程师、Java工程师、PHP工程师、SEO优化师、SEM竞价师、社会化媒体运营师、电商运营师、互联网产品经理、Android工程师、iOS工程师、C/C++工程师、软件测试工程师、Linux云计算工程师、Python工程师、大数据工程师、U...【详情】
相关课程
其他城市
相关机构

申请试听名额

已有10254人申请免费试听

01电话咨询 | 15830143330

QQ:2872347183
加盟合作:0755-83654572