大数据专业四年学习路径
2019-12-11 11:20:03 0 举报
AI智能生成
大数据专业四年学习路径
作者其他创作
大纲/内容
大数据学习路径
第一学年
支持岗位:初级程序员(Java|Python)大数据采集处理工程师大数据运维工程师
英语
体育
网络基础
数据结构
Linux操作系统
Java程序设计
数据库管理与应用
Python程序设计
Python环境搭建
Python编程基础
函数
自定义函数
函数调用
函数参数
变量作用域
异常
面向对象编程基础
类和对象
属性与方法
继承
多态
模块
模块的创建和命名空间
模块的导入
包
Python内置模块
Python文件和数据库
文件的基本操作
文件系统的基本操作
MySQL的连接
网络爬虫技术
Python爬虫基础
爬虫概述及应用
urllib库
使用Urllib爬取网页
浏览器的模拟与实战
正则表达式
图片爬虫实战
Python爬虫框架
常见爬虫框架
Scrapy安装
Scrapy爬虫框架
Scrapy常用工具命令
Scrapy爬虫实战
大数据导论
大数据运维
大数据生态圈
大数据的概念和价值
大数据的特点
大数据技术组成与生态圈
大数据的行业应用和未来发展
Hadoop环境搭建与运维
Hadoop概述
Hadoop单机模式和伪分布模式搭建
Hadoop集群模式搭建
Hadoop HA模式的介绍
Hadoop查看集群运行状态
hadoop命令的基本使用
Hive环境搭建与基本操作
hive概述
mysql的安装
基于hdfs和mysql的hive环境搭建
Hive Shell 与 Beeline
hiveSQL语句的使用
hive函数的使用
hive分区表和桶表的创建
Zookeeper环境搭建与节点管理
Zookeeper概述
Hbase单机部署和伪分布部署
使用内置Zookeeper搭建Hbase集群
搭建基于Zookeeper服务的Hbase集群
Hbase查看集群运行状态
Hbase shell的使
HBase环境搭建与运维
Hbase概述
Hbase shell的使用
Kafka环境搭建与使用基础
Kafka概述
kafka单节点安装
基于zookeeper的kafka安装
Kafka常用命令
Kafka consumer 与 producer
Storm环境搭建与管理
storm概述
storm单机环境部署
storm伪分布部署
storm完全分布式搭建
storm查看集群运行状态
storm基础命令的使用
spark环境搭建与运维
spark概述
spark单机环境部署和伪分布部署
spark完全分布式搭建
spark查看集群状态
pyspark Shell
hadoop常用工具组件的安装
sqoop
Ooize
pig
impala
flume
数据采集与清洗
数据采集与预处理准备
认识数据采集技术,熟悉数据采集平台
认识数据预处理技术
网络爬虫实践
使用urllib爬取北京公交线路信息
使用Selenium爬取淘宝网站信息
使用Scrapy爬取北京公交信息
日志数据采集实
Flume的安装和配置
Flume的体系结构
Flume的source和sink
Flume采集数据上传到集群
数据预处理实践
用Pig进行数据预处理
用Kettle进行数据预处理
用Pandas进行数据预处理
用OpenRefine进行数据预处理
使用Flume Interceptor对日志信息进行数据预处理
数据的预处理
数据预处理基础
数据清洗与数据预处理
Pig大数据预处理工具
Pig命令与PigLatin
Pig脚本编写
数据采集与预处理综合应用
ETL的概念与含义
ETL常用工具
kettle的介绍
kettle 转换的基本使用
使用kettle job完成复杂处理流程
数据库数据的采集和预处理
数据库采集概述
结构化数据与非结构化数据
多种数据库的采集与数据标准化
数据采集、数据预处理与大数据
数据采集与大数据
数据预处理与大数据
第二学年
支持岗位:大数据实施工程师大数据初级分析工程师大数据应用开发工程师
大数据存储技术
传统的存储技术
传统存储技术的分类
磁盘结构及接口介绍
Raid技术介绍
Raid技术各自特点
磁盘与分区
逻辑卷技术介绍
分布式存储介绍
HDFS简介
Glusterfs简介
Lustre简介
MooseFS简介
Ceph简介
Hadoop应用基础
Hadoop简介
Hadoop生态系统
Hadoop体系架构
Hadoop平台搭建
Hadoop部署模式
本地模式
伪分布模式
完全分布式模式
HDFS
HDFS概念
HDFS体系结构
HDFS文件存储机制
HDFS操作
HDFS HA
MR
工具
Tomcat
Git/SVN
Eclipse
MR概念
MR架构
MR编程模型
MR接口类
MR高级编程
Yarn
Zookeeper
Hbase
Hbase概念
Hbase逻辑模型
Hbase物理模型
Hbase安装部署
Hbase Shell
Hbase API
Hbase优化
Kafka
消息系统介绍
消息系统如何工作
点对点消息传递系统
发布-订阅消息系统
AMQP消息传递协议
流应用程序消息系统设计
分布式消息平台Kafka
Kafka起源
Kafka架构
消息主题
消息分区
复制和复制日志
消息生产者
消息消费者
深入理解Kafka Producer
Kafka Producer原理
Kafka Producer APIs
Java Kafka Producer示例
常用消息发布模式
最佳实践
深入理解Kafka Consumer
Kafka Consumer原理
Kafka Consumer APIs
Java Kafka Consumer示例
Scala Kafka Consumer示例
常用消息消费模式
Kafka集成
集成Kafka与Hadoop
集成Kafka与Spark
案例_ IP欺诈检测
Hive
数据仓库
Hive架构
Hadoop、Hive与关系型数据库
Hive部署
Hive数据存储
Hive数据类型
Hive基本操作
库操作
表操作
Hive进阶
Hive常用函数
Sqoop
Sqoop作用
Sqoop安装和测试
Sqoop的import
Sqoop的Export
Sqoop2及应用
Storm
案例:京东商城数据分析平台
大数据分析
Excel
Excel数据收集
Excel数据分析常用函数
Excel数据加工与处理
Excel数据分析
Excel数据的展示
SPSS
SPSS概述
SPSS数据文件的建立与操作
SPSS基本分析功能
回归分析
分析图表的绘制
SAS
tableau
Python数据分析
数据分析基础
numpy模块
pandas模块
pandas数据分析
pandas文件读写基础
pandas与MySQL数据库的交互
pandas字符串处理
pandas数据分组与聚合
案例:电影数据统计
大数据可视化
D3
什么是D3.js
如何学习和使用D3.js
选择元素及数据绑定
D3.js中选择、插入和删除元素
比例尺
坐标轴
动态效果
Update、Enter、Exit
交互式操作
布局
D3.js复杂数据类型可视化
Echasrts
Tableau
Tableau安装和基础
Tableau 可视化数据分析
Python可视化
Python可视化与可视化工具介绍
pandas基本图形绘制
matplotlib交互式绘图
matplotlib.pyplot的使用
Spark基础
Scala
Scala基础语法
Scala函数
Scala集合
Scala函数式编程
Spark Core
Spark架构与运行机制
Spark平台搭建
Spark部署模式
Spark standalone模式搭建
Spark on YARN模式搭建
Spark交互式程序应用
Spark Core核心编程
Spark核心数据抽象RDD
创建RDD
操作RDD
创建和操作Pair RDD
RDD持久化机制
存储RDD
数据分区
Spark SQL结构化数据处理
RDD vs DataFrame
操作DataFrame
存储DataFrame
聚合操作
连接操作
使用函数和自定义函数
高级分析函数
案例:电影排行榜分析
案例: 银行直销电话数据分析
云计算与云安全
云计算导论
计算虚拟化
虚拟化技术介绍
Libvirt技术介绍
Qemu工具介绍
Virsh工具介绍
虚拟机配置文件详解
OpenStack云平台
计算(Nova)服务介绍
网络(Neutron)服务介绍
存储服务介绍
计量(Ceilometer)服务介绍
身份认证(Keystone)服务介绍
镜像(Glance)服务介绍
仪表板(Horizon)服务介绍
编排(Heat)服务介绍
云安全架构与应用实践
端到端云安全架构
可信计算TPM/vTPM
虚拟机的安全隔离
虚拟化环境中的网络安全
云数据安全
公有云、私有云的安全组
云安全管理
安全即服务
Docker
安装和命令
Dockerfile
Docker registry
Kubernetes 容器云
数据安全与隐私保护
信息安全概述
操作系统安全
Web应用安全
网络安全
移动互联网终端安全
云计算及其安全
大数据及其安全
隐私保护
机器学习
基本概念
监督学习
感知机算法
决策树与森林
贝叶斯算法
线性逻辑算法
支持向量机
无监督学习
聚类
降维
半监督学习
深度学习
分布式数据库NoSQL
MongoDB
Redis
人工智能基础
人工智能概述
知识表示
确定性推理
不确定与非单调推理
搜索策略
神经网络及连接学习
自然语言理解
NITE(大数据)技能培训认证
阿里认证/Oracle Java认证
第三学年
Spark高级
Spark Streaming实时计算
流处理概述
Spark流处理引擎介绍
Spark DStream编程模型
使用文件数据源
输出操作
Spark Structured Streaming结构化流
Spark结构化流介绍
Spark结构化的流应用程序
流式DataFrame操作
内置数据源与Data Sinks
输出模式与触发器
event time与窗口操作
水印技术
去除重复数据
容错与流查询监控
Spark SQL数据探索与挖掘技术
数据探索性分析-EDA
使用Spark SQL进行基本数据分析
使用Spark SQL对数据进行采样
使用Spark SQL创建数据透视表
数据挖掘技术简介
探索数据挖掘技术
挖掘文本数据
挖掘时间序列数据
Spark ML机器学习基础
机器学习概述
Spark机器学习库
Spark机器学习管道技术
Transformer
Estimator
Pipeline
模型调优
Spark ML机器学习实战
Spark机器学习项目流程
Spark机器学习实战-回归算法应用
Spark机器学习实战-分类算法应用
Spark机器学习实战-聚类算法应用
Spark机器学习实战-推荐算法应用
Spark GraphX图计算
图与图处理简介
Spark GraphX API
图的创建与基本操作
图的转换操作
图算法
Flink
Flink架构与集群安装
Flink核心概念与开发环境准备
Flink实时数据处理
Flink批数据处理
使用Table API进行数据处理
复杂事件处理(CEP)
Flink on Hadoop
第四学年-知识扩展
语音识别
计算机视觉
机器人学
推荐书籍
Hadoop大数据开发案例教程与项目实战 西普教育
机器学习及应用 西普教育
信息安全导论(在线实验+在线自测) 西普教育
大数据测试技术(数据采集分析与测试实战) 西普教育
虚拟化与网络存储技术 西普教育
推荐学习网站
技术官网
Python学习大全:http://www.pythondoc.com/
中国科学技术大学网络:http://wlkt.ustc.edu.cn/
中国大学:https://www.icourse163.org/
学堂在线:http://www.xuetangx.com/
数据观:http://www.cbdio.com/node_2568.htm
云栖社区:https://yq.aliyun.com/video/TagSearch/
菜鸟教程:http://www.runoob.com
易佰教程:http://www.yiibai.com
莫烦网: https://morvanzhou.github.io/
0 条评论
回复 删除
下一页