首页  思维导图  详情

大数据专业四年学习路径

2019-12-11 11:20:03   0  举报





AI智能生成

大数据专业四年学习路径

大数据专业

spark

hadoop

作者其他创作

大纲/内容

第一学年

英语

体育

网络基础

数据结构

Linux操作系统

Java程序设计

数据库管理与应用

Python程序设计

Python环境搭建

Python编程基础

函数

自定义函数

函数调用

函数参数

变量作用域

异常

面向对象编程基础

类和对象

属性与方法

继承

多态

模块

模块的创建和命名空间

模块的导入

包

Python内置模块

Python文件和数据库

文件的基本操作

文件系统的基本操作

MySQL的连接

网络爬虫技术

Python爬虫基础

爬虫概述及应用

urllib库

使用Urllib爬取网页

浏览器的模拟与实战

正则表达式

图片爬虫实战

Python爬虫框架

常见爬虫框架

Scrapy安装

Scrapy爬虫框架

Scrapy常用工具命令

Scrapy爬虫实战

大数据导论

大数据运维

大数据生态圈

大数据的概念和价值

大数据的特点

大数据技术组成与生态圈

大数据的行业应用和未来发展

Hadoop环境搭建与运维

Hadoop概述

Hadoop单机模式和伪分布模式搭建

Hadoop集群模式搭建

Hadoop HA模式的介绍

Hadoop查看集群运行状态

hadoop命令的基本使用

Hive环境搭建与基本操作

hive概述

mysql的安装

基于hdfs和mysql的hive环境搭建

Hive Shell 与 Beeline

hiveSQL语句的使用

hive函数的使用

hive分区表和桶表的创建

Zookeeper环境搭建与节点管理

Zookeeper概述

Hbase单机部署和伪分布部署

使用内置Zookeeper搭建Hbase集群

搭建基于Zookeeper服务的Hbase集群

Hbase查看集群运行状态

Hbase shell的使

HBase环境搭建与运维

Hbase概述

Hbase单机部署和伪分布部署

使用内置Zookeeper搭建Hbase集群

搭建基于Zookeeper服务的Hbase集群

Hbase查看集群运行状态

Hbase shell的使用

Kafka环境搭建与使用基础

Kafka概述

kafka单节点安装

基于zookeeper的kafka安装

Kafka常用命令

Kafka consumer 与 producer

Storm环境搭建与管理

storm概述

storm单机环境部署

storm伪分布部署

storm完全分布式搭建

storm查看集群运行状态

storm基础命令的使用

spark环境搭建与运维

spark概述

spark单机环境部署和伪分布部署

spark完全分布式搭建

spark查看集群状态

pyspark Shell

hadoop常用工具组件的安装

sqoop

Ooize

pig

impala

flume

数据采集与清洗

数据采集与预处理准备

认识数据采集技术，熟悉数据采集平台

认识数据预处理技术

网络爬虫实践

使用urllib爬取北京公交线路信息

使用Selenium爬取淘宝网站信息

使用Scrapy爬取北京公交信息

日志数据采集实

Flume的安装和配置

Flume的体系结构

Flume的source和sink

Flume采集数据上传到集群

数据预处理实践

用Pig进行数据预处理

用Kettle进行数据预处理

用Pandas进行数据预处理

用OpenRefine进行数据预处理

使用Flume Interceptor对日志信息进行数据预处理

数据的预处理

数据预处理基础

数据清洗与数据预处理

Pig大数据预处理工具

Pig命令与PigLatin

Pig脚本编写

数据采集与预处理综合应用

ETL的概念与含义

ETL常用工具

kettle的介绍

kettle 转换的基本使用

使用kettle job完成复杂处理流程

数据库数据的采集和预处理

数据库采集概述

结构化数据与非结构化数据

多种数据库的采集与数据标准化

数据采集、数据预处理与大数据

数据采集与大数据

数据预处理与大数据

第二学年

大数据存储技术

传统的存储技术

传统存储技术的分类

磁盘结构及接口介绍

Raid技术介绍

Raid技术各自特点

磁盘与分区

逻辑卷技术介绍

分布式存储介绍

HDFS简介

Glusterfs简介

Lustre简介

MooseFS简介

Ceph简介

Hadoop应用基础

Hadoop概述

Hadoop简介

Hadoop生态系统

Hadoop体系架构

Hadoop平台搭建

Hadoop部署模式

本地模式

伪分布模式

完全分布式模式

HDFS

HDFS概念

HDFS体系结构

HDFS文件存储机制

HDFS操作

HDFS HA

工具

Tomcat

Git/SVN

Eclipse

MR概念

MR架构

MR编程模型

MR接口类

MR高级编程

Yarn

Zookeeper

Hbase

Hbase概念

Hbase逻辑模型

Hbase物理模型

Hbase安装部署

Hbase Shell

Hbase API

Hbase优化

Kafka

消息系统介绍

消息系统如何工作

点对点消息传递系统

发布-订阅消息系统

AMQP消息传递协议

流应用程序消息系统设计

分布式消息平台Kafka

Kafka起源

Kafka架构

消息主题

消息分区

复制和复制日志

消息生产者

消息消费者

深入理解Kafka Producer

Kafka Producer原理

Kafka Producer APIs

Java Kafka Producer示例

常用消息发布模式

最佳实践

深入理解Kafka Consumer

Kafka Consumer原理

Kafka Consumer APIs

Java Kafka Consumer示例

Scala Kafka Consumer示例

常用消息消费模式

Kafka集成

集成Kafka与Hadoop

集成Kafka与Spark

案例_ IP欺诈检测

Hive

数据仓库

Hive架构

Hadoop、Hive与关系型数据库

Hive部署

Hive数据存储

Hive数据类型

Hive基本操作

库操作

表操作

Hive进阶

Hive常用函数

Sqoop

Sqoop作用

Sqoop安装和测试

Sqoop的import

Sqoop的Export

Sqoop2及应用

Storm

案例：京东商城数据分析平台

大数据分析

Excel

Excel数据收集

Excel数据分析常用函数

Excel数据加工与处理

Excel数据分析

Excel数据的展示

SPSS

SPSS概述

SPSS数据文件的建立与操作

SPSS基本分析功能

回归分析

分析图表的绘制

SAS

tableau

impala

Python数据分析

数据分析基础

numpy模块

pandas模块

pandas数据分析

pandas文件读写基础

pandas与MySQL数据库的交互

pandas字符串处理

pandas数据分组与聚合

案例：电影数据统计

大数据可视化

什么是D3.js

如何学习和使用D3.js

选择元素及数据绑定

D3.js中选择、插入和删除元素

比例尺

坐标轴

动态效果

Update、Enter、Exit

交互式操作

布局

D3.js复杂数据类型可视化

Echasrts

Tableau

Tableau安装和基础

Tableau 可视化数据分析

Python可视化

Python可视化与可视化工具介绍

pandas基本图形绘制

matplotlib交互式绘图

matplotlib.pyplot的使用

Spark基础

Scala

Scala基础语法

Scala函数

Scala集合

Scala函数式编程

类和对象

Spark Core

Spark架构与运行机制

Spark平台搭建

Spark部署模式

Spark standalone模式搭建

Spark on YARN模式搭建

Spark交互式程序应用

Spark Core核心编程

Spark核心数据抽象RDD

创建RDD

操作RDD

创建和操作Pair RDD

RDD持久化机制

存储RDD

数据分区

Spark SQL结构化数据处理

RDD vs DataFrame

操作DataFrame

存储DataFrame

聚合操作

连接操作

使用函数和自定义函数

高级分析函数

案例：电影排行榜分析

案例：银行直销电话数据分析

云计算与云安全

云计算导论

计算虚拟化

虚拟化技术介绍

Libvirt技术介绍

Qemu工具介绍

Virsh工具介绍

虚拟机配置文件详解

OpenStack云平台

计算（Nova）服务介绍

网络（Neutron）服务介绍

存储服务介绍

计量（Ceilometer）服务介绍

身份认证（Keystone）服务介绍

镜像（Glance）服务介绍

仪表板（Horizon）服务介绍

编排（Heat）服务介绍

云安全架构与应用实践

端到端云安全架构

可信计算TPM/vTPM

虚拟机的安全隔离

虚拟化环境中的网络安全

云数据安全

公有云、私有云的安全组

云安全管理

安全即服务

Docker

安装和命令

Dockerfile

Docker registry

Kubernetes 容器云

数据安全与隐私保护

信息安全概述

操作系统安全

Web应用安全

网络安全

移动互联网终端安全

云计算及其安全

大数据及其安全

隐私保护

机器学习

基本概念

监督学习

感知机算法

决策树与森林

贝叶斯算法

线性逻辑算法

支持向量机

无监督学习

聚类

降维

半监督学习

深度学习

分布式数据库NoSQL

Hbase

MongoDB

Redis

人工智能基础

人工智能概述

知识表示

确定性推理

不确定与非单调推理

搜索策略

机器学习

神经网络及连接学习

自然语言理解

NITE（大数据）技能培训认证

阿里认证/Oracle Java认证

第三学年

Spark高级

Spark Streaming实时计算

流处理概述

Spark流处理引擎介绍

Spark DStream编程模型

使用文件数据源

输出操作

Spark Structured Streaming结构化流

Spark结构化流介绍

Spark结构化的流应用程序

流式DataFrame操作

内置数据源与Data Sinks

输出模式与触发器

event time与窗口操作

水印技术

去除重复数据

容错与流查询监控

Spark SQL数据探索与挖掘技术

数据探索性分析-EDA

使用Spark SQL进行基本数据分析

使用Spark SQL对数据进行采样

使用Spark SQL创建数据透视表

数据挖掘技术简介

探索数据挖掘技术

挖掘文本数据

挖掘时间序列数据

Spark ML机器学习基础

机器学习概述

Spark机器学习库

Spark机器学习管道技术

Transformer

Estimator

Pipeline

模型调优

Spark ML机器学习实战

Spark机器学习项目流程

Spark机器学习实战-回归算法应用

Spark机器学习实战-分类算法应用

Spark机器学习实战-聚类算法应用

Spark机器学习实战-推荐算法应用

Spark GraphX图计算

图与图处理简介

Spark GraphX API

图的创建与基本操作

图的转换操作

图算法

Flink

Flink架构与集群安装

Flink核心概念与开发环境准备

Flink实时数据处理

Flink批数据处理

使用Table API进行数据处理

复杂事件处理(CEP）

Flink on Hadoop

第四学年-知识扩展

语音识别

计算机视觉

机器人学

推荐书籍

Hadoop大数据开发案例教程与项目实战西普教育

机器学习及应用西普教育

信息安全导论(在线实验+在线自测) 西普教育

大数据测试技术(数据采集分析与测试实战) 西普教育

虚拟化与网络存储技术西普教育

推荐学习网站

技术官网

Python学习大全：http://www.pythondoc.com/

中国科学技术大学网络：http://wlkt.ustc.edu.cn/

中国大学：https://www.icourse163.org/

学堂在线：http://www.xuetangx.com/

数据观：http://www.cbdio.com/node_2568.htm

云栖社区：https://yq.aliyun.com/video/TagSearch/

菜鸟教程：http://www.runoob.com

易佰教程：http://www.yiibai.com

莫烦网： https://morvanzhou.github.io/

 收藏

立即使用

金融量化专业课程体系

 收藏

立即使用

大数据教学课程体系

 收藏

立即使用

Python程序设计知识点梳理

 收藏

立即使用

产品线流程课程规范

育航家

职业：研究生

去主页





0 条评论

下一页

为你推荐

查看更多

