数据挖掘第三阶段
2019-11-18 10:10:39 1 举报
AI智能生成
数据挖掘技术第三阶段
作者其他创作
大纲/内容
Spark生态体系
Scala基础语言应用
Scala背景介绍
Scala语言六大特性
Scala下载安装配置
Scala IDE开发Scala配置
IDEA 开发Scala配置
Scala类型推断机制
Scala数据类型
Scala基本语法
Scala类和对象 / Scala 循环、判断
Scala函数编程
Scala函数定义
Scala递归函数
Scala默认值函数
Scala可变参数函数
Scala匿名函数
Scala嵌套函数
Scala偏应用函数
Scala高阶函数
Scala柯里化函数
Scala字符串、集合
Scala String操作
Scala Array 操作
Scala可变数组操作
Scala List 操作
Scala 可变列表操作
Scala Set 操作
Scala 可变Set操作
Scala map 操作 / Scala 可变map操作
Scala 元组操作及要点
Scala高级应用
Scala伴生类 / Scala伴生对象
Scala样例类 / Scala样例类案例
Scala Trait要点 / Scala Trait 案例
Scala match匹配
Scala隐式值操作 / Scala隐式参数操作
Scala隐式函数操作 / Scala隐式类操作
ScalaActor通信模型
Spark术语
Spark-ClusterManager
Spark-Driver
Spark-Master
Spark-Worker
Spark-Executor / Spark-线程池
Spark-Application / Spark-job
Spark-Stage / Spark-task
Spark基础使用
Spark技术介绍 / Spark技术站详解
Spark演变历史 / Spark与MR的区别
Spark 基于eclipse配置
Spark基于IDEA配置
Spark运行模式介绍
Spark集群搭建 / Spark配置选项详解
Spark Pi 任务提交运行 / Spark客户端搭建
Spark核心RDD
Spark编程核心RDD
SparkRDD原理及使用
RDD结构及注意点
RDD五大特性
RDD弹性原理
RDD分布式原理
RDD容错原理
Spark算子
Spark 转换算子
map算子使用 / flatMap算子使用
filter算子使用 / sample算子使用
reduceByKey算子使用 / SortByKey算子使用
Join、union算子使用
Cogroup算子使用
distinct使用
repartition算子使用
coalesce算子使用
zip,zipWithIndex使用
Spark行动算子
Foreach算子使用
Take算子使用
SaveAsTextFile使用
Count算子使用
Take算子使用
Collect算子使用
First算子使用
CountByKey使用
CountByValue使用 / Reduce使用
Spark 持久化算子
持久化数据级别分类
持久化算子cache使用
Cache要点注意事项
持久化算子persist使用
Persist要点注意事项
持久化算子Checkpoint
Checkpoint执行流程
Checkpoint注意事项
Checkpoint使用优化
Spark任务提交方式及参数
Standalone-client模式原理 / 模式流程详解
Standalone-cluster模式原理
Standalone-cluster模式流程详解
Yarn-client模式原理 / Yarn-client模式流程详解
Yarn-cluster模式原理 / Yarn-cluster模式流程详解
Client模式提交命令和特点
Cluster模式提交命令和特点 / Spark任务提交
Spark计算模式
SparkRDD窄依赖
SparkRDD宽依赖
SparkStage切割划分
SparkStage计算模式
Pipeline管道数据落地
Stage并行度划分
提高Stage并行度方式
Spark任务调度
任务调度角色划分 / 资源调度角色划分
Spark资源调度过程
Spark任务调度过程
SparkDAG有向无环图
粗粒度资源申请特点 / 细粒度资源申请特点
Spark推测执行机制
Spark任务提交案例
Spark pv,uv案例
Spark WordCount案例
Spark二次排序案例
Spark分组取topN案例
Spark分组取topN优化
Spark处理数据思路转换
Spark 高阶应用
广播变量及注意事项 / 累加器及注意事项
自定义累加器 / 版本对比变化
Spark-WebUI详解 / Spark日志查看
Pipeline计算模式验证 / 历史日志服务器配置
MasterHA高可用原理 / MasterHA高可用配置
MasterHA搭建注意点
Spark 核心之Shuffle
SparkShuffle概念
Spark-HashShuffle普通机制、优化机制
Spark-SortShuffle普通机制
Spark-SortShufflebypass机制
HashShuffle执行流程详解 / SortShuffle执行流程详解
HashShuffle与SortShuffle对比
Shuffle文件寻址详解 / Spark oom问题处理
Spark统一内存管理划分 / Spark静态内存管理划分
SparkSQL初级
Shark原理分析
SparkSQL原理分析 / SparkSQL演变过程
DataFrame与DataSet
SparkSQL数据源 / SparkSQL底层架构
SparkSQL谓词下推 / Json格式数据转DataSet
普通RDD和DataSet互操作
Parquet数据转DataSet
JDBC数据转DataSet / aS
SparkSQL高级
SparkSQL序列化问题
Hive On Spark原理
Spark On Hive原理
Spark On Hive配置详解
SparkSQL DataSet存储
SparkSQL之UDF
SparkSQL之UDAF
SparkSQL之over函数
SparkStreaming流式处理框架
SparkStreaming介绍
SparkStreaming&Strom
SparkStreaming接受数据原理
SparkStreaming之Dstream
SparkStreaming读取Socket数据
foreachRDD算子使用
transform算子使用
updateStateByKey算子使用
window窗口操作
reduceByKeyAndWindow使用
DriverHA原理及搭建
Kafka分布式消息系统应用
Kafka分布式消息系统介绍
Kafka应用场景
Kafka生产消息原理
Kafka存储消息原理
Kafka Topic、partition原理
Consumer消费消息原理
Kafka集群搭建 / Kafka命令使用
Kafka消息系统特点
KafkaLeader均衡机制
Kafka版本更改对比
KafkaTopic更改、删除
SparkStreaming+kafka整合
Receiver模式整合原理
Receiver模式问题及优化
Direct模式整合原理
Direct模式Api使用
WAL机制配置及使用
Receiver模式并行度设置
Direct模式并行度设置 / Direct模式offset管理
新版本Direct模式使用 / 新版本Direct模式对比
新版本Direct模式offset管理
SparkStreaming配置参数详解
SparkStreaming反压机制
Redis语法
edis介绍
String1类型 / String2类型
List1类型 / List2类型
Set类型 / Sorted set类型
Rdb 与aof类型
无主架构模型 / 主从架构模型
Redis集群搭建
Tensorflow
Tensorflow特点
Tensorflow介绍
Tensorflow安装
CPU
GPU
TPU
数据流图
结构分析
构建
执行
介绍
Tensor
Flow
图与TensorBoard
数据+操作
图相关操作
默认图
创建图
可视化学习
数据序列化-events文件
启动TensorBoard
OP
会话
张量Tensor
Tensor
存储
类型
张量的阶
创建张量的指令
张量的变换
变量OP
特点
作用
具体使用
高级API
其他基础api
tf.app
tf.image
tf.gfile
tf.summary
tf.python_io
tf.train
tf.nn
高级api
tf.keras
tf.layers
tf.contrib
tf.estimator
数据读取
文件读取流程
图片数据
二进制数据
TFRecords
应用
运行步骤
1,创建session(TF2.0不需要)
2,初始化变量
3,使用session执行目标方式
4,关闭session
关键知识点
session创建
变量创建方式
矩阵转置
逆矩阵
梯度下降
方差:评价优劣
期望
求导
损失函数
Pytorch
Caffe
大数据基础
1、Linux安装与配置
Linux常见版本及VMware
安装Linux至硬盘及虚拟机安装Linux系统
虚拟机网络配置(IP地址、主机名、防火墙)
超级用户root
关于硬盘驱动程序
进阶:配置Grub
2、系统管理与目录管理
Shell基本命令
使用命令行补全和通配符(find命令、locate命令)
查找特定程序
whereis
Linux系统文件的架构(移动、复制和删除)
文件和目录的权限
文件类型与输入输出
3、用户和用户组管理
软件包管理
磁盘基本管理命令
高级硬盘管理RAID和LVM
进阶:备份你的工作和系统
用户与用户组管理
内存使用监控命令
软件安装方式 / 进程管理
4、Shell编程
Shell脚本编程概述
正则表达式(字符集和单词、字符类)
Shell脚本编程
脚本执行命令和控制语句
Shell定制 / 个性化设置
修改.bashrc文件
Shell脚本调试
5、服务器配置
系统引导
管理守护进程
通过xinetd启动SSH服务
配置inetd
Apache基础 / 设置Apache服务器
PHP基础
配置DHCP服务
6、Hadoop起源与安装
大数据概论
Google与Hadoop模块
Hadoop生态系统
Hadoop常用项目介绍
Hadoop环境安装配置
Hadoop安装模式
Hadoop配置文件
7、MapReduce快速入门
WordCount准备开发环境
MapReduce编程接口体系结构
MapReduce通信协议
导入Hadoop的JAR文件
MapReduce代码的实现
打包
部署和运行 / 打包成JAR文件
8、Hadoop分布式文件系统
识HDFS及其HDFS架构
Hadoop的RPC机制
HDFS的HA机制
HDFS的Federation机制
Hadoop文件系统的访问
JavaAPI接口与维护HDFS
HDFS权限管理
9、Hadoop文件I/O详解
Hadoop文件的数据结构
HDFS数据完整性
文件序列化
Hadoop的Writable类型
Hadoop支持的压缩格式
Hadoop中编码器和解码器
(gzip、LZO和Snappy比较)
10、MapReduce工作原理
MapReduce函数式编程概念
MapReduce框架结构
MapReduce运行原理
Shuffle阶段和Sort阶段
任务的执行与作业调度器
自定义Hadoop调度器
YARN架构及其工作流程
11、MapReduce编程开发
WordCount案例分析
输入输出格式
压缩格式与MapReduce优化
辅助类与Streaming接口
MapReduce二次排序
MapReduce Join算法
从MySQL读写数据 / Hadoop系统调优
Hadoop生态体系
HDFS基本概念
1T文件处理
Hadoop历史 / Hadoop架构
NameNode讲解
SecondaryNameNode讲解
DataNode与副本防治策略
HDFS权限 / HDFS安全模式
HDFS文件上传流程 / HDFS读文件流程
伪分布式集群搭建
HDFS高级概念
hadoop完全分布式集群搭建
hadoop3新特性
NameNode的Federation
NameNode-HA
NameNode-HA集群搭建
NameNode-HA手动切换
NameNode-HA自动切换
java客户端操作HDFS
Hue的使用
Hue介绍
Hue安装
Hue的HDFS管理与使用
Hue的YARN管理与使用
Hue的HIVE管理与使用
Hue的Oozie管理与使用
Hue的metadata管理与使用
Hue的用户管理与使用
3、MR
MapReduce简介与原语
MapReduce执行流程
二次排序
MapReduce作业提交流程
MapReduce作业执行流程
YARN-ResourceManager-HA搭建
运行自带的wordcount程序
手写wordcount程序
4、Hive
Hive介绍
hive的介绍
数据仓库概念讲解
数据仓库与数据库区别
Hive的架构原理
Hive元数据讲解
Hive的使用场景
Hive的优缺点
Hive的执行引擎
Hive操作符
Hive语法解析
Hive架构
linux环境下mysql安装
mysql登录权限修改
Hive三种安装搭建模式
Hive元数据存储到mysql
基于内存数据库模式搭建
基于远程数据库模式搭建
基于远程数据库服务搭建
Hive配置文件讲解 / Hive命令操作
Hive DDL
Hive基础数据类型
Hive复杂数据类型
Hive数据类型转换
Hive创建数据库
Hive创建表三种方式
Hive创建管理表
Hive创建外部表
Hive数据读取规则Row Format
Hive数据读取规则 Serde
Hive静态分区管理
Hive动态分区管理
Hive删除表
Hive修改表
Hive分桶表管理
Hive视图
Hive索引
Hive DML
Hive从本地加载数据
Hive从hdfs加载数据
Hive通过查询插入数据
Hive插入数据到指定目录
Hive insert values插入操作
Hive事务管理
Hive事务特性
Hive事务配置
Hive修改数据 / Hive删除数据 / Hive清空数据
Hive查询
Hive全表查询
Hive条件查询
Hive分组查询
Hive运算符
Hive内置函数
Hive自定义函数
Hive表连接
Hive排序方式
Hive嵌套查询 / Hive行转列
Hive访问方式
Hive命令行方式
Hive元数据管理
Hiveserver2讲解
Hive beeline客户端讲解
Hive JDBC操作
Hive参数
Hive变量
Hive脚本运行方式
Hive GUI方式
Hive安全管理
Hive授权模式
Hive Legacy Mode
Hive 基于SQL标准授权模型
Hive 基于元数据授权模型
Hive角色管理
Hive授权命令
Hive回收权限命令
Hive存储及压缩
Hive存储压缩管理
Hive列式存储 / Hive行式存储
Hive textfile
Hive sequencefile
Hive orc file
Hive parquet file
Hive map端输出 / Hive reduce端输出
Hbase
Hbase介绍及架构
hbase介绍 / NoSQL介绍
Hbase特点 / Hbase存储数据结构
Hbase数据模型 / Hbase表结构介绍
Hbase架构图 / Hbase角色
Hbase内存结构介绍
Hbase存储数据结构LSM树
Hbase写数据流程 / Hbase读数据流程
Hbase架构及操作
Hbase standalone模式安装
Hbase 完全分布式安装
Hbase 高可用
Hbase搭建注意
Hbase基本命令
Hbase DDL命令 / Hbase DML命令
Hbase命名空间命令
Hbase Java API
Hbase创建表 / Hbase删除表
Hbase插入数据 / Hbase更新数据
Hbase删除数据
Hbase获取一条数据
Hbase获取某个范围的数据
Hbase过滤器
Hbase与MR集成 / Hbase与hive集成
Hbase压缩存储
Protobuffer讲解
Protobuffer安装
Protobuffer配置基本类型
Protobuffer配置集合类型
Protobuffer生成Java类
Hbase读取Protobuffer生成的类
Hbase压缩存储
Flume
Flume架构
Flume日志收集工具
Flume agent架构
Flume组件
Flume集群讲解
flume不同架构介绍
flume安装 / flume配置信息
flume单台安装 / flume集群安装
flume高可用讲解
flume source讲解
Avro source
Thrift source
Exec source
Spooling directory source
Kafka source
Netcat source
自定义Source
Source的分类
flume sink讲解
Hdfs sink
Hive sink
Hbase sink
Avro sink
Thrift sink
Logger sink
Kafka sink
自定义Sink
Sqoop
Sqoop介绍及架构
Sqoop简介
ETL讲解
Sqoop架构图
Sqoop架构设计
Sqoop版本介绍
Sqoop导入
Sqoop导出
Sqoop安装 / Sqoop配置
Sqoop操作
Sqoop导入数据到hdfs
Sqoop导入数据到hive
Sqoop导入数据到hbase
Sqoop通过查询语句到hdfs
Sqoop导出数据到mysql
导出配置
Hdfs配置 / Hbase配置
数据库配置
zookeeper
分布式协调框架
Zookeeper背景与介绍
分布式zookeeper环境及安装
Zookeeper源语命令操作
关于节点类型、版本、元数据信息的意义
Zookeeper 的api 环境java操作集群演示
事件注册与节点的变更
基于zookeeper的分布式协调案例
ElasticSearch
ElasticSearch的现状与前景
Lucene框架与倒排索引原理
Lucene框架在el search搜索引擎中的作用
ElasticSearch全分布式特性
ElasticSearch的环境要求与安装
Curl命令与rest风格的使用
CDH
国内外大数据平台介绍
Cloudera产品介绍
什么是CDH
什么是cloudera manager
什么是cloudera manager service
cloudera manager框架原理
集群基础设施配置
纯手工安装cloudera manager
cloudera manager使用
cloudera manager部署CDH
cloudera manager管理主机
cloudera manager管理集群、管理服务
cloudera manager管理实例、管理配置
cloudera manager管理监控、管理资源
cloudera manager service图表使用
cloudera manager service图表创建
cloudera manager service的dashboard
Impala的安装使用
Impala介绍 / 内存计算与MR,SPARK计算的比较
impala框架角色讲解 / impala的安装
impala的命令行使用 / impala的命令参数详解
impala的内部命令详解 / impala的SQL的ddl
impala的SQL的dml / impala的SQL的dql
impala的文件格式与压缩
impala的hbase整合
impala的配置与监控 / impala的调优
Oozie的使用
Oozie介绍
Oozie的基于hadoop的分布式调度原理
Oozie框架角色原理
Oozie的xml配置文件
Oozie的job配置文件
Oozie的命令
Oozie的配置与监控
Oozie的开发
0 条评论
下一页