首页  思维导图  详情

数据挖掘第三阶段

2019-11-18 10:10:39   1  举报





AI智能生成

数据挖掘技术第三阶段

数据挖掘

spark

scala

hadoop

作者其他创作

大纲/内容

Spark生态体系

Scala基础语言应用

Scala背景介绍

Scala语言六大特性

Scala下载安装配置

Scala IDE开发Scala配置

IDEA 开发Scala配置

Scala类型推断机制

Scala数据类型

Scala基本语法

Scala类和对象 / Scala 循环、判断

Scala函数编程

Scala函数定义

Scala递归函数

Scala默认值函数

Scala可变参数函数

Scala匿名函数

Scala嵌套函数

Scala偏应用函数

Scala高阶函数

Scala柯里化函数

Scala字符串、集合

Scala String操作

Scala Array 操作

Scala可变数组操作

Scala List 操作

Scala 可变列表操作

Scala Set 操作

Scala 可变Set操作

Scala map 操作 / Scala 可变map操作

Scala 元组操作及要点

Scala高级应用

Scala伴生类 / Scala伴生对象

Scala样例类 / Scala样例类案例

Scala Trait要点 / Scala Trait 案例

Scala match匹配

Scala隐式值操作 / Scala隐式参数操作

Scala隐式函数操作 / Scala隐式类操作

ScalaActor通信模型

Spark术语

Spark-ClusterManager

Spark-Driver

Spark-Master

Spark-Worker

Spark-Executor / Spark-线程池

Spark-Application / Spark-job

Spark-Stage / Spark-task

Spark基础使用

Spark技术介绍 / Spark技术站详解

Spark演变历史 / Spark与MR的区别

Spark 基于eclipse配置

Spark基于IDEA配置

Spark运行模式介绍

Spark集群搭建 / Spark配置选项详解

Spark Pi 任务提交运行 / Spark客户端搭建

Spark核心RDD

Spark编程核心RDD

SparkRDD原理及使用

RDD结构及注意点

RDD五大特性

RDD弹性原理

RDD分布式原理

RDD容错原理

Spark算子

Spark 转换算子

map算子使用 / flatMap算子使用

filter算子使用 / sample算子使用

reduceByKey算子使用 / SortByKey算子使用

Join、union算子使用

Cogroup算子使用

distinct使用

repartition算子使用

coalesce算子使用

zip,zipWithIndex使用

Spark行动算子

Foreach算子使用

Take算子使用

SaveAsTextFile使用

Count算子使用

Take算子使用

Collect算子使用

First算子使用

CountByKey使用

CountByValue使用 / Reduce使用

Spark 持久化算子

持久化数据级别分类

持久化算子cache使用

Cache要点注意事项

持久化算子persist使用

Persist要点注意事项

持久化算子Checkpoint

Checkpoint执行流程

Checkpoint注意事项

Checkpoint使用优化

Spark任务提交方式及参数

Standalone-client模式原理 / 模式流程详解

Standalone-cluster模式原理

Standalone-cluster模式流程详解

Yarn-client模式原理 / Yarn-client模式流程详解

Yarn-cluster模式原理 / Yarn-cluster模式流程详解

Client模式提交命令和特点

Cluster模式提交命令和特点 / Spark任务提交

Spark计算模式

SparkRDD窄依赖

SparkRDD宽依赖

SparkStage切割划分

SparkStage计算模式

Pipeline管道数据落地

Stage并行度划分

提高Stage并行度方式

Spark任务调度

任务调度角色划分 / 资源调度角色划分

Spark资源调度过程

Spark任务调度过程

SparkDAG有向无环图

粗粒度资源申请特点 / 细粒度资源申请特点

Spark推测执行机制

Spark任务提交案例

Spark pv,uv案例

Spark WordCount案例

Spark二次排序案例

Spark分组取topN案例

Spark分组取topN优化

Spark处理数据思路转换

Spark 高阶应用

广播变量及注意事项 / 累加器及注意事项

自定义累加器 / 版本对比变化

Spark-WebUI详解 / Spark日志查看

Pipeline计算模式验证 / 历史日志服务器配置

MasterHA高可用原理 / MasterHA高可用配置

MasterHA搭建注意点

Spark 核心之Shuffle

SparkShuffle概念

Spark-HashShuffle普通机制、优化机制

Spark-SortShuffle普通机制

Spark-SortShufflebypass机制

HashShuffle执行流程详解 / SortShuffle执行流程详解

HashShuffle与SortShuffle对比

Shuffle文件寻址详解 / Spark oom问题处理

Spark统一内存管理划分 / Spark静态内存管理划分

SparkSQL初级

Shark原理分析

SparkSQL原理分析 / SparkSQL演变过程

DataFrame与DataSet

SparkSQL数据源 / SparkSQL底层架构

SparkSQL谓词下推 / Json格式数据转DataSet

普通RDD和DataSet互操作

Parquet数据转DataSet

JDBC数据转DataSet / aS

SparkSQL高级

SparkSQL序列化问题

Hive On Spark原理

Spark On Hive原理

Spark On Hive配置详解

SparkSQL DataSet存储

SparkSQL之UDF

SparkSQL之UDAF

SparkSQL之over函数

SparkStreaming流式处理框架

SparkStreaming介绍

SparkStreaming&Strom

SparkStreaming接受数据原理

SparkStreaming之Dstream

SparkStreaming读取Socket数据

foreachRDD算子使用

transform算子使用

updateStateByKey算子使用

window窗口操作

reduceByKeyAndWindow使用

DriverHA原理及搭建

Kafka分布式消息系统应用

Kafka分布式消息系统介绍

Kafka应用场景

Kafka生产消息原理

Kafka存储消息原理

Kafka Topic、partition原理

Consumer消费消息原理

Kafka集群搭建 / Kafka命令使用

Kafka消息系统特点

KafkaLeader均衡机制

Kafka版本更改对比

KafkaTopic更改、删除

SparkStreaming+kafka整合

Receiver模式整合原理

Receiver模式问题及优化

Direct模式整合原理

Direct模式Api使用

WAL机制配置及使用

Receiver模式并行度设置

Direct模式并行度设置 / Direct模式offset管理

新版本Direct模式使用 / 新版本Direct模式对比

新版本Direct模式offset管理

SparkStreaming配置参数详解

SparkStreaming反压机制

Redis语法

edis介绍

String1类型 / String2类型

List1类型 / List2类型

Set类型 / Sorted set类型

Rdb 与aof类型

无主架构模型 / 主从架构模型

Redis集群搭建

Tensorflow

Tensorflow特点

Tensorflow介绍

Tensorflow安装

CPU

GPU

TPU

数据流图

结构分析

构建

执行

介绍

Tensor

Flow

图与TensorBoard

数据+操作

图相关操作

默认图

创建图

可视化学习

数据序列化-events文件

启动TensorBoard

会话

张量Tensor

Tensor

存储

类型

张量的阶

创建张量的指令

张量的变换

变量OP

特点

作用

具体使用

高级API

其他基础api

tf.app

tf.image

tf.gfile

tf.summary

tf.python_io

tf.train

tf.nn

高级api

tf.keras

tf.layers

tf.contrib

tf.estimator

数据读取

文件读取流程

图片数据

二进制数据

TFRecords

应用

运行步骤

1，创建session（TF2.0不需要）

2，初始化变量

3，使用session执行目标方式

4，关闭session

关键知识点

session创建

变量创建方式

矩阵转置

逆矩阵

梯度下降

方差：评价优劣

期望

求导

损失函数

Pytorch

Caffe

大数据基础

1、Linux安装与配置

Linux常见版本及VMware

安装Linux至硬盘及虚拟机安装Linux系统

虚拟机网络配置(IP地址、主机名、防火墙)

超级用户root

关于硬盘驱动程序

进阶：配置Grub

2、系统管理与目录管理

Shell基本命令

使用命令行补全和通配符(find命令、locate命令)

查找特定程序

whereis

Linux系统文件的架构(移动、复制和删除)

文件和目录的权限

文件类型与输入输出

3、用户和用户组管理

软件包管理

磁盘基本管理命令

高级硬盘管理RAID和LVM

进阶：备份你的工作和系统

用户与用户组管理

内存使用监控命令

软件安装方式 / 进程管理

4、Shell编程

Shell脚本编程概述

正则表达式(字符集和单词、字符类)

Shell脚本编程

脚本执行命令和控制语句

Shell定制 / 个性化设置

修改.bashrc文件

Shell脚本调试

5、服务器配置

系统引导

管理守护进程

通过xinetd启动SSH服务

配置inetd

Apache基础 / 设置Apache服务器

PHP基础

配置DHCP服务

6、Hadoop起源与安装

大数据概论

Google与Hadoop模块

Hadoop生态系统

Hadoop常用项目介绍

Hadoop环境安装配置

Hadoop安装模式

Hadoop配置文件

7、MapReduce快速入门

WordCount准备开发环境

MapReduce编程接口体系结构

MapReduce通信协议

导入Hadoop的JAR文件

MapReduce代码的实现

打包

部署和运行 / 打包成JAR文件

8、Hadoop分布式文件系统

识HDFS及其HDFS架构

Hadoop的RPC机制

HDFS的HA机制

HDFS的Federation机制

Hadoop文件系统的访问

JavaAPI接口与维护HDFS

HDFS权限管理

9、Hadoop文件I/O详解

Hadoop文件的数据结构

HDFS数据完整性

文件序列化

Hadoop的Writable类型

Hadoop支持的压缩格式

Hadoop中编码器和解码器

(gzip、LZO和Snappy比较)

10、MapReduce工作原理

MapReduce函数式编程概念

MapReduce框架结构

MapReduce运行原理

Shuffle阶段和Sort阶段

任务的执行与作业调度器

自定义Hadoop调度器

YARN架构及其工作流程

11、MapReduce编程开发

WordCount案例分析

输入输出格式

压缩格式与MapReduce优化

辅助类与Streaming接口

MapReduce二次排序

MapReduce Join算法

从MySQL读写数据 / Hadoop系统调优

Hadoop生态体系

HDFS基本概念

1T文件处理

Hadoop历史 / Hadoop架构

NameNode讲解

SecondaryNameNode讲解

DataNode与副本防治策略

HDFS权限 / HDFS安全模式

HDFS文件上传流程 / HDFS读文件流程

伪分布式集群搭建

HDFS高级概念

hadoop完全分布式集群搭建

hadoop3新特性

NameNode的Federation

NameNode-HA

NameNode-HA集群搭建

NameNode-HA手动切换

NameNode-HA自动切换

java客户端操作HDFS

Hue的使用

Hue介绍

Hue安装

Hue的HDFS管理与使用

Hue的YARN管理与使用

Hue的HIVE管理与使用

Hue的Oozie管理与使用

Hue的metadata管理与使用

Hue的用户管理与使用

3、MR

MapReduce简介与原语

MapReduce执行流程

二次排序

MapReduce作业提交流程

MapReduce作业执行流程

YARN-ResourceManager-HA搭建

运行自带的wordcount程序

手写wordcount程序

4、Hive

Hive介绍

hive的介绍

数据仓库概念讲解

数据仓库与数据库区别

Hive的架构原理

Hive元数据讲解

Hive的使用场景

Hive的优缺点

Hive的执行引擎

Hive操作符

Hive语法解析

Hive架构

linux环境下mysql安装

mysql登录权限修改

Hive三种安装搭建模式

Hive元数据存储到mysql

基于内存数据库模式搭建

基于远程数据库模式搭建

基于远程数据库服务搭建

Hive配置文件讲解 / Hive命令操作

Hive DDL

Hive基础数据类型

Hive复杂数据类型

Hive数据类型转换

Hive创建数据库

Hive创建表三种方式

Hive创建管理表

Hive创建外部表

Hive数据读取规则Row Format

Hive数据读取规则 Serde

Hive静态分区管理

Hive动态分区管理

Hive删除表

Hive修改表

Hive分桶表管理

Hive视图

Hive索引

Hive DML

Hive从本地加载数据

Hive从hdfs加载数据

Hive通过查询插入数据

Hive插入数据到指定目录

Hive insert values插入操作

Hive事务管理

Hive事务特性

Hive事务配置

Hive修改数据 / Hive删除数据 / Hive清空数据

Hive查询

Hive全表查询

Hive条件查询

Hive分组查询

Hive运算符

Hive内置函数

Hive自定义函数

Hive表连接

Hive排序方式

Hive嵌套查询 / Hive行转列

Hive访问方式

Hive命令行方式

Hive元数据管理

Hiveserver2讲解

Hive beeline客户端讲解

Hive JDBC操作

Hive参数

Hive变量

Hive脚本运行方式

Hive GUI方式

Hive安全管理

Hive授权模式

Hive Legacy Mode

Hive 基于SQL标准授权模型

Hive 基于元数据授权模型

Hive角色管理

Hive授权命令

Hive回收权限命令

Hive存储及压缩

Hive存储压缩管理

Hive列式存储 / Hive行式存储

Hive textfile

Hive sequencefile

Hive orc file

Hive parquet file

Hive map端输出 / Hive reduce端输出

Hbase

Hbase介绍及架构

hbase介绍 / NoSQL介绍

Hbase特点 / Hbase存储数据结构

Hbase数据模型 / Hbase表结构介绍

Hbase架构图 / Hbase角色

Hbase内存结构介绍

Hbase存储数据结构LSM树

Hbase写数据流程 / Hbase读数据流程

Hbase架构及操作

Hbase standalone模式安装

Hbase 完全分布式安装

Hbase 高可用

Hbase搭建注意

Hbase基本命令

Hbase DDL命令 / Hbase DML命令

Hbase命名空间命令

Hbase Java API

Hbase创建表 / Hbase删除表

Hbase插入数据 / Hbase更新数据

Hbase删除数据

Hbase获取一条数据

Hbase获取某个范围的数据

Hbase过滤器

Hbase与MR集成 / Hbase与hive集成

Hbase压缩存储

Protobuffer讲解

Protobuffer安装

Protobuffer配置基本类型

Protobuffer配置集合类型

Protobuffer生成Java类

Hbase读取Protobuffer生成的类

Hbase压缩存储

Flume

Flume架构

Flume日志收集工具

Flume agent架构

Flume组件

Flume集群讲解

flume不同架构介绍

flume安装 / flume配置信息

flume单台安装 / flume集群安装

flume高可用讲解

flume source讲解

Avro source

Thrift source

Exec source

Spooling directory source

Kafka source

Netcat source

自定义Source

Source的分类

flume sink讲解

Hdfs sink

Hive sink

Hbase sink

Avro sink

Thrift sink

Logger sink

Kafka sink

自定义Sink

Sqoop

Sqoop介绍及架构

Sqoop简介

ETL讲解

Sqoop架构图

Sqoop架构设计

Sqoop版本介绍

Sqoop导入

Sqoop导出

Sqoop安装 / Sqoop配置

Sqoop操作

Sqoop导入数据到hdfs

Sqoop导入数据到hive

Sqoop导入数据到hbase

Sqoop通过查询语句到hdfs

Sqoop导出数据到mysql

导出配置

Hdfs配置 / Hbase配置

数据库配置

zookeeper

分布式协调框架

Zookeeper背景与介绍

分布式zookeeper环境及安装

Zookeeper源语命令操作

关于节点类型、版本、元数据信息的意义

Zookeeper 的api 环境java操作集群演示

事件注册与节点的变更

基于zookeeper的分布式协调案例

ElasticSearch

ElasticSearch的现状与前景

Lucene框架与倒排索引原理

Lucene框架在el search搜索引擎中的作用

ElasticSearch全分布式特性

ElasticSearch的环境要求与安装

Curl命令与rest风格的使用

CDH

国内外大数据平台介绍

Cloudera产品介绍

什么是CDH

什么是cloudera manager

什么是cloudera manager service

cloudera manager框架原理

集群基础设施配置

纯手工安装cloudera manager

cloudera manager使用

cloudera manager部署CDH

cloudera manager管理主机

cloudera manager管理集群、管理服务

cloudera manager管理实例、管理配置

cloudera manager管理监控、管理资源

cloudera manager service图表使用

cloudera manager service图表创建

cloudera manager service的dashboard

Impala的安装使用

Impala介绍 / 内存计算与MR,SPARK计算的比较

impala框架角色讲解 / impala的安装

impala的命令行使用 / impala的命令参数详解

impala的内部命令详解 / impala的SQL的ddl

impala的SQL的dml / impala的SQL的dql

impala的文件格式与压缩

impala的hbase整合

impala的配置与监控 / impala的调优

Oozie的使用

Oozie介绍

Oozie的基于hadoop的分布式调度原理

Oozie框架角色原理

Oozie的xml配置文件

Oozie的job配置文件

Oozie的命令

Oozie的配置与监控

Oozie的开发

 收藏

立即使用

数据挖掘第四第五阶段

 收藏

立即使用

数据挖掘第三阶段

 收藏

立即使用

数据挖掘第一第二阶段

小小罗

职业：暂无

去主页





0 条评论

下一页

为你推荐

查看更多

