大数据课程全套
2021-03-25 17:08:48 25 举报
课堂笔记
作者其他创作
大纲/内容
红桃: 60黑桃:90方块:100梅花: 30
公钥
JS埋点
sink
流式数据处理模型中要求: 拓扑结构必须满足有向无环.Flume属于流式数据处理范畴
图形界面
10.11.121.1
fsimage1.zip xxxxxxxxxd2.txt xxxxxxxxxd
create database ...hadoop fs -mkdir .../user/hive/warehouse/....
offset = 0+1
4
MySQL
队列发布订阅零拷贝技术B+Tree
NameNodeactive
Source
1000ms 1s
Yarn资源管理
男
Agent
纠删码/法
内存
2
Hadoop版本
rack2
HDFS海量数据存储
政哥泡面 1火腿 1茶叶蛋 1
Agent:hadoop01
channel
128M
country=JPN
2.16G.2T
0
私钥
3
fsimage和edits合并的条件:1.距上次合并一小时2.当edits>=64M3.服务重启时任意满足一个都会触发合并
country=UK
秘钥
服务器
gender=female
agent
A
country=CHN
京淘电商用户日志流量分析系统1.用户日志自动收集系统2.海量数据离线分析系统3.海量数据流式分析系统
10.11.121.9
1
WebServer
MapReduce
SQL
gender=male
hdfs://hadoop01:9000
jar
001 刘沛霞 12 女 2800 天津002 张慎政 13 男 3000 商丘003 齐雷 16 男 4500 保定004 刘昱江 11 男 2600 包头005 王海涛 19 男 4800 北京006 董长春 15 男 3300 张家口
5
source
3.打包
10.11.121.5
load data local inpath '....' into table tb_bookhadoop fs -put .... location.
消费者客户端
select sum(id) from tb_book
数据集
curl HTTP请求
红桃:35000
type:avrobind:0.0.0.0port:22222
女
Sink
Hadoop1.x
NaviCatSQLYog
Flume分布式日志收集工具
type: logger
空间利用率: 33%
partition_tb_book
type: spooldirspoolDir: /home/data/logs
JT生产者
Channel
edits.......
9.返回结果
Mapreduce
涛哥
JT消费者C
多级流动
数据库
日志服务器
follower
JT-1
响应
1.查询元数据
1.不能无限拓展2.不安全3.读写效率低4.成本增长不友好
泡面 1火腿 1茶叶蛋 1
x = 1
fstime = timestamp
spooldir
10.11.121.7
reduce
将扑克牌分堆
2T
1.8G.1T
文件夹/home/data/logs
fsimage1.zip xxxxxxxxxd2.txt xxxxxxxxxx
active
y = 2
HTTP
broker3
DataNode
book
10.11.121.4
JT-2
HDFS
1:100
10ms
离线处理(批处理)
broker0
5.上传
Mysql drop and run tom 英国 男
NameNode
* n
port: 22222
10.11.121.8
TBLS
6.解析7.请求资源8.计算
fsimage1.zip xxxxxxxxx2.txt xxxxxxxxxx
1 刘沛霞 女 天津2 张慎政 男 商丘3 刘昱江 男 包头4 董长春 男 张家口
Agent:hadoop04
broker1
sum(value)
江哥
mysql
红桃: 30黑桃:40方块:500梅花: 10
2.返回location等信息
ETL工程师
java html css css js
10.11.121.3
ES
user
HIve
type: httpbind: 0.0.0.0port: 22222
other
java从入门到精通 佚名 英国 女
split(\" \")
10.11.121.2
r1: 123r2: 456r3: 789
海贼王 尾田荣一郎 日本 男雪中悍刀行 烽火戏诸侯 中国 男盗墓笔记 南派三叔 中国 男太阳照在桑干河上 丁玲 中国 女三体 刘慈欣 中国 男犬夜叉 高桥留美子 日本 女java从入门到精通 佚名 英国 女Mysql drop and run tom 英国 男
雷哥
offset红 = 0绿 = 0
edits删除2.txt
Agent:hadoop03
数据仓库
MysqlsqlAPI
寻址
Hadoop
groupBy(key)
2x+y-z = 1
浏览器
Redis
Kafka流量消峰
计算资源
MapReduce离线计算
保存文件块及其基本信息
数据
IP:hadoop01port: 22222
fsimage.ckpt1.zip xxxxxxxxxd2.txt xxxxxxxxxx
Hive
B
请求
SecondaryNameNode
账本
16.32G.2T
数据可视化
方便面 18 -1火腿肠 20茶叶 10榨菜 20.......
将SQL翻译为MR
Agent:hadoop02
删除1.zip
文件
rack1
JT服务器
leader
/user/hive/warehourse/jt.db/tb_book
z = 3
JT消费者A
1T
3.编写MR程序
Agent:hadoop05
Yarn
生产者客户端
犬夜叉 高桥留美子 日本 女
8.4G.1T
架构体系:lambdaKappa
logger
7
broker2
Spooldir
log...
异步增量检查点
http
太阳照在桑干河上 丁玲 中国 女
Shuffle
雪中悍刀行 烽火戏诸侯 中国 男盗墓笔记 南派三叔 中国 男三体 刘慈欣 中国 男
政哥
Hadoop2.x
NAME LOCATINOtb_book hdfs://hadoop01:9000/user/hive/warehouse/jt.db/tb_book
跨域请求发送数据
磁盘
JT-0
Kafka集群
海贼王 尾田荣一郎 日本 男
非对称加密公钥用于加密数据私钥用于解密
Zookeeper
10.11.121.6
type:avrohostname:hadoop03port:22222
JT消费者B
消费者组
x+y+z = 6
NameNodestandby
rack3
map
4.8G.1T
fsimage.ckpt1.zip xxxxxxxxxd2.txt xxxxxxxxxd
edits删除1.zip
默认大小:128M(1.x版本时 64M)默认备份数量是三份
Sqoop
location
用空间换时间
Hive离线计算
Flink流式计算引擎
MR程序
0 条评论
回复 删除
下一页