BIGDATA
2021-07-02 13:41:35 0 举报
电商大数据存储数据的原理分析
作者其他创作
大纲/内容
Q4:如果客户端传输超大文件100G那么到时候读取数据的时候就会非常m慢
sr 分辨率
ip IP地址
linux服务器
jd.com
/opt/hadoop/block
2.响应,可以传输
DN2
请求读取 blk_id2
客户端机器
NN
uid 用户id
dt 商品标题
web 页面
磁盘 1 T 把得到的数据都写到磁盘中
.........
海量文件系统
NameNode通知文件在blk 和blk2blk_id DN1 blk_id2 DN2
4.通知他可以传到DN1 并且分配给他一个全局唯一的blk_id
blk_id
/
DataNode
blk_id2
1.请求存入一个文件 请求路径为 movie/gfavdis.avi
D:
/data/
D:var/log/2019-5-3/xxx.log1 文本文件 xxx.log2 xxx.log3
XX.log2XX.log3
os 操作系统
客户端程序
3.请求传输文件的第一块
本地磁盘:/data/gfavdio.avi
D:data/log/log2
/moive/gfavidio blk_id DN1 blk_id2 DN2
请求读取 blk_id
分布式文件系统
@Controller@RequestMapper(\"/\")public void writelog(Bean bena){}
out=new FileOutputStream(\"var/log...\");out.write(bean.toString.getBytes());
7.NameNode通知可以传到DN2 分配一个唯一blk_id2
Q4:如果多个客户端传输同一个文件名 可能造成数据覆盖?
/data
请求读取 /movie/gfavdio
DN1
DN4
Q2:是想以下像京东天猫每天同时浏览人数没有上亿也有好几千万的访问量 ,假如一个人访问数据量为1k 一天总共请求的数据也有百g了 如果一个月 一年 那么数据就会越来越大 肯定会到达T级别
DN3
200M
Q5:传输数据的时候数据存储服务器挂掉(如果DN1,DN2 )了,那么就会造成数据丢失
8.传输文件到DN2 块id=blk_id2
/aaa
Server服务端
NameNode
5.传输文件到DN1 块id=blk_id
6.请求传输文件的第二块
虚拟目录树 :元数据
0 条评论
回复 删除
下一页