大数据权威指南第四版
2020-11-24 14:01:07 0 举报
AI智能生成
Hadoop权威指南第四版读书笔记
作者其他创作
大纲/内容
第一章:关于hadoop
背景
随着各种技术的发展,数据规模快速增长
存储容量快速提升,但是存储速度并没有相应的快速提升
各种推荐都需要有大量的数据作为基础
Hadoop是什么
一个可靠可扩展的存储和分析平台
一个大数据生态,包括但不限于MapReduce 和 HDFS
发展史
起源于 Apache Nutch(一个开源搜索引擎)
理论基础
谷歌的GFS
谷歌的MapReduce
雅虎使用
核心组件
MapReduce
HDFS
YARN
文件IO
外围组件
FLUME
PIG
HIVE
SPARK
HBASE
跟传统的关系型数据库的区别
现实情况:磁盘读写速度远落后于网络传输速度
读写方面
MapReduce 适合一次写入,多次读取
RDBMS 适合频繁的写入和查询
数据结构化成都
Hadoop 非结构化
RDBMS 结构化
业务方面
Hadoop中的mapreudce 更适合批处理分析任务
关系型数据库更适用于建立好索引之后的数据的查询与更新
其他细节
对比网格计算和高性能计算
性能
网格计算将作业分发到各机器上,但是这些机器需要访问网络存储来获得数据,一旦需要的数据量大,那么数据存储中心的带宽就会是瓶颈
Hadoop 采用数据本地化,这也是Hadoop数据处理的核心
开发友好程度
网格计算需要开发人员同时处理底层数据传输和上层业务逻辑
Hadoop只需要处理上层业务,数据传输由MapReduce 框架实现
第二章:关于MapReduce
设计目标
为只需要不超过几小时的就能完成的作业提供服务
运行于同一个内部具有高速连接的数据中心
数据中心内的硬件都是可靠的
收藏
收藏
0 条评论
下一页