Hadoop基本原理与应用
2021-01-12 19:22:45 0 举报
AI智能生成
Hadoop基本原理与影友
作者其他创作
大纲/内容
时代背景
2000年,急剧增加的数据量与低下的计算存储能力之间的矛盾成为了当时的主流互联网公司面临的主要矛盾之一
Hadoop诞生
大数据领域的三驾马车
2003 年的 11 月份,Google 发表了第一篇论文《The Google File System》,后面我们简称 GFS
解决的是分布式存储的问题
2004 年 12 月份,Google 发表了第二篇论文《MapReduce:Simplified Data Processing on Large Clusters》
解决的是分布式计算的问题
2006 年的时候,Google 发表了第三篇论文,叫《Bigtable: A Distributed Storage System for Structured Data》
大规模结构化数据的存储和查询问题
2006 年 2 月份,Hadoop 项目成立
MapReduce
解决分布式计算的问题
HDFS
解决分布式存储的问题
黑话
玩转大数据的时候,常常说让大象能跳舞,形象的强调 Hadoop 给大数据带来的灵活计算的能力
HDFA特点
错误检测和自动恢复机制
最核心的架构目标
大规模的数据集
流式的数据访问
简单的一致性模型
移动计算比移动数据更加划算
HDFS 数据块(block)
数据块代表 HDFS 文件中读写的最小单位,典型的数据块大小在 64M 或者 128 M 左右。
HDFS整体架构
NameNote
维护所有的元数据,元数据主要是指HDFS 文件名、目录结构以及每个 HDFS 文件对应的文件块的真实存储位置等信息
DataNote
一般是每台存储服务器上都会部署一个,主要负责管理存储在这台服务器上的文件的读写
0 条评论
下一页