Hive学习笔记
2023-08-28 11:38:33 11 举报
Hive学习笔记-黑马程序员
作者其他创作
大纲/内容
数据仓库简介
特点
面向主题的
数据集成的
非易失的
时变的
分层
源数据层
数据仓库层
数据应用层
数据模型
星状模型(事实表,维度表)
雪花状模型
hive概念
Hadoop核心组件
HDFS
MapReduce
YARN
Hive:解决海量结构化日志的数据统计工具
结构化:MySQL
半结构化:xml json html
非结构化:图片
Apache Hive是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。
hive本质:将HQL转化成MapReduce程序
hive特点
优点
类SQL语法
避免写MapReduce
执行延迟高
处理大数据
支持用户自定义函数
缺点
表达能力有限
效率低
hive架构
1)用户接口:Client
2)元数据:Metastore
3)Driver驱动
4)Hadoop
hive与数据库比较
查询语言
数据更新
执行延迟
数据规模
模拟实现hive功能
映射
文件和表之间的对应关系(元数据信息)
Hive软件本身承担什么功能职责?
SQL语法解析编译成为MapReduce
0 条评论
下一页
为你推荐
查看更多