大数据仓库
2023-03-02 16:08:59 14 举报
大数据仓库
作者其他创作
大纲/内容
Hive操作hdfs文件: 文本文件:archer.txt存放路径: /case/wzry/archer.txt1 后羿 5986 1784 396 336 remotely archer2 马可波罗 5584 200 362 344 remotely archer3 鲁班七号 5989 1756 400 323 remotely archer4 李元芳 5725 1770 396 340 remotely archer5 孙尚香 6014 1756 411 346 remotely archer6 黄忠 5898 1784 403 319 remotely archer7 狄仁杰 5710 1770 376 338 remotely archer8 虞姬 5669 1770 407 329 remotely archer9 成吉思汗 5799 1742 394 329 remotely archer10 百里守约 5611 1784 410 329 remotely archer--创建数据库:create database if not exists hivecase;--进入数据库show databases;use hivecase;--创建hive表CREATE TABLE IF NOT EXISTS tt_archer(id int comment \"ID\
HBase root directory: /apps/hbase/data
Hive Web Interface
Hadoop Distributed File System
提交SQL语句
Metastore元数据存储
font color=\"#555666\
JDBC/ODBC
Hive是建立在Hadoop之上的数据仓库基础构架、是为了减少MapReduce编写工作的批处理系统,Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce。Hive可以理解为一个客户端工具,将我们的sql操作转换为相应的MapReduce jobs,然后在Hadoop上面运行。
select * from t_student;
Optimizer优化器
Execution执行器
读取HDFS文件,写入到HBase表
提供对数据的随机实时读写访问利用HDFS作为其文件存储系统利用MR来处理Hbase中的海量数据
MS Client
Hive Driver驱动程序:翻译执行器,翻译SQL到MR并提交执行
RDBMSMySQL
SparkRDD代码
Spark on Hive: Spark提供执行引擎能力Hive的Metastore提供元数据管理功能把Hive的Metastore服务拿过来,给Spark做元数据管理
MapReduce
访问: http://192.168.0.191:50070/# hadoop fs
Hadoop HDFS
SparkSQL执行引擎: SQL翻译成RDD的解释器
command-line Interface
分布式计算框架: 基于JAVA的实现
Hive on HBase Hive支持使用HDFS之外的存储系统作为底层存储系统,其中官方明确支持HBase,Kudu,Druid和JDBC(MySQL等)鉴于span style=\
Hadoop YARN
Parser解析器
Hive on HDFS元数据存储在mysql数据存储在hdfs,计算框架采用mapreduce,hive实际上只做分析工具
建立在Hadoop文件系统之上的面向列的NoSQL分布式数据库
Python访问数据仓库: pyhivesp/syspark.sql
Hive Thrift Server
数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、决策需要而产生的,它绝不是所谓的大型数据库
对于Spark来说,自身是一个执行引擎,但是Spark没有元数据管理功能,当我们执行:select * from t_student;, spark完全有能力将SQL变成RDD 。 但问题是,student的数据在哪?有哪些字段?字段啥类型?Spark完全不知道。规格接地select * from t_student;无法翻译,因为没有元数据
Hadoop HBase
0 条评论
回复 删除
下一页