大数据技术栈
2024-02-06 14:26:22 24 举报
AI智能生成
大数据技术栈是一套涵盖数据采集、存储、处理、分析和可视化的完整解决方案。它包括了多种技术和工具,如Hadoop、Spark、Flink等分布式计算框架,Kafka、RabbitMQ等消息队列系统,HBase、Cassandra等NoSQL数据库,以及Elasticsearch、Logstash等搜索引擎和日志分析工具。这些技术共同构成了一个高性能、高可扩展性和高可靠性的大数据处理平台,帮助企业实现对海量数据的实时分析和挖掘,从而为业务决策提供有力支持。
作者其他创作
大纲/内容
Hive
基于Hadoop的数据仓库工具,用来进行数据提取、转化、加载,可以存储、查询和分析存储在Hadoop中的大规模数据的机制(离线)
内部表
外部表
分区表
分桶表
视图
索引
Flink
Flink 已经成为各大公司大数据实时处理的发力重点,特别是国内以阿里为代表的一众互联网大厂都在全力投入
流批一体
可靠容错
高吞吐低延时
自主内存管理
ClickHouse
高性能、MPP架构、列式存储、具有完备DBMS功能的OLAP数据库
列式存储与数据压缩
向量化执行
简单理解就是多线程
多样化的表引擎
多线程与分布式
Kafka
实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/spark流式处理引擎
高吞吐量、低延迟
可扩展性
持久性、可靠性
容错性
高并发
数据挖掘
离群值检测
在某些情况下,仅仅通过了解潜在趋势,无法轻松解释数据收集的结果。还必须能够发现数据中的异常或异常值
例如:你想调查一下价格飙升的原因,如你的买家几乎都是男性,你就可以复制或让公众参与到这
个周期中来。尽管如此,在7月的“陌生人周”期间,女性购房者数量仍大幅上升
例如:你想调查一下价格飙升的原因,如你的买家几乎都是男性,你就可以复制或让公众参与到这
个周期中来。尽管如此,在7月的“陌生人周”期间,女性购房者数量仍大幅上升
关联分析
这种关联与趋势有关,但对于依赖关系的变量来说是唯一的。在这种情况下,是要寻找与事件密切相关的特定事件和特征。
例如:当你的客户购买一个特定的商品时,他们也会购买第二个类似的商品。这也被用于在诸如“人们也购买了”这样的在线平台上建议购买该商品。
例如:当你的客户购买一个特定的商品时,他们也会购买第二个类似的商品。这也被用于在诸如“人们也购买了”这样的在线平台上建议购买该商品。
聚类
聚类在某种程度上类似于分类,但根据相似性将知识片段组合在一起,
例如:根据你的可支配收入或你选择在商店购物的数量,将你的客户人口统计信息捆绑到不同的客群包中。
例如:根据你的可支配收入或你选择在商店购物的数量,将你的客户人口统计信息捆绑到不同的客群包中。
分类
这种数据挖掘方法有助于将数据分类为不同的组。该分析用于获取必要且适当的数据和元数据信息。
它是一种更复杂的数据挖掘技术,将各种属性收集到可区分的类别中,然后得出更多结论或服务于某个功能。
它是一种更复杂的数据挖掘技术,将各种属性收集到可区分的类别中,然后得出更多结论或服务于某个功能。
回归
回归主要用于预测和建模目的,考虑到其他变量的存在,以确定特定变量的似然概率
数据仓库/数据湖
没有数据仓库,数据挖掘是不完整的。数据存储是一种用于安全存储大量有组织数据的方法。数据的保存不仅是一个保存问题,也是数据维护和安全的问题。大规模的业务需要数据仓库来安全地存储数据。随着大数据技术的应用,数据仓库也渐渐被数据湖等新技术替代
Hadoop
hdfs
hadoop的基础架构,HDFS负责分布式存储和管理大规模的数据集
yarn
资源管理系统,负责为多个应用程序分配和管理计算资源
Spark
目前已逐渐被Flink取代
Hbase
一个结构化、高可靠性、高性能、面向列、可伸缩的分布式存储系统
rowkey
列簇
phoenix
构建在Hbase之上,使用标准的sql操作hbase,可以做联机事务处理
ZooKeeper
高性能、集中化、分布式应用程序协调服务,是 Hadoop 和 Hbase 的重要组件
监听器
统一配置管理
统一命名服务
分布式锁
集群管理
Sqoop
DataX
Kettle
DataX
Kettle
数据采集框架、也可以做简单的ETL
0 条评论
下一页