Doris主题研讨
2023-01-15 12:09:29 17 举报
AI智能生成
Doris主题研讨总结
作者其他创作
大纲/内容
Doris介绍与核心优势
发展历程
08年百度内部使用
13年固定位OLAP数据库
极速,易用,统一,实时的数据库
优势
查询性能优异
高效列式存储
丰富的索引结构
针对高并发高吞吐的优化
向量化执行引擎
查询加速技术例如:物化视图
ClickBench排行第二,SelectDB第一嗷
简单易用
用户角度
标准SQL语法,语法丰富,自定义函数
支持Mysql协议,可直接通过Mysql客户端访问
运维角度
架构精简
FE:请求接入,管理,解析
BE:查询执行
升级部署简易,支持横向扩展
稳定可靠
多副本存储
横向扩缩容,数据自动负载均衡
生态丰富
支持多种数据同步方式
联邦查询,支持查询多种数据源
未来发展
多场景支持,一套系统多种数据分析需求
定位
OLAP数据库
极速,易用,统一,实时的多模数据库
MPP架构特点和优点
预分区
通过字段进行预分区
Doris
分区
分桶
tablet数量=分区数*分桶数
shuffle过程
Shared-nothing
与Hadoop体系区别
批量计算,实时性较差
通过yarn将计算和资源调度分开
硬件架构
SMP架构
共享所有底层资源
事物支持性非常好
NUMA架构
服务器有多个节点、CPU、本地内存
每个CPU可以访问所有内存
共享磁盘的,各节点内存独立,通过数据总线共享内存
MPP架构
将多个节点通过网络连接
每个节点都是独立的机器
需要软件调度处理来支持复杂计算
对事物的支持较差
任务并行执行,支持高并发
数据分布式存储-本地化
横向扩展能进较强,容易进行弹性伸缩
GP
底层多个pg库实例
单节点执行,然后汇总
为什么还要SelectDB
云原生版本
提供托管服务,降低运维成本
完全支持存算分离,继续降本增效嗷
让简单的Doris变得更简单
优化Doris内核
share-nothing加share-stroage
提供技术支持和配套解决方案
是什么
基于Apache Doris的商业化产品
提供给大家极致性价比的选择,降本增效嗷
商业化同时反馈社区
将最新开发成果反馈给Doris社区
我们到底要的是一款什么要的数据库?
把简单的事情变得简单
从Mysql到Mysql
上云,走SAAS这条路
Doris适用场景
行业场景
安全行业
金融行业
电商行业
政企单位
出行
游戏
...
应用场景
实时数仓
离线数仓改造
替换Hive
分析报表
不同场景下的落地思路
为什么是Doris
周其进老师分享
ES检索,Hive跑批
通过Doris的Multi-Catalog进行改造
通过Doris打通Hive和ES
实时和离线集成了
谢东波老师分享
痛点
前期pg库
传统数据库无法支撑大量数据分析
数字政府业务,要求安全性,Hive存在漏洞
Doris多表关联
Doris性能优异
Doris生态优异,集成DS方便
小狼老师分享
痛点
对接的业务方较多,工作量较大
需要支持多表,多源的查询
给上面三四个业务线提供大数据处理能力
社区支持粒度大,感谢社区嗷
快
张家锋老师分享
痛点
表数据量太大,检索性能太差
支持高并发
团队nice
PB级别完全放心去替代Hive
使用Doris过程中遇到的问题
技术开发问题
生态组件对接问题
Doris自身问题
小狼
习惯了Hive的语法,但是Doris执行顺序与Mysql一致
Doris内存泄露问题
正在跟进
文档需要优化
周其进老师
复杂SQL支持
任务调度的可视化
HiveSql迁移到Doris SQL
最佳实践与性能优化思路
集群规模评估
可扩展性很高
先运行起来,后面扩容。
先做查询提速,非常快速的实现。
可以参考一下分区分桶的文档,进行测试
支持不同压缩方式
10T数据来说,单表1-2个group维度
大概32C或者16C即可
32C可以带10T数据
内存=CPU核数*4
参数优化
操作系统参数
BE执行并发参数可以调大
前提:没有高并发的情况
超过总CPU的核数时
parallel_fragment_exec_instance_num
默认1
推荐单台BE的CPU核数/2
FE的JVM
给到单台FE总内存的20%
最好比16G大
与批量插入有关
可以缓存到内存中
BE的1.2版本后有JVM
参数默认1个G,可以适当调大一些
使用方式
BE存储可以配置多个普通磁盘,4个最优
SSD不存在这种问题
5T存储,推荐挂5个1T的盘哈哈
聊聊你与Doris的故事
大佬分享Doris参与里程
0 条评论
下一页