今日证券Flink实时数仓项目
2023-04-20 09:40:37 1 举报
今日证券Flink实时数仓项目
作者其他创作
大纲/内容
1、了解项目的技术架构
2、了解项目实施流程
3、使用数据源接口文档
4、掌握Apache arvo
5、掌握深市数据采集
学习目标
1. 证券业务介绍证券是多种经济权益凭证的统称,因此,广义上的证券市场指的是所有证券发行和交易的场所,狭义上,也是最活跃的证券市场指的是资本证券市场、货币证券市场和商品证券市场。证券市场是股票、债券、商品期货、股票期货、期权、利率期货等证券产品发行和交易的场所。行情项目相关业务的开发和实施需要我们提前了解一些证券方面的业务知识,比如说开盘价、收盘价、成交额、涨跌等。
1、证券业务介绍
对证券市场每日的业务交易,业务部门需实时监控证券市场的各种技术数据指标,由监察部提供访问入口,来实现对证券市场交易数据的统计分析。股票证券实时行情系统在此背景下产生。此股票证券实时行情系统是对股市行情交易数据进行实时采集、实时数据分析、多维分析,即席查询,做到实时大屏监控和展示。此系统属于监察预警体系,整体包括预警规则管理,实时预警,历史预警(定时、轮巡),监察历史数据分析等。
此项目是在重构并优化证券数据模型,优化历史数据分析过程和技术,大幅提升历史数据分析性能;为数据仓库前端应用提供数据服务,并简化下游系统对大数据平台多种数据存储方式、计算资源的访问方式,以统一的方式管控下游系统访问请求。可满足监察业务发展数据建模需求同时,保证核心数据模型有效性。
1、背景
1、大数据体系的建设应当在容量、性能、安全、开放性、可扩展、低成本等多维度体现出整体的优越性,形成体系化、高标准数据服务能力,为业务体系提供多层次数据服务,包括基于时效的实时数据服务、准实时数据服务、历史数据服务,以及基于数据特征的结构化数据服务、半结构化数据服务和非结构化数据服务。
2、建成后的大数据支撑体系应当能针对海量、多态数据提供高效、低成本服务,构建面向未来的预测分析体系,满足业务专员、数据科学家通过统计分析、机器学习、数据挖掘、分布式处理等先进数据处理技术对海量数据进行仓内、仓外复杂分析;满足统计类、监察类、风险类、以及新业务形态的深度应用,最终达到交易与分析体系数据的融合,持续缩短业务数据的响应时间。
3、通过实时流处理解决方案,将行情数据,通过预设模型进行加工处理。对实时变化数据进行高效的预设数据模型处理,利用信息整合、分析等大数据技术,对行情数据进行分析、挖掘潜在价值。
4、可以为后续监察系统、数据信息服务系统提供实时数据支持,增加数据服务内容,提高生产效率和质量,进而提高客户的满意度。
5、建设可扩展的预警支撑技术体系,支撑当前规模预警业务,特别是通过硬件资源扩展,在保证性能指标前提下,满足未来5-10年的业务增长要求;
2、目标
2、实时行情项目介绍
1、监控大屏
2、行情列表
1、分时行情
K线行情
3、详情页面
3、UI产品原型
1、数据采集
2、离线数据处理
3、实时数据处理
4、实时预警处理
5、离线预警
6、应用大屏展示
1、业务模块
1、需求文档见-参见资料“第1章\\4.资料\\需求文档”
2、web项目《大数据平台需求规格说明书-今日指数<前端应用>》
3、流处理项目:《今日指数数据模型.xlsx》
4、数据采集:《数据源接口规格说明书.docx》
2、业务文档
1、大数据平台作为底层的基础数据平台,集群规模、计算存储性能将决定流、批的性能指标上限。所以需要考虑整个大数据平台的吞吐量(网络、磁盘IO)、响应速率、计算能力、高并发性、高可用、维护性方便等,以满足多业务场景下,不同应用需求的建设任务,比如多维分析、实时计算、即席查询和数据统计分析等应用功能。
支持批处理集群批量总写入速度2GB/秒,批量读取速度300MB/秒;
平台支持并发执行300个查询和200个加载任务;
应用查询时间对于数据库的简单数据读取将不超过1~2秒,三个月统计计算查询时间将不超过15秒,复杂查询时间将不超过1分钟;
复杂批处理任务,ETL的处理时间将不超过2个小时;
1、批处理部分指标:
平台支持接收峰值为每秒100万条+的流数据;
平台能够在峰值条件下,完成2秒内的实时预警,2秒内完成针对当日数据的查询;
平台每日实时处理模块能够累积处理144亿笔(按4小时交易日保持峰值流速计)订单流数据;
平台支持至少50个并发访问/查询当日数据。
2、实时流处理指标:
数仓应用项目离线报表30秒内完成数据响应查询;
实时大屏数据展示5秒内完成数据响应查询;
应用平台支持并发执行500个用户查询请求;
3、应用响应指标:
2、本项目大数据平台在建设过程中,将满足如下性能指标:
3、性能指标
秒级行情: 210亿条以上
1、秒级行情(Hbase):存储5日内秒级行情,数据量为2.88亿条
分时行情: 20亿条以上
2、分时行情(Druid):存储半年内分时行情数据,数据量为8.64亿条;
K线: 1500万条以上
3、历史数据(Hive数仓):以沪深市场2万只证券,存储时间按1年统计:
20000(只)* 3600(秒)*4(小时)= 2.88(亿)≈ 85(GB)
日数据采集总量统计 :
4、数据存储规模
4、业务功能
1、大数据平台在存储容量扩展性方面,将满足随需求扩展的功能,在存储容量达到pb级别以上时,仍能保证集群的正常运行,不影响数据读写操作
2、平台对数据存储能够按照最优存储和访问策略,自动在所有集群上对数据进行均衡存储
3、平台所有节点及存储都运行在X86服务器上,保证集群扩展时在存储设备和节点采购使用的便利性。
存储容量设计方面,将满足一下方面
大数据平台作为基础数据平台,将负担起存储所有业务产生的数据信息,并在平台中按照业务应用进行模型标准化存储沉淀,平台的数据量将持续不断的增大,因此本期大数据平台的整体设计上将充分考虑使用分布式架构,对存储量的规划将定位在PB级以上,同时保证将来存储容量在扩充时能够通过节点的增加,快速满足容量的扩展性需求
数据采集:flume、socket、sqoop
数据存储:mysql、hdfs、hbase、redis、druid
数据计算:hive、spark sql、flink
数据分析:druid、kylin
技术选型
具体版本
1、技术选型
完全开源,社区活跃,文档资料详细,在Hadoop生态圈中,组件的选择使用,比如hive、mahout、sqoop、flume、spark、Oozie等,需要大量的考虑兼容性的问题,整合困难,运维麻烦
1、Apache 开源社区版本
最成熟的发行版本,有用最多的部署案例,版本管理清洗,在兼容性,稳定性上比apache hadoop强,提供了强大的部署管理和监控工具,简化了部署和运维
课程也是CDH
1、CDH
100%开源,稳定性相比CDH稍弱,国内使用较少
2、HDP
华为Fusionsight,基于apache进行功能增强的企业级大数据存储、查询和分析的统一平台
3、Fusionsight
星环-Transwarp Data Cloud,基于hadoop生态系列的大数据平台公司
4、transwarp Data Cloud
2、大数据平台产品
阿里云:国内阿里云实力最强,做公有云、私有云、混合云、面向中小型企业
华为云:定位运营商和中大型企业,数据安全
3、云端大数据
2、平台选择
内存:128G
CPU:48C
磁盘:10*12T
单机
1、消息队列日数据吞吐量:2万只证券*1条/秒 * 60* 60 * 4 = 2.88亿条
2、假设每条行情数据1kb左右,每天日志量2.88亿kb/1024/1024 = 275G
3、一年磁盘存储量:275G*365 天 / 1024 = 97T
4、保存3个副本占用磁盘总量 97 T* 3 = 291T
5、预留30%的磁盘空间 = 291T / 70% = 426T
1、机器方案一: 416T/( 1.2T * 10 )= 35台
2、机器方案二: 416T/( 1.2T * 5 )= 25台
6、机器数量:
以消息队列日吞吐量计算需占用磁盘空间
1、机器配置
测试集群服务器规划
3、平台规划
逻辑架构关注的是业务功能,包含用户直接可见的功能,偏向于业务概括。逻辑架构也可以用“分层”的概念来理解,比如,把一个项目分为“显示层、应用层、分析计算层、数据访问层”等。
1、逻辑架构
2、技术架构
4、技术架构
5、数据流程
6、部署架构
5、架构设计
6、技术架构
第一章 项目介绍与数据采集
0 条评论
回复 删除
下一页