特征平台
2024-06-27 09:55:04 0 举报
AI智能生成
特征平台
作者其他创作
大纲/内容
背景:在风控中,要识别风险需要一些基础数据,对基础数据的加工和存储提供一个平台化管理
统一接入
数据源
Flink任务
实时特征
XT任务
离线特征
统一加工
PB序列化
Tair存储
统一存储
富客户端读取
Thrift接口读取
统一读取
特征
一批特征批量读取
分组优化
特征分组
统一管理
配置化生产特征
增效
特征存储结构优化
复用特征无需重复生产
降本
降本增效
优点:
为什么要有特征平台
架构设计
实时数仓
离线数仓
数据仓库
接入层
UDF函数
Flink引擎(Flink任务)
Spark引擎(XT任务)
特征加工
加工层
Redis
Tair
KV存储
存储层
SDK
Thrift接口
读取方式
应用层
加工字段
过滤条件
加工逻辑
求和
计数
最大值
最小值
最新值
计算方式
单个值
基础值,比如商品名称、商品价格等
String/Long/Double
基础类型
有长度限制
比如商品历史价格、商品在每个品类下的价格
Map/List
集合类型
比如商品最近60天的价格
Window
窗口类型
存储结构
特征配置
同一数据源下的特征放置在同一分组
同一维度下的一起使用的特征放置在同一分组
分组规则
管理层
架构描述
根据数仓模型的定义平台,调用接口导入
导入
手动录入
数据源对接
单维度
复合维度
特征维度管理
Hive
Kafka
接入
goods
user
POI
……
特征维度
特征名称
特征描述
基础描述
对复合条件的特征进行加工
属于哪个维度的特征,用于管理和分组
维度字段
对哪个字段进行计算
计算字段
加工方式
List
Window类型
数据结构
默认为0
数据长度
单位为s
过期时间
存储方式
草稿态
灰度状态
上线状态
下线状态
状态管理
特征配置管理
维度
特征ID/名称
特征分组管理
生成Flink任务模板
标记只用于生成特征
生成Flink模板
标记用于生成特征和风险检测
风险检测
事件接入管理
功能点
特征平台的设计
代码结构
LRU过期后再读取进行刷新缓存
参数可以自定义
Caffine
SDK中的LRU缓存
定时全量刷新
配置变更时增量刷新
Map
服务的全量本地缓存
缓存
根据过期时间淘汰
FIFO
LinkedHashMap
特征淘汰
序列化结构
https://blog.csdn.net/tuwenqi2013/article/details/103308310
原理
tag
data+expire的长度
dataSize
具体数值
data
expire
自定义序列化
序列化/反序列化
极端情况下,如果特征写入错了,需要将特征进行降级,返回空值,以减少风控误拦截风险。
配置中心统一开关
全局降级
关键技术点
特征升级后需要多版本存在
特征的版本控制
Bitmap
HyperLogLog
去重计数
去重求和
特征去重运算
待优化点
特征平台的实现
行业对标:Benchmark
特征加工CaseByCase的去对接,转换成配置化去对接,从天级别->小时级别
效率:Efficiency
架构:Architecture
功能:Feature
实时特征的准确率99.999%
质量:Quality
富客户端读取12个特征TP999:10ms
Thrift接口读取12个特征TP999:10ms
4C8G单机QPS:4000
性能:Performance
数据存储加密
数据安全
统一鉴权平台
系统安全
安全:Security
BeafQPS
美团特征平台
阿里云PAI
众安金融实时特征
微信实时特征平台
业界对标
学习资料
其他资料
特征平台的对标
特征平台
0 条评论
回复 删除
下一页