特征平台
2024-06-27 09:55:04 0 举报
AI智能生成
特征平台
作者其他创作
大纲/内容
为什么要有特征平台
背景:在风控中,要识别风险需要一些基础数据,对基础数据的加工和存储提供一个平台化管理
优点:
统一管理
数据源
统一接入
特征
统一加工
实时特征
Flink任务
离线特征
XT任务
统一存储
PB序列化
Tair存储
统一读取
富客户端读取
Thrift接口读取
特征分组
分组优化
一批特征批量读取
降本增效
增效
配置化生产特征
降本
特征存储结构优化
PB序列化
复用特征无需重复生产
特征平台的设计
架构设计
架构描述
接入层
数据仓库
实时数仓
离线数仓
加工层
特征加工
Flink引擎(Flink任务)
UDF函数
Spark引擎(XT任务)
UDF函数
存储层
KV存储
Redis
Tair
应用层
读取方式
SDK
Thrift接口
管理层
特征配置
数据源
加工逻辑
加工字段
过滤条件
计算方式
求和
计数
最大值
最小值
最新值
存储结构
基础类型
String/Long/Double
单个值
基础值,比如商品名称、商品价格等
集合类型
Map/List
有长度限制
比如商品历史价格、商品在每个品类下的价格
窗口类型
Window
有长度限制
比如商品最近60天的价格
特征分组
分组规则
同一数据源下的特征放置在同一分组
同一维度下的一起使用的特征放置在同一分组
功能点
数据源对接
导入
根据数仓模型的定义平台,调用接口导入
手动录入
特征维度管理
单维度
复合维度
特征配置管理
接入
数据源
Hive
Kafka
基础描述
特征维度
goods
user
POI
……
特征名称
特征描述
加工方式
过滤条件
对复合条件的特征进行加工
维度字段
属于哪个维度的特征,用于管理和分组
计算字段
对哪个字段进行计算
存储方式
数据结构
基础类型
String/Long/Double
集合类型
Map/List
Window类型
List
数据长度
默认为0
过期时间
单位为s
状态管理
草稿态
灰度状态
上线状态
下线状态
特征分组管理
维度
特征ID/名称
事件接入管理
特征加工
标记只用于生成特征
生成Flink任务模板
风险检测
标记用于生成特征和风险检测
生成Flink模板
特征平台的实现
代码结构
关键技术点
缓存
SDK中的LRU缓存
Caffine
LRU过期后再读取进行刷新缓存
参数可以自定义
服务的全量本地缓存
Map
定时全量刷新
配置变更时增量刷新
特征淘汰
基础类型
根据过期时间淘汰
集合类型
List
FIFO
Map
LinkedHashMap
Window类型
List
FIFO
序列化/反序列化
自定义序列化
序列化结构
基础类型
String/Long/Double
集合类型
Map/List
Window类型
List
存储结构
tag
原理
dataSize
data+expire的长度
data
具体数值
expire
过期时间
全局降级
极端情况下,如果特征写入错了,需要将特征进行降级,返回空值,以减少风控误拦截风险。
配置中心统一开关
待优化点
特征的版本控制
特征升级后需要多版本存在
特征去重运算
去重计数
Bitmap
HyperLogLog
去重求和
特征平台的对标
BeafQPS
行业对标:Benchmark
效率:Efficiency
特征加工CaseByCase的去对接,转换成配置化去对接,从天级别->小时级别
架构:Architecture
功能:Feature
质量:Quality
实时特征的准确率99.999%
性能:Performance
富客户端读取12个特征TP999:10ms
Thrift接口读取12个特征TP999:10ms
4C8G单机QPS:4000
安全:Security
数据安全
数据存储加密
系统安全
统一鉴权平台
业界对标
美团特征平台
阿里云PAI
众安金融实时特征
微信实时特征平台
其他资料
学习资料
0 条评论
下一页