人工智能数据集通用要求
2022-08-03 19:39:20 0 举报
AI智能生成
本文档阐述了数据集说明要求、数据集质量要求和数据集质量符合性评价。
作者其他创作
大纲/内容
数据集通用要求
1. 数据集说明要求
1.1 数据集描述
数据集整体描述
数据集类型
注明数据集的类型
(附录A)
(附录A)
数据集形态
数据模态
数据格式
数据量
存储方式
数据集层次
数据层次
子集分解
组合变化
应用场景
预期模拟的应用场景
版本控制
版本号
存储信息
文档编辑时间
使用状态
数据集更新
对于动态数据集
入组规则
退役规则
文档管理
说明宜通过计算机技术
(如软硬件、普通网络、云服务)
(如软硬件、普通网络、云服务)
发布
交换
管理
查询
元数据属性
数据集名称
标识符
发布方
语种
分类类目名称
摘要
数据元属性
共用属性
专用属性
标注信息
是否具有标注信息
数据集采集信息
合规性陈述
提供数据来源的
合规性陈述
合规性陈述
隐私保护
保护受试者隐私的
技术手段
技术手段
去标识化
数据匿名化
(适) 去标识化或
数据匿名化的规则
数据匿名化的规则
多样性
人群
采集场所
采集设备
参数设置
操作人员资质
采集流程
采集时间等
数据采集依从原则
法规
技术标准
临床规范
专家共识
参考文献
数据筛选
录入
排除标准
数据筛选方法
人工清洗
自动清洗
数据预处理
操作步骤
内容
数据集标注
依从原则
标注信息,
应描述依据的
应描述依据的
法规
技术标准
临床规范
专家共识
参考文献
参考标准
标注信息,应描述数据集
参考标准
参考标准
制定规则
范围
存储格式
数据规范
若参考标准是可验证的,
应描述
应描述
验证方式
标注流程
如具有标注信息,应描述
标注与质控流程
决策机制
人标注、多重标注的情况下,
应描述
应描述
标注分歧的仲裁机制
其他标注信息
如具有标注信息,
应描述除参考标准
外的其他标注信息的
应描述除参考标准
外的其他标注信息的
范围
数据规范
存储格式
数据集存储信息
宜描述
存储方式与存储路径
安全控制
备份
恢复的说明
使用云服务存储,
应提供云服务
应提供云服务
供应商名称
资质
访问路径
使用权限说明
数据集用户访问
访问控制
用户访问控制机制
用户类型
权限分配
授权机制
访问条件
访问数据集需要的条件
软硬件配置
访问方式
数据接口
协议
工具
可视化
呈现方式
开发管理
开发过程依从的管理标准
1.2 数据集标识
标识
数据集制造责任方信息
文件命名与编码
1.3 数据质量特征描述
完整性
唯一性
一致性
确实性
时效性
可访问性
依从性
保密性
资源利用性
精度
可溯源性
可理解性
可得性
可移植性
可恢复性
代表性
2. 数据集质量要求
2.1 概述
2.2 质量特征
完整性
唯一性
一致性
确实性
时效性
可访问性
依从性
保密性
资源利用性
精度
可追溯性
可理解性
可得性
可移植性
可恢复性
代表性
2.3 数据集风险分析
3. 数据集质量符合性评价
3.1 通则
3.2 数据集说明评价
3.3 质量特性评价
3.4 数据集风险分析评价
0 条评论
下一页