大数据测试
2021-06-07 23:01:32 5 举报
在大数据时,玩转数据,对于数据验证点要考虑多方面。
作者其他创作
大纲/内容
数据类型
(1)行存储:Textfile、SequenceFile、MapFile、Avro Datafile。(2)列存储:Parquet 、 RCFile、ORCFile(3)关注支持/不支持压缩的情况(4)\b关注访问单文件或目录(多文件)
数据值
(1)Table,在Hive里有两种:托管表、外部表(2)分区(partition)(3)桶(bucket)
(1)数据体量大,如GB、TB等。
数据安全
数据性能
(1)集群中用户存放已知数据(2)\b平台运行产生的数据,如:Pipeline(3)其他集成应用生成的数据
\b数据来源
数据易用性
数据兼容性
(1)大数据量的读取性能、存储性能。(2)大数据量数据计算性能。数据通道运行性能,比如:数据通道中单个组件性能,组合多个长通道性能。(3)算法模型的训练性能,预测性能。(4)并行情况下的数据读取、存储、计算等性能。(5)大数据的实时性、及时性。
\b数据值
(1)数据统一展示(例如:要么统一有千位分隔、要么统一都不要)(2)数据完整性展示(例如:过长数据12345678,完整展示全部数据,不要展示为123...)(3)数据值太大时,考虑合适的单位换算后显示。比如,显示超大数值100000000000,建议单位转换后显示100亿。(4)四舍五入要慎用。大数据量下,四舍五入操作可能造成最终结果的很大差。
(1) 数据类型:类型非常多全部测试,如:HIVE支持两种类型,原子数据类型和复杂数据类型。(2)平台不支持的数据类型要进行异常处理。\b
文件存储格式
大数据非功能
(1)在不同浏览器下的兼容性(2)在不同屏幕分辨率下的兼容性(3)在不同设备下的兼容性(4)在不同系统下的兼容性
大数据功能点
数据体量
\b数据模型
(1)不同数据类型对应的value(2)\b同一数据类型下value各种情况: - 等价类划分 - \b边界划分。 - 空值与null
数据来源
\b数据类型
(1)数据权限不仅有表或文件,还会从数据行、列更细粒度考虑设置权限。(2)数据读取、下载、管理权限管控。数据不能通过平台拿出安全范围外。比如:不可下载或存储到本地等。(3)考虑各公司或地区政策定义的数据保密项,哪些数据不得泄漏,要加密。(4)代码安全通过行业常用安全扫描工具检测。(5)业务安全:业务上的隔离(如:租户隔离项目)、登陆有效期等
0 条评论
下一页