【人工智能原理】数据处理基础
2023-03-08 09:34:19 1 举报
AI智能生成
根据阿里云人工智能助理工程师认证ACA整理
作者其他创作
大纲/内容
数据
定义
不仅指狭义上的【数字】,也包括具有一定意义的【文字】、【字母】、【数字符号】的组合
数据用于表示客观事物的【未经加工】的原始素材
数据是客观事物的属性、数量、位置及其相互关系的抽象表示
分类
按字段
文本类
定义:用于【描述性字段】,如 8月10日
特征:非量化值,【不可】直接用于运算
时间类
定义:用于描述【事件发生的时间】,如 8/10
特征:【可】直接用于运算
数值类
定义:描述【可量化属性/编码操作】,如 44783
特征:【可】直接用于运算
按数据结构类型
结构化数据
定义:由【统一的结构】来逻辑表示和存储的数据
举例:表格数据
非结构化数据
定义:【无预定义数据模型】,不可直接用数据库逻辑来表示的数据
举例:图像、文本、音频、视频、HTML
半结构化数据
定义:具有【结构化形式】,但并不符合【数据模型结构】
举例:XML、JSON、Email、日志文件
数据采集
定义
利用装置从系统外部采集数据并输入到系统内部的技术
抽取
转换
加载
常用方法
网络数据采集
对象:【网页】中的数据
方法:API法、网络爬虫法
端侧数据采集
对象:已转换成电信号的各种【物理量】
方法:传感器、摄像头、麦克风等端侧设备
系统日志采集
对象:用户行为【日志】、业务变更【日志】、系统运行【日志】
方法:WebAPI方式、Service Proxy方式、LCClient方式
数据库采集
对象:【数据库】中的数据
常用数据库:MySQL、Oracle、NoSQL数据库
数据预处理
定义
在数据集用于模型训练【前】,把数据变换成适用于机器学习模型训练的【格式】或【形式】
处理类型
数据【错误】
含义:数据库实例中某些不为空的属性值是错误的
类别
数据值错误
数据类型错误
数据编码错误
数据异常错误
依赖冲突
多值错误
属性错误
处理方法
删除错误值
视为缺失值
平均值修正
数据【重复】
含义:同一数据在数据库实例中多次出现
检测方法
duplicated()函数,返回True表示数据是重复的
处理方法
限制》统计》过滤》删除
数据【缺失】
含义:数据表中某些属性值缺失或者包含无效值
检测方法
检查不允许为空的属性值是否为空
isnull()函数用于判断各个单元格是否为空,返回True表示包含空值
处理方法
直接使用含有缺失值的特征
删除含有缺失值的特征
缺失值插补
重新采集数据集
数据集【不均衡】
含义:不同类型的数据样本数量相差悬殊
处理方法
扩充数据集
数据重采样
数据标准化
目的
消除指标之间的【量纲影响】,解决特征属性取值之间的【可比性】
定义
通过一定的变换方法,将样本的属性值【缩放】到某个【指定的范围】
常见方法
最小最大标准化(min-max)
定义:统一到[0,1]的范围内,基于最小值和最大值
适用场景
最大最小值已知
优点:保留了原始数据中数据与数据间的关系
z-score标准化
定义:统一为均值为0,方差为1,基于均值(mean)和标准差(standard deviation)
适用场景
最大最小值未知,或有超出取值范围离群点情况
对比
min-max标准化【不要求】特征属性值符合【某种分布】
z-score标准化【要求】特征属性值需要符合【正态分布】
数据编码
目的
处理数据集【特征属性】、【标签】没有量化的情况
定义
把数据从【字符串】类型转换成【数值】类型
常见方法
Label编码
定义:对于样本记录的取值,按照【大小关系】分别给每个值赋予一个【数值ID】
适用场景
定序型/有序型的特征属性
样本记录之间有【距离】和【大小】区分的需求
优点
转换后依旧保留了大小关系
不足
数据编码后有大小和距离的差异
编码后的结果和实际数据语义并没有直接关联
独热编码
定义:对于一个有N个取值结果的特征属性,使用N个bit位来进行编码
适用场景
特定类型的特征属性
优点
数据编码后不会有大小和距离的差异
数据可视化
含义
借助于【图形化手段】对数据加以解释
典型图表
直方图
类型
统计图
适用场景
表示数据分布的情况
绘图方法
plt.hist(x,bins=10)
折线图
类型
趋势图
适用场景
显示在相等时间间隔下数据的趋势
绘图方法
plot(x,y)
散点图
类型
分布图
适用场景
比较跨类别的聚合数据
绘制方法
plt.scatter(x,y)
饼状图
类型
比例图
适用场景
某个数据系列中各项的大小与各项总和的比例
绘制方法
plt.pie(x, explode=None, labels=None)
箱线图
类型
统计图
适用场景
显示一组数据分散情况,包括最大值、最小值、中位数、以及上下四分位数
绘制方法
plt.boxplot(x, labels=None)
工具
QuickBI
定义:一款全场景数据消费式的BI平台,可用于制作仪表盘、电子表格以及有分析思路的数据门户
特点
强大的数据引擎
快速搭建数据门户
数据分析与交互
安全管控数据权限
应用场景
数据即时分析与决策
报表与系统集成
DataV
定义:使用可视化应用的方式来分析并展示庞杂数据的产品,帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用
特点
多种场景模板,解决设计难题
多种图表组件,支撑数据展示
多数据源接入,大数据计算强
图形化搭建,快速实现应用
多分辨率适配,灵活发布应用
应用场景
运营数据看板
地理数据看板
领导驾驶舱
指挥中心大屏
数据标注
定义
通过分类、画框、标注等对语音、图片、文本数据进行处理,提高训练的准确度
应用场景
语音识别
无人驾驶
证件识别
...
重要性
采集到的数据都需要进行数据标注后才能使用
在进行人工智能算法训练时,所训练数据的质量越高最后得到的模型预测效果越好
标注数据的准确性和数量决定了数据集的质量
类型
图像标注
标注方法
2D和3D边框
图像分类
直线和曲线
多边形
语义分割
标注类别
目标检测
语义分割
图像分类
光学字符识别OCR
图像综合标注
标注质量标准
矩形框标注:需要让框刚好包围物体的边界
多边形标注:多边形的边框与物体的边缘紧密的贴合
标注工具
LabelImg
Labelme
文本标注
标注类别
分类标注
词性标注
实体标注
实体关系标注
标注质量标准
文本标注要【情感】符合真实的句子情感
语义标注要标注正确的【语义】
多音字要符合字典中的【读音】
对文本分成【词语】
对词语进行【词性】的标注,比如形容词、名词、动词等
对文本中的【不感兴趣】的内容进行删除
去掉对文本的【含义无用】的词语,比如标点符号
语音标注
标注类别
音频分类
音频分割
音频识别
标注质量标准
音频中的语音是否【有效】
说话人的方言,标记是否有【口音】
说话人的数量,标注语音内容的【人数】
说话人的性别,标注第一个说话人的【性别】
音频是否有明显的噪音,标注是否有【噪音】
标注需要与发音内容完全一致,保证文字的【正确性】
常用文件格式
XML
JSON
CSV
阿里云工具
机器学习PAI平台
概述
支持图像、文本、视频、音频等多种数据类型的标注以及多模态的混合标注
提供了丰富的标注内容组件和题目组件
支持自定义模板
步骤
数据准备
创建标注任务
处理标注任务
导出标注结果
0 条评论
下一页