【人工智能认证】计算机视觉基础
2023-03-13 09:17:43 0 举报
AI智能生成
根据阿里云人工智能助理工程师认证ACA内容整理
作者其他创作
大纲/内容
概述
定义
一门研究如何使机器“看”的科学,也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学
是机器认知世界的基础
终极目标
使得计算机能够像人一样“看懂世界”
优势
图像处理:实现超人的准确性,如图片颜色、细节敏感度
细微变化识别:性能远胜于人类,如医疗图像分析
计算能力:计算速度和精确性完胜人类,如超级计算机
计算机视觉与人类视觉的关系
相似点
具有相似的结构
计算机视觉
转换方式:数字化过程
接收器:摄像头
转换器:电线
处理器:CPU
人类视觉
转换方式:生理过程
接收器:眼睛
转换器:神经细胞
处理器:大脑
不同点
一个是机器,一个是生物
人类的眼睛比摄像头更加灵活
人类的神经更加复杂
CPU只是按照人类的指示做事,人类大脑有自己的思维
计算机视觉可以获取人类视觉获取不到的信息,如红外摄像机
计算机视觉可以到人类到不了的地方,如太空作业
典型应用
娱乐领域
实际案例:视频审核
智能审核网络视频内容
有效缓解视频平台的监管的巨大压力
优化前端内容的开发和运营,创造出更多玩法
提高软件用户体验度和活跃度
为视频平台创造了新的应用场景
营销领域
实际案例:智能营销
视频电商购物营销
代替传统人工贴标、投放的营销方式,大幅提高效率
挖掘和分析视频中潜在的广告投放位
挖掘出技术下潜在的巨大发展商机和利益
基本原理
处理对象
数字图像
是用一个数字矩阵来表达客观物体的图像
工作原理
图像数字化的过程
采样
将空间上连续的图像变换成离散的点,采样频率越高,还原的图像越真实
量化
将采样出来的像素点转换成离散的数量值
基础工作原理
构造多层神经网络
较低层识别初级的图像特征
若干底层特征组成更上一层特征
通过多个层级的组合
最终在顶层做出分类
关键技术
图像分类
定义
核心是从给定的分类集合中给图像分配一个标签
类别
单标签分类
跨物种语义级别的图像分类
在不同物种层次上识别不同类别的对象,如猫狗分类
子类细粒度图像分类
是一个大类中的子类的分类,如不同鸟的分类
在区分出基本类别的基础上,进行更精细的子类划分
多标签分类
给每个样本一系列的目标标签,表示的是样本各属性且不相互排斥的,预测出一个概念集合
困难点
标签数量较大且复杂
标签的标准很难统一,且往往类标之间相互依赖并不独立
标注的标签并不能完美覆盖所有概念面
标签往往较短,语义较少,理解困难
挑战
类别不均衡
数据集小
巨大的类内差异
实际应用环境复杂
常用数据集与网络
常用数据集:CIFAR-10
相关神经网络:LeNet-5、AlexNet
典型应用
图片搜索引擎
智能环卫
目标检测
定义
识别图中有【哪些物体】,确定他们的【类别】并标出各自在图中的【位置】
识别+定位
图像分类与目标检测的区别
图像分类:整幅图像经过识别后被分类为【单一的标签】
目标检测:除了识别出图像中的【一个或多个目标】,还需要找到目标在图像中的【具体位置】
评估指标
交并比 IoU
定义:在分子项中,是真实边界框和预测边界框重叠的区域,分母是一个并集,是由预测边界框和真实边界框所包括的区域,两者相除就得到了最终的得分
精确度 Precision
定义:目标检测模型判断该图片为正类,该图片确实是正类的概率
召回率 Recall
定义:一个分类器能把所有的正类都找出来的能力
平均精度值 mAP
定义:各类别平均精度均值,把每个类别的AP都单独拿出来,然后计算所有类别AP的平均值,代表者对检测到的目标平均精度的一个综合评价
反映整体精度,值介于0到1之间
挑战
目标数量问题
目标大小问题
如何建模
数据集与网络
常用数据集:PASCAL VOC --- 一个包含20个类别的小型图像数据集
相关神经网络:CenterNet
典型应用
交通异常事件检测
交通流量监控
红绿灯配时控制
图像分割
定义:把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程
类别
语义分割
在【像素级别】上的分类,属于同一类的像素都要被归为一类
只要将所有同类别(猫、狗)的像素都归为一类
包括背景
实例分割
比语义分割更进一步,实例分割还要在语义分割的基础上,在具体类别(猫、狗)像素的基础上区分开不同的实例(短毛猫、虎斑猫、贵宾犬、柯基犬)
不包括背景
全景分割
是语义分割和实例分割的结合
每个像素都被分配一个类(如:狗),如果一个类有多个实例,则可知道该像素属于该类的哪个实例(贵宾犬/柯基犬)
全景分割 = 语义分割(类别+背景)+ 实例分割(类别所属实例)
挑战
分割边缘不准
样本质量不一
标注成本高
常用数据集与网络
常用数据集:COCO --- 具有80个目标类、91个物品类以及25万个人物关键点标注的大型图像数据集
相关神经网络:FCN
应用
抠图软件
智能证件照制作
视频分类
人体关键点检测
场景文字识别
目标跟踪
阿里巴巴视觉智能开放平台
交通
车辆进出管理
新媒体
视频质量增强
互联网
互动娱乐
医疗
卫生防疫
0 条评论
下一页