【人工智能认证】计算机视觉基础
2023-03-13 09:17:43 0 举报
AI智能生成
根据阿里云人工智能助理工程师认证ACA内容整理
作者其他创作
大纲/内容
一门研究如何使机器“看”的科学,也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学
是机器认知世界的基础
定义
使得计算机能够像人一样“看懂世界”
终极目标
图像处理:实现超人的准确性,如图片颜色、细节敏感度
细微变化识别:性能远胜于人类,如医疗图像分析
计算能力:计算速度和精确性完胜人类,如超级计算机
优势
转换方式:数字化过程
接收器:摄像头
转换器:电线
处理器:CPU
计算机视觉
转换方式:生理过程
接收器:眼睛
转换器:神经细胞
处理器:大脑
人类视觉
具有相似的结构
相似点
一个是机器,一个是生物
人类的眼睛比摄像头更加灵活
人类的神经更加复杂
CPU只是按照人类的指示做事,人类大脑有自己的思维
计算机视觉可以获取人类视觉获取不到的信息,如红外摄像机
计算机视觉可以到人类到不了的地方,如太空作业
不同点
计算机视觉与人类视觉的关系
实际案例:视频审核
有效缓解视频平台的监管的巨大压力
智能审核网络视频内容
提高软件用户体验度和活跃度
为视频平台创造了新的应用场景
优化前端内容的开发和运营,创造出更多玩法
娱乐领域
实际案例:智能营销
代替传统人工贴标、投放的营销方式,大幅提高效率
视频电商购物营销
挖掘出技术下潜在的巨大发展商机和利益
挖掘和分析视频中潜在的广告投放位
营销领域
典型应用
概述
是用一个数字矩阵来表达客观物体的图像
数字图像
处理对象
将空间上连续的图像变换成离散的点,采样频率越高,还原的图像越真实
采样
将采样出来的像素点转换成离散的数量值
量化
图像数字化的过程
构造多层神经网络
较低层识别初级的图像特征
若干底层特征组成更上一层特征
通过多个层级的组合
最终在顶层做出分类
基础工作原理
工作原理
基本原理
核心是从给定的分类集合中给图像分配一个标签
在不同物种层次上识别不同类别的对象,如猫狗分类
跨物种语义级别的图像分类
是一个大类中的子类的分类,如不同鸟的分类
在区分出基本类别的基础上,进行更精细的子类划分
子类细粒度图像分类
单标签分类
给每个样本一系列的目标标签,表示的是样本各属性且不相互排斥的,预测出一个概念集合
标签数量较大且复杂
标签的标准很难统一,且往往类标之间相互依赖并不独立
标注的标签并不能完美覆盖所有概念面
标签往往较短,语义较少,理解困难
困难点
多标签分类
类别
类别不均衡
数据集小
巨大的类内差异
实际应用环境复杂
挑战
常用数据集:CIFAR-10
相关神经网络:LeNet-5、AlexNet
常用数据集与网络
图片搜索引擎
智能环卫
图像分类
识别图中有【哪些物体】,确定他们的【类别】并标出各自在图中的【位置】
识别+定位
图像分类:整幅图像经过识别后被分类为【单一的标签】
目标检测:除了识别出图像中的【一个或多个目标】,还需要找到目标在图像中的【具体位置】
图像分类与目标检测的区别
定义:在分子项中,是真实边界框和预测边界框重叠的区域,分母是一个并集,是由预测边界框和真实边界框所包括的区域,两者相除就得到了最终的得分
交并比 IoU
定义:目标检测模型判断该图片为正类,该图片确实是正类的概率
精确度 Precision
定义:一个分类器能把所有的正类都找出来的能力
召回率 Recall
定义:各类别平均精度均值,把每个类别的AP都单独拿出来,然后计算所有类别AP的平均值,代表者对检测到的目标平均精度的一个综合评价
反映整体精度,值介于0到1之间
平均精度值 mAP
评估指标
目标数量问题
目标大小问题
如何建模
常用数据集:PASCAL VOC --- 一个包含20个类别的小型图像数据集
相关神经网络:CenterNet
数据集与网络
交通异常事件检测
交通流量监控
红绿灯配时控制
目标检测
定义:把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程
在【像素级别】上的分类,属于同一类的像素都要被归为一类
只要将所有同类别(猫、狗)的像素都归为一类
包括背景
语义分割
比语义分割更进一步,实例分割还要在语义分割的基础上,在具体类别(猫、狗)像素的基础上区分开不同的实例(短毛猫、虎斑猫、贵宾犬、柯基犬)
不包括背景
实例分割
是语义分割和实例分割的结合
每个像素都被分配一个类(如:狗),如果一个类有多个实例,则可知道该像素属于该类的哪个实例(贵宾犬/柯基犬)
全景分割 = 语义分割(类别+背景)+ 实例分割(类别所属实例)
全景分割
分割边缘不准
样本质量不一
标注成本高
常用数据集:COCO --- 具有80个目标类、91个物品类以及25万个人物关键点标注的大型图像数据集
相关神经网络:FCN
抠图软件
智能证件照制作
应用
图像分割
视频分类
人体关键点检测
场景文字识别
目标跟踪
关键技术
车辆进出管理
交通
视频质量增强
新媒体
互动娱乐
互联网
卫生防疫
医疗
阿里巴巴视觉智能开放平台
5.计算机视觉基础
0 条评论
回复 删除
下一页