多媒体技术
2020-06-02 11:37:06 1 举报
AI智能生成
多媒体技术知识点复习汇总
作者其他创作
大纲/内容
第一章 多媒体技术概论
1. 多媒体技术概念
媒体的分类
感觉媒体
表示媒体
表现媒体
存储媒体
传输媒体
多媒体技术定义
计算机交互综合处理多种媒体信息——文本、图形、图像和声音,使多种信息建立逻辑连接,集成为一个系统并具有交互性
多媒体技术特点
集成性
实时性
交互性
多媒体技术研究意义
从人类历史发展角度
人人之间的交流手段是推动社会发展的一个重要因素
多媒体技术的引入提高了工作效率
多媒体技术不仅是时代的产物,也是人类历史发展的必然
从计算机发展的角度
用户和计算机的交互技术一直是推动计算机技术发展的重要动因
多媒体技术将文字、声音、图形、图像集成为一体,获取、存储、加工、处理、传输一体化,使人机交互达到了最佳的效果
2. 多媒体技术的发展历程
启蒙发展阶段 80’
标准化阶段 90’
多媒体计算机标准
MPC
数字化图像压缩国际标准
JPEG
MPEG
ITU H.26X
AVS
数字化音频压缩标准
光盘标准
CD-ROM
CD-DA
CD-I
VCD
DVD
应用普及 2000-
3. 多媒体技术的研究内容
3.1 数据编码、压缩\解压缩算法与标准
3.2 多媒体数据存储技术
3.3 多媒体计算机系统硬件与软件平台
3.4 多媒体系统软件开发环境
3.5 多媒体数据库与基于内容的检索
3.6 超文本和WEB技术
3.7 多媒体系统数据结构
4. 多媒体技术的应用及发展前景
典型应用
教育和培训
咨询和演示
娱乐和游戏
信息管理
可视通信系统
计算机支持的协同工作
视频服务系统
前景
家庭教育和个人娱乐是国际多媒体市场的主流
内容服务和多媒体通信是应用的重要方面
提高多媒体系统的智能性是不变的主题
基于融合网络环境的多媒体系统是今后重点发展方向
第二章 多媒体计算机系统组成
1. 多媒体存储技术
多媒体信息存储的特点
多媒体信息存在和表现的形式
正文:包括文字和数据
向量图形:图元组成的图形
位图图像
数字化声音和高保真音响
数字化视频
多媒体信息量大
光盘存储
技术原理
改变一个存储单元的性质,使其性质的变化反映出被存储的数据;识别这种性质的变化就可以读出存储数据
特点
与硬盘相比:
可拆卸性
容量相当
驱动器较贵,但盘片便宜
读写速度慢
与磁带相比:
容量大
随机存取性强
激光头与介质无接触,不受环境影响而退磁,信息保存时间长,可达30年以上
技术指标
容量
光盘盘片的容量
平均存取时间
在光盘上找到需要读写信息的位置所需时间
数据传输率
从光盘驱动器送出的数据率,可以定义为单位时间内光盘的光道上传送的数据比特数,这与光盘转速、存储密度有关
指控制器与主机间的传输率,它与接口规范、控制器内的缓冲器大小有关
分类
CD-ROM 只读光盘
WORM 一次性写多次读光盘
Rewritable 可重写光盘
工作原理
只读光盘读原理
只读光盘上的信息是沿着盘面螺旋形式的信息轨道以凹坑和凸区的形式记录的
既可以记录模拟信息,也可以记录数字信号
可重写光盘的擦写原理
磁光式
当前国际上较流行的是磁光式,该盘普遍采用玻璃盘基上再加四层膜结构组成,它是以稀土—过渡金属非晶体垂直磁化膜作为记录介质光学膜和保护膜的多层夹心结构
写操作方式
居里点记录
补偿点记录
相变式
利用记录介质的两个稳态之间的互逆相结构的变化来实现信息的记录和擦除。两种稳态是反射率高的晶态和反射率低的非晶态(玻璃态)
写过程是把记录介质的信息点从晶态转变为非晶态
擦过程是写过程的逆过程,即把激光束照射的信息点从非晶态恢复到晶态
发展历史
1972 Philips 模拟电视信号 Laser Vision
1978 SONY 影碟机
1979 Philips 激光唱机 Compact Disk Player
规范与标准
CD-DA
1981 红皮书 激光数字音频光盘标准 CD最基本标准
CD-ROM
1985 黄皮书 1988年成为国际标准ISO9660, 1991年推出ISO9660II
CD-V
从红皮书发展而来,在影碟机上使用
可录CD
橙皮书, 分为CD-MO CD-WO.
CD-MO 磁光盘,可重写
CD-WO 一旦写入就不能抹掉
CD-I
1987 绿皮书 交互式多媒体
1992 第二代 可播放交互式视频
CD-ROM XA
1988年 Philips SONY MS制定
Photo-CD
相片光盘 1991 发布,1992制定规范
Video CD
1993 白皮书 采用MPEG压缩算法压缩动态图像
CD-ROM性能指标
容量
约为650MB
数据传送速率
单速 150KBps
倍速 300kBps
四倍 600KBps
存储缓冲器
早期64KB,目前常用128KB/256KB
存取时间
200~400ms
误码率
10^-12~10^-16
体积
接口
采用SCSI接口、IDE接口和AT总线接口
MTBF
平均无故障时间约为25000小时左右
兼容性
支持Photo-CD CD-ROM XA
CD-DA规范及格式
常线速伺服方式,逆时针旋转
螺旋线光道等长分段,每段称为一个扇区
每个扇区的音频数据分为许多称为帧的单元,每帧共有33个字节
错误的检测和校正采用CIRC
CD-ROM规范及格式
把光轨道分为等长的扇区,使用分、秒、扇区的数据编址方式,采用常线速伺服方式
格式
Mode1
SYNC 12B
HEADER 4B
USER DATA 2048B
EDC 4B
SPACE 8B
ECC 276B
Mode2
SYNC 12B
HEADER 4B
USER DATA 2336B
相同点
都有12B的同步码,前后00H,中间10个FFH
紧接着4B的地址字段,采用分、秒、扇区号确定地址标号,地址字段中设置了MODE字节
不同点
用户数据量不同
存贮数据的类型不同,MODE1存放对错误极为敏感的数据,MODE2存放不太敏感的
对声音、图象类的数据可以不必做进一步校验; 而要满足计算机数据误码率小于1/1012的要求, 则应对Mode1的数据作进一步校验
CD-ROM扩展结构CD-ROM XA
与CD-I相同的FORM1和FORM2格式
CD-I光盘
数据格式
从CD-DA和CD-ROM光盘格式演变而来
扇区与CD-ROM XA相同,有三个区
导入区
节目区
导出区
信息均采用EFM记录方式记录
由于误码率较高,采用能纠正突发错误的CIRC码
结构
一片CD-I光盘上的CD-DA光道可以有一条或多条CD-DA光道,但最多不超过98条
所有数据以文件形式存放
两种数据格式FORM1 和 FORM2记录
激光视盘
CLV
CAV
交互式视盘
在视盘上剩余空隙插入一些命令代码,计算机就便于控制视盘的播放,这种存在控制命令代码的视盘称为交互式视盘
Video CD标准
一个使用CD格式和MPEG-1标准的数字电视播放系统
结构
MPEG-Video
MPEG-Audio
CD-ROM光盘制作过程
数据准备
主盘制作
复制光盘
DVD光盘
DVD-Video规格
数据传输率
可变速率,平均速率为4.69Mbps,最大速率10.7Mbps
图像压缩标准
MPEG-2标准
声音标准
NTSC
PAL/SECAM
通道数
多达8个声音通道和32个字幕通道
DVD和CD-ROM的差别
外观和尺寸
没什么差别
不同点
光道间距缩小(1.6微米到0.74微米),记录信息的最小凹坑凸区长度缩小(0.83微米到0.4微米),这是DVD容量提高的主要原因
调制方式和错误校正方法做了相应的修正以适合高密度的需要,采用EFM-PLUS调制(8bit -> 16bit),校验采用更可靠的RS-PC
采用波长更短的激光源(780纳米到635/650纳米)来提高聚焦激光束的精度
2. 多媒体功能卡
包括
视频卡
两类
专用固定功能的芯片,这类芯片主要围绕数据压缩标准JPEG,MPEG等开发
可编程的多媒体处理器,如Intel750系列,TI公司的TMS320系列高效可编程多媒体处理器以及Philips和SONY共同开发的CD-I等产品
C-Cube公司的视频卡
CL550
第一个集成了JPEG算法的芯片
编码过程
解码过程
静态图像压缩板
CL450
通过执行宏码完成高层次功能
应用程序可以两种方式操作CL450
寄存器操作方式
宏命令操作方式
视霸卡
简介
结构
三个主要功能模块
视频信号输入电路
视频信号输出电路
视频信号窗口控制模块
多种功能
解压
转换
捕捉
音频卡
处理音频信号的计算机插件,是普通计算机想MPC升级的一种重要部件
主要功能
数字化声音处理
混音器
合成器
声霸卡及其特点
VGA与TV转换卡
图形加速卡
SCSI接口卡
光盘接口卡
意义
通过这些功能卡将计算机和各种外部设备相连,构成一个制作和播出多媒体系统的工作环境
多媒体处理器
像素处理器 82750PB
显示处理器 82750DB
合并了模拟和数字处理部件
能够选择每个像素的字长,每行的像素数以及每列的行数,以满足不同显示分辨率的需要
主要组成
像素数据通道
色差插值器
YUV到RGB的变换
VBUS控制
像素均衡器
D/A转换器
3. 多媒体信息获取与显示设备
图像获取设备
数字化图像获取常用设备
扫描仪
图像扫描仪基本原理
将反映图像特征的光信号转换成计算机可接受的电信号
工作过程
CCD--光电转换
A/D转换
种类
平板式
手持式
滚动式
数字照相机
图像数字化
步骤
采样
在二维方向上分成MXN个网格
网格的亮度值即为采样值
一维采样
二维采样
量化
把连续的亮度值分为K个区间,每个区间对应一个亮度I
划分方法
均匀量化
非均匀量化
模数变换
实现上述量化的过程称为模数变换
一般采用PCM量化器实现,此为均匀量化
非均匀量化一方面可以利用PCM量化的结果,根据信号特性处理为非均匀量化的数据
另一个方面也可以利用专门的非均匀量化器实现
需要考虑采样过程中产生的失真和噪声
摄像机
构成
摄像镜头管
同步信号发生电路
偏转电路
放大电路
电源
原理
来自被摄物体的光通过光学系统在摄像管的靶上形成光学图像,这个光学图像经摄像管转换成电信号,以视频信号方式输出被摄图像
彩色图像摄取重要的是分理出三基色信号,利用滤色片、分色镜或棱镜把光分解成三基色
新产品不用电子管作光电转换,而是电荷耦合器件CCD等固态摄像器件
显示设备
显示系统
显示器
类别
多同步显示器
平面直角显示器
从扫描频率分
固定扫描频率
可变扫描频率
显示适配器
组成
寄存器
视频存储器
显示帧缓存RAM
存放BIOS的ROM
控制电路
触摸屏
组成
传感器
控制部件
驱动程序
分类
红外线触摸屏
原理
在屏幕四边放置红外发射管和红外接收管,微处理器控制驱动电路依次接通红外发射管并检查相应的红外接收管,形成横竖交叉的红外线整列
分类
内置式
外挂式
电阻式触摸屏
感应器
一个覆盖电阻性栅栏的玻璃,再在上面蒙上一层涂有导电涂层并有特殊模压凸缘的聚脂薄膜
凸缘避免其表面的涂层与玻璃的涂层接触
原理
控制器向玻璃的四个角加稳定的5伏电压,并读取导电层的电压值
当屏幕被触摸时,压力使聚脂薄膜凹陷而碰到玻璃,导电层接触。控制器向玻璃的两个邻角加电压,并把对面两个角接地,于是电阻栅格使玻璃片上形成从矩形的一边到另一边线性变化的电压阶梯,控制器从两个方向测出触摸点的电压值,从而计算出触摸的精确位置
电容式触摸屏
组成
模拟感应器
透明玻璃,表面有导电涂层,其上覆盖一层保护性玻璃外层
智能双向控制器
原理
它工作时在感应器边缘的电极产生分布的电压场,用手指或其它导电体触摸导电涂层时,电容改变,电压场变化,控制器检测这些变化,从而确定触摸的位置。控制器把数字化的位置数据传到主机,以实现人机的交互
表面声波技术
表面声波是应变能仅集中在物体表面传播的弹性波
组成
在一片玻璃的每个角上装有两个发射器和两个接收器,一系列的声波反射器被嵌进玻璃中,沿着两面从顶至底穿过玻璃。发射器朝一个方向发射5MHz的短脉冲。当脉冲离开一角后,就会不断地被每个反射器反射回来一部分声波
原理
当触摸玻璃的某点就阻碍了脉冲能量通过那点反射到达接收机,于是从接收的脉冲信号中就见到一段缺口。脉冲起点至下跌点间的时间长度就确定了触摸点的坐标。控制器通过互换两对发射器和接收器,就可测出触摸在X及Y方向的坐标
底座式矢量压力测力触摸屏
原理
在CRT外面盖上一块四角装有应力计的平板玻璃
当玻璃受到压力时, 应力计就会出现电压或电阻等电气特性的变化。压力越重,变化值就越大。每个角记录这些变化
控制器读取每个角的记录值, 并计算触压位置。这种触摸屏分辨率较低
4. 多媒体个人计算机
MPC技术的发展
MPC配置特点
一个功能强大、速度快的中央处理器
大容量的存储器空间
高分辨率显示接口与设备
可处理音响的接口与设备
可处理图像的接口与设备
可存放大量数据的配置
MPC配置
Amiga多媒体个人计算机
5. CD-I交互式多媒体系统
多媒体系统结构
多媒体应用软件
多媒体开发与创作工具
多媒体系统软件
多媒体驱动程序接口
多媒体驱动程序
多媒体硬件
CD-I系统是家用交互式多媒体系统
组成部分
音频处理子系统
4种标准音质的运行方式
继承CD-DA超级高保真音质运行方式
A级 相当于Laser Vision音质
B级 相当于FM调频广播音质
C级 相当于AM调幅广播的音质
一种非实时的语音音质运行方式
文本到语音编码转换而成的音质
声音数据的解码和控制是由CD-I音频处理器而完成
组成
解码器ADPCM
音频处理单元
特技处理器及声音输出
CD-I接口单元
音频信号存储器
控制器
视频处理子系统
功能
把CD-I光盘上的数字化视频信号通过存储和控制进行实时解码、颜色切换、重叠控制
经过混合处理而产生RGB信号输出
视频压缩和解码原理
一维的DYUV编码
自然图像
RGB 5:5:5编码
高质量图像
CLUT编码
动画
一维行程编码
动画
图像平面的重叠与颜色切换
平面1 16x16像素额彩色游标平面
平面2和平面3 全屏幕图像平面
平面4 背景平面
多任务的操作系统
实时操作系统CD-RTOS
源于高性能的OS-9实时操作系统
特点
多任务实时操作系统
结构是模块化结构
有设备独立的I/O接口
能够处理多级树形结构的目录
中断驱动的系统
构成
内核
系统相关库
接口和管理程序
设备驱动程序
系统状态描述符CSD
文件保护模块FPM
初始化和系统启动过程
CD播放机
微处理器、存储器、键盘、定位装置和CSD字体模块
6. DVI多媒体计算机系统
特点
提供一种全数字化的方法
先进的视频压缩技术
声音压缩技术
合成图形
系统结构及其工作原理
DVI-I
DVI视频板
DVI音频板
DVI多功能板
DVI-II
将第一代3块板集成在一个板
3个门阵列电路
82750H主机接口门阵列
82750LV VRAM/SCSI/Capture门阵列
82750LA 音频子系统接口门阵列
1~16MBVRAM视频处理器
核心部件
DVI-I
视频像素处理器82750PA
像素处理速度为12.5MIPS
采用微码编程
高速执行像素处理的多种算法
视频显示处理器82750DA
当视屏像素处理器绘制和管理视频RAM中的位映射图时,显示处理器就把这个结果显示在视屏屏幕上
DVI-II
82750PB和82750DB,使运算速度提高了一倍
82750PB具有较宽指令字长的快速微码处理器,在25MHZ主频下,运行速度达25MIPS
由于指令字长,且不同字段分别可以实现不同的控制和操作,提高了并行操作功能,因此像素处理器的操作速度达100MIPS
音频处理器
DVI-I
TMS-320C10数字信号处理器(DSP)作为专用音响处理器
DVI-II
AD2105
DSP芯片还能控制音量、采样速率的变化, 从VRAM中抽取压缩编码数据, 将解压缩的音频数据输出送到D/A转换器, 通过滤波后输出
D/A转换器
模拟滤波器
DVI总线
DVI-I
DVI多功能板
CD-ROM接口控制器
扩展内存模块
两路操纵杆控制器接口
DVI-II
3个门阵列电路
82750H主机接口门阵列
82750LV VRAM/SCSI/Capture门阵列
82750LA 音频子系统接口门阵列
系统中数据通信通道是具有多路开关的32位数据和地址总线,也称为“DVI总线”
以DVIⅡ为代表的DVI多媒体硬件系统具有下述特点
采用了高速专用视频处理器i750B,具有实时处理视频功能
DVI总线保证了高速传输
外围逻辑集成到三个门阵列,Action MediaII体积缩小
外围接口设计方便了用户
DVI软件开发环境
第一代DVI系统软件,采用了层次接口模型,具有模块化特点,核心是AVSS
音频视频子系统AVSS
结构
应用层
高层次接口DVI标准
高层次模块低层次接口DVI标准
驱动器接口模块
系统RAM接口模块
硬件
AVSS/RTX工作原理
AVSS概念模型称之为超级VCR模型
演播单元就是AVSS功能的具体体现
效果处理单元实际上是图形库功能的集合
钩挂例程是把专用图形添加到视频的特殊调用工具
数据流
采用3个并行的操作来播放数字视频,都做为RTX的任务
输入任务
将一帧压缩视频读进内存
解码任务
请求像素处理器对该帧视频进行还原
显示任务
将还原后的视频帧在计算机显示器上显示
任务调度RTX
首要任务
为AVSS提供CPU资源,使运动视频播放连续畅通
具体做法是给任务分配特定的优先数,并查明在其执行循环期间应发出的事件等待时间
基于DOS环境开发的,没有留扩展接口,可移植性和可扩充性很差,RTX的任务调度依靠主机CPU,因此RTX调度技术需改进。
第二代 核心是音频/视频内核AVK
基于窗口系统环境的AVK
其概念模型是“数字视频制作演播器”
主要组成部分
模拟设备接口
显示管理器
采样器
数据流控制器
效果处理器
音频/视频混合器
对数据流处理的优点
从解压缩位映射阵列分离显示的位映射允许插入拷贝和改变比例尺的操作,它也允许改变窗口的视频效果。
由于DVI硬件具有更多的功能,多个视频窗口能够同时显示在屏幕上
实时任务调度
组成部分
调度器
缓冲区/数据流处理任务
命令表处理任务
周期处理任务
工作过程
当视频流正在播放时,DoMotion在主命令表处理任务和缓冲区/数据流处理任务之间循环
通过主命令表和设置队列执行微码功能来完成微程序控制
周期处理任务调用队列集函数,并且用队列集函数从主机传送命令到主命令表或命令表数据流,这样就允许主机传送指令到82750PB像素处理器。AVK使用80750PB作为协处理器,有DoMotion执行实时任务调度
DVI-I型系统软件层次结构
应用层
应用支持层
图形软件包Gr
音频视频支持软件AVSS
驱动程序接口模块层
微码接口模块
视频接口模块
多功能接口模块
音响接口模块
驱动程序模块层
视频驱动程序
音频驱动程序
多功能板驱动程序
硬件
DVI图像格式及压缩算法
静态图像处理
静态图像压缩算法有JEPG和行程算法
视频图像压缩
DVI技术采用两种
PLV
RTV
7. VCD和DVD播放系统
VCD
VCD播放机是基于MPEG-1标准的交互视频播放系统
两种形式
使用PC机构成的播放系统,它是在PC机加上MPEG解压卡或解压软件升级而成
VCD播放机加上电视机构成
基本结构
CD驱动器,或称CD加载器
MPEG解码器
微控制器
基本功能
。。。。
DVD
与VCD相差不大
组成
DVD盘读出机构
DVD-DSP
数字声音/视频解码器MPEG-2
微处理器
8. 多媒体工作站
工作站特点
采用UNIX操作系统
具有GUI接口
很强的图形图像处理功能
多媒体工作站能同时处理离散和连续媒体信息
系统结构
主存和具有自主控制器的二级存贮器
用户实时数据处理通用处理器
处理离散媒体信息标准处理器
面向图形、音频和视频媒体的专用处理器
图形和视频适配器
通信适配器
总线
系统总线
仅支持有限的连续数据传输,诸如ISA,EISA
外围总线
面向连续媒体的数据传输开发的,诸如SCSI
多媒体设备
主存
二级存储器
处理器
操作系统
第三章 多媒体节目开发工具
1. 多媒体节目开发环境
环境
图形
触摸屏
音频
图像
各种创作系统
功能
提供编程的环境
超文本、超媒体和多媒体数据管理的功能
支持多媒体数据的输入输出
应用连接功能
数据和动画制作功能
友好的用户界面
2. 多媒体创作工具
一种高级的软件程序或命令集合
分类
以卡或页为基础的创作工具
可以将对象连接于卡或页的环境
一页或一张卡便是数据结构中的一个节点
这种页或卡上的数据比书上的一页或数据袋中的一张卡的数据更多样化
在卡或页上的图符很容易理解和使用
栗子
ToolBook
面向对象开发环境
提供一种面向对象的程序设计语言OPENSCRIPT
设计编程制作一体化环境
具有吧图形、文字、数字视频图像、声音及动画集成Wie一个交互式节目的能力
节目设计思想
按书的结构组织应用程序
脚本特点综述
以图符为基础,基于事件的创作工具
提供可视化的程序设计环境
设计之初须先用其他软件来制作各种元素
提供可视化的程序设计环境
设计之初须先用其他软件来制作各种元素
然后在此系统中建立一个流程图,在流程图当中可以包括起始事件、分支、处理及结束等各种图符
设计者可依流程图将适当的对象从所谓的图符库按下拉至工作区内。这些图符可以包括菜单条的选项、图形、图像、声音及运算等
这个流程图也是事先安排的次序,同时也表示整个节目的逻辑蓝图
栗子
Authorware
一个交互式多媒体节目创作工具,它使用图符设计流程图,无需编程,非常方便
最大特点是使用15个图符组成的界面
以时间为基础的创作工具
常见的一种多媒体编辑系统,常用于制作电影和卡通节目
大多以时间轴来决定事件的顺序与对象显示上演的时段
这种时间关系可以许多频道形式出现,以便安排多种对象同时呈现
这类系统中都会有一个控制播出的控制面板,它很像录音机、录像机的控制板,含有倒带、倒退、停止、演出及快进等按钮
栗子
Action!
结合了动作、声音、文字、图形、动画多媒体显示环境,使用时间轴来组织其元素
使用时间轴及控制面板来组织一个场景
以传统程序语言为基础的创作工具
精通编程的程序员对于多媒体编辑创作系统的限制及依赖工具箱产生对象的方式较不容易接受
因此,一方面保留传统语言的特性,另一方面改进其程序设计环境成为可视化的操作系统
这样程序员既可以用传统的语言来编写程序又可方便地使用媒体开发工具箱,使这些工具箱内的编码可以直接被采用成为重用的编码 。
栗子
Visual BASIC
提供各式的图形界面
基于事件的语言,程序的行为附着于对象,等到对象被调用或被用户引发时才被执行
Visual C++
与VB相似
其他专用的创作工具
3. 多媒体功能卡开发工具
Sound Blaster编程工具
SBK
功能
语音输入输出
FM音乐输出
有文本生成语音
MIDI输入和输出
混音器控制
CD-ROM驱动器的声音接口
Video Blaster编程工具
VBK
接口
DOS驱动编程接口
Windows动态链接库编程接口
MCI编程接口
4. WINDOWS多媒体开发环境
媒体控制接口MCI
MCI在控制音频、视频等设备方面,提供了与设备无关的API接口
用户应用程序可使用MCI控制标准多媒体设备
不同设备其驱动控制方式不同
影碟机直接控制目标设备
MIDI函数可使用MMSYSTEM函数间接控制目标设备
影片演播器则提供了与其他WindowsDLL的高层接口
应用程序通过设备的类型来区分设备
MCI接口分类
使用命令消息接口函数,直接控制MCI设备
命令消息接口
分类
直接由MCI解释的命令
MCI0SYSINFO
MCI-BREAK
MCI-SOUND
由所有的MCI设备所支持的命令
MCI-CLOSE
关闭一个设备
MCI-GETDEVCAPS
MCI-INFO
MCI-OPEN
打开MCI设备的方法
用设备类型字符串指定待打开的MCI设备
用MCI设备驱动程序名指定待打开的MCI设备
用设备类型常数(见下表)指定待打开的MCI设备
仅用设备元素指定打开的复合设备
MCI-STATUS
基本命令
MCI-LOAD
MCI-PAUSE
MCI-PLAY
MCI-RECORD
MCI-RESUME
MCI-SAVE
MCI-SEEK
MCI-SET
MCI-STATUS
MCI-STOP
扩展命令
对于不同的设备类型,MCI使用一组不同的扩展命令,控制此类设备特殊性能
第一组是MCI元素文件操作扩展命令组
第二组是MCI设备操作及定位扩展命令组
第三组是窗口或视频设备的扩展命令组
使用命令字符串接口函数,基于文本接口或命令脚本来控制MCI设备
命令字符串接口
3个函数
MciSendString
MciGetErrorString
MciExecute
不同之处
基本命令接口及其发送消息到设备的原理不同
命令消息接口使用消息控制MCI设备
命令字符串接口使用文本命令控制MCI设备
DirectShow
为在Windows平台上处理各种格式的媒体文件的回放、音视频采集等高性能要求的多媒体应用提供了完整的解决方案
基本模块
Filter软组件
一系列连接的Filter被称为Filter Graph
可以传递事件通知给应用程序,以便程序能对事件作出反应
数据传送模式
推模式
最典型情况在Live Source 实时源
能自己产生数据,并使用专门的线程将这些数据推下去
拉模式
最典型在File Source 文件源
靠后面的Filter来拉数据
线程
应用程序主线程
状态的改变
数据传送子线程
样本的传递
丢弃采样的处理过程称为Flushing
第四章 多媒体数据压缩技术
1. 信息表示与编码
数字化表示
传统上用模拟方式表示声音和图像信息
易出故障,常产生噪音和信号丢失,且拷贝过程中噪音和误差逐步累积
不适合数字计算机加工处理
数字化处理
巨大的数据量
采样
采样定理
仅当采样频率>=2倍的原始信号频率时,才能保证采样后信号可被保真地恢复为原始信号
数字化处理的关键问题
数据压缩
压缩的基础
数据冗余
空间冗余
时间冗余
信息熵冗余
结构冗余
知识冗余
视觉冗余
其他冗余
彩色空间
常见空间
RGB
常见的有RGB5:5:5方式和RGB8:8:8
HSI
Hue色调
Saturation 饱和度
Intensity 光强度
YUV
Y为亮度信号
U、V为色差信号
优点是亮度和色差信号分离,容易使彩色电视系统与黑白电视信号兼容
采用双倍度采样4:2:2方案效果较好,提出CCIR601标准
YIQ
另一个常用的亮度和色差分离的模型
NTSC制式彩色空间
Y为亮度,I.Q共同描述图像的色调和饱和度
数字图像文件格式
TIF
结构
文件头
参数指针表
参数数据表
图像数据
PCX
结构
文件头
数据部分
文件体对像素数据采用行程长度编码
GIF、TGA、BMP、DVI、JPEG等
多媒体数据转换
不同媒体表示不同的信息标识码方式
有些媒体之间的转换是非常困难的事情,需要研究人类本身对各种媒体理解原理和解释过程
有些媒体之间的转换则相对容易,几乎不用做什么工作
2. 常用的数据压缩技术
根据解压后数据和原始数据是否完全一致,分为两类
可逆编码(无失真编码)
压缩大约在2:1到5:1之间
如Huffman编码、算术编码、行程长度编码
不可逆编码(有失真编码)
压缩比可以从几倍到上百倍来调节
如变换编码和预测编码
根据压缩原理分类
预测编码
利用空间中相邻数据的相关性来预测未来点的数据。差分脉冲编码调制(DPCM)和自适应差分脉冲编码调制(ADPCM)。
线性预测 DPCM
基本原理
基于图像中相邻像素之间具有较强的相关性,每个像素可根据已知的前几个像素来做预测
变换编码
将图象时域信号变换到频域空间上处理。时域空间有强相关的信号, 反映在频域上是某些特定的区域内能量常被集中在一起, 从而实现压缩. 正交变换如离散余弦变换, 离散付立叶变换和Walsh-Hadamard变换.
量化与向量量化编码
为了使整体量化失真最小, 就必须依照统计的概率分布设计最优的量化器。已知最优量化器是Max量化器。对象元点进行量化时, 也可以考虑一次量化多个点的向量量化。
信息熵编码
根据信息熵原理,让出现概率大的用短的码字表达,反之用长的码字表示。最常见的方法如Huffman编码、Shannon编码以及算术编码
根据信源符号出现概率的分布特性而进行的压缩编码
基本思想
在信源符号和码字之间建立明确的一一对应关系,以便在恢复时能准确地再现原信号,同时要使平均码长或码率尽量小
栗子
霍夫曼编码
Huffman定理
在变长编码中,对出现概率大的信源符号赋于短码字,而对于出现概率小的信源符号赋于长码字。如果码字长度严格按照所对应符号出现概率大小逆序排列,则编码结果平均码字长度一定小于任何其它排列方式。
实现步骤
(1)将信源符号按概率递减顺序排列;
(2)把二个最小概率相加作为新符号的概率, 并按(1) 重排;
(3)重复(1)、(2), 直到概率为1;
(4)在每次合并信源时, 将合并的信源分别赋“0”和“1”(如概率大的赋“0”,概率小的赋“1”);
(5)寻找从每一信源符号到概率为1处的路径,记录下路径上的“1”和“0”;
(6)写出每一符号的“1”、“0”序列(从树根到信源符号节点)
算术编码
基本原理
将编码的信息表示成实数0和1之间的一个间隔(Interval),信息越长,编码表示它的间隔就越小,表示这一间隔所需的二进制位就越多
特点
不必预先定义概率模型,自适应模式具有独特的优点;
信源符号概率接近时,建议使用算术编码,这种情况下其效率高于Huffman编码(约5%)。JPEG扩展系统采用。
子带编码
将图象数据变换到频域后,按频域分带,然后用不同的量化器进行量化,从而达到最优的组合。或者分步渐近编码,随着解码数据的增加,图象逐渐清晰
模型编码
编码时首先将图象中边界、轮廓、纹理等结构特征找出来,保存这些参数信息。解码时根据结构和参数信息进行合成,恢复出原图象。具体方法有轮廓编码、域分割编码、分析合成编码、识别合成编码、基于知识的编码、分形编码等
3. 静态图像压缩标准 JPEG
多灰度连续色调静态图像压缩编码
选定ADCT作为静态图像压缩的标准化算法
为保证通用性,包含两种方式
空间方式
可逆编码
空间方式对于基本系统和扩展系统来说,被称为独立功能
基于DPCM的无失真编码
优点
硬件易实现,重建图像质量好
缺点
压缩比太低,大约2:1
工作原理
对X的预测值X’,将X-X’进行无失真熵编码
DCT方式
不可逆编码
包含基本系统(必须保证的功能)和扩展系统(扩充功能)
基于DCT的有失真压缩编码
步骤
离散余弦变换
量化处理
JPEG采用线性均匀量化器
对64个DCT系数除以量化步长, 然后四舍五入取整:
DC系数的编码和AC系数的行程编码
DC系数的编码
DPCM
AC系数的行程编码
熵编码
为了进一步压缩数据,需对DC码和AC行程编码的码字再做基于统计特性的熵编码
JPEG建议的熵编码是Huffman编码和自适应二进制算术编码
分两步进行
把DC码和AC行程码转换为中间符号序列
给这些符号赋以变长码字
基于DCT的累进操作方式编码
两种方式
顺序方式
每个图象分量的编码一次扫描完成
累进方式
图象分量编码要经过多次扫描才完成
两种累进方式
频谱选择法
按位逼近法
基于DCT的分层操作方式
对一幅原始图象的空间分辨率,分成多个分辨率进行“锥形”的编码方法,水平(垂直)方向分辨率的下降以2的倍数因子改变
主要内容
基本系统
实现DCT编码与解码所需的最小功能集, 大多数的应用系统只要用此标准, 就能基本上满足要求
扩展系统
为了满足更为广阔领域的应用要求而设置的
JPEG2000
目标是在高压缩率的情况下, 如何保证图像传输的质量
采用以小波变换为主的多分辨率编码方式
统一了面向静态图像和二值图像的编码方式, 是既支持低比率压缩又支持高比率压缩的通用编码方式
主要特点
高压缩率。
与JPEG相比,可修复约30%的速率失真特性。JPEG和JPEG2000在压缩率相同时, JPEG2000的信噪比将提高30%左右
无损压缩。
预测编码作为对图像进行无损编码的成熟方法被集成在JPEG2000中;
渐进传输。
JPEG2000可实现以空间清晰度和信噪比为首的各种可调节性,从而实现渐进传输,即具有“渐现”特性
感兴趣区域压缩。
JPEG2000 支持所谓的“感兴趣区域”
4. 运动图像压缩编码标准 MPEG
面向运动图象压缩的一个系列标准
编码过程和解码过程是一种非镜象对称算法(不对称), 解码过程要比编码过程相对简单些
MPEG-1
用于数字存储媒体运动图象及其伴音速率为1.5Mbps的压缩编码”简称MPEG-1,
主要用于在CD-ROM存储运动视频图像, 它针对标准分辨率(NTSC制为352×240; PAL制为352×288)的图像进行压缩, 每秒30帧画面, 具备CD音质
它还用于数字电话网络上的视频传输, 如非对称数字用户线路(ADSL)、视频点播、教育网络等
分为5个部分
MPEG系统
定义音频、视频及有关数据的同步
MPEG视频
定义视频数据的编码和重建图象所需的解码过程,亮度信号分辨率为360×240, 色度信号分辨率为180×120;
MPEG音频
定义音频数据的编码和解码
一致性测试
软件模拟
MPEG-1解码器原型
多路复合而成的码流假设以介质特定格式存储在数字存储介质(DSM)或网络上, 标准不规定介质特定格式
系统解码器从输入多路复合流中抽取定时信息,并对输入流进行分流处理, 输出两个基本流分别给视频和音频解码器。
视频和音频解码器分别解码输出视频和声音信号
系统、视频、音频和介质4个解码器之间用定时信息进行同步
多路复合流构造为2层: 系统层和压缩层。系统解码输入的是系统层; 而视频、音频解码器输入的是压缩层
系统解码器执行两类操作:
一类是作用在整个多路复合流上的操作,称为复合流操作
另一类是作用在单个基本流上的操作,称为特定流操作。
系统层分为两个子层:
包(pack),是复合流操作对象;
组(packet),它用于特定流操作。
MPEG音频标准的特点:
音频信号采样率可以是32KHz,44.1KHz或48KHz。
压缩后的比特流可以按以下4种模式之一支持单声道或双声道:
MPEG音频标准提供3个独立的压缩层次,用户可在复杂性和压缩质量之间权衡选择。
层1最简单,使用比特率384Kbps,主要用于DCC;
层2的复杂度中等,使用比特率192Kbps左右, 主要应用于数字广播的音频编码、CD-ROM上的音频信号以及CD-I和VCD。
层3最为复杂,使用比特率64Kbps,尤其适用于ISDN上的音频传输,有损压缩但音质保持逼真效果
MP3音乐 是利用 MPEG Audio Layer 3 的技术, 声音采用 1:10 甚至 1:12 的压缩率
MPEG视频数据流的结构
运动序列
图像组
图片信号
一个亮度信号Y和两个色度信号U、V。
块
一个块由一个8×8的亮度信息或色度信息组成
宏块
一个宏块由一个16×16的亮度信息和两个8×8色度信息构成
图像切片
由一个或多个连续的宏块构成
MPEG-1视频编码技术
主要问题
一方面无法达到很高的压缩比
另一方面用单一的静止帧内编码方法能最好地满足随机存取的要求。
解决方法
对这两个方面做了折衷考虑。即为了减少时间上冗余性的基于块的运动补偿技术和基于DCT变换的减少空间上冗余性的ADCT技术
将图象分为3种类型
I图象
利用图象自身的相关性压缩, 提供压缩数据流中的随机存取的点.
P图象
用最近的前一个I图象(或P图象)预测编码得到(前向预测)。
B图象
B图象在预测时, 既可使用了前一个图象作参照, 也可使用下一个图象做参照或同时使用前后两个图象作为参照图象(双向预测)。
运动补偿技术
主要用于消除P图象和B图象在时间上的冗余性提高压缩效率。
在MPEG方案中,运动补偿技术工作在宏块一级。
B图象宏块有4种类型
帧内宏块, 简称I块
前向预测宏块, 简称F块
后向预测宏块, 简称B块;
平均宏块, 简称A块。
对于P图象, 其宏块只有I块和F块两种
无论B图象和P图象,I块处理技术都与I图象中采用技术一致即ADCT技术
对于F块、B块和A块,MPEG都采用基于块的运动补偿技术
F块预测时其参照为前一个I图象或P图象
B块预测时其参照为后一个I图象或P图象
对于A块预测其参照为前后两个I图象或P图象
基于块的运动补偿技术
在其参照帧中寻找符合一定条件,当前被预测块的最佳匹配块
找到匹配块后,有两种处理方法:
在恢复被预测块时,用匹配块代替
对预测的误差采用ADCT技术编码,在恢复被预测块时,用匹配块加上预测误差。
MPEG-2
它利用网络提供的3~100Mbps的数据传输率来支持具有更高分辨率图象的压缩和更高的图象质量。
可支持交迭图象序列,支持可调节性编码,多种运动估计方式,提供一个较广的范围改变压缩比,以适应不同画面质量、存储容量和带宽的要求。
与MPEG-1兼容的基础上实现了低码率和多声道扩展
5个档次
简单型Simple
基本型 Main
信噪比可调型 SNR Scalable
空间可调型 Spatial Scalable
增强型 High
4个等级
低级Low
35228830, 它面向VCR并与MPEG-1兼容;
基本级Main
72046030或72057625,它面向视频广播信号;
高1440级 High-1440
1440108030或1440115225,它面向HDTV
高级 High
1920108030或1920115225,它面向HDTV。
MPEG-2音频
基本特性之一是向后与MPEG-1音频兼容
可以是5.1也可以是7.1通道的环绕立体声
MPEG-2编码方法
和MPEG-1区别主要是在隔行扫描制式下, DCT变换是在场内还是在帧内进行由用户自行选择, 亦可自适应选择
一般情况下, 对细节多、运动部分少的图象在帧内进行DCT, 而细节少、运动分量多的图象在场内进行DCT
MPEG-2采用可调型和非可调型两种编码结构。还可以使用一个基本层加上多个增强型的多层编码结构,这由用户按质量和压缩比要求选择使用
MPEG-4
甚低速率视听编码
它针对低速率下的视频、音频编码, 更加注重多媒体系统的交互性和灵活性。
引入了AV对象(AVO), 使得更多的交互操作成为可能:“AV对象”可以是一个孤立的人,也可以是这个人的语音或一段背景音乐等
对AV对象的操作
采用AV对象来表示听觉、视觉或者视听组合内容
组合已有AV对象来生成复合的AV对象,并生成AV场景
对AV对象的数据灵活地多路合成与同步,以便选择合适的网络来传输这些AV对象数据
允许接收端用户在AV场景中对AV对象进行交互操作
主要构成部分
传输多媒体集成框架
主要用于解决交互网络中、广播环境下以及光盘应用中多媒体应用的操作问题。
它是MPEG-4制订的会话协议,用来管理多媒体数据流。
通过传输多路合成比特信息来建立客户端和服务器端的连接与传输
场景描述
场景声音视频对象间的关系的描述体现在两个层次
BIFS描述场景中对象的空间时间安排,观察者可以有与这些对象交互的可能性
在较低的层次上,对象描述子定义针对每个对象的基本流的关系,并提供诸如访问基本流需要的URL地址、译码器的特性、知识产权等其它信息。
音频编码
MPEG-4不仅支持自然声音,而且支持合成声音
视频编码
MPEG-4也支持对自然和合成的视觉对象的编码
缓冲区管理和实时解码
定义了一个系统解码模式(SDM), 该解码模式描述了一种理想的处理比特流句法语义的解码装置,它要求特殊的缓冲区和实时模式
与MPEG-1和2相比
MPEG-4更适于交互AV服务以及远程监控,其设计目标使它具有更广的适应性和可扩展性:MPEG-4传输速率可在4.8-64kbps之间,分辨率为176×144, 可以利用很窄的带宽通过帧重建技术压缩和传输数据。
5. 视听通信编码编码解码标准H.26X
H.261
64Kbps视声服务用视象编码方式”, 又称为P×64Kbps视频编码标准
P×64Kbps压缩算法采用基于DCT的变换编码和带有运动预测的DPCM预测编码的混合方法
P×64Kbps标准的压缩算法与MPEG-1标准有许多共同之处, 只是传输速率P×64Kbps覆盖较宽的信道频带, 而MPEG-1是基于较窄的频带上传输。
视频层次数据结构
采用层次块的视频数据结构形式, 使高压缩视频编码算法得以实现
视频编码定义一个视频数据结构CIF保证解码器对接收到的比特流进行没有二义性的正确解码。
H.263
适合于低速视频信号的压缩标准
主要采用的改进技术
半象素精度的运动补偿
在H.261中,运动矢量的精度为1个象素, H.263运动矢量的估值精度达到半个象素。精度的提高使运动补偿后的帧间误差减少,从而降低了码率。
不受限的运动矢量
当运动跨越图象边界时, 由运动矢量所确定的宏块位置可能有一部分落在边界之外, 此时可以用边界上的象素值表示界外的象素值,从而降低预测误差
用基于句法的算术编码代替Huffman编码
可选项) 这是一种效率较高的自适应算术编码。
先进的预测模式
(可选项) 对宏块中的4个亮度块分别进行运动估值获得4个运动矢量。虽然此时传输运动矢量的比特数增加一些,但由于预测误差的大幅度降低,仍然使总码率降低。
PB帧模式
(可选项) 虽然使用双向预测的B帧可以降低码率, 但是却要引入附加的编码延时和解码延时。为了降低延时, H.263采用了P帧和B帧作为一个单元来处理的方式, 即将P帧和由该帧与上一个P帧所共同预测的B帧一起进行编码
H.264/AVC
同等质量下压缩效率比提高了2倍以上
最大的技术优势体现在4个方面
将每个视频帧分离成由像素组成的块,因此视频帧的编码处理的过程可以达到块的级别。
采用空间冗余方法,对视频帧一些原始块进行空间预测、转换、优化和熵编码。
对连续帧的不同块采用临时存放的方法,这样,只需对连续帧中有改变的部分进行编码。
采用剩余空间冗余技术,对视频帧里的残留块进行编码。如对于源块和相应预测块的不同,再次采用转换、优化和熵编码。
保留了以往压缩技术的长处又具有其它压缩技术无法比拟的许多优点
低码流
高质量的图像
容错能力强
网络适应性强
6. AVS标准
我国具备自主知识产权的第二代信源编码标准,它是数字音视频产业的共性基础标准
AVS标准具备先进性、自主性、开放性
7. 声音压缩技术
语音的基本参数
基音周期
共振峰
语音谱
声强
语音生成机构
3部分
声源
共鸣机构
放射机构
语音生成机构的数字模型
DPCM,ADPCM等波形预测技术是音乐和实时语音数据压缩技术的主要方法。
参数编码的压缩率很大, 但计算量大, 保真度不高, 适合语音信号的编码。
混合编码介于波形编码和参数编码之间, 集中了两者优点
ITU语音标准化方案
16Kbps ITU语音标准化方案G.728
可视电话、数字移动通信、无绳电话、卫星通信、DCME、ISDN等范围内
约束条件是语音质量在32Kbps ADPCM的同等或以上,且编码延迟时间在5ms以下。
基于短延时码本激励线性预测编码
32Kbps ITU语音标准化方案G.721
使用ADPCM的标准
目的是最终取代现有的PCM电路传送方式。
采用算法是编码符号延迟为0的且对传送通道的误码率要求不高的ADPCM方式。
ADPCM本身采用了按每个采样点进行自适应控制的鲁棒自适应预测器。
为了提高预测精度
采用了动态对数量化器
面向卫星通信,长距离通信以及信道价格很高的语音传输
第五章 多媒体数据库及基于内容检索
1. 多媒体数据管理
多媒体系统对数据进行有效管理
能尽量减少开发费用
便于综合利用、数据共享,降低成本、提高效益
提高多媒体应用程序的执行效率和运行质量
存储环境
要求
容量大
质量好
存取速度快
价格合适
4类介质
可更换的硬盘
磁带备份介质
光盘档案介质
磁盘阵列
传输环境
3种传输方法
使用可更换的介质进行人工传输。使用软盘、磁带、光盘、可更换硬盘等工具;
使用串行端口实行点对点传输。成本低, 但难以实现多台计算机之间数据传输
使用网络系统,实现计算机之间传输
对多媒体数据资源的有效管理方法
文件管理系统
简历特定的逻辑目录
传统的字符、数值数据库管理系统
多媒体数据库管理系统
超文本和超媒体
2. 多媒体数据库管理系统
DBMS3中模式
物理模式
概念模式
外部模式
多媒体数据对数据库的影响
数据量大且媒体之间差异也极大,从而影响数据库中的组织和存储方法
媒体种类增多增加了数据处理困难
多媒体不仅改变了数据库的接口,使其声、文、图并茂,而且也改变了数据库的操作形式,其中最重要的是查询机制和查询方法。
传统的事务一般都是短小精悍,在多媒体数据库管理系统中也应尽可能采用短事务。为保证播放不致中断,MDBMS应增加这种处理长事务的能力
多媒体数据库管理还有考虑版本控制的问题
MDBMS的功能要求
必须能表示和处理各种媒体数据,重点是不规则数据如图形、图象、声音的表示方法
必须能反映和管理各种媒体数据的特性,或各种媒体数据之间的空间或时间的关联
除必须满足物理数据独立性和逻辑数据独立性外,还应满足媒体数据独立性
媒体数据独立性指在MDBMS的设计和实现时,要求系统能保持各种媒体独立性和透明性
数据操作功能
网络功能
具有开放功能,提供MDB的应用程序接口API,并提供独立于外设和格式的接口
提供事务和版本管理功能
MDBMS的组织结构
集中型
由一个MDBMS来管理和建立不同媒体的数据库,并由这个MDBMS来管理对象空间及目的数据的集成
主从型
有一个主MDBMS管理多个从MDBMS,再由从MDBMS来管理MDB
协作型
由多个数据库管理系统来组成, 每个数据库管理系统之间没有主从之分.
MDBMS的数据模型
数据模型的概念
三要素
数据结构
对数据库系统静态特性的描述,是所研究的对象类型的集合。这些对象是数据库的组成成分
数据操作
对数据库系统动态特性的描述,如数据库中各种对象的实例、允许执行的操作集合
完整性约束
实现数据库完整性规则的集合,所谓完整性规则是指给定的数据模型中数据及它们之间关联所具有的制约和依存规则,用以限定符合数据模型的数据库状态以及状态的变化, 以保证数据库数据的正确、有效、相容和一致
扩充的关系数据模型
扩充的原因
传统的关系模型结构简单,是单一的二维表, 数据类型和长度也被局限在一个较小的子集中
不支持新的数据类型和数据结构, 很难实现空间数据和时态数据,缺乏演绎和推理操作, 因此表达数据特性的能力受到限制。
使它不但能支持格式化数据,也能处理非格式化数据。
模型扩充主要有3种策略
使关系数据库管理技术和操作系统中文件系统功能相结合, 实现对非格式化数据的管理。其主要方法是以存放非格式化数据的文件名代替。
将关系元组中格式化数据和非格式化数据装在一起形成一个完整的元组,存放在数据页面或数据页面组中,统一管理(大系统采用)。
将元组中非格式化数据分成两部分,一部分是格式化数据本身,另一部分是对非格式化数据的引用(小系统采用)。
3种策略的关键是要扩充数据类型, 解决非格式化数据的语义解释
应用实例
3. 面向对象技术与MDBMS
面向对象的基本概念
面向对象的数据库模型
面向对象模型支持“聚合”与“概括”的概念,从而更好地处理多媒体数据等复杂对象的结构语义。
面向对象数据库系统的实现方法
以数据模型入手,重新考虑:
不同于传统DBMS的系统整体结构
对象类层次的存储结构
存取方法和继承性的实现方法
用户定义的数据类型和方法的处理策略
必要的版本控制和友好的用户界面
面向对象的数据库系统的存储结构和存取方法
基于关系系统给的方法
更适合多媒体数据特点的存储结构和存取方法
EXODUS系统的B+树索引结构
适合多维空间对象的R+树索引结构
4. 基于内容的检索技术
相关概念
子主题
特点
从媒体内容中提取信息线索, 直接对媒体进行分析, 抽取特征(如基于表达式)。
提取特征方法多种多样。如图象特征有形状、颜色、纹理、轮廓等特征。
人机交互。人能迅速分辨要查找的信息, 但难以记住信息, 人工大量查询费时、重复, 而这正是计算机的长处, 人机交互检索可大大提高多媒体数据检索的效率
基于内容的检索采用一种近似的匹配技术
提取媒体对象内容属性的方式一般有手工方式、自动方式和混合方式
媒体特征
音频
音频低层特征
基音
共振峰
线性预测
倒谱系数
Mel倒谱系数
高层特征
声纹
关键词
静态图像
底层特征
颜色
纹理
几何形状
灰度统计特征
高层特征
人脸部特征
表情特征
物体和景物特征
视频
底层特征
镜头切换类型
特技效果
摄像机运动
物体运动轨迹
代表帧
全景图
高层特征
描述镜头内容的事件
文本
关键词
图形
形状
周长
面积
位置
几何体间空间关系
检索实现方法
一是基于传统的数据库检索方法,即采用人工方法将多媒体信息内容并表达为属性(关键词)集合,再在传统的数据库管理系统框架内处理。
这种方法对信息采用了高度抽象,留给用户选择余地小,查询方式和范围有所限制。
二是基于信号处理理论, 即采用特征抽取和模式识别的方法来克服基于数据库方法的局限性,但全自动地抽取特征和识别时间开销太大,并且过分依赖于领域知识,识别难度大。
系统实现
有效方法
相似值
模糊值
分段化
图像内容分析及其检索
基于颜色直方图检索
基于轮廓的检索
基于纹理的检索
视频检索
MPEG-7标准
多媒体内容描述接口
其目标就是产生一种描述多媒体信息的标准, 满足实时、非实时以及推-拉应用的需求。并将该描述与所描述的内容相联系, 以实现快速有效的检索。
相关概念
数据
特征
描述子
描述值
描述模式
描述
编码的描述
描述定义语言
原则
制定最少的、最有用的
第六章 多媒体系统的数据模型
1. 多媒体系统数据模型概述
数据模型就是在计算机数据世界中建立的计算机能接受的对现实世界中所要研究对象的抽象描述
多媒体系统中的数据模型的主要任务
表示各种不同媒体数据构造及其属性特征
指出不同媒体数据之间的相互关系
多媒体数据时空关系的建模是多媒体系统研究的重要特色,这种时空关系主要由多媒体系统表现模型刻划
表现模型
多媒体表现是多媒体数据的合成再现
多媒体合成主要包括空间和时间合成
空间合成是同一表现空间域中共存的一系列媒体对象之间的空间特性、位置关系的描述
时间合成是在某一时间域内并发(包括顺序和并行)表现的一系列媒体对象之间的时序关系的描述
多媒体同步是指采用进程来协调时序关系的机制,亦即实现时间合成方法的描述
多媒体系统数据模型的层次结构
同步
对个对象间的时间关系的协调控制
层次
用户级同步
复合对象内部的同步
系统同步
2. 超文本系统的形式化模型
形式化描述
数学概念或类数学概念来精确定义和描述信息系统的基本特性的一种方法。
优点
精确定义和描述
便于模型性质的分析
有利于研究新模型
指导系统实现
集合论和一阶逻辑
。。。。。
3. 信息元模型
目的是提供一个标准, 使“信息元”公共化、通用化, 成为上层各类多媒体应用(或模型)都可“调用”的东西, 这将会大大方便多媒体数据与信息之间的交互和通信
多媒体信息元是具有一定语义的组成信息系统应用的信息子块
多媒体信息元是一个或多个媒体数据元经过一定的添加与包装而合成的超数据元
3个基本特性
(1)数据元本身的组织附加其表现属性—基本对象的内容与表现/单媒体对象的表现
(2)多个数据元的时空同步关系描述—复合对象的同步/多媒体的同步。
(3)成分之间的链接描述—基本的链接功能。
信息元的大小就是上述3项内容之和
信息元的合成主要指多个数据元之间的时空合成, 亦即时空关系的描述
MHEG标准
集中在以下几个方面
交互性和多媒体同步
实时表示
实时交换
对象格式交换
分两部分来完成标准化工作
第一部分是概念/原理性定义
第二部分主要是超媒体信息对象及MHEG链的表示
MH对象的分类
输出内容对象
一般输入对象
投射器对象
基本对象
合成对象
条件与动作
MHEG的同步机制
脚步同步
条件同步
空间-时间同步
系统同步
4. 表现与同步模型
表现
表现是把各种媒体信息展示给用户的活动, 是多媒体数据的合成再现。
同步
多媒体表现因多种媒体并存而成为复杂活动, 以时间顺序和空间关系来安排多种媒体的合成表现, 即是多媒体同步问题
子主题
合成
空间合成确定各种媒体在画面空间上位置变换和安排
时间合成确定媒体对象在时间上的顺序
定义
角色是多媒体表现环境中的资源, 它分为视角色和听角色。视角色对应一块显示区域(窗口), 听角色对应扬声器或声卡(声音通道)。
场景是各种媒体对象占用角色活动的多媒体空间表现环境。
场景运算是对角色施加的操作, 它分为一元运算和二元运算。
场景表达式 由角色经场景运算而产生的结果。
情节 表示多媒体表现环境中所发生的事件,即媒体对象的活动
时间同步模型的功能需求
表达能力
用户交互/不确定性
规约生成支持
同步模型分类
图模型
基于Petri网的模型
面向对象的模型
同步多媒体对象时间信息通过对象属性的方式来建模。
可把时序场景建模成一个合成对象,其中每个组元是合成场景的对象。建模以及合成场景的对象的属性和方法一般用来表达同步需求。
ODA基本版本不能处理音视频类数据类型,考虑的文档仅由文本、图形和图象组成。有人提出了对ODA结构的扩充, 加强ODA框架处理时间信息的能力。
基于语言的模型
第七章 多媒体通信
1. 概述
多媒体对通信的影响
多媒体数据量
多媒体实时性
多媒体时空约束
多媒体交互性
多媒体分布式处理和协同工作要求
实现途径
话路+视频-》多媒体通信
网络+视频-》多媒体通信
有线电视+交换功能-》多媒体通信
关键技术
(1)声音、视频、动画等的传输技术;
(2)数据压缩和解压缩技术;
(3)解决多媒体实时同步问题;
(4)解决协议和标准化问题。
2. 多媒体通信系统
可视电话系统
组成
语音处理部分
图像输入部分
图像输出部分
图像信号处理部分
可视电话控制器
(1)图象信号A/D和D/A转换
(2)帧存储器
(3)信源编码/解码
(4)信道编码/解码
(5)调制/解调
(6)转输信道
视频会议系统
组成
视频编解码器及附属设备
音频编解码器及附属设备
信息通讯设备
多路复用/信号分离设备
用户/网路接口
多点控制设备(MCU)
系统控制部分
基本功能
各会议点的多媒体终端将反映各个会场的主要场景、人物及有关资料的图象以及发言者的声音同时进行数字化压缩;
根据视频会议的控制模式, 经过数字通信系统,沿指定方向进行传输;
同时在各个会议点的多媒体计算机上, 通过数字通信系统实时接收解压缩多媒体会议信息, 并在其监视器上实时显示出指定会议参加方的会议室场景、人物图象、图片和语音。
3种模式
语音激活模式,或称自动模式
主席控制模式
讲课模式
3. 多媒体网络
将多台地理上分散的具有处理多媒体功能的计算机和终端通过高速通信线路互联起来,以达到多媒体通信和共享多媒体资源的网络
分组交换网X.25
传统的X.25分组交换网非常适合于数据传输, 但存在着传输速率低、网络时延大、吞吐量小以及通信费用高等缺点, 很难满足多媒体通信的要求。
ISDN
以提供端到端连接的电话网IDN为基础发展而成的通信网, 用以支持包括电话及非话的多种业务。
基本速率接口
基群速率接口
B-ISDN及ATM
常指其传输速率超过一次群速率的业务
交换方式
高速分组交换
高速电路交换
异步传输交换ATM
优点
用户信息进入网络具有高度的灵活性。由于不再有通路速率的限制,任何输出速率终端都可以进网通信
可动态分配和更有效地利用网络资源
光交换
4. 多媒体网络的QoS
服务质量(QoS)是说明多媒体性能目标的元组,通过该元组的性能说明,可以对通信系统性能进行指定
多媒体信息传输对网络的要求
吞吐量(throughput):网络传输二进制信息的速率,又称比特率或带宽。支持不同应用的网络应满足不同吞吐量需求
延时(Delay):传输延时定义为信源发出第一个比特到信宿接收到第一个比特之间的时间差
延时抖动(Delay jitter)网络传输延时的变化。
错误率(Error Rate)
误码率BER
包错误率BER
包丢失率PLR
5. 分布式多媒体系统
基本特征
多媒体集成性
资源分散性
运行实时性
操作交互性
系统透明性
协同工作4中情况
同时同地点
不同时同地点
不同时不同地点
同时不同地点
实现模型
开放分布处理参考系统
用户通过用户代理UA对系统进行存取,系统的抽象服务由操作的逻辑组合来提供
系统内也是由一组系统代理实现,所有系统代理具有相同的性能,并且以相互合作的方式提供服务
两种不同的协议
存取协议
定义用户代理和系统代理之间的相互作用
系统协议
定义两个系统代理之间的协议
层次结构
多媒体接口层
多媒体传输层
流管理层
多媒体表示层
应用层
第八章 典型的多媒体应用系统
1. 计算机支持的协同工作系统
CSCW是指在计算机支持的环境中,一个群体协作工作完成一项共同的任务。CSCW系统是为协作群体使用而设计的特殊计算机系统
特点
协作性
有共同的工作目标即群体工作目标
群体性
设计人员采用群体工作方式,设计群体有合理组成
交互性
群接口支持用户与系统的交互
分布性
设计人员分布在不同地点
与CSCW有关的群件
为协作群体使用而设计的特殊计算机系统
包括
软件
硬件
服务
群体工作过程支持
分类原则
群体规模
两人或是多人
地理位置
远程或是同步
交互形式
同步或是异步
活跃领域
电子邮件系统
电子布告栏系统
群决策支持系统和电子会议室系统
多用户共同编辑系统
计算机会议系统
典型的协作模型
对话模型
这种模型将人们之间的各种复杂的协作建立在两人间的交互和动作的协调基础上, 两人间协作是各类协作的基本元素
基于对话模型的系统主要是消息系统
会议模型
模型特点
协作参与者一般不进行两两间的交互,而是通过共享的信息空间彼此沟通。
系统
计算机会议系统
白板系统
BBS等其他基于共享信息协同工作系统
过程模型
将协作任务分成相互关联的多个小步骤,通过多个人分别单独地对小步骤的执行共同来完成任务的协作模型成为过程模型
活动模型
将协作任务分成一个个目标确定的子任务(活动), 定义这些子任务间关系及子任务的完成者,然后通过各协作参与者分别对相应任务的执行,使整个协作任务得以完成。
分层抽象模型
活动-任务-合作抽象模型
最高层抽象为合作: 多个人为完成独立长期的合作项目而执行的所有行为,具有完全独立性;
第二层抽象为任务: 任务为合作的各个阶段所需完成的具有一定目标、语义完整的相对独立的长时间协同行为,它具有相对独立性;
最底层抽象为活动: 活动为完成某项具体任务时,单个人或一组人执行的在时间上连贯的一次行为,它强调的是时间连贯性,也是同时性
CSCS系统实现方法
多Agent方法
定义1 软定义
Agent是具有下列特性的计算机软硬件系统
自治性
社会性
反应性
能动性
定义2 强定义
Agent除了具备定义1中的所有特性外,还应具备一些人类才具有的特性, 如知识、信念、义务、意向等精神上的观念和情感、能力等更抽象的概念。
群接口方法
CSCW系统的人机接口应能体现群体活动及多用户控制的特征,这种接口称群接口,它能处理多用户控制的复杂性。
研究基础是用户界面管理系统(UIMS)
协作机制和通告机制
协作机制是用户间约定的交互方式,可完成调度用户活动、分配共享资源等任务。
协调机制主要用于解决实时性活动中同步问题。
通告机制主要用于处理异步活动。
通信网络及控制
2. 数字视频服务系统
数字音频视频理事会(DAVIC)是国际上致力于研究数字音频视频应用和服务标准的组织
DAVIC
系统结构
内容提供者系统CPS
服务提供者系统SPS
服务消费者系统SCS
CPS-SPS传输系统
SPS-SCS传输系统
VOD
组成
视频服务器
ATM交换机
SDH传输网 宽带传输网络
ADSL复接器
机顶盒STB
协议
U-N阶段
主要完成S2流连接的建立
U-U阶段
主要完成用户(如STB)和服务器(如AS)之间S2流的交互控制及S1流的建立
VOD系统
U-N阶段
分UN配置和UN会话两个阶段
U-U阶段
子主题
DAVIC系统的信息流
S1流
从内容提供者到服务消费者系统内容信息, 采用MPEG标准协议
S2流
从服务提供者系统到服务消费者系统间控制信息流,采用MPEG2 DSMCC协议。
S3流
用于服务消费者系统、服务提供者系统和传输实体之间的双向控制信息流, 交换会话信息, 它在任何层上对传递系统不透明。
S4流
网络服务层支持呼叫/连接控制和资源控制功能的双向流, 标准的B-ISDN呼叫/连接控制协议有ITU-T Q.2931, Q.2130, Q.2110。
S5流
与网络管理有关信息流, 它由一些维护和管理网络资源所需的功能组成。网络管理标准协议有 CMIP, SNMP
典型应用
影片点播
远程购物
0 条评论
下一页
为你推荐
查看更多