5.数据获取与加工
2017-01-07 17:48:52 0 举报
AI智能生成
数据获取与加工
作者其他创作
大纲/内容
数据类型与格式
以文件形式存在的数据
1. 文本文件格式
2. 图像文件格式
光栅图像
重要概念
JPEG:
①是一种针对相片影像而广泛使用的一种失真压缩标准方法。
②JPEG的压缩方式通常是破坏性资料压缩(lossy compression),意即在压缩过程中图像的品质会遭受到可见的破坏。
③使用JPEG格式压缩的图片档案一般也被称为JPEG Files,最普遍被使用的副档名格式为.jpg,其他常用的副档名还包括.jpeg,.jpe,.jfif 以及.jif。
④JPEG支持CMYK、RGB和灰度色彩空间。
PNG:便携式网络图片(Portable Network Graphics),简称PNG,是一种无损数据压缩位图图形文件格式。PNG格式是无损数据压缩的,允许使用类似于GIF格式的调色板技术,支持真彩色图像,并具备阿尔法通道(半透明)等特性。现在有很多人使用PNG格式于互联网及其他方面上。
BMP:
①BMP取自位图BitMaP的缩写,也称为DIB(与设备无关的位图),是微软视窗图形子系统(GDI)内部使用的一种位图图形格式,它是微软视窗平台上的一个简单的图形文件格式。
②BMP文件通常是不压缩的,所以它们通常比同一幅图像的压缩图像文件格式要大很多。因此它们通常不适合在因特网或者其他低速或者有容量限制的媒介上进行传输。
③尽管文件大小比较大,但是位图文件的简单性、在微软视窗和其他地方的广泛使用以及这种格式的优秀文档标准以及没有专利约束,使得它成为其他操作系统图像处理程序能够读写的一种最为常用的格式。
GIF:
①GIF(Graphics Interchange Format)图形交换格式是一种位图图形文件格式,以8位色(即256种颜色)重现真彩色的图像。它实际上是一种压缩文档,采用LZW压缩算法进行编码,有效地减少了图像文件在网络上传输的时间。它是目前广泛应用于网络传输的图像格式之一。
②优点
优秀的压缩算法使其在一定程度上保证图像质量的同时将体积变得很小。
可插入多帧,从而实现动画效果。
可设置透明色以产生对象浮现于背景之上的效果。
③缺点
由于采用了8位压缩,最多只能处理256种颜色,故不宜应用于真彩图像。
TIFF:
①定义:标签图像文件格式是一种主要用来存储包括照片和艺术图在内的图像的文件格式。
②TIFF与JPEG和PNG一起成为流行的高位彩色图像格式,在业界得到了广泛的支持。很多图像处理应用、桌面印刷和页面排版应用,扫描、传真、文字处理、光学字符识别和其它一些应用等都支持这种格式。
③Adobe 公司现在控制着 TIFF 规范。
④TIFF 是一个灵活适应性强的文件格式。通过在文件标头中使用“标签”,它能够在一个文件中处理多幅图像和数据。
⑤与JPEG不同,TIFF文件可以编辑然后重新存储而不会有压缩损失。
EPS:
①EPS是跨平台的标准格式,扩展名在PC平台上是.eps,在Macintosh平台上是.epsf,主要用于矢量图像和光栅图像的存储。
②EPS格式采用 PostScript语言进行描述,并且可以保存其他一些类型信息。因此EPS格式常用于印刷或打印输出。Photoshop中的多个EPS格式选项可以实现印刷打印的综合控制,在某些情况下甚至优于TIFF格式。
③EPS格式是专业出版与打印行业使用的文件格式。大多数的Web浏览器不支持EPS文件,大多数图像查看共享软件和自由软件也都不支持EPS文件。由于这种原因,EPS格式不能用在Web站点的图像显示上。
矢量图像
矢量图形的定义:是使用直线和曲线来描述的图形,这些图形的元素是一些点、线、矩形、多边形、圆和弧线等等,它们都是通过数学公式计算获得的。
矢量图形的特点
(1)文件小。由于图形中保存的是线条和图块的信息,因此矢量图形文件和分辨率和图形大小无关,只与图形的复杂程度有关,简单图形所占的存储空间小。
(2)图形大小可以无级缩放。在图形进行缩放、旋转或变形操作时,图形仍具有很高的显示和印刷质量,而且不会产生锯齿模糊效果。
(3)可采取高分辨率印刷。矢量图与位图最大的区别是,它不受分辨率的影响。因此在印刷时,可以任意放大或缩小图形而不会影响出图的清晰度
(4)重画图像困难;
(5)逼真度低,要画出自然度高的图像需要很多的技巧。
3. 音频文件格式
无损格式
无压缩格式
AIFF:苹果公司的音频格式
CDDA:(CD音轨文档)
WAV:是微软与IBM公司所开发的声音编码格式
有压缩格式
Apple Lossless:苹果的无损音频压缩编码格式,可将非压缩音频格式(WAV、AIFF)压缩至原先容量的40%至60%左右.
Flac:一套著名的开源压缩标准。
TTA:一种基于自适应预测过滤的无损音频压缩,与目前主要的其他格式相比,能有相同或更好的压缩效果。
有损格式
MP3:(Mpeg Audio Layer 3,最流行的音乐文档)
RA:(由Real Player支持的高压缩比声音文档,广泛用于网络实时传播)
WMA:(Windows Media Rights Manager,此格式可以采用加密算法以保护唱片的版权,可以使用Windows Media Player播放)
AAC:(.m4a, .mp4, .m4p, .aac) - Advanced Audio Coding 加入了版权保护功能
4. 视频文件格式
ASF:(Microsoft Net Show文档流式音频/视频文档)
AVI:(Microsoft-VIDEO 的标准动态图像,windows的标准视频,压缩比不高)
DAT:(vcd文档,pal制式,大小为 352 X 288)
MOV/QT/QTX:(苹果公司的有损视频文档,但压缩比极大,quicktime可以播放)
MPEG:(采用Mpeg运动压缩算法的视频格式,VCD、SVCD、DVD均采用此算法,平均压缩比为50:1 ,包括MPEG1、 MPEG2、 MPEG3 、 MPEG4 、 MPEG7 )
SWF:是Adobe Flash导出后的文件格式。
QuickTime:由苹果电脑所开发的一种多媒体架构
rmvb/rm:一种由RealNetworks发展的RealMedia多媒体视频文件格式。
H.264 :或称AVC(高级视频编码),是一种视频压缩标准。是一种被广泛使用的高精度视频的录制、压缩和发布格式。被广泛用于网络流数据源如YouTube 。
5. 其他文件格式
网页文件
ASP:(Active Server Page,可被微软的PWS、IIS支持)
PHP:(Hypertext Preprossor ,开源的网络编程语言)
JSP:(以Java语言作为脚本语言,为整个服务器端的Java库单元提供了一个接口来服务于HTTP的应用程序。)
电子书文件格式
ePub
Mobi
CEB
CAJ
CHM
字体文件
FON:(字体文档)
TTF:(True Type字体)
压缩文件
ZIP/Z:(Zip压缩文档,最流行的压缩软件格式)
RAR:(RAR压缩文档,压缩率比ZIP要高)
以数据库形式存在的数据
纯粹的数值型数据
以大字段形式存储的独立文件
很多情况下,数值型数据和独立文件型数据在数据库中同时存在满足用户的特定需求。
数据获取途径
信息源:个人为满足其信息需要而获得信息的来源,称为“信息源”
信息源类型及特征
记录型信息源
按不同载体的类型
(1)印刷型。包括铅印、油印、胶印、木版印刷等等。其缺点是体积大,分量重,收藏要占很大空间,管理较为困难。
(2)缩微型。一般指以感光材料为载体,利用光学记录技术,使印刷型文献按比例缩小的文献资料,包括缩微胶卷、缩微胶片(平片)和缩微卡片等缩微品。
(3)计算机阅读型。它是将文字和图像转换成二进制数字代码,记录在磁带、磁盘或光盘等载体上。阅读时,再由计算机将它输出,转换成文字或图像。它能存贮大量信息,并以极快的速度从中取出所需信息。
(4)网络型。它直接在网上产生、发布、存贮和传播,如各类网络书刊、网络新闻、网站信息等等,可以下载存贮在其他载体上。
(5)视听资料。又称声像资料或直感资料,它是运用录音、录像和摄影技术直接记录声音与图像的文献形式,包括唱片、录音带、录像带、电影、幻灯片等。这类文献不同于一般文字形式的资料,它能直接记录声音与图像,给人以直观感觉,对于传播信息有独特作用。
按信息加工的程度
一次信息。凡是在科研、生产、经营、文化及其他各类活动中生产的原始信息,称为一次信息。如期刊论文、研究报告、市场调查报告、专利说明书及各种网络信息。
二次信息。是对一次信息进行加工整理后产生的一类信息,如书目、题录、简介、文摘等形式的检索工具。二次信息的重要作用,不仅在于报道,更重要的是为查找一次信息提供线索。
三次信息。是在一、二次信息的基础上,经过分析、综合而产生的信息。人们常把这类信息称为信息分析研究的成果,如综述、述评、学科年度总结、文献指南、书目之书目等。
实物型信息源
实物信息源是由实物携带和存贮的知识信息,如某种生物的样品、产品样机、工艺品等。
实物信息源直观生动,含有丰富的信息,易于理解和吸收。
这类信息源不能直接进入信息系统,要对其进行管理,必须先将它转换成记录型信息。
智力型信息源
智力型信息源主要指由人脑存贮的知识信息,包括人们掌握的各类知识、诀窍、技能和经验,有的可以用语言和文字明确表达和记录,有的则难以明确表达和记录,故又被称为隐性知识(tacit knowledge)。
零次信息源
零次信息源是指各种渠道中由人的口头传播的信息。
零次信息是人们通过直接交流获得的信息,是信息客体的内容直接作用于人的感觉(包括听、视、嗅、味、触觉)的结果。
特征
直接性
及时性
新颖性
随机性
非存贮性
数据获取方式
从实物场景中采集数据
数据获取方法:
数字摄影——数字照片
数字摄像——数字视频
数字录音——数字音频
信号传感——数字信号
从已有的非数字化记录信息源中获取
纸质品(图书、报纸、期刊、手稿、画像、照片、拓片等)
将纸制品转换成电子文档的方式包括
扫描
重新录入
单打录入法
双打录入法
三打录入法
光学胶片(照相底片、电影胶片等)
磁带( 黑胶唱片、音乐磁带、视频磁带、数据磁带等)
从已有的数字化记录信息源中获取
数字文档
电子文件
网页
数据文件
可执行文件
程序源代码文件
……
数字图像
数字声视频
数据的转换
原因
为了实现数字内容的出版,出版商既可以捕获新的数字化内容,也可以将非数字化内容转换为数字化内容。
为了适应不同的出版需求,出版商也常常将数字化内容在不同形式和格式之间进行相互转换。
数据转换的目的包括生成新的产品、以不同的形式适应不同的市场、不同的终端和不同的用户及其特定的需求。
以数字文档为例,不同的文档格式的性能不同,适应的不同的场景需要,所以必须根据特定的需求进行数据格式之间的转换。
类型
一、内容形式的转换
印刷图书→电子书
表格→文本
图书→视频
二、文档格式的转换
doc→pdf
pdf→xml
xml→Html
wav→mp3
三、内容结构的转换
结构化→非结构化
非结构化→结构化
电子书的转换
1. 确定目标
在开始数据转换项目之前,必须确定转换的目标,是为了原样保持印刷出版物的体式还是简单的扫描成图片形式的PDF文件就够了。如果要对电子文件要求更高的话——诸如整合材料使之成为可查询的数据库的一部分,或使其部分内容可以被新型设备下载,就要运用SGML或XML这样的结构语言。
在成本上,将文件转换成SGML或者XML这样的结构语言要比仅仅转扫描并换成图片形式的PDF文件成本高出约10倍。
2.确定合适的标签等级
如果将文件转换成SGML或XML格式,就必须确定以什么等级来标注信息。不同的文件内容和出版形式要求的标注详细程度不同。但是标注越多,越详细,要求的成本就越高,所以要根据可以预见的将来这些标注会使用多少来决定标签等级。
3. 分析数据
对要转换的数据进行详细的分析,如果要将文件转换成SGML或XML格式,就要分析DTD或XML模式,确保所有信息都能用于出版。
4. 获取数据
(1)文本抽取
抽取文本通常使用光学字符识别(OCR)或者手工录入,为了保证百分百正确,需要注意校对。
(2)确定文档的布局和结构
确定原文是否为线性结构,段落之间是否连贯。
(3)获取非文本对象
非文本对象包括图像、照片、线条、公式、表格等。如果这些对象是JPEG、GIF、TIFF等格式,则可轻易获取,如果是书面资料还需对图片扫描,如果是数学公式还需转换成MathML或其它数学语言。如果采用TeX格式有问题,还可以将公式转化为图片文档。
(4)在文本和对象之间建立关系
例如“参见图3”这种情况,图片应立即跟在段落后面。
5. 创见目标格式
一旦获得尽可能多的来源数据,就应着手创建目标格式,步骤包括对不同格式的数据进行组织、插入各种编码,大部分工作都需要自动与手工结合完成。
6. 输出
如果数据格式为SGML或者XML就需要设计样式表,用于排版和设计文件,实现最终的面向用户的出版。
理清形式与内容
为什么要区分内容与形式
数字出版的一个重要特点就是将内容与形式分开。内容部分在转换成不同的媒介时相对来说不会发生改变;而形式则要不断修改以满足不同媒介的特殊要求。两者分开以后,内容可以迅速适应不同的媒介,转换过程相对简单。
将内容与形式区分开来的主要好处是:
◆ 文本本身不会发生改变,即使形式随着表达媒介而发生变化。
◆ 显示媒介可以随时间而改变以适应技术的发展。
◆ 当重新运用该文件时,可以重组内容以适应不同的用途。
◆ 如果编辑关注形式和格式,作者可以关注文本内容。
◆ 机构可以拥有所有材料,而作者可以控制单个文本。
◆ 小说文本可以方便的制作不同形式的表达媒介,而文本本身不变。
标识不明显的数据信息
转换过程
第一阶段:概念和计划
1. 确定目标
2. 评估材料(项目规模、转换文件格式、数据量、特殊问题)
3. 成本估算
4. 可行性分析
第二阶段:概念检验
5. 项目启动
6. 材料清单
7. 制定方针
8. 转换规范文件
9. 样本转换
第三阶段:分析、设计和管理
10. 计划生产过程
11. 生产质量计划
13. 产品生产计划
第四阶段:生产
14. 大批量生产
15. 生产过程控制
16. 材料运送
17. 过程反馈
18. 包装与运输
19. 例外处理
0 条评论
下一页