蓝田玉PDF文档网 / 电脑教程 / 学校电化教学指导丛书:计算机与多媒体
 


学校电化教学指导丛书:计算机与多媒体



第一章 计算机多媒体述略

第一节 计算机多媒体发展史


  在当今信息化社会中,越来越多的人需要使用计算机。但是,随着计算 机功能的增强,使用方法也越来越复杂,未经过专业训练的人很难使用它。 因此,计算机多媒体技术应运而生了。
  多媒体技术是将计算机系统中图形、图像、声音、文字等多种信息媒体 综合于一体进行编排处理的技术。它是在原有的计算机运算能力的基础上, 扩充了数字信号处理器、大容量光盘、触摸屏和其它的外围设备作为系统的 基本配置,以多种形式表达、存储和处理信息,充分调动人们耳闻、口述、 目睹、手触等多种感觉器官与计算机交互作用,交流信息,使人与计算机的 交流更加方便、更加友好。专家们预言,像 80 年代的个人计算机一样,多媒 体技术将是 90 年代计算机技术的一场革命。
  1984 年 Apple 公司推出的 Macintosh 机引入了 bitmap(位映射)的概念 来对图形进行处理,并使用了窗口和图形符号(icon)作为用户接口。在这 个基础上的进一步发展,特别是 1987 年 8 月引入了超级卡(Hypercard),
使 Macintosh 机成为用户可以方便使用的,能处理多种信息媒体的机器。
  Apple 公司的 MAC 计算机被公认为是最佳的个人计算机之一。新版本的 Macos7.0 新加入了语音压缩功能,加上全真彩色图像的快速绘图系统以及 Hypercard 的应用,它将成为多媒体开发的理想环境。著名的多媒体简报系
统 Director 也使用在 MAC 计算机上。
1986 年 3 月,Philips 和 Sony 联合推出了交互式紧凑光盘系统 CD—I
(COmpact Disc Inter—active)。该系统把各种多媒体信息,以数字化的 形式存放在容量为 650 兆字节的只读光盘上,使用户可以通过交互式的方法 查阅存储在 CD—ROM 上的多媒体音像数据资料。目前,CD—I 可存储 7000 个 图像或有数字立体声音响作伴音的 72 分钟全屏幕动画。
1987 年 3 月,RCA 公司推出了交互式数字视频系统 DV—I(Digital Video
—Interactive)。它以计算机技术为基础,用标准光盘片来存储和检索静止 图像、活动图像、声音和其它数据。RCA 公司后来将 DVI 技术卖给了 Intel 公司。1989 年 3 月,Intel 宣布将 DVI 技术开发成一种可以普及的商品,包 括把他们研制的 DVI 芯片装在 IBM PS/之上。
IBM 公司首先开发出一套 Infowindow 多媒体系统。1989 年 IBM 又推出
AVC(Audio Vi—sual Connection)系统,可作为多媒体简报系统,提供立 体声输入输出,全真彩色图像输入输出,以及声音和图像编辑、展示等功能。 与此同时,IBM 与 Intel 公司签订了数字视频交互技术(DVI)授权,并推出 Action Media 多媒体系统,包含有:(1)声音/视频摄像版,(2) DVI 压 缩/解压缩版,(3)相应软件。以此满足动态实时图像放录的需要。
随着多媒体技术的发展,为建立相应的标准,1990 年 11 月由 Philips
等 14 家厂商组成的多媒体市场协会应运而生。今后要用 MPC 这个标志,就要 按这个协会所定的技术规格办。MPC 标准的第一个层次是在一台 10MHz286AT 的基础上增加硬盘和 CD—ROM,现在这个标准改为采用 16MHz 的 386SX。1993 年推出的第二个层次的标准包括全活动视频图像,并将音频采样提高到 16 位。

  多媒体技术的最新发展是1991年第六届国际多媒体和CD—ROM大会上宣 布的扩展结构体系标准 CD—ROM/ XA,目的是填补原有标准在音频方面的漏 洞。
  目前,由于多媒体技术未能统一标准化,导致多媒体软件较为缺乏。另 一方面,计算机与电视机、摄像机等音像设备的紧密结合,也要求建立信息 交流中共同遵循的标准。因此,标准化在多媒体发展中至关重要。有关的国 际标准化委员会正在积极地展开这方面的工作。ISO(Inter—natinal Stan- dards Organization)已提出了用于静止图像的压缩方法 JPEG(Joint Photograph—ic Experts Group)标准草案和用于运动图像连同音频信号的 压缩方法 MPEG(Moving Picture ExpertsGroup)标准草案。为了便于在综 合服务数字网(ISDN)提供电视图像服务,CCITT 又提出了 PX64Kbps 的电视 编码标准,这种标准可用于电视电话会议。这些标准得到了 Apple 公司、AT
&T 公司、IBM 公司的支持。

第二节 多媒体系统的组成


  多媒体系统由主机硬件系统、多媒体数字化外部设备和媒体软件系统三 部分组成。
(1)多媒体主机硬件系统。与普通的个人计算机相比,要求具有 20MB
以上的内存,外存空间 100MB 以上,更快的 CPU 处理速度,更高分辨率的彩 色显示器和更快速的网络能力等特点。
(2)多媒体数字化外部设备。这里包括了数字化声音、图像输入输出装
置、话筒、摄像机、音箱等。由于多媒体数据(尤其声音、视频、图像)需 占用大量存储空间,所以新一代的大容量光学存储装置,如 CD-ROM 以及 WORM
(写一次,读多次)光盘等也将是多媒体系统不可缺少的硬件配置。
  (3)多媒体软件系统。多媒体软件系统一般可分为:多媒体控制系统、 多媒体管理系统、多媒体开发创作系统和多媒体应用系统。
多媒体控制系统负责对多媒体外部设备进行控制管理,提供低层视频、
声音等媒体的标准化输入,输出功能模块,规定各种媒体数据的标准存储格 式。新的操作系统环境,如 Ma-cos7.0 及 Windows3.0 都包含了部分多媒体控 制系统所需的功能模块,以此作为多媒体应用发展的基础。
多媒体管理系统负责多媒体数据的存储管理,并提供高层的对多媒体数
据的定义、处理、存储、时空同步、检索、调度、管理等功能模块。它吸取 并扩充了一系列传统数据库的成功经验,采用面向对象的方法以及超文本等 技术,提供给应用软件更方便、功能更强大的开发环境。
  多媒体开发创作和系统负责提供对多种媒体进行编辑制作及游览等功 能。它通常包含一个多媒体创作语言翻译器.通过多媒体创作语言,使用户可 以方便地根据自已的需要,定义、制作多媒体应用系统或用户界面。
  多媒体应用系统是直接面向最终用户的应用系统。多媒体系统要通过多 媒体应用系统向用户展示其强大的、丰富多彩的视听功能。如交互式多媒体 计算机辅助教学系统、飞行员模拟训练系统、商场导购系统、多媒体广告系 统等就属于这种应用软件。

第三节 多媒体的基本术语


多媒体——能同时采集和处理两个以上不同的信息媒体,如图像、文字、
声音、影像、动画、图形等。 超文本——多维性的文本块间的相互关联的组合。 超媒体——采用多媒体的多种表达形式并使用类似于超文本的多维描述
形式。 NTSC——国家电视标准协会。
MIDI——音乐设备数字化接口。 GUI——图形用户接口。 MMUI——多媒体用户接口。 ATMN——异步传输模式网络。 BISDN——宽带综合业务数字网。 PCM——脉冲编码调制。 ISO——国际标准化组织。 CCITT——国际电报电话咨询委员会。 JPEG——静态图像压缩编码标准。 MPEG——动态图像压缩编码标准。 AVSS——视频音频支持系统。 AVK——视频音频核心部件。
CD—I(Compact Dise Interactive)——紧凑光盘交互系统。
CDTV(Commodore Dynamic Total Vision)——高清晰度电视。 DVI——数字视频交互技术。
RTX——实时多任务能力。
  计算机动画——是借助计算机生成一系列可供动态实时演播的连续图像 的技术。
CSCW——计算机支持协同工作。
  NTSC 制——国家电视制式委员会。1953 年美国研制成功的一种兼容彩色 电视制式,按色度信号的特点,这一制式又称正交平衡调幅制。
PAL 制——相位逐行交变。为了克服 NTSC 制的相位敏感性,1962 年在西
德研究出 PAL 制。按色度信号的特点,PAL 制又称逐行倒相正交平衡调幅制。 SECAN 制——意思是顺序传送彩色存储。SECAN 是 1956 年由法国工程师 享利·弗朗斯提出来的。自从 1959 年开始研究 SECAN 制以后,对方案作过多 次变更,直到 1966 年形成参数最佳化的现用的 SECANⅢ-b 制。按 SECAN 色度
信号及解词的特点来讲,SECAN 制可称为顺序传送与存储复用调频制。 VCOS——可视高速缓存操作系统。 TIF——终端图像文件格式,由美国 Aldus Developer’sDesk 和
Microsoft Windows Mar—Keting Group 公司联合创造发展的,比较全面 的版本是 1988 年 8 月 8 日的 5.0 版,最新的版本是 1992 年春季的 6.0 版。 TIF 图像文件格式适用于各种计算机和操作系统的图像文件格式。
TGA——Truevision 公司创造的终端图像文件存储格式。 DCT——离散余弦变换。
FDCT——正向离散余弦变换。 IDCT——逆向离散余弦变换。 RISC——单指令格式计算机。

CISC——多指令格式计算机。 CIF——通用中间格式。
QCIF—— 1 分辨率通用中间格式。
4
音响——声音的另外一个术语。 MIDI——它是为把音乐设备连到计算机而所需的电缆和端口定义的一种
标准,以及控制 PC 和 MIDI 设备之间信息交换的一套规则。多数 PC 声音卡都 支持 MIDI 设备,如电子键盘。
MCI——媒体控制接口。 声音卡——负责播音、录音和声音合成的计算机卡。
MPC——多媒体个人计算机,要求主机为 10MHz286 芯片以上,内存 2MB
以上,软盘 1.44MB,显示器为 VGA,光盘驱动器(CD—ROM),操作系统为 DOS5.0 以上,或 Win- dows3.0 以上,声音卡及应有 MIDI 口和 I/C 口。
  多媒体 PC 市场协会——1990 年由主要硬件和软件公司联合成立,制订 了一套技术规格,规定了一个可能在 90 年代迅猛成长并被接受的新技术标 准。
WAV 文件——是一个含有计算机能够播放的数字化声音文件。 CD—ROM——小型光盘只读存储器。它可提供播放大型多媒体应用软件所
需要的存储容量。单片(CD—ROM 盘可存储多达 680MB 的信息。从外型和尺
寸上看,CD—ROM 盘与激光唱盘类似,但在多媒体 CD—ROM 盘上存储信息的 格式与激光唱盘的格式不同。
动画——可以产生有运动感(错觉)的播放图像,或用(一系列)图画
来产生有动感的场景。 OLE——目标链接和嵌入技术。

第四节 多媒体系统的应用


  多媒体系统的应用范围为:信息管理、宣传广告、教育与训练、演示系 统、咨询服务、电子出版物、视象会议、家庭、通信等。
一、信息管理
  多媒体信息管理的内容是多媒体与数据库相结合,用计算机管理数据、 文字、图形、静动态图像和声音资料。利用多媒体技术,把人事资料、文件、 图纸、照片、录音、录像等通过扫描仪、录音机等设备输入计算机,存储于 光盘。在数据库的支持下,需要时,便能通过计算机进行放音、放象和显示 等手段实现资料的查询。信息管理系统向多媒体扩展在硬件上要增加音卡、 视卡、光盘、压缩卡,在软件上要使用某种应用系统的开发工具。
二、宣传广告
  多媒体系统声象图文并茂,用作宣传广告是很自然的。与录像相比,多 媒体在宣传广告效果上是有优势的。观看者可以使用触摸屏选择自已感兴趣 的内容,而不必像录像那样从头看到尾。目前,常见的有形象宣传与行销宣 传两类应用。
  用于宣传的多媒体系统通常只配音卡,不配视卡和 CD—ROM,有的配压 缩卡,将制作好的多媒体节目存储在磁盘上。制作节目要用专门的多媒体节 目制作软件工具,该软件工具把音像素材集合在一起的。
  
三、教育与训练
  多媒体在教育上的应用实质是用多媒体系统阅读电子书刊、演放教育类 的媒体节目。传统的计算机辅助教学软件的表现手段仅限于文字、图形和动 画,而多媒体系统增加了声音和动态图像与静态图像。多媒体教育软件的另 一特点是有极为强大的交互能力。对教材来说,不但可以收集比较好的图文 并茂的教材,而且可根据教学的实际效果对教材进行动态的组织和修改,学 生也可以自已调整进度,从而起到因材施教的效果。
四、演示系统
  演示系统指诸如在博物馆等场合向观众用计算机介绍各种知识,科学馆 介绍月球登陆的情况,天文台介绍木星和慧星相撞,飞机模拟驾驶等。过去 只能用图表和文字展示,现在可把立体声、图形、图像、动画等结合起来。
五、咨询系统
  如旅游、邮电、交通、商业、金融、证券、宾馆咨询等,可以提供高质 量的无人咨询服务系统。
六、多媒体的电子出版物
  CD—ROM 这样的大容量存储介质不但可以存储各种多媒体信息,而且使 用、查找方便快捷,很适宜用来代替各种传统的出版物。特别是对于各种手 册、百科全书、年鉴、音像辞典等出版物。
七、多媒体通信
  多媒体计算机技术另一个重要的应用领域是通信工程中的多媒体终端和 多媒体通信系统。计算机网络中的电子邮件已普遍采用。随着多媒体技术的 发展,包括声、文、图在内的电子邮件将会受到更多用户欢迎,在此技术上 发展起来的可视电话、视频会议系统将为人类提供更全面的信息服务。
在个人机上加上视象会议的功能是多媒体技术最有贡献的用途之一,其
效果和使用的方便程度比传统的电话会议优越得多。
八、娱乐应用
  用计算机娱乐,可能是从玩游戏软件开始的,然而,这种娱乐方式也许 会渐渐被人们淡忘,代之而起的是以 CD—ROM 形式发行的多媒体软件。如有 一份“作曲家咨询”的 CD—ROM,其中存放的是 17 世纪到 20 世纪间 32 位伟 大的作曲家的信息,高保真度的数字音乐悦耳动听,再加上大量的文字,图 像咨询资料,是一份不可多得的集娱乐与教育于一体的音乐教材。
九、交互式小说与交互式电影
  如果用超媒体方式组织小说,读者将会得到一种绝然不同的感受。当你 正在阅读一个名人的传记时,可以看到他的音容笑貌,听到他对您娓娓而谈, 还可查阅他的历史生平。这种形式的作品在国外已经出现,而且深受读者欢 迎。交互式影片可以使观众直接进行到影片中和主人公共命运,按自己的意 愿改变结局等。

第五节 多媒体的发展趋势


  多媒体技术把声音、音乐、图形、图像、动画、电视等多种信息媒体集 成、综合并提供使用和数字存储。计算机的操作对象不再仅仅是 ASCII 代码, 而是大大扩展了。
由多媒体计算机来集成和控制家电及娱乐设备,如录音、录像、电视、

电话、CD—ROM 等,构成了家庭中的多媒体信息中心,再由网络通向外部世 界。这样便描绘了不久的将来信息社会的前景。多媒体可提供“全方位”、 “全球”性的服务。
  下一代的多媒体系统应该具有;存储介质为 CD—ROM,千兆字节磁盘, 大容量局部存储器,以适应应用程序捕获和设计需要;高速主机处理器 80586
或 MCG8040,对 MPEG 标准全支持;网络将高速提供对图像、音频和视频服 务器的访问,采用光纤数据接口;软件将提供各种应用类别和灵活的支持。
多媒体系统将促使一些全新的服务出现: 桌上电视编辑系统,即视频绘画与视频数字视频特技系统;计算机艺术
制作系统,包括计算机音乐、电影等。 桌上出版和演示系统。
新型办公室和家庭信息服务系统,例如会议电话、交互电视等。
      第六节 多媒体系统的分类及标准化 一、多媒体系统分类
  多媒体系统按功能分类可分为:开发系统、演示系统、教育系统和家庭 系统等。
开发系统。这个系统具有多媒体应用的开发能力,因此,系统配备有功
能强大的计算机,齐全的声、文、图信息的外部设备和多媒体演示的著作工 具。典型的用户是多媒体系统制作和电视编辑。
演示系统。这个系统是一个增强型的桌上系统,可以完成多种多媒体的
应用,并与网络连接。典型的用户是专业技术工作者、大公司经理和高等学 校的教师等。
教育系统。这个系统属于单用户多媒体播放系统,以计算机为基础,配
上光盘驱动器、声音和图像的接口控制卡连同相应的外部设备。通常用于家 庭教育、小型商业销售点和教育培训等。
家庭系统。这个系统是多媒体播放系统,通常配备有光盘驱动器,采用
了 320×240 点阵的家用电视机作为显示器,可供几名观众使用。 二、多媒体的标准化 多媒体是一项综合性技术,其中包括计算机、通信、电视和电子产品等
各个领域。多媒体技术能够迅速发展的关键是实现标准化,使各个厂家的产
品之间具有兼容性。因此,最近几乎所有多媒体产品的主要供应商和最终用 户组织联合起来组成了交互式多媒体协会 IMA ( Inter — active MultimediaAssociation)。这个组织的主要目标是制定兼容性计划,并要在 这个计划的指导下制定平台标准,而且这个标准需要得到大多数多媒体权威 机构的认可。
  由于目前已有几个多媒体平台被用户所接受,新建的平台标准应能在这 些平台支持下进行工作。因此,当前交互式多媒体协会不会把重点放在硬件 平台兼容性上,而是放在最终用户的兼容性上,也就是开发与各个硬件平台 兼容的应用软件上。为此,必须着重解决两个关键问题:
  如何保证应用软件和工具软件能在各种操作系统和硬件设备支持下操作 和运行。例如,动画或图形软件需要数字音响或数字视频设备,而这些设备 又要通过操作系统进行管理。
  
  数据交换的兼容性。这个兼容性在使用不同编码方法和硬件设备时就显 得特别重要。
三、压缩编码的国际标准
  多媒体技术要实时处理图像、视频、音频信号,这些信号 A/D 转换为数 字信号后,其精度越高,数据就越大。为了增加数据传输效率,减少存储空 间,这些数据需要用数字压缩技术加以解决。目前有以下 3 种压缩编码标准。
1.静止图像压缩编码标准(JPEG)
  由 ISO(国际标准化组织)和 CCITT(国际电报电话咨询委员会)共同进 行标准化的工作,该标准致力于彩色和单色,多灰度连续色调的静止图像的 数字压缩国际标准,可把图像数据压缩到 1/10 至 1/30,并可以实行实时再 生。
2.动态图像压缩编码标准(MPEG) 该标准不仅解决了视频压缩,还涉及到视频与伴音二者的同步问题。目
前面市的产品已把视频信号和伴音信号压缩成 1.5Mbit/s 的位流。能够获得 可接受的图像质量。MPEG 说明应用压缩技术的约束条件并设计出适用的压缩 算法。
  MPEG 应用的数字存储媒体包括:光盘(CD—ROM)、数字录音带(DAT)、 磁盘、可写光盘、综合业务数字网(ISDN)、局域网(LAN)等。视频压缩算 法必须与存储相适应,应该具有随机访问、快进、倒放、音像同步、容错能 力、延时控制在 150ms 之内等性能。
3.视听通信编码标准(H.261)
  CCITT 根据近年来利用综合业务数字网(ISDN)开展可视通信业务的迫 切需要,第 15 研究组于 1984 年成立了一个可视电话编码规范组。本标准适 用可视电话和电视会议,具有实时处理能力。

第二章 多媒体技术


  人们阅读报纸、杂志和书籍等;听广播、讲座和收音机等;看电影、电 视和戏剧等,通过这些手段可以获得信息。换句话说,信息传播的媒体可以 是文字(包括书籍报刊等)、声音(广播新闻、广告、音乐等)图像和景象 等。多媒体技术是处理文字、图像、动画、声音和影像等技术。其中动画、 声音和影像都是和时间相关的,因而,处理时必须考虑时间因素,特别是音 像同步问题。根据多媒体数据的特点,可以将多媒体技术的组成归纳为:各 种媒体的处理和信息压缩技术;多媒体计算机系统技术;多媒体数据库技术; 多媒体数据通信技术。

第一节 音频


  音频可分为:音乐质量音频,通常称为 CD 质量音频或 16 位音频;话音 质量音频,也叫电话质量音频或 8 位音频。
  音乐质量音频要求更快的采样速度和更高的采样精度,因此要求工作站 有更大的存储容量和更快的处理速度。音乐质量音频应用在音乐界,如培训 和演示等。典型的音乐质量音频输入来自 CD(Compact Disk 压缩盘)唱机或 DAT(数字音频磁带)唱机,而输出则通过一个高质量的扬声器。
  
  话音质量音频能在有限的动态范围内重现人的话音。Sun 台式工作站全 都具有话音质量音频功能,能使多媒体应用范围从电子话音邮件到文件的话 音注释,甚至用话音控制工作站。话音质量音频通常由话筒或电话输入,可 以通过工作站内或附加在工作站上的扬声器输出,或采用电话送受话器或扬 声器电话输出。
  特指音乐的 MIDI(乐器数字接口)是一种针对特定音乐,面向音符的控 制语言。MIDI 数据由规定音符和定时代码组成。这些代码可以由与 MIDI 兼 容的设备产生或输出,如键盘或合成器。MIDI 通常应用于计算机音乐界,用 于演播室控制和音频产生。多媒体音频应用依赖于许多因素的相互作用。多 音频的处理包括数字化、编辑、存储和重放。
一、音频的捕获和数字化
  声音或音频是模拟数据,要想利用计算机存储、加工、增强音频信号, 必须对它进行数字化——转换成计算机能够识别的形式。音频作为一种复杂 的模拟波形,它来自各种输入装置,如话筒、电话送受话器、与工作站相连
的 CD 唱机等。音频信号以其带宽和最主频率来表示,可以用波形表示。音频 信号的量化包括两个步骤:采样和量化。通常由模数转换器(ADC)来实现量 化。
二、音频重放
  重放存储的音频数据需将数字数据重新变为模拟音频信号。这是由数模 转换器(DAC)实现的。模拟信号可以送给工作站内或附属于工作站的扬声器, 或送给电话送受话器或扬声器。
目前,ADC 与其对应产品 DAC 有时合并成一个叫做编码译码器,即 CODEC
的芯片。工作站支持的音频质量主要由 ADC 和 DAC 芯片的性能来决定。 三、音频编辑 人们可以对存储在文件中的音频数据进行各种操作,最普通的操作是编
辑音频数据。音频编辑程序一般是产生一个代表数据的波形显示,然后使您
可规定要删除或重新安排的数据。编辑功能可用来隔开感兴趣的段落,或去 除开头和结尾的噪声,静默或中止。 Sound Tool(声音工具)示范程序可以 对音频文件进行编辑。另外,可以对音频信号进行的操作是混合声音文件, 例如将一段话音加在背景音乐上,提供训练应用或在演示中应用。
四、音频数据存储
  音频信号被捕获并被数字化以后,把它存储在一个数据文件里,以供以 后的重放、编辑或其它操作。即使是话音质量音频,其数据密度也是很高的,
在 SPARC 工作站中,一分钟话音质量音频几乎要占用 0.5MB 的存储空间,一
分钟未经压缩的音乐质量音频(16 位,44.1kHz 立体声)几乎需要 10MB 的存
储空间。 除了原始数据外,还需要存储与数据有关的信息,如采样率、每个样本
的比特数,以及所使用的编辑算法。这些信息对重放原始信号是必不可少的。 因此音频数据通常存储在包含这个数据并具有特定格式的文件中,常常采用 某种标题结构。这一般需要专门的程序,以把数据写入这些文件并能正确地 阅读这些数据。
五、多通道音频
  许多工作站,如 SPARC 系列,只能支持单通道或非立体声音频。实际上 多通道也是可能的。支持双通道(立体声)需要两个输入端和两个输出端,
  
每个数据流对应一个独立的 ADC/DAC 芯片(或设计成能处理两个通道的芯 片),以及适合于多通道数据存储的数据表示格式。

第二节 视频


  正像视觉通信通过画面能够比单纯文字提供更多的信息一样,活动画面 在某些情况下比静止图像能提供更多更好的信息。
  全活动数字视频意味着在工作站中集成了一系列连续的图像。全活动数 字视频实际上是几种相关的硬件和软件技术的结合,其中包括视频捕获、视 频压缩和去压缩、视频在网络上传输、视频在工作站窗口显示、视频在磁盘 或其它存储媒体上的编档保存等。
一、视频捕获(输入)
  从电视机和录像机所看到的视频信号是一种模拟信号。为了捕获视频信 号,视频数据必须经过数字化并存储在存储器中或帧缓冲器中。数字化需要 专用硬件并产生一个类似于 Sun 光栅文件的数字图像。为了保存图像,图像 必须通过现有的总线传送给存储器。捕获、存储或传输分辨率为 640×480 的连续视频序列,对于 8 位或 24 位图像,需要 9~27MB/s 的带宽。这一带宽 扩展超过了许多系统总线,如 SBUS LAN(Ethernet)、 WAN(ISDN)的带宽, 因此,实时视频捕获通常还包括实时视频压缩,以便减小所要求的带宽。保 存视频也需要压缩。如果不压缩,一分钟的视频数据几乎需要 1GB 的存储空
间。
二、视频显示(输出)
  全活动数字视频显示一般是指从已经被数字化并压缩了的视频开始,而 这种视频信号是通过某些网络连接(Ethernet 或 ISDN),通过视频捕获装置
(如摄像机和录像机)或某些存储媒体(磁盘或 CD—ROM)接收到的。显示
视频必须去压缩(最好以实时方式,如每秒 30 帧)并送至帧缓冲器,以便在 窗口上显示。

第二节 活动数字视频压缩与去压缩


  视频压缩是为了满足减小网络和总线带宽以及减小视频编档保存空间的 需要。视频压缩和去压缩的方法有许多种。
一、压缩/去压缩技术特性
  压缩/去压缩全活动视频的特性包括无损与有损压缩、压缩比、帧内与帧 间压缩、计算成本和对称与非对称压缩等。
1.无损压缩与有损压缩 无损压缩是指当图像被压缩后再压缩时没有信息损耗,即去压缩后的图
像与原始图像相同。采用无损压缩常常是为了节省磁盘存储文本和二进制数 据的空间。无损算法提供少量的压缩,如压缩前后之比为 2∶1。有些应用, 如医疗图像或卫星数据判读,需要无损压缩。
  有损压缩是指当图像被压缩后再去压缩时有信息损耗。即去压缩后的图 像与原始图像不完全等同。信息质量(最终图像质量)随所采用的不同技术 或同一技术所选用的参数不同而明显不同。一般地,压缩比越大,信息损耗 量也越大。全活动数字视频采用有损压缩算法。
  
2.压缩比 压缩比描述压缩前后量值的变化,即压缩图像或视频所需存储空间大小
的变化。
3.帧内与帧间压缩 帧内压缩一次只压缩单一图像,与先前的和随后的图像无关。先用其它
算法做帧内压缩,然后再做另外的帧间压缩。这项技术比编码技术要昂贵得 多,但对于给定压缩比来说,可以获得高质量的序列图像。这项技术能为通
过 LAN 和 WAN 传送的视频会议提供所需的很高比率的压缩。单纯帧内压缩技 术更适合于静止图像。
  不同的压缩技术,在压缩和去压缩图像方面所需要的计算机存储量有很 大的不同。某些去压缩技术费用相对较低(以时间和金钱度量),并且可以 用标准工作站上的软件以合理的速度(如 10~30 帧/s)计算。目前其它技术 都需要专门硬件才能以接近全活动视频的速率进行压缩或去压缩。
5.对称压缩与非对称压缩 对称压缩是压缩所需的计算费用与去压缩所需的计算费用大体相当的一
种压缩技术。而非对称压缩技术是压缩费用明显高于去压缩费用的一种压缩 技术。对称技术具有能够开发同时提供压缩和去压缩的专用硬件的优点。非 对称技术则具有不用增加额外硬件即可提供廉价重放功能的优点。
二、压缩技术
下面列出最常用的几种压缩技术。 JPEG——静态图像压缩标准。
JPEG(Joint Photographic Experts Group)它是一种即将被承认的静
止画面压缩的工业标准。它是一种压缩比为 20∶1 的帧内压缩标准。 MPEG——动态图像压缩标准。
MPEG(Moving Pictures Experts Group)它是针对全活动视频的一种视
频压缩标准。它是压缩比可达 100∶1 的一种帧间压缩方法。
  P×64——P×64 也称为 H.261。该项技术是一种专门针对通过 ISDN 线路 传输视频即面向视频会议和可视电话的标准。
DVI——DVI(Digital Video Interactive)是 Intel 公司在它们自己硬
件上开发的一种专有视频软件体系结构。
RPZ——RPZ 是 Apple 公司专有压缩/去压缩技术,并且是它们的 Quick
Time 系列多媒体应用软件的一部分。

第四节 动画


  计算机动画(Computer animation)是借助于计算机生成一系列可供动 态实时演播的连续图像的技术。从动画制作的原理上可分为两类:计算机辅 助动画 ( Computer —asisted ani-mation )和基于造型动画 ( modled animation)。计算机辅助动画属于二维动画,主要用计算机辅助系统的卡通 片制做。基于造型动画属于三维动画,它首先建立三维空间中几何形体的造 型,然后使之产生各种运动。
  瑞士的 N.M.Thalma 和 D.THalman 将计算机动画系统按功能划分为五级。 第一级,只用于交互地产生、绘制、存储、检索和修改画面。它没有考虑时 间因素,实际上只是由设计者使用的图形编辑器。第二级,可以计算中间画
  
面;并可计算沿轨迹移动的对象,这种系统考虑了时间因素。它主要由中间 画的动画师使用,甚至系统可以代替动画师的工作。第三级,提供给动画师 对活动对象的操作手段,如:平移、旋转等。同时也包括虚拟摄像机的操作。 第四级,提供定义角色(actor)的工具。这些角色具有自已的运动特色,他 们的运动可以是受约束的(行为约束,对象之间的约束等)。第五级,系统 具有可学习性和扩充性,随着多次使用,系统逐渐变得更完善和更智能化。


  按照动画的记录方式分类,可分为:逐帧方式动画系统和实时方式动画 系统。逐帧方式是指由计算机生成动画中的每帧画面,并记录下来,然后, 可以按 24 帧/秒(电影)或 25 帧/秒(电视 PAL 制式)或 30 帧/秒(NTSC 制 式)的速度播映。目前的动画制作系统大多属于此类。实时方式是指可直接 在终端上实时显示动画图像。

第五节 多媒体数据库技术


  多媒体数据的类型不同,表示方式也各不相同。当用数据库支持多媒体 应用时,需要将多媒体数据对象各种表示的固有特性(如是否采用编码形式 或结构形式等)映射到相应的表示形式,如正文文件、图像参数文件、图像 数据文件、图形结构表等。多媒体数据库应能处理数据对象的各种表示方式, 例如在图形上叠加图像等。
不同对象的表示形式、存取方式、绘制方法各不相同,因此,多媒体数
据库还应包括处理不同对象的相关方法库。多媒体数据库与方法库应紧密相 关联,以便进行数据对象的组合、分解和变换等操作。另外,为了管理数据 对象方便,应建立数据对象的说明,以便于定义数据对象的二级属性。因此, 数据对象、数据对象的说明以及与对象相关联的方法是多媒体数据的三个组 成成分。多媒体数据库的另一特点是存在着时间上的限制。这里主要是指实 时性和同步要求都很严格。
数据库系统的长处在于给定一个用户查询后,可以迅速地检索到正确的
信息段。而多媒体数据库不是对现有的数据进行界面上的包装,使之看起来 像一个多媒体数据库,而是应该从多媒体数据与信息本身的特性出发,考虑 将其引入到数据库中之后而带来的有关问题,才能找到相应的解决办法。
一、多媒体数据类型
  多媒体数据可分为如下几类;数字字符型关系数据、文本数据、声音数 据、图像数据。下面分别给以介绍。
1.数字字符型关系数据 人们完成对信息的抽象后,就要建立与实体之间的关系。它经常由字符
和数值构成,具有非常规范的结构化形式。因为采用结构化的形式后,使数 据的内容表达得比较明确,所以,数据库对这种数据的操纵特别方便。
2.文本数据 计算机最早就可以处理文本数据,这在情报检索中得到了广泛地应用。
这种以长短不同的顺序字符流组成的文本其实也具有许多独特的性质,但就 数据库而言,在理论和实践上都没有充分地反映出这种性质。各种书籍、文 献、档案等都是由文本媒体数据为主构成的。文本是最常见的媒体形式。
3.声音数据

  有了声音能够使一个对象或过程变得生动,而这种生动又带有了信息, 同时声音也是应用中必须考虑的需要进行的有效管理的媒体,例如字典中每 一词的发音、鸟类数据库中鸟的叫声等。声音可以辅助其它媒体的表现,起 到与感觉相同的效果,如解说、注释、音响效果等。但高质量的声音需要大 容量的存储。通常,单声道较好音质的声音数字化后需每分钟上兆的存储量。 声音也可以由音库中的音符合成而得,这样只需存储符号而无需存储波形。 中文语言合成效果尚不十分令人满意,但音乐合成效果已经很好了。抽象化 的声音数据已经转化为文本,许多成熟的技术都可以利用,非常有利于检索。 但如果对波形声音直接识别,还存在着一些困难,这对数据库的检索将是不 利的。
4.图像数据 图像数据的表示方法有多种,分别基于抽象程序或时间。位图式图像在
照片、绘图、医学图像等方面经常采用,它只是对原图像的一种数字化。图 形是图像矢量化的结果,它是对原图像实行了某种程序的抽象而得,反映了 一个物体的关键特征,常用于地理图、CAD 图等方面。图形和图像按一定顺 序组成时间序列,就是动画和数字化视频,这时数据的组成及内容与时间就 有了密切的关系。一幅较高分辨率数字化的彩色图像约需 1MB 左右的存储空 间,图形则由于抽象绘制指令而使存储量少得多,而动态视频由于在时间上 的连续变化,通常每秒为 25~30 帧,对存储的要求要大得惊人,如不压缩处 理几乎无法使用。
二、多媒体数据的特点
  多媒体数据与传统数据库数据有显著的不同,因此,多媒体数据库有如 下特点。
数据量巨大且媒体之间量的差异十分明显,而使得数据在库中的组织方
法和存储方法复杂。如何组织好多媒体数据库的数据,选择设计合适的物理 结构和逻辑结构,才能保证应用的快速存取。数据量大相应地支持信息系统 范围扩大,同时应用范围也扩大了。
媒体种类的繁多使得数据处理变得复杂了.前边介绍了四种多媒体数
据,而实际上,在具体实现时,常常根据系统定义、标准转换而常演变成几 十种媒体形式。从理论上讲,多媒体系统应能接受任何形式的数字化媒体形 式,但却很难了解并且正确处理这些媒体的语义信息。这些基于内容的语义 在有些媒体中是易于确定的,但对另外一些媒体来说却不易于确定,甚至会 因为应用的不同和观察者的不同而有差异,也不能仅用人工输入的方法加以 限定。面向对象的方法使异质数据类型的统一处理问题得到了缓解,但尚未 完全解决。
  多媒体不仅改变了数据库的接口,使其声、图、文并茂,而且也改变了 数据库的操纵形式,其中最重要的便是查询机制和查询方法。媒体的复合、 分散、时序性质及其形象化的特点,使得查询不再只通过字符查询,查询的 结果也不仅仅是一张表,而是多媒体的一组“表现”。接口的多媒体化将对 查询提出更复杂也是更友好的设计要求。
三、数据模型
  数据库的操纵与数据模型有关。数据模型不断完善和变革,每一种模型 各有千秋,但又都有局限性。关系数据库其数据模型是基于数值的,很适于 表格一类的应用。但对于多媒体这样的数据却不能适应。面向对象的方法提
  
供了一个基于抽象的模型。允许设计者在基本功能实现上使用最适合于他们 应用的技术,这对于多媒体环境下复杂程度不断增长是很有好处的。研究表 明,一般的面向对象数据模型为适应多媒体数据库的需求,还必须考虑媒体 对象之间的时空关系,考虑媒体对象或是数据对象之间的语义关系及结构形 式,它往往反映了数据之间的关系(事实)。
  超媒体的形式是一种能够较好反映多媒体特点的数据模型形式。对它的 形式化描述也在逐渐完善。合理与恰当地设计会使其比较合理地组织并管理 好多媒体数据,适应多媒体数据在复合性、时序性、分散性方面的要求。超 媒体的节点及内部结构可以按表现的需要对多媒体信息进行时空组织,并且 通过节点之间不同类型的链建立起数据与数据之间的关系,描述出信息、网 络的语义。
四、数据库操作
  多媒体数据库的操作有:检索与查询、浏览、梗概及统计查找,多媒体 对象的表现。
1.检索与查询 在数据库中,大部分操作是查找而不是修改。检索与查询通常分为基于
表示和基于内容两类。基于表示形式的检索与数据所表示的类型和数据结构 有关,不需要对内容做任何分析,在多媒体数据库中常用于复合媒体对象的 检索。例如,“找出具有声音注释的图像”,或“找出所有动画”等都是这 一类。对语义网络结构的检索则要复杂一些,例如,“找出能够说明(与之 关联)的所有对象结构”将得到一个由若干对象组成的语义子网,在超媒体 中会有这种查找。
基于内容的检索是根据媒体内容语义进行。最容易做到的是对文本媒体
的内容检索查找,由用户描述一组对象,然后对内容进行匹配。例如,“找 出所有含有 Multimedia 的句子”。对于图像、声音这一类媒体来说,基于内 容的检索和查询就要困难得多,这需要借助于模式识别进行语义分析和特征 匹配。符号标注法对于实现者来说会使事情变得容易,而自动语义分析对用 户来说则更为有利。显然,一幅图像不能用字符而只能靠实例。这种检索与 查询形式不可能是完全匹配的,只能是相似性查询。因此要确定相似函数的 特征因子,是用户减少检索空间和结果空间的重要问题。与相似性有关的是 可信度。查询是非确切的,系统应该根据它们匹配程度的高低进行确认,这 种尺度就是可信度。
2.浏览
  多媒体数据的语义较复杂,很难定义准确的查询,只有通过浏览才能找 到特定的信息。在多媒体信息组织上往往要建立起合适的关系,超媒体网络 是支持浏览较好的形式。由于媒体之间可以相互配合,从一种媒体(如图像) 的某一特定区域,可以同时指向用另外一种媒体(如文本符号)所描述的数 据上,用户可以随时切换。浏览机制还可以支持一种带有过滤机制的查询, 即滤波浏览。这种方式将限制用户所不关心项目的出现,被滤除的信息范围 既可以是用户自已明确指定的,也可以由某种智能机制通过已有的查询自己 识别或设定。
3.梗概及统计查找 对多媒体数据的梗概查找将是一个逐步求精的过程。一般是抽取媒体的
对象中最关键的特征,例如一座房屋图像的粗略外观、轮廓、声音中特定语

句的关键特征等。可以从一种媒体转变为另一种媒体,也可以只在其它参数 上变化。统计则是通过观察大量非符号化的数据而对数据得出的某种结论, 这种结论在后续查找中将支持其它的查找。


4.多媒体对象的表现 多媒体数据将导致一组媒体在时空上组成对该结果的信息表达,这就是
表现。表现的组织过程就是查询结果组织,例如以肖像形式列出全部检索到 的图像。

第六节 多媒体通信技术


  多媒体技术与通信技术的完美结合,使得通信领域中诸如可视电话等陷 入困境的行业,焕发了新的活力。多媒体通信技术集计算机交互性、网络的 分布性和多媒体信息的综合性于一体,突破了计算机、通信、电视和出版等 传统产业间的界线,使这些对人类社会产生重大影响但相对独立发展的技术 融为一体。多媒体通信技术向人类提供了全新的信息服务,如:多媒体电子 邮件、实时视频会议、计算机支持的协同工作,以及远距离学习和远距离医 疗等。
多媒体通信是一个综合性的技术,涉及多媒体、计算机及通信等领域,
并且给这些领域带来很大的影响。大数据量的连续媒体在网上的实时传输不 仅向窄带网络及包交换的协议提出了挑战,而且对于媒体技术本身,如数据 的压缩、各媒体间的时空同步等也提出了较高的要求。
一、多媒体网络
  多媒体网络为多媒体通信提供了一个传输环境,网络的带宽、信息交换 方式以及高层协议,都将直接影响着传输及服务的质量。


  多媒体网络包括:电话网、综合业务数字网、公用数据网、计算机局域 网等。
电话网采用电路交换方式,在这种方式下,信道是独占的,有利于连续
媒体传输。但是,在电话线路上传输是模拟信号,数字信号必须经过调制解 调器处理之后才能进行传输。电话网的速率一般只有 19.2Kbits/s,无法传 输视频等大数据量的媒体。
公用数据网和高速专线网的传输率比电话网有所提高,但是使用费非常
昂贵。
  窄带综合业务数字网(N—ISDN)也是采用电路交换,这种方式具有较小 的延迟。窄带综合业务数字网有两种用户网络接口:基本速率接口和基群速 率接口。基本速率接口的结构为 2B+D,即两个 B 信道和一个 D 信道。B 信道 的速率为 64Kbits/s,用于传输标准的数字电话以及其它一些数据;D 信道的 速率为 16Kbits/s,用于传输信令等控制信息。这样,其总数据传输率为
144Kbits/s。对于基群速率接口,其结构在欧洲为 30B+D,在美国为 23B+D, 其中 B 信道和 D 信道的速率都是 64Kbits/s。由此看来,窄带综合业务数字 网就是具有较高的传输率,可以传输声音和低质量的视频信号。
  计算机局域网采用包交换方式传输数字信息,它把用户的数据分割成许 多小段(称为包、分组等)在网上传输。包交换方式的特点是传输速率高,
  
并且可以根据需要改变速率,如现在常用的以太网。这种网络的数据传输率 一般为 10Mbits/s。其缺点是传输延迟大,不适合音频和视频信号的传输。 宽带综合业务数字网(B—ISDN),其传输介质采用同步光纤网(SONET), 信息交换方式采用异步传输模式(ATM)。这种方式具有电路交换延时小,分 组交换速率高及速率可变特点。宽带综合业务数字网的传输速率将达到
2.4Gbits/s,在其上可以传输高保真的立体声、普通和高清晰度的视频,是 多媒体通信的理想环境。
  由于条件限制,在近段时期,我国多媒体通信的研究和应用将集中在计 算机局域网(LAN)上进行,其中包括以太网(Ethernet)、令牌环(Token Ring) 以及光纤分布式数字接口(FDDI)等。对于在广域网(WAN)上进行多媒体通 信只能做一些试验。

第七节 多媒体人机界面


  所谓人机界面,指的是人与机器之间为完成某种任务或执行某些命令而 进行信息交换所采取的手段或通过的渠道。人机界面根据信息的流向分为两 类:输入界面和输出界面。输入界面指的是人向计算机输入信息的方式,通 常包括键盘、鼠标、操纵杆、跟踪球和扫描仪等。输出界面指的是计算机向 人传递信息的方式,传统的输出方式是屏幕显示或打印机打印输出。实际上 计算机用户总是希望人机之间的交互能以人们习以为常的方式直观、自然地 进行。也就是说,人机交互能够采用与手写体文字、语音、图像和无线等方 式进行,这些就是多媒体人机界面。本节主要根据市场上的产品信息及最新 报告,简要说明现有多媒体人机界面的发展水平以及在便携式电脑中的应用 现状。

一、笔输入技术
  笔输入是便携式计算机广泛采用的输入方式。笔输入技术指的是计算机 的操作者用书写笔在图形输入板上进行书写或操作,计算机通过一套软件或 操作系统对图形板的输入进行加工、识别,从而接收信息。下面介绍笔输入 系统。
1.图形输入板及书写笔
  图形输入板和书写笔的关系就像通常的纸和笔。书写笔在图形输入板上 书写时,计算机通过检测电压或电流的变化来记录笔划的信息。笔划的粗细 是可控的。例如,EO 和 Con- certo。都可设置笔划。将图形输入板和液晶显 示屏做到一起,书写或删改都十分方便。
2.电子墨水 用户在液晶屏上书写时,笔尖走过的地方会留下墨迹,这就是所谓的电
子墨水。计算机通过读取电子墨水,并进行识别得到期待的计算机文字。另 外,计算机也可以对所有的电子墨水不做任何处理,以图形方式将其保留, 这就是通常的手写体,等同于笔在白纸上写字、作画,与哪种文字无关。现 在市面上能见到的笔输入电脑都具备这些功能。
3.手写体识别 手写体识别是计算机辨识、确认手写体字符的过程。通常分为两类:联
机手写体识别及脱机手写体识别。联机识别是边书写边识别。用户输入时可

一边输入,一边修改,直到输入正确为止。脱机识别是在识别之前先将所有 的字符写好,通过扫描仪等设备输入计算机,然后进行识别,要求一次识别 成功,否则要全文校对。目前,笔记本电脑采用的是联机手写体输入,但各 个产品采用的识别方法不尽相同。AT&TrEOt Compaq 的 Concerto486 采用的 基本识别单元是 26 个英文字母和 10 个数字。这个方案可以识别任何一个英 文字词,不必建造一个大的字库。Apple 公司的 Newtn 系统识别的基本单元 是字词。它提供了约 3000 个英文字库,这种方案的识别速度、识别率都比识 别单元字母要高。Newton 系统还具有图形识别功能,例如,如果用户划一条 线或一个圆,系统会自动替你修正。我国的汉王 99 汉字识别软件可识别手写 汉字,且具有较好的效果。
4.笔输入操作系统
  EO 和 Newtn 系统各自采用了自已的笔输入操作系统。目前较为流行的操 作系统是 MS 公司的 Pen DOS 及 PenWindows。Compaq 公司的 Concerto 笔记本 电脑采用的就是 Pen Windows,它是在 Windows 环境下开发的,能运行大部 分的 Windows 应用软件,Windows 下的所有操作均可用笔来代替。
5.编辑功能
  用笔进行编辑是笔输入必备的功能。在 EO 或 Concerto 中,若要修正一 个字母,只需在该字母上面重写即可,用笔划一个删除符号,可立即删除一 个字母,划一个插入符号,可插入一个空格。系统还具有插入、删改字、句、 段落的复杂编辑能力。
二、语音输入技术
  语言输入即语言识别,是指人通过话筒对计算机讲话,计算机分析、辨 认所讲的内容,或者显示在屏幕上,或者执行相应规定操作。用语言输入工 作效率很高,在无法有效地利用视觉的地方,利用语音输入较为方便。语音 识别技术发展较快,目前主要在大型机、工作站和台式上使用的相应产品。 语音识别技术发展较快的是美国 IBM 公司和 Dragon 公司。下面介绍几种语音 识别系统。
1.IBM 个人口授系统
  IBM 个人口授记录系统基于其多年来的研究成果,起初这个系统运行在 大型机上,后移植到 RISC 系统 6000 工作站上。目前,它也可在 PC486 或 Pentium 上运行,词汇量为 3.2 万,口授速度可达到每分钟 70 个字。但字与 字之间要停顿。该系统可以为个人建立特殊命令,例如,当计算机听到 “goodmorning”时,自动打开日历,检查电子邮件。该系统可以自动增加新 词汇,当听到一个不认识的字时,自动将该词记录下来,用户应用时用键盘 输入相应的字,这样新的字及发音就被加入到词库中,当下次听到这个音时, 系统就能很快识别。系统还具有很强的学习、训练能力,例如,当听完读一 段文章后,系统马上就能掌握用户的发音特点及口音,并为用户建立一个专 门的数学模型,以后的识别就根据这一模型进行。
  目前该系统有美国英语、英国英语、法语、德语、意大利语和西班牙语 版等。该系统要求硬件配置为:486×25,OS/ 2 操作系统,8MB 内存, 32MB 磁盘空间。它还可运行于 PS/ 1,PS/2 机上,以及其它兼容机上。
2.IBM 连续语音识别系统 该系统使用起来比较方便,不需训练即可使用。用户说话时可以连续,
字与字之间不必停顿,系统的基本词汇量超过 2 万,用户每次从基本词汇中

选出 1000 个拼成当前工作词汇。以后也可以逐步增加新的词汇。该系统可以
在 Win-dows3.1、OS/2 或 AIX 环境下运行、主机使用 PC386 以上机型即可。 这种系统目前已被门诊、法院、管理、银行等部门使用。
3.Dr agon 语音系统
  Dragon 是美国另一家大量提供高质量识别产品的公司。Dragon Talk(语 音系统)是针对 Windows 环境设计的,用简单语音命令启动应用程序、管理 窗口、选择菜单等。系统可以提供数百条内部声音命令,可以用来简化那些 常用程序的操作。
4.Dragon 大词汇口授系统
  该系统的基本词汇超过 3 万字,用户可以根据自已的专业需求建立一个 数千词的工作词库,系统对用户的声音、字词及工作环境都有学习及训练功 能。该系统的运行环境是:PC386 以上、16kRAM、 PC—DOS 操作系统。
5.其它语音系统
  CME 公司的 Rad Speak 能够用声音来生成各式各样的医学诊断报告。 Philips 公司的口授系统 6000 可以处理自然语音,用来记录放射结果。中科 院声学所的特定人识别系统,识别率达到 99%,其性能可与国外产品不相上 下。
三、图像输入系统
  图像是人类最直观、内容最丰富的信息载体。随着图像压缩技术的成功 使得人机图像交互成为现实。美国 Optibase 公司的 MPEG Pro 及 C—Cube 的 CL45000 能实时采集、压缩全动态视频信号,并将其存放在硬盘或 CD—ROM 上。一张光盘上可存放长达 74 分钟的视频压缩数据。Sigma 公司的 Reel Magic 则可以将硬盘或光盘中的压缩视频实时回放。

第三章 多媒体设备


多媒体系统包括主机、声象输入输出设备、控制设备和各类功能卡。 主机。包括个人机、工作站、超级微机等。 声象输入设备。包括视频画面摄像机、实时广播、电视天线、视频盘(电
视机)、录像、录音机、CD—ROM、麦克风、电子琴键盘、扫描器等。
  声象输出设备。包括喇叭、立体声耳机、录音录像机、视频盘(电视机)、 CD—ROM、打印机等。
功能卡。包括图形、图像、声音处理卡、通信卡、局网卡等。
  控制设备。包括鼠标器、操纵杆、键盘、数字化仪器、触摸式屏幕监视 器等。

第一节 音效卡


  音效卡使计算机能从文本、图形的操作管理中多了“嘴巴”,可以说话 和唱歌;多了“耳朵”,可以听取各种声音、音乐和语言。音效卡也叫声音 卡,有的推销商把新加坡 CreativeLab.公司制造的 Sound Blaster 称为“声 霸卡”,或把与之兼容的音效卡也叫“声霸卡”。
  音效卡的输入设备可以是:音频放大器、话筒、CD 唱机、MIDI 控制器、 CD—ROM 驱动器、游戏机。输出可接喇叭。一般的音效卡内置功率放大器、
  
双声道每边有 4W 输出。 音效卡获取声音的来源有两种:(1)模拟音频信号的输入。如普通的录
音机、收音机等各种放大器的音频信号输出以及话筒;(2)数字音频信号输 入。如 CD 唱盘、MIDI 控制器、游戏机、CD—ROM 驱动器等。模拟音频信号必 须经过 A/ D 模数转换,变成数字量之后,才能便于计算机的储存和管理。人
类耳朵能听到的声音是 50Hz~20kHz 频率的模拟音频信号。经过计算机加工、
存储的各种声音文件在输出时要经过 D/A 数模转换,使数字量变为模拟音频 信号,再由放大器输出到喇叭上。
  模拟音频信号转换成为数字信号是用采样的方法进行。模拟音频信号是 一个以时间为横坐标,幅度为纵坐标的二维线性函数关系。在采样时,采样 点(时间)之间的间隔越小,采出的样品就越准确,所谓间隔小就是频率高。 采样频率是指模拟音频信号转换成为数字信号时,抽取音频声波样本的频 率。计算机在处理 A/D 和 A/D 转换过程中,不失真的转换采样频率为音频信 号频率的二倍。
  音效卡的采样频率出于技术上的原因一般最高定为 44.1kHz 可以很满意 收听转换后的音频信号。目前市场上供应的音效卡的最高采样频率分别为
44.1kHz,22.05kHz 和 11.025kHz 三种。采样尺寸是对音频信号垂直分量的幅
度进行采样的量度。即在确定的时间点上,该音频信号的大小如何进行量度 才算精确。当然,把这个有“多少”分量是按一定平均分量进行的量度,这 个平均分量值越小,所量度出来的值越靠近实际值,转换失真越小。在数字 技术中,一个定量值可分为 8 位(256 等分)或 16 位(655 536 等分)两种 作为音效频率采样尺寸的标准。16 位的采样尺寸要比 8 位采样尺寸精确,从 收听角度来看,声音的层次更丰满。采样如果是立体声,还需左右声道分别 处理。
经过 A/D 转换后的声音文件,和计算机其他文件一样。以一定文件形式
存放于硬盘或软盘之中。声音文件一盘以 WAV 或 VOC 为扩展名的文件形式储 存。WAV 文件是 Win- dows 支持的声音文件,VOC 文件是 DOS 下的声音文件, 它们可以分别在各自支持的状态下播放。
数字化音频中,C 唱盘是以 16 位、44.1kHz 采样进行重放的。所以 5 寸
CD 唱盘可放 70 分钟的高质量音乐节目。
  MIDI(Muslcal Instrument Digital Interface)音乐器件数字接口所 产生的音乐节目与传统的音乐节目是不同的。MIDI 产生的音乐是人工的。音 效卡处理 MIDI 是通过一个后缀为 MID 的文件向不同的合成器发出一系列指 令,使合成器(利用 DSP 专用数字处理器产生各种乐器或声音效果的处理器) 或其他电子线路产生不同的乐器的音乐或声音。这个 MID 文件有以下描述: 音符、定时、对 16 个或 32 个通道(每个通道可发出一种乐器声音)的选择、 音量控制、延时、速度等。MID 文件记录的不是声音本身,而是通过文件的 描述对各合成器的控制而产生声音,它比较节省文件储存空间。同样播放 30 分钟的立体声音乐,MID 文件只需 200K,而 WAV 文件要约 300M。由于合成器 对语言的处理能力较差,所以 MI- DI 偏重于音乐与声音效果。
  应该注意的是音效卡的线路输入和话简输入两种音频信号是不能同时进 行录制的。这两个信号要通过程序分别进行录制,由于音效卡与不同的 CD— ROM 驱动器的连接互不兼容,选购音效卡时,最好与 CD—ROM 驱动器一起配
  
套购买为好。
  音效卡的硬件安装对计算机没什么特殊要求,一般 286 以上,有 40M 硬 盘的计算机就可以使用音效卡,音效卡可直接插入计算机扩展槽内。插入之 前,音效卡要选择好 I/O 地址口、中断口和通道 DMA 口三个口的设置。这三 个口的设置与整个计算机的硬件设置有关。音效卡在出厂时给用户提供的设 置一般使 I/O 口为 220H,中断口为 7, DMA 口为 1,用户在安装音效卡前要 对照用户手册检查对应三组跳线是否合乎手册的要求。用户还可以打开软盘 中的“README”说明文件,该文件能简单地为用户提供一般的安装说明或软 件中各应用程序文件名及它们的功能。最后,可以执行音效卡的安装程序 INSTALL(在 DOS 下执行)。安装完成之后,可以进入测试程序试验音效卡的 功能。然后可以进入音效卡各种应用程序对不同的声音进行编辑。
  下面以新加坡 Creative Lab 公司生产的 Sound BlasterPro 为例,介绍 音效卡的硬件和软件的特性。
一、硬件特性
8 位立体声模数与数模转换器,采样频率为 4k~44.1kHz。可以从话简,
立体声线路或 CD 音频输入支持录音。 立体声数字/模拟调音台,可将数字化声音多级音量控制。由软件控制输
入、输出、声象、左右声道调节。
MIDI 与游戏控制杆共享接口。 CD—ROM 驱动器的接口。
立体声输出,每通道 4W,手动调节音量,话筒自动增益控制(AGC)以
提供最佳声音效果。
二、软件特性
软件配置有在 DOS 下和 Windows 下分别进行的操作。 VEDIT2。声音编辑,提供很强的程序支持立体声录音、压缩和声音文件
的编辑,可以放大显示波形图并进行剪辑,应用软件可以重放声音文件作为
背景音乐。
  PRO—ORG。调频智能风琴,该文件功能强、简单易学。通过 PC 机的键盘 或一个附加的 MIDI 键盘,就可以演奏管弦乐队的音乐,并能自动加入背景伴 奏和节奏。
Play MIDI。本程序提供一个广泛的选择范围来满足创作音乐作品所需的
基本特性。
  CDPLAY。程序提供 CD—ROM 驱动器控制 CD 唱盘的播放、前后搜索、暂停、 快进、倒带和播放与停止等功能。
  SBSID。S.B 标准接口模块,本程序在应用时能够对所有 Sound Blaster 驱动器共享存取,作为一个常驻内存程序,SB-SID 支持扩展内存,在装入音 乐和声音支持文件时,考虑到起动、停放各种驱动器的情况。
MMPLAY。演示程序,本程序演示图像动画与声音同步播出。
  在 Windows 下的操作结果与 DOS 有部分兼容,提供 6 个图符供声音编辑 与播放,如图符中的 Greative Ware Studi 中,提供了在 Windows 下对 WAV 声音文件进行录制、编辑、播放,功能很强。其中提供一个电子笔记本
(TakingScheduler)揭示每天的工作安排(声音提示)。

第二节 声霸卡的安装及应用软件


一、声霸卡软件的安装
声霸卡安装过程如下: 插入第一张声霸卡软盘到驱动器。
敲入 Install 命令,将出现文字说明,按任一键,出现主菜单。 在主菜单选择“Begin Install”出现提示后,选择软件安装在哪个硬盘。 安装程序将在选择的硬盘建立一个子目录\SBPRO,并复制文件到该子目
录。
  文件复制完,安装程序自动在 AUTOEXEC.BAT 文件加入设置声霸卡运行环 境的参数。
用户确认开机启动的驱动器。
  用户确认机内 Windows3.1 系统所在的地方,以便安装程序自动在 WIN.INI 文件加入一条命令,这样,下次启动 Windows 时会自动建立声霸卡 的窗口及应用程序。
用户按照屏幕提示选择三个硬件参数:I/O 地址 220H 或 240H;中断号 2,
3,5,7;DMA 通道号。当选择的参数与实际硬件不符时,安装程序提示你重 新选择。选择好参数后,安装程序自动在 AUTOEXEC.BAT 文件设置环境变量, 指明这些参数的设置情况。
重新启动系统,完成安装。
安装完毕后,在指定硬盘建立了如图 3—1 所示的目录结构,声霸卡软件 程序安装在这些子目录中。




















  安装完毕后,为了检验一下声霸卡硬、软件安装的有效性,并对声霸卡 的声音、音乐和声音效果有个初步的印象,我们可首先调用声霸卡的多媒体 演示软件(进入 SBPRO\MM- PLAY 子目录,敲入 MMDEMO 和按回车)。从中可 看到该演示软件集合了图像动画制作和声霸卡的声音功能(如:调频音乐、 数字化声音和 CD 音频),且声音和画面同步,支持渐显和混合等。
二、声霸卡在 DOS 环境下的应用软件的功能特点:
  声霸卡的一些应用软件是在 DOS 环境下运行调用的。声霸卡在 DOS 环境 下运行的主要应用软件的功能特点如下:
1.会说话的鹦鹉(Talking Parrot)软件软件的调用过程:
(1)进入\SBPRO\PARROT 子目录。

(2)敲入 PARROT 和按 Enter。
  (3)按 Enter 和输入一个数字(140~230),该数字与声音噪声电平有 关。
  这时,在屏幕上出现一个在讲话的鹦鹉图像。当鹦鹉停下来时,你对着 插在声霸卡上的麦克风讲话,鹦鹉会重复你刚才所说的话,十分有趣。按 Esc 退出应用程序返回 DOS。
  这个应用软件一方面表明了声霸卡的声音处理能力;另一方面,我们可 将说话的鹦鹉客户化。即我们可通过建立自己的图像和声音来取代鹦鹉的图 像和声音。因为鹦鹉图像由四个图像文件组成,其发出的声音由 21 个声音文 件组成,我们只需创建四个 PCX 格式的图像文件取代鹦鹉图像文件,建立 21
个 VOC 格式的声音文件取代鹦鹉说话的 21 个声音文件并存于声音库中,就可 实现鹦鹉客户化。这种功能,可帮助我们容易地设计出有声音、有图像的简 单应用软件。
2.调频智能风琴软件(PROORG)
  (1)功能。帮助用户用 PC 键盘演奏像管弦乐队效果的音乐;帮助用户 掌握风琴的使用;如果有附加的 MIDI 键盘,还可以自动加入背景伴奏和节 奏。
(2)调用过程
①进入 SBPRO\PRO—ORG 子目录。
②敲入 PRO—ORG 和按 Entetr,出现风琴键盘画面和主菜单。
  ③选歌曲:按 F6,出现可演奏的乐曲名单,通过→←↑↓等键选择,选 中按 Eeter。
①选择乐器和节奏:按 F2,出现 CMS’S 的智能风琴控制板且在演奏。
这时,选择 F1~F4 改变演奏乐器,F5~F9 改变演奏节拍。
⑤按 F2 以伴奏形式演奏,按 F4 则可以听到乐曲的旋律。
3.声音编辑Ⅱ(Voice EditorⅡ)软件
  (1)功能。该声音编辑软件支持立体声录音、压缩和无限长的声音文件 的编辑;它可对声音波形进行显示、放大、粘贴和剪辑;它可使声音生成回 波混响、淡入和淡出等特殊效果;可重放声音文件;可控制 CD 音频等。
(2)进入声音编辑Ⅱ软件
①进入 SBPRO\VOCUTIL 子目录。
②敲入 VEdit2[/B:nn]和按 Enter。
  其中,命令行参数/B;nn 设置缓冲区大小。nn 默认值为 16,表示 32K 的缓冲区。声音编辑软件有 7 个菜单命令:File,Record,Play,Pack(压 缩),Edit(编辑),CDisc(CD 盘)和 Volume(音量)。 File 菜单中的 命令主要对声音文件进行装载、存盘等操作:Record 菜单完成录音参数的设 置和声音文件的录制;Play 菜单命令实现对声音文件的播放;Pack 菜单命令 完成对声音文件的压缩;Edit 菜单命令完成声音数据块的插入、删除、修改、 复制、连接等操作;CDisk 单播放 CD 光盘;Volume 菜单调节各种音源的音量。
(3)录制一个声音文件(格式为 VOC)
①选择 Record 菜单中的 Settings 命令设置录音参数。
  ②设置声音存放的地方。在 Rocord 菜单中选择 TO Mem- ory 则存于内 存; To Disk 则以 VOC 文件格式存于磁盘。
(4)声霸卡支持的 VOC 声音文件的组成。声霸卡支持 VOC 格式的声音文

件。一个 VOC 声音文件由一些信息块组成:Header(文件头)、 Voice(声 音块)、 Silence(无声块)、ASCII Text(ASCII 文本块)、 Marker(标 记块)、 Repeat(重复块)、 End Repeat(结束重复)、Terminater(文 件终止)。当我们选择 File 菜单 Load 命令装载声音文件后,就会在屏幕上 出现该文件的块信息窗口。我们可方便地用鼠标在块信息窗口选择一个或多 个连续信息块。在希望选择的某一信息块按一下鼠标,则可选择该信息块; 在希望选择的起始信息块按住鼠标左键,然后拖动鼠标到终止块后松手,则 可选择连续的多个信息块。
  (5)编辑声音文件。我们可用软件中 Edit 菜单的编辑命令对声音文件 的信息数据块进行编辑,来实现声音文件的编辑。假如我们要插入信息块, 首先要用 File 菜单的 Load 命令装载文件;在块信息窗口选择希望插入的地 方;在 Edit 菜单选择 Onsert 命令,出现对话框,在对话框选择插入块的类 型,选择 OK,则将插入一个信息块,插入的信息块显示在块信息窗口。类似 地,我们可以删除、移动、复制、压缩声音文件的信息块。
  (6)改变声音波形特性和特殊的效果处理。使用 Edit 菜单中的 Modify 命令,就可进入对声音波形的操作。可对声音波形进行分解、切割、粘贴和 存储;还可完成放大、回声、淡入/淡出等声音效果的处理。
如上所述,声音编辑软件功能强且丰富,操作简单,能有效地帮助我们
实现声音的输入、输出和充分直接地利用声霸卡的声音处理技术。
4.声音实用软件(Voice Utilities)
  声霸卡软件在 SBPRO\VOCUTIL 子目录下,还给出一些 DOS 命令(以可执 行文件.EXE 形式给出),以实现对 VOC 文件的播放、录音、连接以及与 WAV 格式的声音文件进行设置,还可实现背景声音。
(1)给非 VOC 格式的声音文件加上 VOC 格式的文件头。
命令格式:VOC—HRD(源文件)(目标文件 VOC) 该命令实质上是将其它格式的源声音文件转换为 VOC 格式的声音文件。
(2)播放 VOC 格式声音文件的命令。
  命令格式:VPLAY 文件名 VOC[/B:XX][/S:XX][/T:XX][/Q][/X=“DOS 命令”] 其中,参数 B 设置堆栈尺寸;T 以秒为单位设置播放时间;Q 表示执 行命令时不给出屏幕信息,除非是错误信息;X 表示播放声音的同时执行其
它 DOS 命令。显然,Q 使我们能保持屏幕背景画面不改变;参数 X 使我们能
实现背景声音。这在多媒体软件的开发中很有用。
学校电化教学指导丛书:计算机与多媒体的下一页
成为本站VIP会员VIP会员登录, 若未注册,请点击免费注册VIP 成为本站会员.
版权声明:本站所有电子书均来自互联网。如果您发现有任何侵犯您权益的情况,请立即和我们联系,我们会及时作相关处理。


其它广告
联系我们     广告合作     网站声明     关于我们     推荐PDF     全部分类     最近更新     宝宝博客
蓝田玉PDF文档网致力于建设中国最大的PDF格式电子书的收集和下载服务!