多媒体音频、视频文件格式  

      及其播放器概览

陈泽宇  黄海晔     

  多媒体技术从根本上改变了昔日基于字符的各种计算机处理,动感十足的图象、声音给计算机带来了无限生机。多媒体技术的核心就是使用计算机综合处理声音、文字、图象等多媒体信息,使得计算机更富有娱乐性、更趋人性化。
  通常所说的“多媒体”,主要包括文本、图象、声音、动画、影象,其中,文本是计算机中数字信息的最基本的表现方式,而其他几种媒体则是随着计算机数字信号处理能力的加强而逐渐发展起来的。[鉴于静止图象格式(包括JPEG/JPG、TIFF/TIF、PCX等)已在今年本刊的第三期上有介绍,本文将侧重于介绍常见的音频、动画、影象文件格式,另外除了一些多媒体播放软件之外,我们还将针对多媒体的网络应用,介绍几种典型的多媒体网络传输标准]。
  在介绍多媒体文件格式之前,有必要首先提一提多媒体数据压缩的问题。我们知道,计算机中的所有信息(包括音频、视频等)都是以数字形式存储和传输的,未经压缩的数据信息通常要占据巨大的存储空间。例如,一幅640×480的256色(8位)图象的数据量约为300KB,65536色(16位)图象的数据量约600KB,而一分钟CD音质的音频文件一般需要10MB左右的存储空间,至于由成百上千帧彩色图象和几十分钟音频信息所组成的视频文件,其巨大的数据量更是令计算机的存储设备和数据处理能力捉襟见肘,如影象要求每秒播放25~30帧图象,这样,640×480的256色全活动图象,要求达到每秒7.5~9MB的数据处理能力,而对于真彩色视频信息,则数据量将更大。因此,必须对这些多媒体信息进行数据压缩,使之适应计算机的数据处理能力和网络的数据传输速率,同时尽可能保证其视听质量不低于人们的一般接受水平。多媒体技术中常用的数据压缩算法分为两大类:无损压缩和有损压缩,无损压缩保证在数据压缩和还原过程中,多媒体信息没有任何的损耗或失真,其压缩效率通常较低;有损压缩则采用一些高效的有限失真数据压缩算法,大幅度减少多媒体中的冗余信息,其压缩效率远高于无损压缩。通常情况下,数据压缩率越高,信息的损耗或失真也越大,需要进行某种折衷,找出一个相对平衡点。这两大类数据压缩方法,又包括很多不同的算法,有着不同的应用,本文介绍的绝大多数多媒体文件格式,均采用了其中的一种或几种算法。

常见的音频文件格式

  音频文件通常分为两类:声音文件和MIDI文件,声音文件指的是通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据,通常文件较大;而MIDI文件则是一种音乐演奏指令序列,相当于乐谱,可以利用声音输出设备或与计算机相连的电子乐器进行演奏,由于不包含声音数据,其文件尺寸较小。
   1. 声音文件
  数字音频同CD音乐一样,是将真实的数字信号保存起来,播放时通过声卡将信号恢复成悦耳的声音。然而,这样存储声音信息所产生的声音文件是相当庞大的,因此,绝大多数声音文件采用了不同的音频压缩算法,在基本保持声音质量不变的情况下尽可能获得更小的文件。
  Wave文件——.WAV
  Wave格式是Microsoft公司开发的一种声音文件格式,它符合RIFF(Resource Interchange File Format)文件规范,用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持。Wave格式支持MSADPCM、CCITT ALaw、CCITT μLaw和其他压缩算法,支持多种音频位数、采样频率和声道,是PC机上最为流行的声音文件格式,但其文件尺寸较大,多用于存储简短的声音片断。
  AIFF文件——.AIF/.AIFF
  AIFF是音频交换文件格式(Audio Interchange File Format)的英文缩写,是苹果计算机公司开发的一种声音文件格式,被Macintosh平台及其应用程序所支持,Netscape Navigator浏览器中的LiveAudio也支持AIFF格式,SGI及其他专业音频软件包也同样支持这种格式。AIFF支持ACE2、ACE8、MAC3和MAC6压缩,支持16位44.1kHz立体声。
  Audio文件——.AU
  Audio文件是Sun Microsystems公司推出的一种经过压缩的数字声音格式,是Internet中常用的声音文件格式,Netscape Navigator浏览器中的LiveAudio也支持Audio格式的声音文件。
  Sound文件——.SND
  Sound文件是NeXT Computer公司推出的数字声音文件格式,支持压缩。
  Voice文件——.VOC
  Voice文件是Creative Labs(创新公司)开发的声音文件格式,多用于保存Creative Sound Blaster(创新声霸)系列声卡所采集的声音数据,被Windows平台和DOS平台所支持,支持CCITT ALaw和CCITT μLaw等压缩算法。
  MPEG音频文件——.MP1/.MP2/.MP3
  MPEG是运动图象专家组(Moving Picture Experts Group)的英文缩写,代表MPEG运动图象压缩标准,这里的音频文件格式指的是MPEG标准中的音频部分,即MPEG音频层(MPEG Audio Layer)。MPEG音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为三层(MPEG Audio Layer 1/2/3),分别对应MP1、MP2和MP3这三种声音文件。MPEG音频编码具有很高的压缩率,MP1和MP2的压缩率分别为4∶1和6∶1~8∶1,而MP3的压缩率则高达10∶1~12∶1,也就是说一分钟CD音质的音乐,未经压缩需要10MB存储空间,而经过MP3压缩编码后只有1MB左右,同时其音质基本保持不失真,因此,目前使用最多的是MP3文件格式。
  RealAudio文件——.RA/.RM/.RAM
  RealAudio文件是RealNetworks公司开发的一种新型流式音频(Streaming Audio)文件格式,它包含在RealNetworks公司所制定的音频、视频压缩规范RealMedia中,主要用于在低速率的广域网上实时传输音频信息。网络连接速率不同,客户端所获得的声音质量也不尽相同:对于14.4Kbps的网络连接,可获得调幅(AM)质量的音质;对于28.8Kbps的连接,可以达到广播级的声音质量;如果拥有ISDN或更快的线路连接,则可获得CD音质的声音。
   2. MIDI文件
  MIDI文件——.MID/.RMI
  MIDI是乐器数字接口(Musical Instrument Digital Interface)的英文缩写,是数字音乐/电子合成乐器的统一国际标准,它定义了计算机音乐程序、合成器及其他电子设备交换音乐信号的方式,还规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议,可用于为不同乐器创建数字声音,可以模拟大提琴、小提琴、钢琴等常见乐器。在MIDI文件中,只包含产生某种声音的指令,这些指令包括使用什么MIDI设备的音色、声音的强弱、声音持续多长时间等,计算机将这些指令发送给声卡,声卡按照指令将声音合成出来,MIDI声音在重放时可以有不同的效果,这取决于音乐合成器的质量。相对于保存真实采样数据的声音文件,MIDI文件显得更加紧凑,其文件尺寸通常比声音文件小得多。
   3. 模块文件——.MOD/.S3M/.XM/.MTM/.FAR/.KAR/.IT
  模块(Module)格式是一种已经存在了很长时间的声音记录方式,它同时具有MIDI与数字音频的共同特性。模块文件中既包括如何演奏乐器的指令,又保存了数字声音信号的采样数据,为此,其声音回放质量对音频硬件的依赖性较小,也就是说,在不同的机器上可以获得基本相似的声音回放质量。模块文件根据不同的编码方法有MOD、S3M、XM、MTM、FAR、KAR、IT等多种不同格式。up.gif (931 字节)

常见的视频文件格式

  广义的视频文件细分起来,又可以分两类,即动画文件和影象文件:动画文件指由相互关联的若干帧静止图象所组成的图象序列,这些静止图象连续播放便形成一组动画,通常用来完成简单的动态过程演示;影象文件,主要指那些包含了实时的音频、视频信息的多媒体文件,其多媒体信息通常来源于视频输入设备,由于同时包含了大量的音频、视频信息,影象文件往往相当庞大,动辄几MB甚至几十MB。
   1. 动画文件
  GIF文件——.GIF
  GIF是图形交换格式(Graphics Interchange Format)的英文缩写,是由CompuServe公司于80年代推出的一种高压缩比的彩色图象文件格式。CompuServe公司是一家著名的美国在线信息服务机构,针对当时网络传输带宽的限制,Compu Serve公司采用无损数据压缩方法中压缩效率较高的LZW(LempelZiv & Welch)算法,推出了GIF图象格式,主要用于图象文件的网络传输,鉴于GIF图象文件的尺寸通常比其他图象文件(如PCX)小好几倍,这种图象格式迅速得到了广泛的应用。考虑到网络传输中的实际情况,GIF图象格式除了一般的逐行显示方式之外,还增加了渐显方式,也就是说,在图象传输过程中,用户可以先看到图象的大致轮廓,然后随着传输过程的继续而逐渐看清图象的细节部分,从而适应了用户的观赏心理,这种方式以后也被其他图象格式所采用,如JPEG/JPG等。最初,GIF只是用来存储单幅静止图象,称GIF87a,后来,又进一步发展成为GIF89a,可以同时存储若干幅静止图象并进而形成连续的动画,目前Internet上大量采用的彩色动画文件多为这种格式的GIF文件。
  Flic文件——.FLI/.FLC
  Flic文件是Autodesk公司在其出品的Autodesk Animator / Animator Pro / 3D Studio等2D/3D动画制作软件中采用的彩色动画文件格式,其中,.FLI是最初的基于320×200分辨率的动画文件格式,而.FLC则是.FLI的进一步扩展,采用了更高效的数据压缩技术,其分辨率也不再局限于320×200。Flic文件采用行程编码(RLE)算法和Delta算法进行无损的数据压缩,首先压缩并保存整个动画序列中的第一幅图象,然后逐帧计算前后两幅相邻图象的差异或改变部分,并对这部分数据进行RLE压缩,由于动画序列中前后相邻图象的差别通常不大,因此采用行程编码可以得到相当高的数据压缩率。
  GIF和Flic文件,通常用来表示由计算机生成的动画序列,其图象相对而言比较简单,因此可以得到比较高的无损压缩率,文件尺寸也不大。然而,对于来自外部世界的真实而复杂的影象信息而言,无损压缩便显得无能为力,而且,即使采用了高效的有损压缩算法,影象文件的尺寸也仍然相当庞大。
   2. 影象文件
  AVI文件——.AVI
  AVI是音频视频交错(Audio Video Interleaved)的英文缩写,它是Microsoft公司开发的一种符合RIFF文件规范的数字音频与视频文件格式,原先用于Microsoft Video for Windows (简称VFW)环境,现在已被Windows 95/98、OS/2等多数操作系统直接支持。AVI格式允许视频和音频交错在一起同步播放,支持256色和RLE压缩,但AVI文件并未限定压缩标准,因此,AVI文件格式只是作为控制界面上的标准,不具有兼容性,用不同压缩算法生成的AVI文件,必须使用相应的解压缩算法才能播放出来。常用的AVI播放驱动程序,主要是Microsoft Video for Windows或Windows 95/98中的Video 1,以及Intel公司的Indeo Video。AVI文件目前主要应用在多媒体光盘上,用来保存电影、电视等各种影象信息,有时也出现在Internet上,供用户下载、欣赏新影片的精彩片断。
  QuickTime文件——.MOV/.QT
  QuickTime是Apple计算机公司开发的一种音频、视频文件格式,用于保存音频和视频信息,具有先进的视频和音频功能,被包括Apple Mac OS、Microsoft Windows 95/98/NT在内的所有主流电脑平台支持。QuickTime文件格式支持25位彩色,支持RLE、JPEG等领先的集成压缩技术,提供150多种视频效果,并配有提供了200多种MIDI兼容音响和设备的声音装置。新版的QuickTime进一步扩展了原有功能,包含了基于Internet应用的关键特性,能够通过Internet提供实时的数字化信息流、工作流与文件回放功能,此外,QuickTime还采用了一种称为QuickTime VR (简作QTVR)技术的虚拟现实(Virtual Reality, VR)技术,用户通过鼠标或键盘的交互式控制,可以观察某一地点周围360度的景象,或者从空间任何角度观察某一物体。QuickTime以其领先的多媒体技术和跨平台特性、较小的存储空间要求、技术细节的独立性以及系统的高度开放性,得到业界的广泛认可,目前已成为数字媒体软件技术领域的事实上的工业标准。国际标准化组织(ISO)最近选择QuickTime文件格式作为开发MPEG4规范的统一数字媒体存储格式。
  MPEG文件——.MPEG/.MPG/.DAT
  MPEG文件格式是运动图象压缩算法的国际标准,它采用有损压缩方法减少运动图象中的冗余信息,同时保证每秒30帧的图象动态刷新率,已被几乎所有的计算机平台共同支持。MPEG标准包括MPEG视频、MPEG音频和MPEG系统(视频、音频同步)三个部分,前文介绍的MP3音频文件就是MPEG音频的一个典型应用,而Video CD (VCD)、Super VCD (SVCD)、DVD (Digital Versatile Disk)则是全面采用MPEG技术所产生出来的新型消费类电子产品。MPEG压缩标准是针对运动图象而设计的,其基本方法是:在单位时间内采集并保存第一帧信息,然后只存储其余帧相对第一帧发生变化的部分,从而达到压缩的目的,它主要采用两个基本压缩技术:运动补偿技术(预测编码和插补码)实现时间上的压缩,变换域(离散余弦变换DCT)压缩技术实现空间上的压缩。MPEG的平均压缩比为50∶1,最高可达200∶1,压缩效率非常高,同时图象和音响的质量也非常好,并且在微机上有统一的标准格式,兼容性相当好。
  RealVideo文件——.RM
  RealVideo文件是RealNetworks公司开发的一种新型流式视频文件格式,它包含在RealNetworks公司所制定的音频视频压缩规范RealMedia中,主要用来在低速率的广域网上实时传输活动视频影象,可以根据网络数据传输速率的不同而采用不同的压缩比率,从而实现影象数据的实时传送和实时播放。RealVideo除了可以以普通的视频文件形式播放之外,还可以与RealServer服务器相配合,在数据传输过程中边下载边播放视频影象,而不必像大多数视频文件那样,必须先下载然后才能播放。目前,Internet上已有不少网站利用RealVideo技术进行重大事件的实况转播。up.gif (931 字节)

新型的流式视频格式

  目前,基于TCP/IP协议的Internet是多媒体数据传输的主要途径,然而,有限的网络带宽限制了视频数据的实时传输,解决问题的关键在于采用使图象帧内、帧间相关性趋近于零的有损压缩方式,同时以减小图象尺寸及每秒帧数(帧率)为代价,实现视频信息的实时传送和实时播放,由此,新型的流式视频(Streaming Video)格式便应运而生。流式视频格式中,视频流的作用在于缓冲视频并实时播放它,低分辨率、低帧率的视频画面首先出现,允许用户快速决定是否继续观看视频或把它下载到硬盘中,如果有较多的下载时间或者较快的网络连接,该视频将持续改善画面质量和显示帧率,直到所有的视频数据都已下载到客户机中为止,这种边传边播的方法避免了用户必须等待整个文件从Internet上全部下载完毕才能观看的缺点。到目前为止,Internet上使用较多的流式视频格式主要是以下三种:RealNetworks公司的RealMedia、Apple计算机公司的QuickTime、以及Microsoft公司的Advanced Streaming Format (ASF)。
   1. RealMedia
  RealNetworks公司所制定的音频视频压缩规范称为RealMedia,是目前在Internet上相当流行的跨平台的客户/服务器结构的多媒体应用标准,它采用音频/视频流和同步回放技术来实现在Intranet上全带宽地提供最优质的多媒体,同时也能够在Internet上以28.8Kbps的传输速率提供立体声和连续视频。RealMedia包括三类文件:RealAudio、
RealVideo及RealFlash,RealAudio用来传输接近CD音质的音频数据,RealVideo用来传输连续视频数据,而RealFlash则是RealNetworks公司与Macromedia公司新近合作推出的一种高压缩比的动画格式。RealMedia根据网络数据传输速率的不同制定了不同的压缩比率,现在大多使用其中的14.4Kbps、28.8Kbps以及ISDN 56Kbps这三种不同速率下的RealMedia流格式。
整个Real系统由三个部分组成:RealServer (服务器)、RealEncoder (编码器)和RealPlayer (播放器)。RealEncoder负责将已有的音频和视频文件或者现场的音频和视频信号实时转换成RealMedia格式,RealServer负责广播RealMedia格式的音频或视频,而RealPlayer则负责将传输过来的Real Media格式的音频或视频数据流实时播放出来。
   2. QuickTime
  Apple计算机公司的QuickTime是数字媒体领域事实上的工业标准,可以通过Internet提供实时的数字化信息流、工作流与文件回放功能,它由三个不同部分所组成:QuickTime电影(Movie)文件格式、QuickTime媒体抽象层以及QuickTime内置媒体服务系统。QuickTime电影文件格式定义了存储数字媒体内容的标准方法,使用这种文件格式不仅可以存储单个的媒体内容(如视频帧或音频采样),而且能保存对该媒体作品的完整描述;QuickTime媒体抽象层是一种综合性的媒体软件架构,它定义了软件工具和应用程序如何访问QuickTime内置媒体服务系统,以及如何通过硬件提升QuickTime的关键性能;而QuickTime内置媒体服务系统则可作为软件开发工具的基础,帮助软件开发商和用户充分利用QuickTime的技术优势。
  为了适应Internet上的网络多媒体应用,QuickTime为多种流行的浏览器软件提供了相应的QuickTime Viewer插件(Plug-in),能够在浏览器中实现多媒体数据的实时回放。该插件的“快速启动(Fast Start)”功能,为视频数据的第一帧画面设置了很高的优先级,用户几乎能在发出请求的同时便收看到第一帧视频画面,而且,该插件可以在视频数据下载的同时就开始播放视频图象,用户不需要等到全部下载完毕就能进行欣赏。此外,QuickTime还提供了自动速率选择功能,当用户通过调用插件来播放QuickTime多媒体文件时,能够自己选择不同的连接速率而下载并播放相应图象质量的交互式多媒体文件。
   3. Advanced Streaming Format
  Microsoft公司推出的Advanced Streaming Format (ASF,高级流格式),是一个独立于编码方式的在Internet上实时传播多媒体的技术标准,Microsoft公司希望用ASF取代QuickTime之类的技术标准以及WAV、AVI之类的文件扩展名,并打算将ASF用作将来的Windows版本中所有多媒体内容的标准文件格式。ASF的主要优点包括:本地或网络回放、可扩充的媒体类型、部件下载、可伸缩的媒体类型、流的优先级化、多语言支持、环境独立性、丰富的流间关系以及扩展性等。
  NetShow服务器和NetShow播放器是ASF应用的主要部件,两者间传送的是现场的ASF流或存储ASF流的ASF文件(.ASF)。ASF流是通过网络传输的信息流,它既可以是从NetShow服务器发出的ASF文件,也可以是由ASF实时编码器进行编码后得到的现场信息。当实时编码器对现场信息进行编码并加入到ASF流之后,编码器将该ASF流发送到NetShow服务器,再由NetShow服务器将ASF流发送给网络上的所有NetShow播放器,从而实现单路广播或多路广播,而NetShow播放器则专门接收经过单路广播或多路广播发来的ASF信息流并且实时播放。up.gif (931 字节)

常用的多媒体播放器

  以上介绍的不同格式的多媒体文件,都要求用户的操作系统中安装有对应的多媒体播放软件,这些软件大致可分为两类:可独立运行的多媒体播放器应用程序以及依赖于浏览器的多媒体应用插件(Plugin)。
   1. 多媒体播放器应用程序
最初的多媒体播放软件,通常是与多媒体文件格式一一对应的,因此,为了能够播放多种格式的多媒体文件,用户必须安装不同的播放软件。此后,随着多媒体应用的不断发展,出现了集成式多媒体播放器软件,在支持多种格式多媒体文件的同时,保持统一的用户操作界面,Windows系统中的媒体播放器和JetAudio播放软件是其典型代表。
  (1) 媒体播放器(Media Player)
  Windows操作系统从Windows 3.1直到Windows 95/98/NT,均内置了媒体播放器(Media Player)软件,这是一个Windows下的应用程序,主要用于控制多媒体设备并播放多媒体文件,如声音、音乐、动画、视频等。通过媒体播放器,用户可以直接播放声音文件(WAV文件)、MIDI音乐(MID文件和RMI文件)以及CD音乐,而更为重要的是,媒体播放器能够与支持MCI(媒体控制接口)的第三方应用程序紧密配合,从而扩展其功能,例如,如果安装了Video For Windows,媒体播放器便可以播放AVI文件(该功能从Windows 95开始作为系统的内置功能),同样,一旦安装了MPEG或QuickTime的播放程序,媒体播放器便可以播放MPEG文件、VCD影片或是QuickTime文件了。
  (2) JetAudio多媒体播放器
  JetAudio软件是由韩国Cowon公司开发的一种集成式多媒体播放器,其华丽的操作界面酷似顶级的音响组合,使Windows下的其他播放器软件相形见绌、黯然失色。除此之外,JetAudio的最主要特色是对众多不同多媒体格式的良好支持,它可以播放Audio CD、WAV、AIF/AIFF、AU、SND、MP1~MP3、RA、MID/RMI、MOD、S3M、XM、IT等音频文件以及AVI、MOV/QT、MPG/MPEG、RM等视频文件。此外,JetAudio还具有数字信号处理(DSP)功能,能够模拟大厅(Hall)、室内(Room)、舞台(Stage)以及露天体育场(Stadium)的3D音响效果。
  此外,包括超级解霸、VCD PowerPlayer、Sea、ACDSee、Pica View等在内的其他许多视频、音频、图象、动画播放软件,通常也同时支持若干种不同的多媒体文件格式,以方便用户的使用。
   2. 浏览器的多媒体应用插件(Plugin)
  在Internet上,浩如烟海的各种信息被保存在无法计数的文件中,想让浏览器认识每一种多媒体文件格式几乎是不可能的事,而Plugin作为一种嵌入浏览器内部的小插件,却能扩大浏览器的“眼界”,帮助用户领略网上的绮丽美景。Internet上的绝大多数Plugin插件,均可以与流行的浏览器软件(如Microsoft Internet Explorer或Netscape Communicator/Navigator)协同工作。
  以下是几个常用的Plugin插件,可以从PC World Online (http://www.pcworld.com)等软件站点上免费下载得到,它们都以可执行安装文件的形式存在,用户可以像安装其他Windows应用程序那样安装它们。通常情况下,这些安装程序除了安装供浏览器使用的应用插件Plugin之外,往往还同时安装可独立运行的播放软件、以及供媒体播放器使用的MCI接口软件。
  QuickTime Viewer:Apple公司的QuickTime观看软件。
  RealPlayer:RealNetworks公司的流式媒体播放软件。
  Indeo Video Interactive:Intel公司的Indeo视频交互插件,支持新版的AVI文件格式。
  Shockwave Player:Macromedia公司的Shockwave播放器,可以在网上观赏多媒体产品演示或者参与到互动式游戏中。
  VivoActive Player:Vivo软件公司的视频文件(.VIV)播放器。up.gif (931 字节)

(作者单位:华东师范大学电子科学技术系)    

摘自电脑技术 Next-->page>>回上一页,看更多资料