MPEG-4视频压缩基础_网络通信/流媒体

MPEG（活动图象专家组）成立于1988年，是国际标准化组织ISO（The International Organization for Standardization）和IEC（International Electrotechnical Commission）联合工作委员会(JTC1)在信息技术方面的下属研究小组(ISO/IECJTC1/SC29/WG11)，其任务是研究低速率下的视频音频编码标准方案。1998年颁布的MPEG-4标准则主要针对互联网及无线信道的应用，充分考虑了这2种传输条件的特点并提供了一些关键技术。MPEG-4不是一个单纯的视频音频编解码标准，它更多定义的是一种格式和框架，而不是具体的算法，它的出发点是希望建立一个更自由的通信与研发环境，人们可以在系统中加入新算法，从而提供一个更广泛的平台。

一．背景

MPEG-4最初是为提供适应极低码率音频/视频（AV）编码系统的国际标准。如在PSTN传送可视电话及监控，在移动网上各种可能的AV业务，以及多媒体电子邮件、电子报纸、交互式多媒体数据库等。随着研究的深入，它包含的内容和将要起的作用已经远超过了最初的设计思想。

二．特点及优越性

1．基于内容的AV编码

以前AV信息被看作纯粹的数据，编码时没有结合自身包含的内容，例如视频序列被认为是象素的组合。MPEG-4采用了对象的概念，不同的数据源被视作不同的对象，分别编码。数据的接收者不再是被动的，他可以对不同的对象进行自己的操作：删除、添加、移动等。语音、图像、视频等可以作为单独存在的对象，也可以集合成一个更高层的对象，我们称之为场景。举例说明，MPEG-4在编码前首先要对视频序列进行分析和理解以提取目标，其码流信息首先应给出各个目标的场景描述。想象一幅“人在旅途”的场景:“枯藤老树昏鸦,小桥流水人家,古道西风瘦马,夕阳西下,断肠人在天涯。”其场景可分解(或分割)成多个多媒体目标组成。其原始目标包括：

·静止图象:如固定的背景“枯藤”“老树”,“小桥”,“人家”,“古道”,“天涯”

·视频目标(VO :Video Object)。如“昏鸦” ,“瘦马” ,“夕阳” ,“人”

·音频目标:如“昏鸦”呜呜,“流水”潺潺 ,“西风”嗍嗍,“瘦马”长嘶,“人在”短叹;

一幅复杂的画面就由这些可操作的原始目标组成。如果对这些目标分别进行编码，最终用户便可以自由地操纵这些原始目标 (如目标的坐标，视点，动画等)，还可得到一些原始目标的信息。如对“断肠人”的介绍，可在观看场景的同时用鼠标点击“断肠人”也许能得到此人的各种信息或网页，譬如此人名叫“马致远”、“苏东坡”还是“柳永”；爱好是“名山大川”还是“浪迹江湖”等。

优点：

不同对象的独立编码可以取得较高的压缩性能，如背景采用压缩比较高、损失较大的办法编码，运动物体采用压缩比较低、损失较小的办法，在压缩效率与解码质量间得到较好的平衡，同时也带来在终端处可以操纵内容的能力。而传统的压缩方法是基于帧、基于块的，压缩性能不高且无法对对象进行操作。

MPEG-4中的对象操作使得用户可以在用户端直接将不同对象进行拼接，得到用户自己合成的图像，这在传统方法中是无法直接实现的。

2．人工、自然av数据混合编码

提供将自然数据同人工合成数据(如文本、图形等)有效结合的方式，同时支持交互性操作。在传送人工信息时，只需传输生成信息模型所需的参数，接收端根据这些参数就可灵活的再现或改变原始信息。

优点：极大的减少存储和传输的比特量。

3．增强的时间域随机存取

MPEG-4将提供有效的随机存取方式：在有限的时间间隔内,可按帧或任意形状的对象,对一音、视频序列进行随机存取。例如以一序列中的某个音、视频对象为目标进行“快进”搜索。

4．对多个并发数据流的编码

MPEG-4将提供对一景物的有效多视角编码，加上多伴音声道编码及有效的视听同步。在立体视频应用方面，MPEG-4将利用对同一景物的多视点观察所造成的信息冗余。MPEG-4的这一功能在足够的观察视点条件下，将有效地描述三维自然景物。

5．错误易发环境中的抗错性

MPEG-4是第一个在其音、视频表示规范中考虑信道特性的标准。MPEG-4通过再同步（Resynchronization）、数据恢复（Data Recovery）、错误隐藏（Error Concealment）来达到鲁棒性和纠错功能。再同步工具检测到误码时重新在解码器和码流间建立同步，前一同步点与新建同步点间的码流是发生错误的数据，数据恢复是通过标准中提供的一种可逆变长编码技术来恢复两个同步点间的数据。错误隐藏通过对空间纹理相关性和视频前后帧的相关性来对错误区域进行隐藏。

6．基于对象的分级

MPEG-4提供两种基本分级工具：时域分级和空域分级。时域分级是降低帧率，空域分级是降低分辨率。每类分级中对象分两层：基层和增强层。基层提供基本信息，可单独传输解码。增强层提供更高的分辨率和细节，必须与基层一起传输解码。MPEG-4支持时域和空域的混合分级。

优点：

在传输带宽的受限制的情况下,对压缩比特率进行控制会直接影响图像的质量。过去在低比特率的情况下,整帧图像的质量都会受到影响,没有灵活性可言;而MPEG-4中对比特率的控制可以基于对象,即使在低带宽时,也可以利用码率分配的方法,对于用户感兴趣的对象会多分配一点比特率,而对于用户不感兴趣的对象可以少分配一些比特率,这样图像的主观质量就可以得到保证。

MPEG-4在扩展性上具有很好的灵活性,可以根据现场带宽和误码率的客观条件,在时域和空域进行扩展。时域扩展是在带宽允许时在基本层上的增强层中增加帧率,在带宽窄时可在基本层中减少帧率,以达到充分利用带宽,使图像质量更好;空域扩展指的是对基本层中的图进行采样插值,增加或减少空间分辨率。

例如：若视频序列对用户终端太复杂，用户可以对视频序列中较重要的视频对象先解码，不重要的如背景则以较低的空间分辨率、帧率解码或不解码。

支持不同带宽的网络进行多媒体通讯

三． MPEG-4标准组成及技术描述

MPEG-4标准由6部分组成：ISO/IEC 14496-1系统；ISO/IEC 14496-2视频；ISO/IEC 14496-3音频；ISO/IEC 14496-4符合测试；ISO/IEC 14496-5软件模拟；ISO/IEC 14496-6多媒体综合框架（DMIF）。第5部分是一份技术报告，给出了第1、2、3部分的软件实现。下面分别介绍：

1．系统

MPEG-4终端的系统结构见图：

MPEG-4视频压缩基础

图：终端系统结构图

1.1压缩层(compressionlayer)

压缩层接收从同步层传来的压缩格式数据 ,并完成解码操作。这些解码后的信息用于终端的视听对象和合成以及显示等。该层包括对象描述框架、场景描述码流、视听码流以及上载码流等对象。

l 对象描述框架 :对象描述框架是一个或多个基本流描述符的集合 ,可用于识别和描述基本流,并将基本流和场景描述中的视听对象联系起来。对象描述框架由一系列对象描述符、对象内容信息等部分组成，其中核心是对象描述符。对象描述符包含在基本流中，且有唯一的识别符，这个识别符在场景描述中标志一个特定的视听对象，这样就将基本流与特定的对象联系在一起。

l 场景描述码流 : 为了将对象在解码端组成一个有意义的多媒体场景 ,就需要一些附加的信息来描述这些对象什么时间放在什么位置、它们之间的关系以及建立怎样的场景坐标 ,这些信息就叫场景描述(scene description)。MPEG-4描述场景合成信息的语言叫二进制场景格式BIFS(binary format for scenes)，BIFS不仅允许场景中对象的删除和添加，而且可以改变对象属性,可以控制对象行为———进行交互式应用。场景描述信息是一个单独的码流 ,因此对场景码流进行编辑和组合时不需要解码各个对象的码流。同时，场景描述信息中还集成了用户与对象交互的机制。

l 视听码流 :视听码流定义了视频或音频信息的编码定义。在显示场景时再根据场景描述信息将解码重构的视频或音频数据复合起来 ,最后提交给终端用户。

l 上载码流 : 有的交互信息需要作为上行流反馈给发送端 ,即允许客户/服务器方式的交互，这种交互需要上行通道。

MPEG-4视频压缩基础

图：接收端按场景描述实现场景

1.2同步层(sync layer)

同步层从压缩层接收流数据,主要是基本码流数据 ,再将它们传输到传输层。这些数据包中不仅含有定时和同步数据,而且还有随机访问信息。另一方面,同步层从传输层接收数据流 ,从流中提取同步数据,为以后同步解码和基本流解码的合成做准备。同步层忽略每一基本流中传送的数据类型 ,使用统一的机制传送定时和帧信息。同步层提供了一个灵活的语法,可以对所有接入单元的相关特性进行编码并且允许全部或部分接入单元到传输层协议的映射。它具有灵活的可配置的分组功能,允许将定时、分割和连续性信息加在相应的数据分组上。同步层是MPEG-4中实现定时和同步的中心机制,从同步层信息中可以恢复一个时钟基准和基本流。

1.3传输层(deliverylayer)

传输层是对已经存在的各种传输协议的一般描述。这些协议能够用来传输和存储符合MPEG-4标准的视听内容。传输层提供了有关的接口:传输多媒体集成框架DMIF应用接口DAI(DMIF application interface)。该接口规定了大量数据流存储和传输的机制。

大多数的传输层系统提供了自己的复用信息的方法,但有少数例外,如GSM。在低时延方面,现存的复用机制不一定适合MPEG-4,或在处理大量的MPEG-4流时导致开销很大。MPEG-4引进了多路分解器(FlexMux)来统一对底层特殊的存储或传输媒体的访问,只要在传输层的顶部有选择地加上多路分解器, MPEG-4数据的传输可以在MPEG-2传输流、UDP over IP、ATM AAL2、MPEG-4文件或数字音频广播(DAB)多路复用器等多种现有传输系统中进行。

1.4开放、高效、灵活的系统结构

MPEG-4通过灵活组合的工具箱以及解码工具可下载的机制，使其能迅速适应环境的变化。随着技术的进步，工具箱的功能不断加强，而系统就是以工具箱的形式进行组合的，所以系统的功能也就得以不断增强。例如，解码器对一特殊数据解码时，可先下载一些标准的工具，再由这些工具组合成相应的加码算法。

MPEG-4提供了大量的、丰富的音频视频对象的编码工具,能够满足各种各样的应用需要。对于某一特定的应用,只有一部分系统、视频和音频的编码工具被采用,框架(profile)就是针对特定的应用确定要采用的编码工具,它是 MPEG-4提供的工具集的一个子集。每一个框架又根据计算的复杂度分为一个或多个级别(level)。MPEG-4共有4类框架：视频框架、音频框架、图形框架和场景描述框架。

2．视频

一帧1024×768个象素的原始图象,如果每个象素平均用12比特(亮度8比特,色度4比特)来表示,则总共需9MB（1024*768*12/1024/1024）。按30帧/秒的视频速率 ,则在一秒钟内数字视频的数据量是270MB。其吞食硬盘的能力真是比恐龙还厉害。MPEG-4视频目标编码为多媒体诸多应用的视频目标高效存储,传输和操作提供了标准化工具。

2.1数据结构

码流由层次化的数据结构来描述，如图所示：

MPEG-4视频压缩基础

图：The MPEG-4 Video Data Structure

视频序列(VS：Video Sequence)：一个完整的视频包括多个VS。

视频目标(VO：Video Object)：VO即是场景中的特定目标。

视频目标分辨层(VOL：Video Object Layer)：VOL是VO的时间或空间的伸屈性描述。VO的描述可以在不同时间分辨率和空间分辨率上进行。它可以只包括一个基本层,也可以包括多个分辨率增强层。目标的伸屈性即是通过VOL来实现的。

视频目标平面(VOP:Video Object Plane)：VOP是VO在某个时间的存在，是VO在不同VOL层的时间序列。

概括来说，MPEG-4的视频由多个VS组成。而VS是一个或多个VO的集合，VO包含一个或多个VOL分辨层,VOL包括一系列VO在时间上的采样VOP。

所以VS序列(VS0,VS1…… )是整个场景在某段时间上图象系列,VO序列(VO0，VO1，…… )是从VS中提取的不同空间目标,VOL序列(VOL0，VOL，……)是VO的不同分辨层(基本层和多个增强层 )。VOP序列(VOP0，VOP，…… )是VO在不同分辨层的时间采样。而MPEG-4的视频编码就是基于VOP进行的。

MPEG-4用形状、运动和色彩三组参数描写VOP。

形状参数：采用以子块为基础，基于上下文的算术编码。可得到对形状无失真编码。

运动参数：先进性预测，然后再对预测差值进行变长编码（VLC）。

色彩编码：采用类似H.263的帧内/帧间混合编码方法。对VO边界上的子块，MPEG-4用形状自适应DCT（SA-DCT）取代拼贴算法。

基于VOP编码结构的编码器（如图示）主要包括 2部分:VOP的形状编码部分和传统的运动和纹理编码部分。VOP的形状信息(又称Alpha平面 )对各个零散的VO合成整个场景非常重要。它是对场景分割各VO的描述。一般VO的形状是任意的 ,所以要对它进行专门的编码。

MPEG-4视频压缩基础

图：基于VOP的编码结构

2.2自然的视频对象

对于静止对象,MPEG-4采用零树小波算法,并提供高压缩比;同时提供多达11级的空间分辩率和质量可伸缩性。

对于运动视频对象,MPEG-4采用了如图所示的编码框图,以支持对像的编码。从图可见,MPEG-4为了支持基于对象的编码,引入了形状编码模;为了支持高效压缩,MPEG-4仍然采用了MPEG1、MPEG2中的变换、预测混合编码框架。

MPEG-4视频压缩基础

图：运动视频编码框图

为了描述视频对象的形状,MPEG-4专门定义与图像大小相同的α平面(alpha plane),二值α平面分别用 0和255表示在一个图像区域内所有像素点的归属。图 (b)是图 (a)的二值α平面,白色表示该区域内的像素属于当前对象,黑色表示该区域的像素不属于当前对象。二值α平面的编码采用基于块的运动补偿和基于块的上下文相关的二进制算术编码相结合的方法，视频对象的亮度信息和色度信息采用运动补偿和形状自适应的 SADCT(shape adaptive DCT)编码。α平面的定义还可以扩展到0～255级灰度,这样既可以使前景对象叠加到背景上时不至于边界太明显、太生硬,进行一下“模糊”处理,又可以在视频对象的组合中实现半透明和底纹等特殊的视觉效果。

MPEG-4视频压缩基础

2.3 Sprite对象

Sprite对象是针对背景对象的特点提出的。通常情况下背景对象自身没有任何运动,而图像序列中的背景变化是由于摄像机的运动和前景物体的运动所造成的,通过图像的镶嵌技术把整个序列的背景图像拼接成一个大的完全的背景图像,这个图像就叫Sprite图像. Sprite图像只需要编码传输一次并存储在解码端,在随后的图像只需要传输摄像机相对于背景的运动参数,就可以从Sprite上恢复所有的图像的背景,在视频会议和视频电话等场景固定的应用中,背景的全景图可以事先传输过去保存在解码端。实现这种编码必须要有两个前提条件：1.前景对象和背景图像要能很好的分割开；2.要无痕迹的从一段视频或一些图像中拼接出Sprite图像。

2.4基于模型编码和基于语义编码

MPEG-4中更为重要的技术是具体视频对象的计算机建模。通过此技术可以使用对象的参数化操作来代替物体的具体运动。而且,其计算由本地端完成。

基于模型编码MBC(Model Based Coding)首先在发送端和接收端按照事先约定分别建立两个相同的三维模型,发送端分析、提取特征 (如人脸模型的形状参数、运动参数、表情参数等)并编码传输,接收端则利用接收到的特征参数根据建立的模型进行图象综合。MBC利用先验知识确定对象一般线框模型,然后进行调和(adaptation)。

基于语义编码(Semantic based Coding)是针对脸部动作和表情的MBC,定义一些基本动作单元并对其变化 (如嘴由张变合)编码。MPEG-4脸动及表情处理方案是先定义一个中性脸,然后从比特流接收脸定义参数FDPs(Face Definition Parameters)和脸动参数FAPs(Face Animation Parameters),根据FDPs将一般脸调和为具有特定形状及纹理的具体脸,根据FAPs生成语音、表情并茂的脸部动作。

3．音频

MPEG-4音频编码支持对自然音频（如语言、音乐）、基于结构化描述的合成音频的编码。MPEG-4以工具和算法的形式对音频对象进行压缩和控制。

自然音频对象可以在2 kbit/s到 64 kbit/s的码率范围内编码 ,为了在整个码率范围内都得到高质量的音频,MPEG-4定义了3种编码器：参数编码、码本激励线性预测编码和时频编码,自然音频对象的编码支持各种分级编码功能和错误恢复功能。MPEG-4的可伸缩自然音频编码器示意图如下：

MPEG-4视频压缩基础

图：MPEG-4的可伸缩自然音频编码器示意图

根据不同信号特征和码率采用3类编码器：

(1) 2 kbit/s～4 kbit/s (取样频率为8kHz的语音 )和 4 kbit/s～16 kbit/s(取样频率为 8 kHz/16 kHz的音频)最低码率：由各种参量编码技术所覆盖;

(2)约 6 kbit/s～24 kbit/s (取样频率为8 kHz/16 kHz语音)的中等速率码率：采用各种码激励线性预测(CELP)技术,而窄带语音和宽带语音分别由 8kHz/16kHz两种取样频率来支持;

(3) 16 kbit/s～64 kbit/s (取样频率>8 kHz)的较高码率：采用双VQ和自适应音频编码 (AAC)两种音频编码(T/F)技术。对于更高的码率范围,工具中直接引入了MPEG-2 AAC标准,以提供通用的音频压缩方法。

合成音频对象包括结构音频(structured audio)和文语转换(text to speech)。结构音频是一种类似 MIDI的音乐语言,但功能比 MIDI更强大。结构音频使用结构化音频乐谱语言（SASL）进行编码，描述在各个时间段不同的乐器对整个音乐演出的贡献。其相应的解码由结构化音频交响乐语言（SAOL）驱动，按照码流中给出的信息完成声音的产生和处理，从而恢复出音乐。文语转换接受文本(如音高线和音素持续时间等 )输入并输出相应的合成语音 ,在应用时通常与脸部动画、唇语合成等技术结合起来使用。

此外,音频对象还含有对象的空间化特征,不同的空间定位决定了音源的空间位置,这样可以使用人工或自然音源来营造人工声音环境。

4．多媒体综合框架（DMIF）

DMIF把应用从底层通信中分离出来,为应用提供一个通用界面, DMIF对等体(peer)是一个可以通过网络与目标实体(target entity)建立会话的终端系统,目标实体可以是DMIF对等体、传输流或者已存储的文件 ,应用通过DMIF界面为每个元素流申请具有特定QoS和带宽的通道以建立会话, DMIF给每个会话标识唯一的地址并负责会话的适时建立。在原理上DMIF与FTP类似，但FTP传输的是数据，而DMIF传输的是指针。

四．应用

1交互式AV服务：基于内容的数据库存取、游戏、AV家庭编辑（房屋设计）

2高级AV通信服务：移动AV终端、改进PSTN AV通信、电子商店（家中购物）

3远程监控：战场侦察、安全监视

4 Internet多媒体:检索多媒体信息、视频流、播放MPEG-4格式的超清晰视频文件（一部DVD电影用650M光盘就可以存储）

5多媒体邮件

6远程医疗系统

7无线电与广播电视

下面具体讲MPEG-4在用户机顶盒中的应用：

通常,机顶盒将接收MPEG-2传输流,携带着MPEG-2视频和音频数据,并且可能还有一些位于用户定义区的数据和类似应用程序的程序。如图(ａ)所示,从传输流中获得基本流,经MPEG-2解码 ,恢复出视频和音频信号。但是,在MPEG-4方案中,MPEG-2传输流中也可以携带MPEG-4码流,在传统的设置里,解复用器将丢弃这些信息。这使得携带附加MPEG-4数据的比特流向后完全兼容。另一方面 ,在具有MPEG-4解码器的机顶盒上,从解复用器输出的MPEG-4码流送到MPEG-4解码器中,按MPEG-4语法恢复出视频和音频信息,如图(ｂ)所示。