视频会议系统基础理论
课程目标:
l 掌握视频会议基本原理 l 了解视讯系统协议 l 学习视音频编解码技术
目 录
第1章 视讯产品基础知识..........................................................................................................................1 1.1 视讯产品基本功能............................................................................................................................1 1.2 视讯发展历程....................................................................................................................................1 1.3 视频会议系统应用领域....................................................................................................................1 1.4 视频会议系统类型............................................................................................................................2 1.5 组网....................................................................................................................................................9 第2章 视讯系统相关协议........................................................................................................................17 2.1 视讯系统协议概述..........................................................................................................................17
2.1.1 H.300系列协议......................................................................................................................17 2.1.2 ITU-T有关视讯会议的技术规程..........................................................................................18 2.1.3 ISO/IEC等有关技术规程......................................................................................................19 2.2 ITU-T H.320建议.............................................................................................................................20 2.3 ITU-T H.221建议.............................................................................................................................21 2.4 T.120系列建议.................................................................................................................................23 2.5 ITU-T H.323建议.............................................................................................................................24
2.5.1 H.323会议系统的结构..........................................................................................................24 2.5.2 H.323会议系统中的数据通信..............................................................................................27 2.5.3 H.323会议系统中的码流复用..............................................................................................27 2.5.4 H.323会议系统中的QoS保证.............................................................................................28 2.5.5 H.320与H.323技术比较......................................................................................................29 2.5.6 SIP与H.323...........................................................................................................................30
第3章 视音频编解码技术........................................................................................................................31 3.1 基础知识..........................................................................................................................................31
3.1.1 视频信号数字化....................................................................................................................31 3.1.2 数字图象压缩的必要性........................................................................................................32 3.1.3 数字图象压缩的可能性........................................................................................................33 3.1.4 语音编码的技术指标............................................................................................................34 3.1.5 语音编码的分类....................................................................................................................35
i
3.2 视频编码算法...................................................................................................................................35
3.2.1 H.261........................................................................................................................................36 3.2.2 H.263、H263+、H263++.......................................................................................................39 3.2.3 H.264........................................................................................................................................41 3.2.4 MPEG-1...................................................................................................................................42 3.2.5 MPEG-2...................................................................................................................................42 3.2.6 MPEG-3...................................................................................................................................43 3.2.7 MPEG-4...................................................................................................................................43 3.2.8 MPEG-7和MPEG-21.............................................................................................................44 3.2.9 常见视频压缩算法特点比较.................................................................................................44 3.3 音频编码算法...................................................................................................................................45
3.3.1 G.711........................................................................................................................................46 3.3.2 G.722........................................................................................................................................46 3.3.3 G.728........................................................................................................................................46 3.3.4 G.723.1.....................................................................................................................................46 3.3.5 G.729........................................................................................................................................47 3.3.6 MPEG.......................................................................................................................................47
ii
第1章 视讯产品基础知识
& 知识点
l 视讯技术发展历程 l 视频会议应用领域 l 视频会议组网 l 音视频外设知识
1.1 视讯产品基本功能 1.2 视讯发展历程
1964年,美国贝尔实验室展出了第一台可视电话机,在一个模拟话路上传送黑白静止图像,这是最早期的视讯设备。到了80年代初,英,法等七国研制出2 M的彩色视频会议系统,并制定相关协议,推动了视讯技术的发展。1988年~1990年,ITU-T H.200,ITU-T H.261等相关协议诞生,为视频会议的互通互控奠定了基础。我国在1978年,首次开通了视频会议实验业务。80年代末,南京邮电学院研制成功8 M彩色数字电视会议,并进行了联网试运行。1994年,完成首批复合ITU-T H.320协议的视频会议系统。
1995年,中兴通讯经过深入调研决定进入多媒体通讯领域,开发视频会议产品。1996年,成功开发出大型房间式视频会议系统,产生了巨大的影响。1998年中兴通讯视频会议产品迅速占领国内市场,连续五年保持国内市场占有率第一名。 中兴通讯在全球首家推出多画面系统,使会议终端收到的不再是单一会场图像。全球首家实现了FASTLOCK技术,确保线路终断后,可以自动恢复连接,只需2秒钟,适应了国内传输误码高的现状。首家在标准算法上增加了SOFTVIEW技术,在保证互通的基础上提高了图像质量。首家推出了触摸屏控制,界面不显示在电视机上,大大方便了客户的使用。首家实现MCU三级以上级联,首家实现T.120数据会议级联。
1.3 视频会议系统应用领域
视频会议系统的主要应用领域如下:
1
视频会议系统基础理论
l l
远程会议:各级政府机关可利用视频会议系统召开各种行政会议。 管理与监督应用:企业主管可利用视讯会议来管理和控制分散各地的分公司,同时数据会议可以使资料和见解的交流更充分。
l 专网调度、管理:铁路、航空和电力管理部门可建成三级自动网,进行监督、管理。
l 销售和推广:销售部门可用视讯会议将新产品迅速在全国和世界各地展示和推广,可当面沟通以争取时效和节省成本。
l 远程教育与培训:企业可利用视讯会议对各地分公司员工同时进行培训,而学校则可对不同校区或相关机构演讲或上课。
l 协同工作:跨公司、学校的合作计划可以通过视讯会议共同讨论设计,而图片与资料亦可同时传送,即所谓的CSCW(Computer Support Cooperative Work)或称为GroupWare。
l 工程发展与维护:资深的工程师通常资源宝贵,通过视讯会议可以对远程的工程人员进行指导、讨论,或对突发事故作紧急抢修或维护。
l 商业电视(BTV):提供点对多点的视频广播服务,以提供娱乐和商业广告用途。旅馆业、有线电视网用户将是BTV的首批用户。
l 远程医疗:使医院可以对异地的病人进行远程医疗,高质量的图像传输和显示(CT和 X光照片),以及充分的交流讨论(专家会诊)是关键所在。
l 视频会议系统可使使用者远程商讨决策、提高工作效率,并节省时间和费用。
1.4 视频会议系统类型
根据系统使用的网络划分,目前的视频会议系统主要有ITU-T H.320,ITU-T H.310,ITU-T H.321,ITU-T H.322,ITU-T H.323,ITU-T H.324等六个类型。 l
ITU-T H.320系统基于P×64 K的数字传输网络,典型应用环境是N-ISDN,DDN,E1专线等,这类网络采用ITU-T H.221媒体复用帧格式,曾经是使用最为广泛的视频会议系统。 l
ITU-T H.310,ITU-T H.321系统基于ATM网络环境。其中,ITU-T H.310采用符合ATM的媒体复用格式,而ITU-T H.321采用ITU-T H.221的复接
2
第1章 视讯产品基础知识
方式,通过宽带适配器介入ATM网络中,也就是说,在ATM网络中集成传统网络方式。这是ATM在使用初期最为常见的一种使用方式。 l
ITU-T H.322是基于保证质量的LAN上的视频会议系统,除了网络物理接口不一样外,它与ITU-T H.320系统使用相同的协议。 l
ITU-T H.323是基于分组网络的系统,采用IP网络组网方式。这种视频会议系统在目前正得到全面发展和广泛使用,它比基于H.320协议的视频会议系统更适合各企事业单位,是视频会议的发展方向。 l
ITU-T H.324是基于PSTN的系统,目前有许多终端厂商推出的可视电话便采用这种方式。
本教材主要介绍ITU-T H.320和ITU-T H.323两个视频会议系统。 1. ITU-T H.320视频会议系统
视频会议系统主要由终端设备、传输信道和多点控制单元(MCU)三部分组成,其中会议终端和多点控制单元是视频会议设备,传输信道主要是借助于现存通信网。视频会议系统在通信网上运行,设备性能必须服从网络的各项要求。 视频会议系统也可以包括网管部分,以实现对会议网、会议和会议终端的控制。实际应用中,可以通过在MCU的控制台上的操作来实现网管功能,即以本地控制代替网管控制。 l
终端设备
视频会议系统的终端设备,通过视频处理、音频处理和复用、解复用等功能,把会议室信息变为可传输数据码流送上传输,同时把来自MCU的其他终端的会场信息通过音像设备广播出来。 l
传输通道
视频会议的传输介质可以采用光纤、同轴、卫星等各种通信信道,还可以采用HDSL进行距离延伸,可以借助ISDN、DDN、ATM,甚至LAN进行组网。 l
多点控制单元
MCU的作用就像PSTN中的交换机,但相比于交换机来说,MCU处理的是图像等宽带业务,而且对业务的处理也不仅仅是交换,而是对不同的信息源作不同的处理。 (1) 会议终端
3
视频会议系统基础理论
视频会议终端设备将视频、音频、数据和信令等各种数字信号分别进行处理后组合成一路复合的数字码流,再将它转变为用户-网络接口兼容的,符合传输网络所规定的信道帧结构的信号格式送上信道进行传输。另一方面,它要将从传输网接收来的数据码流分离为不同信号,分别处理,通过电视机、扩音器等辅助设备转换为视频、音频和可采集数据。 视频会议终端设备主要完成以下四项功能: l
完成用户视频、音频和数据信号的输入与输出功能
一般输入到终端的视频、音频都是模拟信号,终端的I/O设备将他们进行数字化,变为数字视音频信号。例如,将模拟视频信号首先变为PCM数字视频,进而再转化为CIF或QCIF的数字视频;将音频信号变为PCM数字音频信号。数据信号的输入比较简单,只要符合数据输入接口标准就行(如RS-232C等)。
由于最终送到用户声像设备的信号必须是模拟信号,因此,视频会议终端还要将经解码后得到的数字视频信号重新转化为模拟信号输出,作为用户监视器和音响设备的输入。 l
对数字视频、音频信号进行压缩编解码功能
视频信号的压缩编解码按照H.261,H.263,甚至于MPEG-2建议进行,音频信号的编解码可以选用G.711,G.722或G.728标准。其中G.711标准的语音编解码能力是每个终端必须具备的,其他两种编解码能力是可以选用的。选用是有条件的,必须在通信的双方或多方都具有此种能力,并通过控制和指示信号达成一致使用的情况下方可生效。
视频信号的编解码还包括对数字视频的缓存和纠错编解码,缓存的作用是将编码后输出的不定速率的视频信号,经缓冲存储后变为固定速率的视频信号,然后再对这一信号进行纠错编码。典型的BCH(511,493)纠错是指在每493个BIT的信息码后面插入18个BIT的纠错码,接收端通过对接收信号的检测,可以纠正1个BIT并能够检测出两个BIT的误码,传输的误码率可达10以下。 l
信道传输功能
它包括对各种媒体信号的多路复用/解复用,以及终端和信道接口等功能。多路复用是将压缩编码后的音频、纠错后的视频、数据信号及控制信号合成为一路数据码流送往接口电路。按照不同信号传输码的要求,接口电路将复用电路送来的符合H.221帧结构的信道码流进行信号及波形转换。如
4
-6
第1章 视讯产品基础知识
为了满足E1信道的传输要求,必须将终端输出的码流转变为符合G.703标准的HDB3码后送上信道进行传输。
以上是信道传输中的发送功能,信道接收功能与发送部分相反,不再赘述。 l
系统控制功能
终端设备中的系统控制模块完成对I/O模块、编解码模块、信道传输模块的控制作用。控制模块还承担着视频会议系统中端到端及端到网络信令的传送,为用户对终端的设置以及通道控制提供渠道。图 1.4-1是视频会议终端功能示意图。
图 1.4-1 终端功能示意图
除了视频会议终端,每个会场还要有以下附属设备:摄像机、显示器、麦克风、扬声器、数据设备等,负责本地信息的搜集和远端信息的播放。 作为会议室设备,会议终端要求的工作环境不仅仅是为了满足设备正常工作。好的会议室环境可以使会议终端为用户提供更好的会议效果,所以一般来说,会议室需要较好的装修。 (2) 多点控制单元MCU
大多数的通信网络的通信方式是点对点或广播式通信,视频会议系统则要实现多点之间的双向通信,MCU的作用就是对输入的多路会议的电视信号进行多点控制,对不同的信号做不同的处理。视频会议信号中包含图像、语音、数据和控制信号,MCU要对前三类信号做不同的处理。具体来说,MCU对语音信号的处理主要采用多路混合的方式,对于视频信号采用交换方式,对于数据信号采用广播方式。此外,MCU还要对通信控制信号,网络接口信号等进行相应处理。 MCU具有如下功能: l
时钟和通信控制
5
视频会议系统基础理论
MCU与诸多终端之间的连接是呈星形状态,即每个会议终端都是以双向通信的方式与MCU相连接,MCU将按照会议控制者的要求,将多方信息进行配送。为此,MCU各个端口上的信息码流必须同步在同一个时钟上。多点控制器(MCU)首先要将进入MCU的所有终端(或MCU)的信号码流都在一个同一的控制时钟上同步,并且对码流中的帧定位信号(FAS)进行校验,输出新的比特率分配信号(BAS)、复帧同步信号,以便对端口的信息定位。
此外,MCU还要支持各端口的信令和互通方式,支持P*64 kbps(P=1~30)各种通信速率,具备导演控制、主席控制、演讲人控制和语音控制等会议控制功能。MCU根据通信初始化建立过程中的会议控制指令,将收到的各个码流的能力指示进行比较,选择各个终端都能接受的能力(速率、编解码方法、数据协议等)进行通信,或者给出相应的提示。 l
码流处理
MCU要所有的码流进行处理,当然,它并不是进行简单的码流切换。为此,MCU先要对视频会议码流(即符合H.221建议的码流)进行解复用处理。对所解出的各路压缩数字视频信号不再解码,而采用直接分配的方式,将数字码流送到它该去的地方;对所解出的各路压缩数字音频码流,则先进行解码,得到多路PCM信号,再将这些多路PCM音频信号进行叠加,形成一个现场感很强的混合语音信号。最后再将这一混合音频压缩编码后送到所有的终端。对于数据信号的处理,MCU采用广播方式或MLP方式将源数据送往其他有关的会场。当然视频、音频、数据和控制信号同样需要打包成H.221帧结构再送上传输。 l
MCU的端口和连接
MCU处在星形视频会议网的中心,它必须具备多个和终端相连接的接口,这些接口就是MCU的端口。端口种类的多少和容量的大小是衡量MCU的一个重要指标。由于MCU最大端口数是有限的,因此在遇到会议点特别多的情况时,可以将多个MCU级联使用,以增加会议系统的场点容量。通常级联不超过2级,中兴通讯的MCU可实现三级以上的级联。 综上所述,MCU是专门用来完成多点视频会议信号处理的设备,是视频会议系统的核心,主要完成音频混合、视频切换和多点通讯协议的处理,同时不得影响语音和图像的质量,MCU对会议和会议终端有控制管理作用。 (3) 传输通道
6
第1章 视讯产品基础知识
视频会议系统中的传输通道主要完成MCU与会议终端之间数据的透明传递,视频、音频、数据和控制信号通过传输通道到达另一端,不需要做任何处理。视频会议业务是一种多点之间的双向通信业务,其传输通道即现存的各种通信网络。一方面视频会议要充分利用现有的通信网来扩展它的业务功能,另一方面其功能要受到通信网性能的限制。 会议的图像质量与会议速率有很大关系。 l
会议速率2.048 Mbit/s:分解力为352×288,30帧/秒,人物运动时图像清晰,色彩鲜明,在一般会议室环境照度下马赛克效应(方块效应)不可察觉。 l
会议速率384 kbit/s:分解力为352×288,信噪比≥48 dB(不加权)。在29~33英寸的屏幕上,人物运动时图像清晰度比2Mbit/s时略有下降,彩色鲜明,在一般会议室环境照度下马赛克效应(方块效应)不可察觉。 l
会议速率128 kbit/s:在27英寸屏幕上,彩色鲜明。人物在运动的时候面部和衣服上清晰度下降,马赛克效应刚可察觉。
一般来说,在良好的灯光照度下,看到连续的会议图像的最低速率要求是384 K。
2. H.323视频会议系统
H.323是基于不保证Qos的分组交换网络的多媒体通信系列建议。ITU的第15研究组SG-15于1996年通过H.323建议的第一版,并在1998年提出了H.323的第二版。H.323制定了无QoS(服务质量)保证的分组网络PBN(packet Based Networks)上的多媒体通信系统标准,这些分组网络主宰了当今的桌面网络系统,包括基于TCP/IP、IPX分组交换的以太网、快速以太网、令牌网、FDDI技术。因此,H.323标准为LAN、WAN、Internet、因特网上的多媒体通信应用提供了技术基础和保障。
H.323也是一个框架性建设,它包括多点控制单元(MCU)、多点控制器(MC)、多点处理器(MP)、网关以及关守等设备,它的基本组成单元是“域”。在H.323系统中,所谓域是指一个由关守管理的网关、多点控制单元(MCU)、多点控制器(MC)、多点处理器(MP)和所有终端组成的集合。一个域最少包含一个终端,而且必须有且只有一个关守。H.323系统中各个逻辑组成部份称为H.323的实体,其种类有:终端、网关、多点控制单元(MCU)、多点控制器(MC)、多点处理器(MP)。其中终端、网关、多点控制单元(MCU)是H.323中的端点设备,是网络中的逻辑单元,
7
视频会议系统基础理论
端点设备是可呼叫的和被呼叫的,而另一种实体――网守则是不被呼叫的。H.323体系结构如图 1.4-2所示。
图 1.4-2 H.323体系结构图
从图中可以看出,H.323系统的组网单元多了一个网闸(GK)实现地址解析。如果是H.320和H.323混合组网,会议网还需配置H.320和H.323网关(GW)实现两个系统的互通。
基于IP网络的H.323系统包括以下四个实体:网守GK,网关GW,多点控制单元MCU和终端。 l
网守GK
Gatekeeper(网闸)是ITU-T H.323标准中定义的一个可选组件,其功能是向H.323端点提供呼叫控制服务,实现对终端、MCU和网关等其他H.323组件的注册、管理和状态监测。H.323网闸在系统中必须提供四种基本服务:地址翻译、带宽控制、许可控制与区域管理功能。在逻辑上,网闸是一个独立于端点的功能单元,但在物理实现时可以包含在终端、MCU和网关中。 l
网关GW
网关Gateway提供了H.323设备在异构网环境下的互操作性,H.323标准预先定义了一系列设备:包括H.320网关,H.324网关和PSTN网关。目前较多应用的说H.320/H.323网关。 l
多点控制单元MCU
8
1.5 组网 第1章 视讯产品基础知识
MCU提供了多点多媒体会议的能力,它处于会议网的核心位置。它通常设置在网络节点处,可供多个地点的会议同时进行相互间的通信。MCU在数字域中实现音频、视频、数据和信令等数字信号的混合和切换,但不影响音频、视频等信号的质量。它的主要功能为语音混合、视频切换以及多点通信协议的处理。 l
IP终端
终端一方面把本会场视音频经过处理送上传输,另一方面把来自传输的远端会场视音频信息处理后广播出来。IP终端与H.320终端提供的端口不同,使用的协议也不同。而且IP终端可以和H.320终端合而为一,如中兴通讯的ZXMVC4050既可以应用于E1网络,也可以应用于IP网络。 有时系统还会有一个网管中心,用于控制和管理视频会议系统。中兴通讯的ZXMS80多媒体业务管理系统集网络管理与视频会议管理于一身。它不但可以管理主、从MCU,而且可以管理会议终端等。 下面介绍视讯产品的组网方式。
ZXMS80(V2.03)多媒体业务管理系统的层次结构如图 1.5-1所示。ZXMVC8900属于其中的媒体交换层单元,终端属于其中的用户接入层。
9
视频会议系统基础理论
运营支撑层ZXMS80资源管理ZXMS80认证计费ZXMS80网络管理ZXMS80会议调度ZXMS80顶级GKZXMS80GK动态级联ZXMS80GKZXMVC8900MC 媒体交换层ZXMVC8900MP ZXMVC8900MCZXMVC8900MP ZXMVC8900MPZXMVC8900MP 宽带骨干网宽带接入网ADSLVDSLISDNVPNLAN用户接入层DDN ZXMVC2020 ZXMVC4050 其他厂家会议室型终端 其他厂家ZXMVC4050其他厂家ZXMVC6000桌面型终端会议室型终端 图 1.5-1 ZXMS80(V2.03)的层次结构
ZXMS80(V2.03)的层次结构清晰,包含3层结构:运营支撑层、媒体交换层、用户接入层。这种分层的设计思想将运营支撑与媒体交换隔离,有利于管理系统与设备的独立发展。在运营支撑层的设计中,将业务管理与网络管理进一步隔离,有利于在业务中心上独立发展丰富的多媒体业务。
ZXMS80(V2.03)多媒体业务管理系统的详细说明请参见《ZXMS80(V2.03)多媒体业务管理系统 技术手册》。
H.320视频会议系统由智能视讯服务器MCU、会议终端、传输通道以及运营支撑层服务器群组成。
H.323视频会议系统的组网单元比H.320系统增加了一个网守(Gate Keeper)实现地址解析。如果是H.320和H.323混合组网,会议网必须配置H.320和H.323网关(Gate Way)实现两个系统的互通。 l
智能视讯服务器
ZXMVC8900作为MCU设备,位于媒体交换层,通常设置在网络节点处,可供多个地点的会议同时进行相互间的通信。MCU的功能由MC,MPU和其他单板实现。MCU在数字域中实现音频、视频、数据和信令等数字信
10
第1章 视讯产品基础知识
号的混合和切换,但不影响音频、视频等信号的质量。它的主要功能为语音混合、视频切换以及多点通信协议的处理。 l
会议终端
会议终端位于用户接入层,通常由视频输入/输出、音频输入/输出、视频编解码、音频编解码、多路复用/解复用部分组成。会议终端把本会场视音频经过处理送上传输的同时,把来自传输的远端会场视音频信息处理后广播出来。 l
网守GK
网守也称网闸(Gate Keeper,简称GK),位于媒体交换层。GK负责H.323接点的呼叫控制,如地址转换和带宽管理。网关在H.323网络中是可选配置。
1. 运营支撑层服务器层次
运营支撑层遵循最新运营支撑系统的设计,分为3个层次:表示层(Presentation Layer)、应用逻辑层(Business Logic Layer)和数据服务层(Data Service Layer)。 (1) 表示层
表示层提供人机交互界面,包括业务管理中心、客户服务中心、业务受理中心、认证计费中心、网管中心。其中,业务管理中心由业务管理员使用,客户服务中心为普通的视讯用户提供服务,业务受理中心由营业员使用,认证计费中心由AAA管理员(AAA:认证、计费、授权的缩写)使用,网管中心由设备管理员使用。
为了方便各种用户的使用,ZXMS80(V2.03)的运营支撑层的表示层大多采用Web浏览器实现。 (2) 应用逻辑层
应用逻辑层进行具体的运算和决定程序的流程,专注于商业逻辑的设计。 应用逻辑层包括会议调度系统、资源管理系统、认证计费系统、网络管理系统4大系统。其中,会议调度系统、资源管理系统、认证计费系统属于业务管理的范畴,网络管理系统属于设备管理的范畴。
会议调度系统负责完成视频会议业务和流媒体业务的业务流程,包括完成视讯用户、业务管理员的业务配置、业务控制、业务统计等功能。资源管
11
视频会议系统基础理论
理系统负责完成对整个业务资源的计算、分配和管理。认证计费系统负责完成用户的管理、用户和终端的认证、计费、结算等功能。网络管理系统负责完成设备(MCU、流服务器等)的配置管理、故障管理、性能管理和安全管理等功能。 (3) 数据服务层
数据服务层由业务数据库组成,维护和更新应用程序的数据。 2. 利用IP网络组网
利用IP网络组网如图 1.5-2所示。
ZXMVC8900
运营支撑层服务器群
防火墙
IP路由器
网守
TCP/IP
ADSLLAN
防火墙
FPASS
图 1.5-2 利用IP网络组网图
考虑到安全防护,通常我们将运营支撑层设备放置在有防火墙保护的局域网内。
媒体交换层设备通常放置在公网上,方便终端与GK和MCU的通信。 GK、MCU和终端之间采用TCP/IP通道连接。基于TCP/IP网络的H.323终端接入方式包括:ADSL拨号接入、LAN接入(支持DHCP动态IP地址分配)。对于某些企业局域网内部的终端,可以通过FPASS代理服务器接入到公网上。采用FPASS代理服务器可以解决局域网到公网的NAT(地
12
第1章 视讯产品基础知识
址映射)问题,并且可以使多个局域网内的终端共有一个公网IP地址进行访问。FPASS的详细信息请查询《ZXMS80(V2.03)多媒体业务管理系统FPASS 用户手册》。 3. 利用数字传输网组网
利用数字传输网组网如图 1.5-3所示。
运营支撑层服务器群防火墙
IP路由器
E1
ZXMVC8900
数字传输网
E1
E1
E1
图 1.5-3 利用E1数字线路(或DDN)组网图
ZXMVC8900与E1终端之间的连接方式有以下3种。
(1) 当终端与MCU之间走线距离小于300 m时,可以直接用同轴电缆相连。 (2) 当终端与MCU之间走线距离大于300 m时,并且终端与MCU之间存在
E1接口,可以经过数字线路传输网连接。
(3) 当终端与MCU之间走线距离大于300 m时,并且终端与MCU之间不存
在E1接口,可以选择HDSL传输设备进行距离延伸,有效传输距离为5 km。 ZXMVC8900与运营支撑层设备通过TCP/IP网络连接。考虑到安全防护,建议将运营支撑层设备放置在有防火墙保护的局域网内。 4. 利用ISDN网络组网
利用ISDN网络组网如图 1.5-4所示。
13
视频会议系统基础理论
运营支撑层服务器群防火墙
IP路由器
PRI
ZXMVC8900
ISDN网络
BRI
BRI
BRI
图 1.5-4 利用ISDN组网图
ZXMVC8900通过ISDN网络的PRI线路与ISDN网络相连;各ISDN会议终端(例如ZXMVC4050)通过BRI接口接入ISDN网络,通过ISDN网络与ZXMVC8900建立通讯链路。
ZXMVC8900与运营支撑层设备通过TCP/IP网络连接。考虑到安全防护,我们建议将运营支撑层设备放置了有防火墙保护的局域网内。 5. 与高清终端组网
从组网角度,高清终端与E1终端的连线方式类似。不同之处在于:ZXMVC8900与高清终端之间采用的是多条E1线路的连接方式。一个高清终端使用ZXMVC8900的多个E1接口。高清终端速率包括2 M、4 M、6 M和8 M,对应MCU与高清终端之间分别使用1~4对E1线,实现高清终端与MCU之间的高速率通讯。
与普通终端相比,高清终端最大的不同是使用MPEG-2进行视频编解码。如果高清终端与普通终端共同组网,系统需要提供高清网关来实现MPEG-2和传统终端的H.261/H.263协议的互通。
ZXMVC8900与运营支撑层设备通过TCP/IP网络连接。考虑到安全,建议将运营支撑层设备放置了有防火墙保护的局域网内。 利用E1网络与高清终端组网如图 1.5-5所示。
14
第1章 视讯产品基础知识
运营支撑层服务器群防火墙
IP路由器
ZXMVC8900n×E1
数字传输网
n×E1
n×E1
n×E1
图 1.5-5 高清系统组网图
6. 混合组网
ZXMVC8900可以对不同种类终端混合组网。混合组网中,不同终端与ZXMVC8900之间的连线要求与使用单一网络时的要求相同。
高清图像网关实现了不同视频协议的互通。ZXMVC8900组网提供以下2种网关实现方式。
(1) 高清终端提供的MPEG-2视频信号通过外接的MPEG-2解码器解码出复合
视频,通过ZXMVC8900的VPU板编码为H.261/H.263格式发送给普通终端,从而实现了高清视频信号向普通终端视频信号的格式转换。 同时,普通终端的H.261/H.263视频码流通过VPU解码成复合视频,送给外接MPEG-2编码器编码为MPEG-2视频格式再送给高清终端,实现了普通终端视频信号向高清终端视频信号的格式转换。
(2) 高清终端提供的MPEG-2视频信号直接通过ZXMVC8900的GPU板进行
高清视频信号向普通终端视频信号的格式转换处理,完全代替VPU和HPU通过MPEG-2编解码器进行格式转换的方式。
在最新版本中,GPU会逐渐代替HPU和VPU及MPEG-2编解码器的配合使用,做为高清图像网关。普通图像网关以及多速率多画面功能仍可使用ZXMVC8900的VPU单板实现。
15
第2章 视讯系统相关协议
& 知识点
l H.320视讯协议和系统结构 l H.323视讯协议和系统结构 l H.320和H.323视讯协议的比较
2.1 视讯系统协议概述
2.1.1 H.300系列协议
目前视频会议系统采用的H.300协议主要有以下5种。 1. H.320协议。
通过专线方式(如直接在传输网上组织的专线、DDN网、ATM网电路仿真等)或N-ISDN网络进行组网,可以有效地保证视频会议的业务质量,故大型的视频会议系统往往采用该协议。传输速率在64 kbit/s~2 Mbit/s之间。当速率在128 kbit/s以下时,图像会出现明显的不连续性和切换现象。如果希望传输高质量的电视会议,则速率需在384 kbit/s以上。 2. H.323协议。
这是在TCP/IP网上进行话音和图像传输的通信协议,对于视频会议系统而言,由于TCP/IP协议并不支持不同业务之间的业务质量等级,其所能占用的网络带宽目前还无法得到有效保障,但随着IP网上多媒体通信业务需求的日前增加,以及各种新技术的不断出现,视频会议业务所需要的实时性和充足的传输带宽的要求将在日益完善的IP包交换网络环境下逐步得满足。同时,它的传输网络无关性、IP协议的普遍性、灵活性、低成本、易管理以及对用户投资的保护,使它得到越来越普遍地应用。特别是对于本身无传输通道的单位,如金融系统、大型企业,包交换网的高性能价格比越来越受到青睐。 3. H.321标准。
这是H.320协议的视频会议终端应用于ATM网络的转换标准,H.321的图像质量与H.320标准相同,也需要多点控制器。事实上,H.321终端是由
17
视频会议系统基础理论
H.320终端与宽带适配器(STA)(在ATM网络中25Mbit/s ATM UNI接口就是一种宽带适配器)组成。 4. H.310标准。
它是“纯”ATM的视频会议标准,传输速率为3 Mbit/s~15 Mbit/s,图像质量高。目前的H.310的视频会议实际上是一种基于ATM网络的视频广播,不是真正意义上的多点交互的视频会议(允许的点数有限)。此外,没有MCU产品的支持,必须通过网络产品的网管系统实现视频的切换,而且会议的切换不可能在会议终端上实现。如果同一个ATM广域网内存在着不同厂家的ATM交换设备,则视频的切换需要在不同厂家的网管上完成。 5. H.324标准。
它也是国际电联ITU-T制订的视频会议框架性协议,主要用于公共交换电话网(PSTN)。传输速率为28.8 kbit/s~64 kbit/s。 H.300系列协议的对比说明,如表2.1-1所示。
表2.1-1 H.300系列协议对比表
框架协议 适用传输网络 视频标准 音频标准 复用 控制 多点协议
H.320 ISDN、DDN、电路交换网
H.321 B-ISDN、ATM
H.322 有QOS的 分组交换网
H.323 无QOS的 分组交换网
H.324 PSTN电话网 H.261、H.263
、
POTS、模拟
H.261、H.263 H.261、H.263 G.711
、
H.261、H.263 H.261、H.263
、
G.711、G.722、
G.711、G.722、G.711
G.722、G.728 G.728 H.221
H.221
G.722、G.728 H.221
G.728、G.723、G.723 G.729 H.225.0
H.223 H.245 -
H.230、H.242 H.242 H.231、H.243 H.231、H.243
H.230、H.242 H.245 H.231、H.243 H.323
2.1.2 ITU-T有关视讯会议的技术规程
ITU-T有关视讯会议的技术规程,如表2.1-2所述。
表2.1-2 ITU-T有关视讯会议的技术规程
协议 H.320 H.323
说明
窄带电视电话系统和可视电话系统的框架性建议 IP网络环境下的多媒体通讯系统框架性协议
18
第2章 视讯系统相关协议
协议 H.221 H.242 H.243 H.230 H.231 H.233 H.224 H.225 H.245 H.261 H.263 G.711 G.722 G.728 G.729
说明
视听电信业务中64kbit/s~1920kbit/s信道的帧结构协议
应用于2Mbit/s以下数字信道的视听终端间的通信系统。实际上为端到端之间的通信协议
利用2Mbit/s信道在2~3个以上的视听终端建立通信的方法,实际上为多个终端与MCU之间的通信协议
视听系统的帧同步及控制和指示信号C&I的协议
用于2Mbit/s以下数字信道的视听系统多点控制单元。它是MCU框架性协议 视听业务的加密系统
利用H.221建议的低速数据(LSD)/高速数据(HSD)/多层链路协议(MLP)信道单工应用的实时控制协议
多媒体通信系统呼叫信令协议和媒体流拆包、打包协议 多媒体通讯控制协议,包括呼叫能力,主/从和逻辑信道等内容 关于p×64kbit/s视听电信业务的视频编解码协议 低码率条件下视频编解码协议
视听业务音频编解码协议,速率为48kbit/s,56kbit/s和64kbit/s,带宽为0.5kHz~3.5kHz的脉冲编码调制(PCM)
视听业务音频编解码协议,是速率为48kbit/s,56kbit/s和64kbit/s,带宽为0.5kHz~7kHz的自适应差分脉冲编码调制(ADPCM)
视听业务音频编解码协议,是速率为16kbit/s,带宽为0.5kHz~3.5kHz的低时延码激励线性预测编码(LD-CELP)
视听业务音频编解码协议,是速率为8kbit/s的共轭结构代数码激励线性预测编码(CS-ACELP)
G.723.1 视听业务音频编解码协议,是速率为5.3kbit/s和6.3kbit/s的自适应码激励线性预
测编码
T.120 T.123 H.243 H.280 G.703 G.704 G.735 Q.922 I. 400
多媒体会议的数据协议
特定网络传输的协议,由它来定义各种物理网络的接口
利用2Mbit/s信道在2~3个以上的视听终端建立通信的方法。实际上为多个终端与MCU之间的通信协议
视频会议的远端摄像控制规程。它利用H.224才能实现 脉冲编码调制通信系统工程网路数字接口参数 有关PCM30路帧结构内容
工作在2Mbit/s并提供同步384Kbit/s数字接入和/或同步的64Kbit/s数字接入基群复用设备的特性
ISDN帧模式承载业务使用的数据链路层规范 有关ISDN方面的建议
2.1.3 ISO/IEC等有关技术规程
ISO/IEC有关视讯会议的技术规程,如表2.1-3所述。
19
视频会议系统基础理论
表2.1-3 ISO/IEC有关视讯会议的技术规程
协议 ISO/IEC 13818-1 ISO/IEC 13818-2 ISO/IEC 13818-3 ISO/IEC 13818-4 ISO/IEC 13871 RTP/RTCP IEEE802.3U
说明
系统--定义规范的系统编码,它定义了视频数据和音频数据的复用结构及实时应用中重放同步序列所需的表示定时信息的方法 视频--定义视频数据的编码表示和重建图像所要求的解码过程 音频--定义音频数据的编码表示和恢复音频所要求的解码过程 一致性--定义确定编码码流的特性和使用13818-1,13818-2,13818-3陈述的要求一致性测试的进程 系统间通信和信息交换协议 媒体流打包与同步协议 10/100BASE-T以太网接口标准
2.2 ITU-T H.320建议
H.320是基于P×64K数字传输网络的视频会议系统协议,采用H.221帧结构。典型应用网络为N-ISDN网、数字传输网和数字数据网。H.320的功能框图如图2.2-1所示。
图2.2-1 H.320终端功能框图
视频编解码单元完成图像的编解码、视频切换及前处理过程,用H.261或H.263建议来规范。不同制式的视频信号通过转化为中间格式,实现了互通。
20
第2章 视讯系统相关协议
音频编解码单元完成音频的编解码、回声抵消和噪声去除工作,用G.711,G.722或G.728建议来规范。相对视频信号来说,音频信号数据量小,处理时间短,延时单元可保证视音频信号同时到达对端,实现唇音同步。
数据业务设备主要包括电子白板,书写电话以及传真机等等,可以用来召开数据会议,数据会议单元使用T.120的协议。
系统控制部分执行两种功能,通过端到网络接口信令访问网络,通过端到端信令实现端到端控制。
多信道复用/解复用单元在发送方向主要对视频、音频、数据和信令等各种数字信号进行ITU-T H.221帧码流的复用处理,使之成为能与用户/网络接口兼容的信号格式,在接收端则进行相反的解复用处理,使从网络接口来的信号解复用到相应的媒体处理单元。
用户/网络接口单元将复用后的数据流转换成可以在各种传输网络上传递的码流,并送到网络中传递。
2.3 ITU-T H.221建议
视频会议的信号是通过数字信道以时分复用方式进行传输的。它的视频、音频、数据和控制信号必须以一定的顺序按一定的结构在收、发两端同步进行传输,这种按一定顺序所组成的结构称为帧结构。H.221帧结构是建立在PCM基群速率的基础上的。
H.221的帧结构如图2.3-1所示。
21
视频会议系统基础理论
PCM30/32路帧结构0 1 2 3......15......318BIT组号 1 2 3 4 5 6 7 8子信道1子信道2子信道3子信道4子信道5子信道6子信道7FAS1BASECS91724子信道8H.221帧 图2.3-1 H.221帧结构
在H.221帧中,可以将PCM 30/32帧结构的P(1~30)个时隙分配给用户使用,就是P×64K。在P个时隙中,至少有一个起始时隙,包含公务子通道(SC)的B通道,我们称为“起始通道”或者I通道。
图2.3-1即是一个起始通道的结构。连续80个PCM 30/32路帧中的T1时隙组成了一个H.221帧,可见H.221帧在时间上是不连续的。每一个时隙的1个比特组成一个子信道。第八个子信道用作公务信道(SC),主要用来承载端到端的信令。其中,1到8比特为帧定位信号(FAS:frame alignment signal),9到16比特为比特率分配信号(BAS:bit-rate allocation signal),17到24比特为加密控制信号(ECS:encryption control signal)。SC信道中除了FAS、BAS、ECS所占据的24比特外,其余56比特又称为辅助数据信道(AC:Auxiliary channel)。AC可用于携带用户的远程数据信息或者遥控信息,不用时也可以承载其他信息,如图像信息或语音信息。H.221的帧结构是一种二维方式的帧结构,由于SC信道只占用PCM 30/32帧中的1比特,FAS和BAS只占用总传输码字的2.5%,所以这种同步系统的效率很高,工作非常稳定。
需强调的是,仅PCM 30/32路帧结构的TS1才含有H.221帧结构的SC信道。
22
第2章 视讯系统相关协议
2.4 T.120系列建议
T.120系列建议是一个有关数据会议的标准系列,既可以包含在H.320框架之下,对现有视频会议功能进行补充,也可以独立支持声像会议,如传送语音、静止图像、电子白板等。
在一个数据会议中,任意的会议参加者之间都可以进行通信。T.120建议对一般功能(如文件传输、静止图像交换和共享白板)定义了标准化的应用协议,为两个或更多的多媒体终端之间多种数据通信提供服务。
T.120协议可以在各种网络上应用,如PSTN,ISDN,B-ISDN和LAN等。 T.120建议模型由通信基础和一系列的应用协议组成,包括标准和非标准的应用,如图2.4-1所示。
用户应用非标准应用协议标准应用协议T.127(文件)T.126(静图)通用会议控制(GCC)T.124多点通信服务(MCS)T.122/T.125网络传输协议 T.123T.120系列建议图2.4-1 T.120系列建议结构
按照T.120系列协议,可在一组网络节点(如视频会议终端和多点控制器MCU)之间建立会议;可对会议节点进行身份识别,对会议内容进行登记,对会议能力进行协商。其中,T.122,T.125用于数据会议的多点通信服务(MCS),负责多点数据传送,令牌管理等功能。T.123为对应的特定网络传输协议,由它来定义与各种物理网络的接口。在不同的网络上实施T.120协议的差别反映在T.123的层次不同。T.124是数据会议的通用会议控制(GCC)协议,用于对会议进行管理和控制。会议中可以使用T.127进行多点二进制文件传送,使用T.126进行静止图文传送。
23
视频会议系统基础理论
数据传输主要使用H.221建议所定义的低速数据信道(LSD)、高速数据信道(HSD)、多层协议数据信道(MLP)和高速多层协议数据信道(HMLP)。 其中,LSD采用H.221的BAS码所规定的数据格式,一般用于传递远端遥控能力。MLP是H.221所规定的数据通道之一,在该信道上可运行H.224和/或T.120系列建议。HSD信道为预留信道。
2.5 ITU-T H.323建议
2.5.1 H.323会议系统的结构
H.323会议系统中传输的信息流中包含音频、视频、数据和控制信息。所有的信息流采用H.225.0建议来进行打包和传送。
为了实现在会议系统中传输上述信息流,H.323建议定义的多媒体会议系统主要由终端、网守(GateKeeper,亦称网闸)、网关(Gateway)、多点控制器(MC)、多点处理器(MP)和多点控制单元(MCU)等组成。
2.5.1.1 H.323终端
H.323终端是能够在分组交换网络中提供实时、双向通信的节点设备。H.323终端功能框图如图2.5-1所示。
H.225.0
图2.5-1 H.323终端功能框图
24
第2章 视讯系统相关协议
其中系统控制单元、H.225.0层、分组网络接口、音频编解码单元是H.323终端必须具备的,视频编解码单元和数据应用是可选的。下面简介终端基本组件的主要作用。
1. 音频编解码器:采用特定的音频编码算法产生数字化音频信号并进行相应
的解码。在运用中,编解码器使用的音频算法是在能力交换期间通过使用H.245协商得到的。音频流应根据H.255.0标准进行格式化。H.323终端可以同时发送或接收多个音频信道信息。例如,它可以允许两种语音传送;对于多点会议,H.323终端需实施音频混合的功能。
2. 视频编解码器:采用特定的视频编码算法产生数字化视频信号并进行相应
的解码。视频编码不进行BCH纠错,且允许以不对称的视频比特率、帧速率、图像分辨率运行。类似于音频编解码器,视频编解码器使用的编解码算法是在能力交换期间通过使用H.245协商得到的,视频流也应根据H.255.0建议规定的格式进行打包传送。
3. 数据信道:H.323终端通过H.245的控制消息建立一个或多个数据信道。
H.323会议系统的数据功能是建立在T.120系列建议的基础之上的。根据应用的要求,数据信道是双向或单向的逻辑信道,在这些逻辑信道上实现H.323会议系统的全部数据功能。
4. H.245控制:H.245控制信道承载管理H.323通信实体操作的端到端控制消
息,包括能力交换、逻辑信道的开和关、模式选择请求、流量控制消息及通用命令和指示。H.245信令在两个终端间或一个终端和MC间再或一个终端和网关间建立。对于端点参与的呼叫,端点应在每个方向上建立一个H.245控制信道,并使用H.245建议的消息和规程。
5. H.225呼叫控制:运用H.225.0呼叫控制信令来建立两个H.323终端间或终
端与网守间的连接。呼叫信令信道的建立先于H.323终端间的H.245控制信道和其它任何逻辑信道,因此,它的建立不受H.245控制信道的管理。 6. RAS控制:RAS(Registration, Admission and Status, 登记、接纳和状态协
议)信号运用H.225.0控制消息在终端与网守之间执行登记、接纳、带宽改变和使二者脱离关系等过程。RAS信道不受H.245控制信道管理。系统没有网守时,无需建立RAS信道。若系统中存在网守,RAS信道建立早于终端间的任何信道。
7. 分组网络接口:H.323终端的网络接口是H.225建议所描述的,它规定了
下述必须的功能:
25
视频会议系统基础理论
(1) 对H.245控制信道、数据信道、呼叫信令信道提供可靠的端到端服务(TCP、
SPX等)。
(2) 对于音频、视频和RAS信道提供不可靠的端到端服务(UDP、IPX等)。
这些服务可以是单工、双工、单播或多播的。
2.5.1.2 网守(GateKeeper)
网守是H.323系统的一个可选组件,其功能是向H.323端点提供呼叫控制服务。H.323网守在系统中必须提供4种基本服务:地址翻译、带宽控制、许可控制与区管理功能。带宽管理、呼叫鉴权、呼叫控制信令和呼叫管理等为网守的可选功能。在H.323系统中网守并不是必需的,然而如果存在网守,那么终端必须使用由网守提供的服务。这些服务在RAS中定义。
在逻辑上,网守是一个独立于端点的功能单元,但在物理实现时可以包含在终端、MCU和网关中。
2.5.1.3 多点控制单元(MCU)
多点控制单元用于支持三个以上端点设备的会议。在H.323系统中,一个多点控制单元由一个多点控制器(MC)和几个多点处理器(MP)组成,但也可以不包含MP。多点控制器处理终端间的H.245控制信息,从而决定它对视频和音频通常的处理能力。在必要情况下,多点控制器还可以判断哪些视频流和音频流需要多播以控制会议系统使用的资源。
MC并不直接处理任何媒体信息流,而将它留给MP来处理。MP对音频、视频或数据信息进行混合、切换及其它处理。多点处理器和多点控制器可能存在于一台专用设备中或作为别的H.323组件的一部分,但MCU一般是独立的单元设备,具有自已的运输层地址。
2.5.1.4 网关(Gateway)
网关是H.323会议系统的一个可选件。网关能提供很多服务,其中包含H.323会议节点设备与其他ITU标准相兼容的终端之间的转换功能,这种功能包括数据传输格式(如H.225.0到H.221)和通信规程的转换(如H.245到H.242)。另外,在分组网络和电路交换网络之间,网关完成视频、音频和数据信息编码格式之间的互译。
通常网关的目的是将分组网络终端的特性映射到电路交换网络终端上或相反。网关的主要应用在于通过N-ISDN建立与远程H.320兼容终端的连接;通过B-ISDN建立与远程H.321兼容终端的连接或通过通用电话交换网或无线网络建立与远程H.324和V.70兼容终端的连接等方面。终端使用H.245和Q.931建议与网关进行
26
第2章 视讯系统相关协议
通信。若没有必要与其他网络建立连接,而且终端直接与同一分组网络上的其他终端进行通信,则无需网关。利用适当的解码器,H.323网关可支持符合H.310,H.321,H.322以及V.70标准的终端。
2.5.2 H.323会议系统中的数据通信
H.323会议系统中除了传输视频和音频信号外,还要进行数据信息的传送。会议系统中的数据通信是多个与会者之间的通信,因此它的一个十分重要的基础是建立一个多点通信服务(MCS)的通信体系结构。由于数据通信对差错控制要求较高,而对时延则不太敏感,因此MCS的通信体系结构应建立在可靠的通信连接(如TCP)基础上。
H.323会议系统中的数据通信采用T.120系列建议,该系列建议是由九个建议书(T.120~ T.128)组成的完整的数据通信协议,它分为四个层面来完成会议系统中的数据通信。
第一个层面是下四层的通信协议栈,在T.123建议中规定。 第二个层面是多点通信服务(MCS),在T.122/T.125中规定。 第三个层面是通用会议控制(GCC),在T.124中规定。
第四个层面是应用层面,在T.121 、T.126、 T.127 和T.128中规定。其中T.126中规定的电子白板和T.127中规定的二进制文件传送已获得应用。
2.5.3 H.323会议系统中的码流复用
H.323会议系统是基于分组交换的,因而会议系统中的码流在传输之前就必须进行打包,根据数据包上的标签进行统计复用。同时,由于会议系统中的不同信息码流各自有不同的特点。所以,它们对下层网络的承载要求也不同。对于IP网,在实现时可以用以下方法解决个问题:音频和视频码流对实时性要求很高,即使少量的时延,对视频会议来说也是无法忍受的。但是,它们对于少量的包丢失却不太敏感。因此,对于音频和视频码流,采用实时传输协议RTP来对它们进行打包再运用面向无连接的UDP协议进行实时传输。对RAS信号也采用UDP协议来传输。相反,数据和控制信号对于服务质量要求很高,少量的包丢失或出错都是无法忍受的。因此对于数据和控制码流,在传输层运用面向连接、提供可靠服务的TCP协议,从而完成对它们的可靠传送。
图2.5-2给出了H.323会议系统的协议栈,从中可见具体的码流复用关系。
27
视频会议系统基础理论
图2.5-2 H.323系统中码流复用关系
2.5.4 H.323会议系统中的QoS保证
H.323建议不假定会议系统所基于的分组交换网络能提供QoS保证,要在真正实现实时的高质量的视频会议系统还需要一些相关技术和协议的支持。下文讨论IP网中的QoS保证技术。
2.5.4.1 多播技术
视频会议业务需要占用较大的带宽资源,在现有的网络条件下,极大地限制了视频会议业务的发展。多播技术是解决这个问题的有效途径。多播技术能够有效地解决多点对多点数据通信的网络带宽问题。在传输过程中,根据发送和接收各方的网络拓扑分布,确定并优化数据传送的树状路径,在同一网段,相同内容的数据流只需传送一次。多播地址可以采用一个通用的多播地址,但这不是有效的通信方式,最好是能够动态地分配一组地址。
2.5.4.2 资源预留管理
资源预留是指根据业务数据的QoS要求和带宽资源管理策略进行带宽资源分配,在IP网上提供一条完整的路径。IETF的RFC2205资源预留协议(RSVP)就是提供这种管理机制的协议。
RSVP是网络中预留所需资源的传送通道建立和控制的信令协议。通过预留网络资源建立一条从发送端到接收端的路径,使得IP网络能提供接近于电路交换质量的业务,即在面向无连接的网络上,增加了面向连接的特性;它既利用了面向无连接网络的多种业务承载能力,又提供了接近面向连接网络的质量保证。但是
28
第2章 视讯系统相关协议
RSVP没有提供多媒体数据的传输能力,它必须配合其它实时传输协议来完成多媒体通信服务。
2.5.4.3 RTP/RTCP
RTP为交互式音频、视频等具有实时特征的数据提供端到端的传送服务。如果底层网络支持多播,RTP还可使用多播向多个目的端点发送数据。RTP协议包含两个密切相关的部分,即负责传送具有实时特征的多媒体数据的RTP和负责反馈控制、监测QoS和传递相关信息的RTCP。在RTP数据包的头部中包含了一些重要的字段:净荷数据类型的标志(PT)以说明多媒体信息所采用的编码方式;定时标志(TIMESTAMP)使接收端能够恢复收到的数据包发送时的定时关系,从而降低了网络引起的时延和时延抖动;序号(SN)可用来在接收端对收到的数据包进行正确的排序以及统计包丢失率。RTCP是RTP的控制协议,它周期性地与所有会话的参与者进行通信,并采用和传送数据包相同的机制来发送控制包。 值得注意的是,RTP协议本身并不提供任何QoS保证机制,QoS必须由下层网络来保证。但是通过RTCP控制包可以为应用程序动态提供网络的当前信息,据此可对RTP的数据收发作相应调整使之最大限度地利用网络资源。
2.5.5 H.320与H.323技术比较
H.320与H.323的技术比较,如表2.5-1所示。
表2.5-1 H.320与H.323技术比较表
比较内容
协议基础
同一带宽下图像压缩编解码技 (质量) 同一带宽下声音压缩编解码技术(质量) 组网
网络结构的健壮性 终端性能 MCU 灵活扩展性 功能
业务应用范围 多点广播 会议调度 终端管理 数据应用
29
H.323
第四/三层TCP/IP之上 相同 相同 灵活 稳定 相 同 稳定简单 强 丰富 广 有 简单有效 有 丰富
相同 相同 固定 脆弱 相同 复杂 弱
少(单一) 单一 无 复杂 无 单一
H.320
第二层TCP/IP之上
视频会议系统基础理论
比较内容
数据会议T.120
T.120应用是否抢占视频信道带宽 性能价格比 发展趋势和方向
H.323
带外(灵活) 无 高 是
有 低 否
H.320
带内(固定)
2.5.6 SIP与H.323
SIP协议是一个与 H.323并列的协议。SIP协议具有简单、扩展性好以及和现有的Internet应用紧密的特点,在基于SIP的应用中,每一个会话可以是各种不同类型的内容(如普通的文本数据、音视频数据、游戏数据等),应用具有巨大的灵活性。 SIP协议的出发点是想以现有的Internet为基础来构架IP业务网。因此,SIP有着与 H.323完全不同的设计思想,它是一个分散式的协议,它将网络设备的复杂性向网络边缘推,与H.323协议相比, SIP协议需要相对智能的终端。对于用户终端是非智能终端的场合,也可以使用SIP协议作为呼叫信令,但这将大大削弱SIP协议特有的优势,因此SIP协议更适用于智能用户终端。另外,可以考虑在用户电话机前添加前置机的办法来取代网关设备,这样做的代价是将增加用户购买前置机的开销。
SIP协议是由一些Internet爱好者提出的,协议相对简单,但功能也相对简单。目前,许多运营商正在利用SIP协议构建试验网。若想利用SIP协议构建电信级大网,必须对它进行补充、完善,这样一来SIP协议也不可避免地变得复杂起来。事实上,SIP协议的发展趋势正是如此。
SIP系统体现的是一种分布式的控制模式。 H.323的集中式、层次式控制模式便于管理,像计费管理、带宽管理、呼叫管理等在集中控制下实现起来比较方便,其局限性是易造成瓶颈。而SIP的分布模式则不易造成瓶颈,但各项管理功能实现起来比较复杂。 需要注意的几个问题。
1. SIP终端的智能性过强,可能会给网络带来很多安全问题。 2. 用户终端可以绕开运营商的管理直接向被叫用户发起呼叫。 3. 其网络结构采用平面化形式,运营商不便进行管理和计费。
4. 与H.323相比,SIP不具备点到多点的会控能力,如控制一方成为主席,
或点名一方发言等等。
30
第3章 视音频编解码技术
& 知识点 l 视频编码算法 l 音频编码算法
3.1 基础知识
3.1.1 视频信号数字化
电视图象是由多个光点组合而成,这些光点一般称为象素,PAL制的电视机规定每行的象素数为720个/行;每幅图象的垂直行数为576行。我们使用的电视机是根据三原色原理,利用R(红)、G(绿)、B(蓝)三色不同比例的混合来表示各种色彩的。例如:摄象机在拍摄时,通过光器件,将光信号转换为RGB三基色的电信号。当需要在电视机上进行图象还原时,也是使用RGB信号分别控制三支电子枪发射电子撞击荧光屏,使得在电视机屏幕中产生影象。本来按照图象源和显示终端都采用RGB信号,在图象源和显示终端间也应该采用RGB信号作为传输和存储的方式,然而在实际中,这样会大大地增加视频信号的带宽,增加相关设备成本;并且会和黑白电视不兼容,所以将RGB信号按一定比例组合成为Y(亮度)、色度(U,V)信号。象我国的PAL制式的电视机就是按照YUV格式来传送信号的。
RGB到YUV的转换关系为: Y=0.3R+0.59G+0.11B U=B-Y V=R-Y
从上面的转换关系可以看出,在彩色电视图象中,每个象素包含一个亮度信号和两个色度信号,一般人眼对亮度信号是最敏感的,而对色度信号是较为迟钝,所以色度信号比亮度信号在水平和垂直方向各少传一半的图象时,在人眼观看情况下,分别是不大的,所以为减少数据的传输量,往往也都是减少一半来传送的,即我们常说的4:2:2图象压缩格式。如图3.1-1所示
31
视频会议系统基础理论
图3.1-1 4:2:2图象压缩格式
3.1.2 数字图象压缩的必要性
当模拟信号数字化后其频带大大加宽,一路6MHz的普通电视信号数字化后,其数码率将高达162Mbps以上。
1. 传输带宽:为了实现电视画面的连续性,图象播放需要达到25帧/秒,这
样对于720×576×25的现行标准电视信号来说,其图象传输速率(即码率)为“(720×576+2×360*288)×8×25=162201600bit/s”,可以看到这样高的速率在网络上传输是非常浪费带宽的。
2. 存储容量:即便在网络有足够的带宽可以让这么大的信息码流自由传送,
可对于存储设备又成为一个难以想象的障碍,试想以其1/6的速率近28M的码率进行信息传送时,15秒的数据就已经达到了420M,可想而知要存储一个90分钟影片所耗费的存储空间之巨大。
未压缩的数字视频信号只能用于本地设备之间的数据交换,不适合传输和存储。以CCIR REC.601建议的演播室数字视频格式为例,PAL制模拟电视信号数字化后的实时传输需要166Mbps的传输带宽,如果用于存储,一小时的节目需要75G字节的存储空间。
32
第3章 视音频编解码技术
所以图象信息在传输和存储之前需要进行压缩,只有采用数字压缩技术才能很好地解决传输带宽和存储空间的大量占用难题,压缩后信号所占用的频带大大低于原模拟信号的频带。
图象信号的对比说明如表2.1-1所示。
表3.1-1 图象信号对比表
应用种类 HDTV SDTV 视频会议CIF 桌上电视QCIF 电视电话
比特数/象素 8 8 8 8 8
象素数/行 1920 720 352 176 128
行数/帧 1080 480 288 144 112
帧数/秒 30 30 30 30 30
亮色比 4:1:1 4:1:1 4:1:1 4:1:1 4:1:1
比特/秒 (压缩前) 1.18G 167M 36.5M 9.1M 5.2M
比特/秒 (压缩后) 20~25M 4~8M 1.5~2M 128K 56K
3.1.3 数字图象压缩的可能性
数据压缩之所以可实现原始数据的还原,是因为原始数据存在一定的冗余度。 图像压缩的原理是利用了图像中的两种特性:空间相关性和时间相关性。 一帧图像内的任何一个场景都是由若干像素点构成的,因此一个像素通常与它周围的某些像素在亮度和色度上存在一定的关系,这种关系叫作空间相关性; 一个节目中的一个情节常常由若干帧连续图像组成的图像序列构成,一个图像序列中前后帧图像间也存在一定的关系,这种关系叫作时间相关性。 这两种相关性使得图像中存在大量的冗余信息。
1. 空间冗余:一帧图象中存在的冗余。在一幅图象中,有大块的区域的颜色、
亮度相同,我们可以解释为这大块区域中的相邻图象信息是相同的。 2. 时间冗余:连续的多帧图象之间存在的冗余。比如静止图象的播放,我们
也可以说它的第一帧和第二帧是相同的。
如果我们能将这些冗余信息去除,只保留少量非相关信息进行传输,就可以大大节省传输频带。而接收机利用这些非相关信息,按照一定的解码算法,可以在保证一定的图像质量的前提下恢复原始图像。一个好的压缩编码方案就是能够最大限度地去除图像中的冗余信息。
33
视频会议系统基础理论
3.1.4 语音编码的技术指标
语音编码,就是语音压缩,它可有效的提高传输或存储效率。语音编码在整个系统中的位置如图3.1-2所示。
图3.1-2 语音编码在整个系统中的位置
语音编码的技术指标分为客观指标与主观指标两种: 1. 客观指标,主要包括下面几个。 l l l
有信噪比 频谱响应
编码速率:一般用bit/s表示,如:[PCM:64 kbit/s]、[G.728:16 kbit/s]、可变比特率等 l l l l
编解码的算法复杂度:包括MIPS数要求、存储空间要求、功耗等 编解码延时:分网络延时、算法延时、计算延时 顽键性:指对不同来源的语音信号进行编解码的适应性 误码容限以及增益衰
2. 主观指标:主要是平均意见得分(Mean Opinion Score,MOS),它的评分
标准如表3.1-2所示。
表3.1-2 MOS评分标准
MOS分数 5 4 3 2 1
优 良 可 差 坏
质量级别
不觉察 稍有觉察
有觉察且稍觉可厌 明显觉察 不可忍受
失真情况
34
第3章 视音频编解码技术
3.1.5 语音编码的分类
语音编码可以按下面几方面进行分类。 1. 按速率分。
高比特率编码:> 32 kbps,如G.722、G.711、MPEG 中比特率编码:8~32 kbps,如G.728、ADPCM 低比特率编码:2.4~8 kbps,如G.723.1、G.729 极低比特率编码:≤2.4 kbps,如LPC 2. 按频带分。
宽带编码:采样率 ≥15 kHz,如G.722、MPEG
窄带编码:采样率8 kHz,如G.711、G.728、G.723.1、G.729 3. 按编码形式分。
波形编码:如G.711、G.722 参数编码:如LPC
混合编码:如G.728、G.723.1、G.729
3.2 视频编码算法
图像压缩编解码技术是多媒体信息处理的重要部分,按照压缩编码所采用的算法不同,图像压缩编码的方法有三类。 1. 消除图像时间冗余度的预测编码方法
预测编码是基于图像的相关性进行数据压缩的一种方法。视讯传输中,每一帧图像的内容相差不大,或者说一帧图像与它前一帧图像的相关性很强。利用这个相关性,首先将一幅完整内容的图像传到对方,再用已传送的像素对当前的图像像素进行预测,对预测值与实际值的差值——预测误差进行编码处理和传输;以后发送的每幅画面,只需把不同的内容传过去,相同的内容就不再传到对方,从而可使传输的码速率大大下降。这种依据人眼的视觉特性设计的编码方式,采用较少的量化分层,使量化噪声不易被人眼觉察,这样图象数据得到压缩,而图像主观质量并不下降。 2. 消除空间冗余度的变换编码方法,如离散余弦变换(DCT)的编码方法 (1) 离散余弦变换(DCT)编码
35
视频会议系统基础理论
3.2.1 H.261
图象数据具有空间相关性,通过DCT变换将图象数据从空间域变换到频域,视频图象的相关性明显下降,信号的能量主要集中在少数几个变换系数上,然后采用量化和熵编码可有效地压缩其数据。 (2) 游程长度编码(RLC)
DCT编码中,通常变换系数经量化后会出现很多连续的零系数。在这种情况下,只要说明两个非零系数之间有多少个零,而不需要传送大量的零系数,解码时插入零系数即可。 (3) 哈夫曼编码
哈夫曼编码是一种非等长编码方法。对DCT系数进行量化以后,在已知各量化值出现不同概率的情况下,对出现概率高的量化值采用短码字,对出现概率低的量化值采用长码字,可以减少量化值的平均码长,达到压缩目的。 (4) 运动补偿
视频图象数据具有时间相关性,相邻的两帧图象间可能具有相同的背景和一些运动的物体。如果能用尽量少的数据描述出这些相同的背景以及运动物体的移动情况,可以大大减少数据量。
运动补偿技术的主要内容包括:将视频图象分割成静止部分和运动部分,检测运动物体的位移,对分割出的运动物体在移动后的差值进行编码,对运动矢量进行编码。 3. 混合编码
信源编码的目的是压缩电视图像的时域和空间域冗余量,降低视频数字化图像序列的比特率,从而提高传输和存贮的效率。所以一般都采用将前两类方法结合起来使用的所谓的混合编码。
采用混合编码方式可以用DCT变换进行帧内编码压缩,用运动补偿和运动估计来进行帧间编码压缩,使用熵编码提高压缩的效率等。象H.261、H.263、MPEG-1、MPEG-2等标准都是采用这样的混合编码模型来实现的。
H.261编码算法具有如下特点。 1. 采用通用的中间格式(CIF)。
2. 图象按视频的整数倍速率抽取,与数字网络时钟同步。
36
第3章 视音频编解码技术
3. 视频编码器提供一组独立的数字比特流。
4. 采用混合编码算法,帧间预测用来降低图象信号的时间冗余度,而变换编
码用于降低空间域的多余度。 5. 视频的编码速率从40kb/s ~ 2Mb/s。
6. 传输比特流包含BCH(511,493)前向纠错码。
图像压缩方法一般包括预测压缩编码、变换压缩编码、非等步长量化和变长编码等。H.261建议采用了运动补偿预测和离散余弦变换相结合的混合编码方案,具有很好的图像压缩效果。该建议1990年正式通过,解决了以下三个问题,是其他图像压缩标准的核心和基础。
1. 编解码算法问题。确立了一种合理的、保证图像质量的、为各图像编码专
家所公认的统一的算法;
2. 解决了PCM标准的互换。中国及欧洲PCM一次群为2.048Mbit/s的码率,
即32个时隙。北美及日本等国采用1.544Mbit/s的一次群,即为24个时隙,故在应用PCM信道进行图像传输时,便涉及到收发编解码的码率一致性问题。确切地说H.261建议不涉及到PCM标准问题。编码器工作于64~1920Kbit/s的速率覆盖N-ISDN或PCM一次群的通道;
3. 为编解码器设定了一种公共的图像格式,解决了电视的PAL制与NTSC制
的互通问题。欧州及中国采用PAL制,北美及日本采用NTSC制式。PAL制式的电视信号图像格式为:每幅图像扫描625行,每秒钟25个帧,隔行扫描,每帧两场;NTSC制式是每幅图像扫描525行,每秒为30帧,也是隔行扫描。无论是上述哪一种制式的视频信号进到编解码器后都转变成公共中间格式(CIF)。CIF和QCIF格式的参数如表3.2-1所示。
表3.2-1 CIF和QCIF格式的参数如下表
亮度Y 色度CB 色度CR
288 144 144
CIF格式
行/帧
352 176 176
象素/行
144 72 72
行/帧
176 88 88 QCIF格式
象素/行
这样便解决了收发端与电视制式无关的问题,如图3.2-1所示。
37
视频会议系统基础理论
PAL制视频格式转换NTSC制视频CIF视频编解码器信道 图3.2-1 利用中间公共格式互通原理框图
H.261建议所规范的视频编解码器结构的框架如图3.2-2所示。
编码控制数字视频信源编码视频多路发送存储信道编码通信网信道解码视频编码器视频显示信源解码视频分解接收存储传输视频解码器注:两条虚线中间的就是H.261视频编解码器框图。
图3.2-2 H.261建议规范的视频编解码器框图
图3.2-2中,信源编解码完成H.261的编解码算法,视频多路按这种算法结构组织视频复合编码,将同步信号、定址信息及其它信息加到视频信息中。并对视频数据做进一步压缩。 1. 变字长编码
对视频数据按哈夫曼(Huffman)编码原理进行变字长编码。其方法是对出现概率大的灰度(亮度)信号进行短的码字编码,对出现概率小的信号赋予长的码字。平均的结果,使视频数据流总的码字最短,从而达到进一步压缩的目的。 2. 辅助信号的压缩控制
以指示信号“发送/不发送”标志为例说明。该标志作用是告诉对方的复合解码器在一幅图像中,哪些宏块要发送,哪些宏块不发送。当宏块的运动变化小于某一阈值时,该宏块可以不发送。需要发送的宏块又分为帧内和帧间两种编码方式,所以还有“帧内/帧间”指示。一般对第一帧图像、运动太快的图像帧以及定时强制刷新的帧实行帧内编码,其余帧用帧间编码。
38
第3章 视音频编解码技术
每隔132帧(或小于132帧)必须强制刷新一次,以防止编码中的误码积累影响后续帧。 3. 存储传输缓存器
将变字长编码的图像数据与辅助信号一起构成为符合H.261建议中所规定的数据结构的标准数据流,送入发送存储传输缓存器。缓存器自身具备码速率控制作用,即控制其输入端的数据流量。使缓存器的输入、输出端的数据流的码速率基本相等。 4. 信道编码
当数据在信道上传输时,由于传输信道特性不理想以及外界的电磁干扰,会使所传输的码流产生误码。
信道编码的主要目的就是要设法检测并纠正这一类误码。误码控制的方法采用BCH(511,493)码的前向纠错。其编码原理是每493bit的信息码后面插入18bit的监督码,能检出2bit的错码,纠正1bit的错码。误码率小于10-6。
3.2.2 H.263、H263+、H263++
【H.263】
H.263是在H.261标准的基础上发展起来的,其图象编码的核心算法仍然是H.261标准中采用的混合编码,但是H.263建议的是低码率下的图象传送,在技术上是H.261的改进和扩充,支持码率小于64kbit/s的应用。
实质上H.263以及后来的H.263+和H.263++已发展成支持全码率应用的建议,从它支持众多的图像格式这一点就可看出,如SQCIF、QCIF、CIF、4CIF甚至16CIF等格式,如表3.2-2所示。
表3.2-2 ITU视频会议图像格式
视频会议图像格式 Sub-QCIF QCIF CIF 4CIF 16CIF
图像大小(像素) 128x96 176x144 352x288 702x576 1408x1152
H.261 可选的 必须的 可选的 N/A N/A
H.263 必须的 必须的 可选的 可选的 可选的
39
视频会议系统基础理论
在H.263标准中,相对H.261做了几个方面的改动,改进后的图象效果在384kbit/s码率情况下比H.261标准的图象有了很大改善。
1. 在CIF、QCIF基础上,增加了SQCIF(128×96)格式,甚至演变成为现在
支持4CIF和16CIF格式。
2. 利用了半象素运动补偿提高预测误差精度。
3. 采用了基于语义的算术编码代替了哈夫曼编码以获得更好的压缩效率,并
且在块组层结构、字头、DCT系数的变字长编码等方面也做了相应改进。 4. 提供了4种有效的压缩编码方法供选用,以提较好的图像质量。 (1) UMV(无限制运动矢量模式):可以获得更好的运动预测结果和更高的编
码效率。可以很好的提高图像边缘运动补偿效果,改进边缘图像质量。
(2) ADV(高级预测模式):提高预测精度,减少方块效应。
(3) PB帧模式:引入了MPEG标准中的B图象帧模式(双向预测编码)在码
率没有增加的基础上,可以增加图象的帧频,减少噪声影响。
(4) SAC(基于句法的算术编码模式):在图像主、客观质量不变的前提下可显
著地减少编码比特数。
【H.263+】
H.263+是H.263的第二版标准,它是兼容H.263的,其目的是:扩展应用范围和提高压缩效率,在图像格式、编码模式和增强信息三方面增加了12个新的选项,几个主要的选项说明如下。
1. UMV扩展:支持RVLC(可反转的变长码),可以双向解码,增强对信道
误码的适应能力。
2. 去块效应滤波模式(Deblocking):有效减小量化引起的方块效应。 3. 参考帧可选择模式(RPS:Reference Picture Selection):增加灵活性,降低
码率。
4. 改进的量化模式(MQ:Improved Quantization):宏块级可以任意指定量化
因子,对色度可用更小的量化因子,可以不对DCT系数的量化结果限幅。 5. 时域、SNR、空域可伸缩性模式(TSSS:Temproal, SNR, and Spatial
Scalability):对于Internet这样的复杂网络环境和无线链路等误码率较高的信道非常有用。
40
3.2.3 H.264
第3章 视音频编解码技术
【H.263++】
H.263++的目的是:进一步提高压缩率,提高传输误码情况下的传输质量,其中比H.263+多加了3个选项,说明如下。
1. Annex U:Enhanced Reference Picture Selection Mode,提出在运动估计中采
用多个参考帧的思想。
2. Annex V:Data partitioning,主要是提高在传输误码情况下的传输质量。 3. Annex W:Additional Supplemental Information,提出隔行扫描图像的编码
能力以及定点IDCT的规范说明。
H.264是ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图像编码专家组)的联合视频组开发的一个新的数字视频编码标准。H.264和以前的标准一样,也是DPCM加变换编码的混合编码模式。但却获得比H.263好得多的压缩性能;除了对各种信道的适应能力有所加强,而且对误码和丢包的处理也改善了很多;可以满足不同速率、不同解析度以及不同传输的需求。
H.264和H.261、H.263一样,也是采用DCT变换编码加DPCM的差分编码,即混合编码结构。同时,H.264在混合编码的框架下引入了新的编码方式,提高了编码效率,更贴近实际应用。
H.264码流结构网络适应性强,增加了差错恢复能力,能够很好地适应IP和无线网络的应用。
H.264的技术特点如下所述。 1. 分层设计
(1) 视频编码层(VCL):具有高效的视频内容表示功能,负责对视频内容进行
编码。VCL中包括VCL编码器与VCL解码器,主要功能是视频数据压缩编码和解码,它包括运动补偿、变换编码、熵编码等压缩单元。
(2) 网络提取层(NAL):将网络中所需要的数据进行打包和传送。用于为VCL
提供一个与网络无关的统一接口,它负责对视频数据进行封装打包后使其在网络中传送,它采用统一的数据格式,包括单个字节的包头信息、多个字节的视频数据与组帧、逻辑信道信令、定时信息、序列结束信号等。 2. 高精度、多模式运动设计
41
视频会议系统基础理论
支持1/4或1/8像素精度的运动矢量;多模式的灵活和细致的划分,大大提高了运动估计的精确程度;多帧参考技术。 3. 帧内预测功能
在空间域进行预测编码算法,以便取得更有效的压缩。 4. 4×4块的整数变换
由于用二变换块的尺寸缩小,运动物体的划分更精确,这样,不但变换计算量比较小,而且在运动物体边缘处的衔接误疾差也大为减小: 为了提高码率控制的能力,量化步长的变化的幅度控制在125%左右,而不是以不变的增幅变化。为了强调彩色的逼真性,对色度系数采用了较小量化步长; 5. 统一的VLC
为快速再同步而经过优化的,可以有效防止误码。
H.264建议的技术特点可以归纳为三个方面,一是注重实用,采用成熟的技术,追求更高的编码效率,简洁的表现形式;二是注重对移动和IP网络的适应,采用分层技术,从形式上将编码和信道隔离开来,实质上是在源编码器算法中更多地考虑到信道的特点;三是在混合编码器的基本框架下,对其主要关键部件都做了重大改进,如多模式运动估计、帧内预测、多帧预测、统一VLC、4×4二维整数变换等。
H.264具有的更高的压缩比,更好的信道适应性,必将在数字视频的通信或存储领域得到越来越广泛的应用,但同时我们也应该看到,H.264优越性能的获得不是没有代价的,其计算复杂度的大大增加势必需要更强功能的硬件芯片和更高速的CPU支持,H.264编码的计算复杂度大约相当于H.263的3倍,解码复杂度大约相当于H.263的2倍。
3.2.4 MPEG-1
MPEG-1标准,包括系统、视频、音频三部份,图像质量略超过VHS(Video Home System),码率<1.5Mbit/s,视频编码和H.261基本一致,图像采用CIF格式(352X288X25或352X240X30),图像模式有I、P、B、D。
3.2.5 MPEG-2
MPEG-2系统支持五项基本功能,如下所述。
42
第3章 视音频编解码技术
1. 解码时多压缩流的同步。 2. 将多个压缩流交织成单个数据流。 3. 解码时缓冲区初始化。 4. 缓冲区管理。 5. 时间识别。
为了缓和通用性和特殊性的矛盾,针对不同的应用,规定了若干档次(profile),每一档次又划分成若干级别(level)。在MPEG-1的基础上作了许多重要扩展和改进,如下所述。
1. 增加了“按场编码”模式,同时在“按帧编码”模式中,允许进行以场为
基础的运动补偿和DCT,显著提高了压缩编码效率。
2. 扩大了重要的参数值,允许有更大的画面格式,码率和运动矢量。 3. 增加了“可分级性”,允许通过部分解码从一个编码数据流中得到不同质量
或不同时空分辨率的视频信号。 4. 增加了半象素运动估计。
3.2.6 MPEG-3
MPEG-3具有高质量的压缩编码性能,能适用于HDTV(高清晰度电视)。
3.2.7 MPEG-4
MPEG-4不仅是针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。MPEG-4利用很窄的带宽,通过帧重建技术、数据压缩,以求用最少的数据获得最佳的图像质量
中最重要、最吸引人注目的概念是视频对象平面(Video Object Plane,VOP),如视像电话、视像电子邮件。视频资料的内容可依据需要及内涵,被分割成数个VOP,这些VOP可被分开编码(压缩)、存储或传送,而使用MPEG-4标准的系统则可依其应用所需将这些VOP加以重组、删减或是替换。这一概念直接导致了基于内容的压缩,为提供更高的压缩比打下了基础,同时也将传统的时空可扩展性由基于帧的扩展到基于图像内容的扩展。
43
视频会议系统基础理论
3.2.8 MPEG-7和MPEG-21
MPEG-7标准被称为“多媒体内容描述接口”,为各类多媒体信息提供一种标准化的描述,这种描述将与内容本身有关,允许快速和有效的查询用户感兴趣的资料。它将扩展现有内容识别专用解决方案的有限的能力,特别是它还包括了更多的数据类型。换而言之,MPEG-7规定一个用于描述各种不同类型多媒体信息的描述符的标准集合。
MPEG-21可以描述成一些关键技术的集成,这些技术可以通过访问全球网络和设备实现对多媒体资源的透明和增强地使用。其主要功能包括内容创建、内容产品、内容发布、内容消耗和使用、内容表示、知识产权管理和保护、内容识别和描述、财政管理、用户的隐私权、终端和网络资源抽取以及事件报告等,其目的是: 1. 将不同的协议、标准、技术等有机地融合在一起。 2. 制定新的标准。
3. 将这些不同的标准集成在一起。
3.2.9 常见视频压缩算法特点比较
常见视频压缩算法的比较如表3.2-3所示。
表3.2-3 常见视频压缩算法的比较
算法 H.261
编码特点
结合了可减少时间冗余的帧间预测和可减少空间冗余的DCT变换的混合编码方法
H.263
采用了半象素精度位移估值的帧内预测法和减少时间冗余的变换编码法结合起来,包含4个可选的编码方案:非限制运动矢量,先进预测模式,PB帧模式和基于语法的算术编码
H.264
DPCM加变换编码的混合编码模式,但采用“回归基本”的简洁设计,不用众多的选项,获得比H.263++好得多的压缩性能
p×64kbit/s 1≤p≤30
在相同的重建图像质量下,能够比H.263节约50%左右的码率
采用“网络友好”的结构和语法,有利于对误码和丢包的处理,码流结构网络适应性强,增加了差错恢复能力,能够很好地适应IP和无线网络的应用;应用范围较宽,可满足不同速率、不同解析
p×64kbit/s 1≤p≤30 输出码率 p×64kbit/s 1≤p≤30
图像质量 p取值较小时,只能传清晰度不太高的图像;p>6时,可传输清晰度图像 较H.261显著改善图像的质量
用于低比特率视频业务中运动图像部分的压缩编码方法
亮点
该标准主要针对ISDN电话线的视频会议,可视电话等,可以使用多路复用(p×64kbps)
44
第3章 视音频编解码技术
算法 编码特点 输出码率 图像质量 亮点
度以及不同传输(存储)场合的需求;它的基本系统是开放的,使用无需版权
MPEG1 MPEG2
视频编码和H.261基本一致 码<1.5Mb/s
率图像质量略超过VHS
图像采用CIF格式(352X288X25或 352X240X30),图像模式有I、P、B、D。
覆盖了一个视频和音频编码应用的广泛范围,克服并解决了MPEG-1不能满足日益增长的多媒体技术,数字电视技术、多媒体分辨率和传输率等方面的技术要求的缺陷
增加了“按场编码”模式,同时在“按帧编码”模式中,允许进行以场为基础的运动补偿和DCT,显著提高压缩编码效率; 增加了“可分级性”,允许通过部分解码从一个编码数据流中得到不同质量或不同时空分辨率的视频信号;增加了半象素运动估计;
2Mbps10Mbps
~DVD级图像质量
MPEG4
基于对象的编码和分级编码 最低几乎可到0,最高值达50Mbps。
取决与编码带宽 MPEG-4的压缩范围是可调整的;可伸缩性很好,所以对Internet的传输是非常理想的;压缩人工合成的图形或视频,可以用于节目的制作
3.3 音频编码算法
音频压缩编码是一种信息处理技术,压缩的目的是在网络带宽和存储空间一定的情况下提供最优质的声音,或是在保证声音质量的情况下尽可能少地减少所需的存储空间和所需的网络带宽。目前人们在音频压缩编码方面已经取得了很多的成果,也形成了一些国际标准,如表3.3-1所示。
表3.3-1 各种音频压缩编码标准
波编码 参数编码
LPC
线性预测编码
2.4
保密话音
2.5-3.5
算法 PCM
名称
U(A)律
自适应差分PCM
速码率 64 32
标准 G,711 PSTN G.721 ISDN
应用
质量等级 4.0-4.5
形 ADPCM
SB-ADPCM 子带-自适应差分 48/56/64 G.722
45
视频会议系统基础理论
3.3.1 G.711
3.3.2 G.722
3.3.3 G.728
3.3.4 G.723.1
算法 名称
速码率 标准 应用
质量等级 混CELPC
码激励LPC 8/4.8 移动通信 合 RPE-LTP 长时预测-规则码13.2
语音信箱
3.7-4.0 编
激励 码 LD-CELP
低时延-CELP 16 G.728 ISDN(128K视频
会议)
ACELP 自适应CELP 5.3/6.3 G.723 PSTN(可视电话)
3.5-4.0
CSA-CELP
共轭结构代数8 G.729 移动通信(第三代) 4.0 -CELP
MPEG-音频
128
CD
5.0
会议系统中的音频(语音)
G.711采用波形编码方式。G.711为波形压缩法的对数压扩(A律或μ律)PCM编码,采样范围50Hz~3500Hz,压缩后码率为64kbit/s或48kbit/s。
G.722采用波形编码方式。G.722为子带分割的ADPCM语音编码,采样范围50Hz~7000Hz,压缩后码率为48kbit/s,56kbit/s或64kbit/s。
G.728采用混合编码方式,为低时延码激励线性预测(LD-CELP)编码,音频信号带宽为50Hz~3.5kHz,编码语音输出信号速率为16kbit/s。所以,G.728更适合应用于低码率视频会议系统中。
混合编码算法结合了波形编码的编码质量高和参数编码的编码速率低等优点,并且克服了原有波形编码和参数编码的弱点,在4~16Kbit/s速率上能够得到高质量合成语音。
G.723.1是一个双速率的语音编码器,它的两个编码速率分别为6.3 kbit/s和5.3 kbit/s。高速率(6.3 kbit/s)采用多脉冲激励最大似然量化(MP_MLQ)算法,低速率(5.3 kbit/s)采用代数码本激励线性预测(ACELP)算法。
这两种算法具有相同的理论基础,都是基于线性预测(LPC),都采用非周期性分量的激励源。不同之处在于对MP_MLQ采用多脉冲最大似然量化激励,而对ACELP采用的是代数码本激励。
46
3.3.5 G.729
3.3.6 MPEG
第3章 视音频编解码技术
G.723.1具有较好的语音质量。其5.3 kbit/s速率编码,语音质量优于VCELP(8 kbit/s); 6.3 kbit/s速率编码,语音质量等价于32 kbit/s的G.726建议相应指标。两者基本上均能达到长途电话质量的要求。G.723.1的缺点是固有时延较大(编码时延小于37ms)。
G.729是速率为8 kbit/s的语音编码标准,它采用共轭结构代数码本激励线性预测编码(CS_ACELP)算法,能达到32 kbit/s ADPCM语音质量。
研究发现,CS_ACELP算法很有特点:作不太大的改动后,向下可达6.4kb/s,向上可达13kb/s,且可传送更好的语音质量。
MPEG是活动图像专家组(moving picture expert group)的简称,其主要目的是建立数字图像及其伴音压缩的通用标准。MPEG音频编码算法是一种开放的、先进的、可分级的编码技术,是高保真声音压缩领域的重要国际标准,在许多领域得到了广泛的应用。
MPEG编码器主要是利用人耳的听觉特性,去除信号中不被人耳感觉到的部分,它把压缩产生的失真尽可能地控制在人耳的感觉范围之外,所以在获得较大压缩比的情况下,仍能保持主观上良好的音质效果。
MPEG声音编码算法按照复杂度和压缩比分为layer-Ⅰ,layer-Ⅱ,layer-Ⅲ。layer-Ⅰ的复杂度最低,在每声道192 kbit/s的速率下提供高质量的声音。layer-Ⅱ有中等复杂度,可在128 kbit/s的速率下提供近似CD质量的声音。layer-Ⅲ可在每声道低于128 kbit/s的速率下获得满意的声音质量,但复杂度最高。MP3是特指MPEG的音频layer-Ⅲ。
47
因篇幅问题不能全部显示,请点此查看更多更全内容