mp4视频无损压缩软件视频的软件,能输出60帧的

1609人阅读
&5012人阅读&&&
媒体业务是网络的主要业务之间。尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析、应用开发、释放license收费等等。最近因为项目的关系,需要理清媒体的codec,比较搞的是,在豆丁网上看运营商的规范 标准,同一运营商同样的业务在不同文档中不同的要求,而且有些要求就我看来应当是历史的延续,也就是现在已经很少采用了。所以豆丁上看不出所以然,从 wiki上查。中文的wiki信息量有限,很短,而wiki的英文内容内多,删减版也减肥得太过。我在网上还看到一个山寨的中文wiki,长得很像,红色的,叫“天下维客”。wiki的中文还是很不错的,但是阅读后建议再阅读英文。
  我对媒体codec做了一些整理和总结,资料来源于wiki,小部分来源于网络博客的收集。网友资料我们将给出来源。如果资料已经转手几趟就没办法,雁过留声,我们只能给出某个轨迹。
  编解码器(codec)指的是一个能够对一个信号或者一个数据流进行变换的设备或者程序。这里指的变换既包括将 信号或者数据流进行编码(通常是为了传输、存储或者加密)或者提取得到一个编码流的操作,也包括为了观察或者处理从这个编码流中恢复适合观察或操作的形式的操作。编解码器经常用在视频会议和流媒体等应用中。
  很多多媒体数据流需要同时包含音频数据和视频数据,这时通常会加入一些用于音频和视频数据同步的元数据,例如字幕。这三种数据流可能会被不同的程序,进程或者硬件处理,但是当它们传输或者存储的时候,这三种数据通常是被封装在一起的。通常这种封装是通过视频文件格 式来实现的,例如常见的*.mpg, *.avi, *.mov, *.mp4, *.rm, *.ogg or *.tta. 这些格式中有些只能使用某些编解码器,而更多可以以容器的方式使用各种编解码器。
  FourCC全称Four-Character Codes,是由4个字符(4 bytes)组成,是一种独立标示视频数据流格式的四字节,在wav、avi档案之中会有一段FourCC来描述这个AVI档案,是利用何种codec来 编码的。因此wav、avi大量存在等于“IDP3”的FourCC。
  视频是现在电脑中多媒体系统中的重要一环。为了适应储存视频的需要,人们设定了不同的视频文件格式来把视频和音频放在一个文件中,以方便同时回放。视频档实际上都是一个容器里面包裹着不同的轨道,使用的容器的格式关系到视频档的可扩展性。
  采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数叫作采样周期或采样时间,它是采样之间的时间间隔。注意不要将采样率与比特率(bit rate,亦称“位速率”)相混淆。
  采样定理表明采样频率必须大于被采样信号带宽的两倍,另外一种等同的说法是奈奎斯特频率必须大于被采样信号的带宽。如果信号的带宽是 100Hz,那么为了避免混叠现象采样频率必须大于200Hz。换句话说就是采样频率必须至少是信号中最大频率分量频率的两倍,否则就不能从信号采样中恢复原始信号。
  对于语音采样:
8,000 Hz - 电话所用采样率, 对于人的说话已经足够11,025 Hz22,050 Hz - 无线电广播所用采样率32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频(VCD, SVCD, MP3)所用采样率47,250 Hz - Nippon Columbia (Denon)开发的世界上第一个商用 PCM 录音机所用采样率48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率50,000 Hz - 二十世纪七十年代后期出现的 3M 和 Soundstream 开发的第一款商用数字录音机所用采样率50,400 Hz - 三菱 X-80 数字录音机所用所用采样率96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、Blu-ray Disc(蓝光盘)音轨、和 HD-DVD (高清晰度 DVD)音轨所用所用采样率2.8224 MHz - SACD、 索尼 和 飞利浦 联合开发的称为 Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率。
  在模拟视频中,采样率定义为帧频和场频,而不是概念上的像素时钟。图像采样频率是传感器积分周期的循环速度。由于积分周期远远小于重复所需时间,采样频率可能与采样时间的倒数不同。
50 Hz - PAL 视频60 / 1.001 Hz - NTSC 视频
  当模拟视频转换为数字视频的时候,出现另外一种不同的采样过程,这次是使用像素频率。一些常见的像素采样率有:
13.5 MHz - CCIR 601、D1 video
  分辨率,泛指量测或显示系统对细节的分辨能力。此概念可以用时间、空间等领域的量测。日常用语中之分辨率多用于图像的清晰度。分辨率越高代表图像品质越好,越能表现出更多的细节。但相对的,因为纪录的信息越多,文件也就会越大。目前个人电脑里的图像,可以使用图像 处理软件,调整图像的大小、编修照片等。例如 photoshop,或是photoimpact等软件。
 图像分辨率&:
  用以描述图像细节分辨能力,同样适用于数字图像、胶卷图像、及其他类型图像。常用'线每毫米'、 '线每英吋'等来衡量。通常,“分辨率”被表示成每一个方向上的像素数量,比如640x480等。而在某些情况下,它也可以同时表示成“每英吋像素” (pixels per inch,ppi)以及图形的长度和宽度。比如72ppi,和8x6英吋。
 视频分辨率&:
各种电视规格分辨率比较视 频的画面大小称为“分辨率”。数位视频以像素为度量单位,而类比视频以水平扫瞄线数量为度量单位。标清电视频号分辨率为 720/704/640x480i60(NTSC)或768/720x576i50(PAL/SECAM)。新的高清电视(HDTV)分辨率可达 ,即每条水平扫瞄线有1920个像素,每个画面有1080条扫瞄线,以每秒钟60张画面的速度播放。
画面更新率fps
  Frame rate中文常译为“画面更新率”或“帧率”,是指视频格式每秒钟播放的静态画面数量。典型的画面更新率由早期的每秒6或8张(frame persecond,简称fps),至现今的每秒120张不等。PAL (欧洲,亚洲,澳洲等地的电视广播格式) 与 SECAM (法国,俄国,部分非洲等地的电视广播格式) 规定其更新率为25fps,而NTSC (美国,加拿大,日本等地的电视广播格式) 则规定其更新率为29.97 fps。电影胶卷则是以稍慢的24fps在拍摄,这使得各国电视广播在播映电影时需要一些复杂的转换手续(参考Telecine转换)。要达成最基本的视觉暂留效果大约需要10fps的速度。
有损压缩和无损压缩
  在视频压缩中有损(Lossy )和无损(Lossless)的概念与静态图像中基本类似。无损压缩也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用RLE行程编码算法。有损 压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越小,丢失的数据越多,解压缩后的效果一般越差。此外,某些有损压 缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。
无损格式,例如WAV,PCM,TTA,FLAC,AU,APE,TAK,WavPack(WV)有损格式,例如MP3,Windows Media Audio(WMA),Ogg Vorbis(OGG),AAC
帧内压缩和帧间压缩
  帧内(Intraframe)压缩也称为空间压缩 (Spatial compression)。当压缩一帧图像时,仅考虑本帧的数据而不考虑相邻帧之间的冗余信息,这实际上与静态图像压缩类似。帧内一般采用有损压缩算法,由于帧内压缩时各个帧之间没有相互关系,所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。
  采用帧间(Interframe)压缩是基于许多视频或 动画的连续前后两帧具有很大的相关性,或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量,减小压缩比。帧间压缩也称为时间压缩(Temporalcompression),它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值(Frame differencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。
对称编码和不对称编码
  对称性(symmetric)是压缩编码的一个关键特 征。对称意味着压缩和解压缩占用相同的计算处理能力和时间,对称算法适合于实时压缩和传送视频,如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中,一般是把视频预先压缩处理好,尔后再播放,因此可以采用不对称(asymmetric)编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间,而解压缩时则能较好地实时回放,也即以不同的速度进行压缩和解压缩。一般地说,压缩一段视频的时间比回放(解压缩)该视频的时间
要多得多。例如,压缩一段三分钟的视频片断可能需要10多分钟的时间,而该片断实时回放时间只有三分钟。
除wiki外的资料来源:/csyy/Using/2.html
资料(港台将information翻译为资料)压缩是透过去除资料中的冗余资讯而达成。就视讯资料而言,资料中的冗余资讯可以分成四类:
时间上的冗余资讯(temporal redundancy)
  在视讯资料中,相邻的帧(frame)与帧之间通常有很强的关连性,这样的关连性即为时间上的冗余资讯。这即是上一次学习中的帧间压缩。
空间上的冗余资讯(spatial redundancy)
  在同一张帧之中,相邻的像素之 间通常有很强的关连性,这样的关连性即为空间上的冗余资讯。这即是上一次学习中的帧内压缩。
统计上的冗余资讯(statistical redundancy)
  统计上的冗余资讯指的是欲编码的符号(symbol)的机率分布是不均匀(non-uniform)的。
感知上的冗余资讯(perceptual redundancy)
  感知上的冗余资讯是指在人在观看视讯时,人眼无法察觉的资讯。
  视讯压缩(英文:Video compression)是指运用资料压缩技术将数位视讯资料中的冗余资讯去除,降低表示原始视讯所需的资料量,以便视讯资料的传输与储存。实际上,原始视讯资料的资料量往往过大,例如未经压缩的电视品质视讯资料的位元率高达216Mbps,绝大多数的应用无法处理如此庞大的资料量,因此视讯压缩是必要的。目前最新的视讯编码标准为ITU-T视讯编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视讯组(JVT,Joint Video Team)所提出的H.264/AVC。
  一个典型的视讯编码器:在进行当前信号编码时,编码器首先会产生对当前信号做预测的信号,称作预测信号(predicted signal),预测的方式可以是时间上的预测(interprediction),亦即使用先前帧的信号做预测,或是空间上的预测 (intra prediction),亦即使用同一张帧之中相邻像素的信号做预测。得到预测信号后,编码器会将当前信号与预测信号相减得到残余信号(residual signal),并只对残余信号进行编码,如此一来,可以去除一部份时间上或是空间上的冗余资讯。接着,编码器并不会直接对残余信号进行编码,而是先将残余信号经过变换(通常为离散余弦变换)然后量化以
进一步去除空间上和感知上的冗余资讯。量化后得到的量化系数会再透过熵编码,去除统计上的冗余资讯。
视讯编码标准发展
解除版权保护
(DRM-free )
影音光碟(&)
(&)、(&)影碟、数位视讯广播(&)、
、、&手机视讯(&)
(&)影碟、数位视讯广播(&)、&视讯、(&)
常见的编解码见下表,在以后会分类论述:
&·&&·&&·&&(&)·&&(&·&&)·
&·&&·&&·&&·&&·&
&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&·&&·&&·&&·&·&·&··&·&·&·&
音频 codec
&·&&·&&·&&·&&·&&·&·&
&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&&·
&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&·&&·&&·&&·&&(True Audio)·&&·&&·&&·&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&·&&·&&·&
&·&&·&&·&&·&&·&&·&&·&
&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&
&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&·&&·&&·&&·&&·&&·&&·&&·&
只用于音频
上面的表格,查看某个具体的codec,可以在中文的wiki中查找,但是英文的wiki咨询更为丰富,见下表
&·&&·&&·&&(&)·&&(&·&&)·&
&·&&·&&·&&·&&·&
&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&·&&·&&·&&·&&·&&·&·&&·&&·&&·&&·&&·&
&·&&·&&·&&·&&·&·&&·&&·&&·&
&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&&·
&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&&(True Audio)·&&·&&·&·&&·&&·&&·&&·&&·&&·&&·&&·&·&&·&&·&&·&&·&
&·&&·&&·&&·&&·&&·&&·&
&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&&·&&·
&·&&·&&/&·&
&·&&·&&·&&·&&·&&·&&·&&·&&·&·&&·&&·&&·&&·&&·&&·&&·&·&&·&&·&
Audio only
MPEG是Moving Picture Experts Group的简称。这个名字本来的含义是指一个研究视频和音频编码标准的小组。现在我们所说的MPEG泛指又该小组制定的一系列视频编码标准。该小组于 1988年组成,至今已经制定了MPEG-1、MPEG-2、MPEG-3、MPEG-4、MPEG-7等多个标准,MPEG-21正在制定中。
MPEG到目前为止已经制定并正在制定以下和视频相关的标准:
MPEG-1: 第一个官方的视訊音訊压缩标准,随后在Video CD中被采用,其中的音訊压缩的第三级(MPEG-1 Layer 3)简称MP3, 成为比较流行的音訊压缩格式。MPEG-2: 广播质量的视訊、音訊和传输协议。被用于無線數位電視-ATSC、DVB以及ISDB、数字卫星电视(例如DirecTV)、 数字有线电视信号,以及DVD视频光盘技术中。MPEG-3: 原本目标是为高解析度电视(HDTV)设计,随后發現MPEG-2已足夠HDTV應用,故 MPEG-3的研發便中止。MPEG-4:2003 年发布的视訊压缩标准,主要是扩展MPEG-1、MPEG-2等標準以支援視訊/音訊物件(video/audio &objects&)的編碼、3D內容、低位元率編碼(low bitrate encoding)和數位版權管理(Digital Rights Management),其中第10部分由ISO/IEC和ITU-T联合发布,称为H.264/MPEG-4 Part 10。参见H.264。MPEG-7:MPEG-7并不是一个视訊压缩标准,它是一个多媒体内容的描述标准。MPEG-21:MPEG-21是一个正在制定中的标准,它的目标是为未来多媒体的应用提供一个完整的平台。
  媒体codec在于MPEG-1,MPEG-2,MPEG-4,如上图所示。
图中名称解释:在图中DVD地球人都知道,何为DVB?
DVB:数字视频广播(DVB, Digital VideoBroadcasting),是由“DVB Project”维护的一系列为国际所承认的数字电视公开标准。DVB系统传输方式有如下几种:
·&&&&&&&&卫星电视(DVB-S 及 DVB-S2)
·&&&&&&&&有线电视(DVB-C)
·&&&&&&&&无线电视(DVB-T)
·&&&&&&&&手持地面无线(DVB-H)
这些标准定义了传输系统的物理层与数据链路层。设备通过同步并行接口(synchronous parallel interface, SPI),同步串行接口(synchronous serial interface, SSI),或异步串行接口(asynchronousserial interface, ASI)与物理层交互。数据以MPEG-2传输流的方式传输,并要求符合更严格的限制(DVB-MPEG)。对移动终端即时压缩传输数据的标准(DVB- H)目前正处于测试之中。
这些传输方式的主要区别在于使用的调制方式,因为不同它们应用的频率带宽的要求不同。利用高频载波的DVB-S使用QPSK调制方式,利用低频载波的DVB-C使用QAM-64 调制方式,而利用VHF 及 UHF载波的DVB-T使用COFDM调制方式。
除音频与视频传输外,DVB也定义了带回传信道(DVB-RC)的数据通信标准(DVB-DATA)。
DVB的codec,视频为:MPEG-2,MPEG-4 AVC;音频为:MP3,AC-3,AAC,HE-AAC。
  MPEG-1作为ISO/IEC11172正式发布。
  MPEG-1较早的视频编码,质量比较差,主要用于 CD-ROM 存储视频,国内最为大家熟悉的就是 VCD(Video CD),他的视频编码就是采用 MPEG-1。它是为CD光盘介质定制的视频和音频压缩格式。一张70分钟的CD光盘传输速率大约在1.4Mbps。而 MPEG-1采用了块方式的运动补偿、离散余弦变换(DCT)、量化等技术,并为1.2Mbps传输速率进行了优化。MPEG-1 随后被Video CD采用作为内核技术。MPEG-1的输出质量大约和传统录像机VCR,信号质量相当,这也许是Video
CD在发达国家未获成功的原因。
  MPEG-1音频分三层,就是MPEG-1 Layer I, II, III,其中第三层协议也就是MPEG- 1 Layer 3,简称MP3。MP3目前已经成为广泛流传的音频压缩技术。
MPEG-1有下面几个部分:
第一部分(Part 1):系统;第二部分(Part 2):视频;第三部分(Part 3):音频;定义level1,level2,level3,并在MPEG-2中定义了扩展。第四部分(Part 4):一次性测试;第五部分(Part 5):参考软件;
MPEG-1的缺点:
1个音频压缩系统限于两个通道(立体声)没有为隔行扫描视频提供标准化支持,且压缩率差只有一个标准化的“profile” (约束参数比特流), 不适应 更高分辨率的视频。MPEG - 1可以支持4k的视频,但难以提供更高分辨率的视频编码并且标识硬件的支持能力。支持只有一个颜色空间,4:2:0。
MPEG-2内容介绍
  MPEG-2作为ISO/IEC 13818正式发布,通常用来为广播信号提供视频和音频编码,包括卫星电视、有线电视等。MPEG-2经过少量修改后,也成为DVD产品的内核技术。
  MPEG-2有11部分,具体如下:
第一部(Part 1):系统-描述视频和音频的同步和多路技术
  正式名称是 ISO/IEC 13818-1或 ITU-T中的H.222.0
  MPEG-2的系统描述部分(第1部分)定义了传输流,它用来一套在非可靠介质上传输数字视频信号和音频信号的机制,主要用在广播电视领域。
  定义了两个不同但相关的容器格式,MPEG transport stream和MPEG program stream,也就是图中的TS和PS。MPEG传输流(TS)为携带可损数字视频和音频,媒体流的开始和结束可以不标识出来,就像广播或者磁带,其中的 例子包括ATSC,DVB,SBTVD 和HDV。MPEG-2系统还定义了MPEG节目流(PS),它为以文件为基础的媒体设计一个容器格式,用于 硬盘驱动器,光盘 和闪存。
   MPEG-2 PS(节目流)是为在存储介质保存视频信息而开发的。 MPEG-2 TS(传输流)是为在网络传输视频信息而开发的。目前,MPEG-2 TS最广泛地应用是DVB系统。TS流与PS流的区别在于TS流的包结构是固定度的,而PS流的包结构是可变长度。 PS包与TS包在结构上的这种差异,导致了它们对传输误码具有不同的抵抗能力,因而应用的环境也有所不同。TS码流由于采用了固定长度的包结构,当传输误 码破坏了某一TS包的同步信息时,接收机可在固定的位置检测它后面包中的同步信息,从而恢复同步,避免了信息丢失。而PS包由于长度是变化的,一旦某一PS包的同步信息丢失,接收机无法确定下一包的同步位置,就会造
成失步,导致严重的信息丢失。因此,在信道环境较为恶劣,传输误码较高时,一般采用TS码流;而在信道环境较好,传输误码较低时,一般采用PS码流由于 TS码流具有较强的抵抗传输误码的能力,因此目前在传输媒体中进行传输的MPEG-2码流基本上都采用了TS码流的包格。
第二部(Part 2):视频-视频压缩
  正式名称是 ISO/IEC 13818-2或 ITU-T H.262。
  提供隔行扫描和非隔行扫描视频信号的压缩编解码器。
  MPEG-2的第二部分即视频部分和MPEG-1类似,但是它提供对隔行扫描视频显示模式的支持(隔行扫描广泛应用在广播电视领域)。MPEG-2视频并没有对低位速率(小于1Mbps)进行优化,在 3Mbit/s及以上位速率情况下,MPEG-2明显优于MPEG-1。 MPEG-2向后兼容,也即是说,所有符合标准的MPEG-2解码器也能够正常播放MPEG-1视频流。
  MPEG-2技术也应用在了HDTV传输系统中。MPEG-2 不光运用于 DVD-Video ,现在大部 分 HDTV(高清电视)也采用 MPEG-2 编码,分辨率达到了 。由于 MPEG-2 的普及,本来为 HDTV 准备 的 MPEG-3 最终宣告放弃。
  MPEG-2视频通常包含多个GOP(GroupOf Pictures),每一个GOP包含多个帧(frame)。帧的帧类(frame type)通常包括I-帧(I-frame)、P-帧(P-frame)和B-帧(B-frame)。其中I-帧采用帧内编码,P-帧采用前向估计,B- 帧采用双向估计。一般来说输入视频格式是25(CCIR标准)或者29.97(FCC)帧/秒。
  MPEG-2支持隔行扫描和逐行扫描。在逐行扫描模式下,编码的基本单元是帧。在隔行扫描模式下,基本编码可以是帧,也可以是场(field)。
  原始输入图像首先被转换到YCbCr颜色空间。其中Y是亮度,Cb和Cr是两个色度通道。 Cb指蓝色色 度,Cr指红色色度。对于每一通道,首先采用块分区,然后形成“宏块”(macroblocks),宏块构成了编码的基本单元。每一个宏块再分 区成8x8的小块。色度通道分区成小块的数目取决于初始参数设置。例如,在常用的4:2:0格式下,每个色度宏块只采样出一个小块,所以三个通道宏块能够 分区成的小块数目是4+1+1=6个。
  对于I-帧,整幅图像直接进入编码过程。对于P-帧和B-帧,首先做运动补偿。通常来说,由于相邻帧之间的相关 性很强,宏块可以在前帧和后帧中对应相近的位置找到相似的区域匹配的比较好,这个偏移量作为运动向量被记录下来,运动估计重构的区域的误差被送到编码器中编码。
  对于每一个8×8小块,离散余弦变换把图像从空间域转换到频域。得到的变换系数被量化并重新组织排列顺序,从而增加长零的可能性。之后做游程编码(run-length code)。最后作哈夫曼编码(Huffman Encoding)。
  I帧编码是为了减少空间域冗余,P帧和B帧是为了减少时间域冗余。
  GOP是由固定模式的一系列I帧、P帧、B帧组成。常用的结构由15个帧组成,具有以下形式 IBBPBBPBBPBBPBB。GOP中各个帧的比例的选取和带宽、图像的质量要求有一定关系。例如因为B帧的压缩时间可能是I帧的三倍,所以对于计算 能力不强的某些实时系统,可能需要减少B帧的比例。
  MPEG-2输出的比特流可以是匀速或者变速的。最大比特率,例如在DVD应用上,可达10.4 Mbit/s。如果要使用固定比特率,量化尺度就需要不断的调节以产生匀速的比特流。但是,提高量化尺度可能带来可视的失真效果。比如马赛克现象。
第三部(Part 3):音频-音频压缩
  MPEG-2的第三部分定义了音频压缩标准。MPEG-2 BC(Backwards compatible),后向兼容MPEG-1音频。该部分改进了MPEG-1的音频压缩,支持两通道以上的音频,可高达5.1多声道。MPEG-2音频 压缩部分也保持了向后兼容的特点(也称为MPEG - 2 BC),允许的MPEG - 1音频解码器解码两个主立体声组件。还定义音频MPEG-1 Layer I,II ,III额外的比特率和采样频率。
  例如mp2,是MPEG-1 Audio level 2,标准有:ISO/IEC 11172-3, ISO/IEC 13818-3。MPEG-1Layer II 定义在 ISO/IEC 11172-3,也就是MPEG-1的第三部分,在 ISO/IEC 13818-3,也就是MPEG-2的第3部分定义扩展。
第四部(Part 4):测试规范
  描述测试程序。
第五部(Part 5):仿真软件
  描述软件仿真系统。
第六部(Part 6):DSM-CC(Digital Storage Media Commandand Control)扩展
  描述DSM-CC(数字存储媒体命令及控制)扩展。
第七部(Part 7):Advanced Audio Coding (AAC)
  MPEG-2的第七部分定义了不能向后兼容的音频压缩(也成为MPEG-2 NBC)。也成为MPEG-2 NBC(not-backwards compatible MPEG-1Audio)。该部分提供了更强的音频功能。通常我们所说的MPEG-2 AAC指的就是这一部分。AAC即Advanced Audio Coding。 AAC是比以前的MPEG音频标准的效率,并在某个程度上没有它的前任MPEG-1 Layer3(MP3)复杂,它没有复杂的混合滤波器(hybrid filter
bank)。它支持从1到48个通道,采样率从8-96千赫,多渠道,多语种和多节目(multiprogram)能力。AAC也在MPEG-4标准的第 3部分描述。
第八 部(Part 8):
   已取消。
第九部(Part 9):实时接口扩展
  实时接口扩展。
第十部(Part 10):DSM-CC一致性扩展
  DSM-CC一致性扩展。
第十一部(Part 11) :IP
  知识产权管理(IPMP)。XML定义在ISO/IEC23001-3。MPEG-2内核技术大约涉及640个专利,这些专利主要集中在20间公司和一间大学。
MPEG- 2音频
  MPEG- 2提供新的音频编码方式。在第3部分和第7部分介绍。
  MPEG-2 BC (backward compatible with MPEG-1 audio formats),使用一半的取样速率处理低位速率的音频,(MPEG-1 Layer 1/2/3 LSF),多通道编码达到5.1个通道。
  MPEG-2 NBC (Non-Backward Compatible),提供MPEG-2AAC,且不能向后兼容, 多通道编码达到 48个通道。
MPEG- 2 profile和level
  MPEG-2提供广泛的应用, 对于大部分的应用,即不现实的也过于昂贵,去支持整个标准,通常只支持子集,因此标准定义了profile和level来表示这些子集。profile定 义特性相关,例如压缩算法,色度格式等。level定义性能相关,例如最大比特率,最大帧大小等。一个应用程序应当通过profile和level来表示 他的能力。profile和level的组合构成MPEG-2视频编码标准在某种特定应用下的子集。对某一输入格式的图像,采用特定集合的压缩编码工具,产生规定速率范围内的编码码流
。&例如一台DVD播放机可以说,它支持最多的主要profile和主要level(通常写为MP@ML)。
  MPEG-2主要的profile:
图像编码类型
色度格式&YCbCr
Simple Profile
Main Profile
I帧、P帧、B帧
4:3 或16:9
SNR Scalable profile
信噪比分层类
I帧、P帧、B帧
4:3 或16:9
信噪比可伸缩
Spatially scalable profile
空间可分层类
I帧、P帧、B帧
4:3 或16:9
信噪比或空间可伸缩
4:2:2 Profile
I帧、P帧、B帧
High profile
I帧、P帧、B帧
4:2:0或 4:2:2
4:3 或16:9
信噪比或空间可伸缩
  MPEG-2主要的level:
最大长×最大宽
每秒最大亮度样本 (约为高×宽×帧频率)
最大比特率 (Mbit/s)
23.976, 24, 25, 29.97, 30
Main Level
23.976, 24, 25, 29.97, 30
10,368,000,例外为:HP中4:2:0为14,475,600,4:2:2为11,059,200
High-1440 level
23.976, 24, 25, 29.97, 30, 50, 59.94, 60
47,001,600,例外为:HP中4:2:0为62,668,800
High level
23.976, 24, 25, 29.97, 30, 50, 59.94, 60
62,668,800,例外为:HP中4:2:0为83,558,400
Profile @ Level
Resolution (px)
Framerate max. (Hz)
Bitrate (Mbit/s)
Example Application
176 × 144
Wireless handsets
352 × 288
320 × 240
352 × 288
Set-top boxes (STB)
720 × 480
15 (DVD: 9.8)
DVD, SD-DVB
720 × 576
1440 × 1080
60 (HDV: 25)
1280 × 720
1920 × 1080
ATSC 1080i, 720p60, HD-DVB (HDTV).
(Bitrate for terrestrial transmission is limited to 19.39Mbit/s)
1280 × 720
720 × 480
Sony IMX using I-frame only, Broadcast &contribution& video (I&P only)
720 × 576
1440 × 1080
Potential future MPEG-2-based HD products from Sony and Panasonic
1280 × 720
1920 × 1080
Potential future MPEG-2-based HD products from Panasonic
1280 × 720
MPEG- 2在DVD上的应用
DVD中采用了 MPEG-2标准并引入如下技术参数限制:
o 720 x 480, 704 x 480, 352 x 480, 352 x 240 像素(NTSC制式)
o 720 x 576, 704 x 576, 352 x 576, 352 x 288 像素(PAL制式)
* 帧率(帧播放速度)
o 59.94 场/秒,23.976帧/秒,29.97帧/秒(NTSC)
o 50 场/秒,25帧/秒(PAL)
* 视频+音频 比特率
o 平均最大缓冲区 9.8 Mbit/s
o 峰值 15 Mbit/s
o 最小&#2 Kbit/s
* YUV 4:2:0
* 字幕支持
* 内嵌字幕支持(NTSC only)
o LPCM编码:48kHz或96kHz;16或24-bit;最多可达6声道
o MPEG Layer 2 (MP2):48 kHz,可达5.1声道
o 杜比数字-Dolby Digital(DD,也称为AC-3):48 kHz,32-448kbit/s,可达5.1声道
o 数字家庭影院系统-Digital Theater Systems (DTS):754 kbit/s或1510 kbit/s
o NTSC制式DVD必须包含至少一道LPCM或Dolby Digital
o PAL制式DVD必须包含至少一道MPEG Layer 2、LPCM或者Dolby Digital
o 必须为GOP提供串行的头信息
o GOP最大可含帧数目:18 (NTSC) / 15 (PAL)
MPEG- 2在DVB上的应用
DVB-MPEG相关技术参数:
* 必须符合以下一种分辨率:
o 720 × 480 像素,24/1.001,24,30/1.001或30帧/秒
o 640 × 480 像素,24/1.001,24,30/1.001或30帧/秒
o 544 × 480 像素,24/1.001,24,30/1.001或30帧/秒
o 480 × 480 像素,24/1.001,24,30/1.001或30帧/秒
o 352 × 480 像素,24/1.001,24,30/1.001或30帧/秒
o 352 × 240 像素,24/1.001,24,30/1.001或30帧/秒
o 720 × 576 像素,25帧/秒
o 544 × 576 像素,25帧/秒
o 480 × 576 像素,25帧/秒
o 352 × 576 像素,25帧/秒
o 352 × 288 像素,25帧/秒
MPEG- 2和NTSC
必须符合以下一种分辨率:
o 1920 × 1080 像素,最多60帧/秒(1080i)
o 1280 × 720 像素,最多60帧/秒(720p)
o 720 × 576 像素,最多50帧/秒,25帧/秒(576i,576p)
o 720 × 480 像素,最多60帧/秒,30帧/秒(480i,480p)
o 640 × 480 像素,最多60帧/秒
注:1080i按 像素编码,但是最后8行在显示时抛弃。
对YCbCr的补充资料
YCbCr不是一种绝对色彩空间,是YUV压缩和偏移的版本。右图为UV色版。
Y(Luma,Luminance)视讯,也就是灰阶值。UV 视作表示彩度的 C(Chrominance或Chroma)。主要的采样(subsample)格式有YCbCr 4:2:0、YCbCr 4:2:2、YCbCr 4:1:1和 YCbCr 4:4:4。YUV的表示法称为 A:B:C 表示法:
* 4:4:4 表示完全取样。
* 4:2:2 表示 2:1 的水平取样,没有垂直下采样。
* 4:2:0 表示 2:1 的水平取样,2:1 的垂直下采样。
* 4:1:1 表示 4:1 的水平取样,没有垂直下采样。
最常用Y:UV记录的比重通常 1:1 或2:1,DVD-Video 是以 YUV 4:2:0 的方式记录,也就是我们俗称的I420,YUV4:2:0 并不是说只有U(即 Cb), V(即 Cr)一定为 0,而是指U:V互相援引,时见时隐,也就是说对于每一个行,只有一个U或者V份量,如果一行是4:2:0的话,下一行就是4:0:2,再下一行是 4:2:0...以此类推。
以上来自wiki资料的整理。
在上次对MPEG-2的学习整理中,有一个疑惑,双声道理解,就是左右立体声,但是5.1声道是什么?我们经常看到杜比5.1声道的说法。“0.1”声道具体指什么?今天去wiki查了一下,相关内容也整理入我们的学习笔记。本文档资料来源:
  使用杜比数字技术下,最标准常用的是5.1声道设置,但杜比数字容许一系列不同声道的选择。全部可供选择的声道如下列所示:
单声道(中央)双声道立体声(左、右),选择性地交叉应用杜比环回三声道立体声(左、中、右)双声道立体声加单环回(左、右、环回)三声道立体声加单环回(左、中、右、环回)四声道环回立体声(左前、右前、左后、右后)五声道环回立体声(左前、中、右前、左后、右后)
  以上所有这些设置可选择性地使用低频效果和杜比数字EX矩阵编码中加入附加后环绕声道。杜比编码技术是向下兼容 的,很多杜比播放器/解码器均备有向下混音作用是发布不同声道至可供使用的扬声器。这包括一些功能例如声音数据通过前扬声器播放(如适用),和当中央扬声器不适用时发布中央频道至左或右扬声器。或当用户只有2.0喇叭时,杜比解码器能把多声道信号混音编码为 2.0立体声。
  在5.1, 7.1 或其他等文字中,'.1'指的是低频LFE声道。
  其实5.1声道就是使用5个喇叭和1个超低音扬声器来实现一种身临其境的音乐播放方式,它是由杜比公司开发的,所以叫做“杜比5.1声道”。在5.1声道系统里采用左(L)、中(C)、右(R)、左后(LS)、右后(RS)五个方向输出声音,使人产生犹如身临音乐厅的感觉。五个声道相互独立,其中“.1” 声道,则是一个专门设计的超低音声道。正是因为前后左右都有喇叭,所以就会产生被音乐包围的真实感。如右图所示。
  MPEG-4是一套用于音频、视频信息的压缩编码标准, 由国际标准化组织(ISO)和国际电工委员会(IEC)下属的“動態影像专家组”(Moving Picture Experts Group,即MPEG) 制定,第一版在1998年10月通過,第二版在1999年12月通過。MPEG-4格式的主要用途在於網上流媒体、光碟、語音傳送(視訊電話),以及電視廣播。MPEG-4作为ISO/IEC14496正式发布。ISO/IEC 14496-Coding of audio-visual
object (AV对象编码)。
  为了应对网络传输等环境,传统的 MPEG-1/2 已经不能适应,所以促使了 MPEG-4 的诞生。 与 MPEG-1和MPEG-2相比,MPEG-4的特点是其更适于交互AV服务以及远程监控。MPEG-4是第一个使你由被动变为主动(不再只是观看,允许 你加入其中,即有交互性)的动态图像标准,它的另一个特点是其综合性。从根源上说,MPEG-4试图将自然物体与人造物体相溶合 (视觉效果意义上的)。MPEG-4的设计目标还有更广的适应性和更灵活的可扩展性。 MPEG-4 采用了一系列新技术,来满足在低带宽下传输较高视频质量的需求。DivX,XviD,MS
MPEG4 都是采用的MPEG-4 视频编码,除了在 DVDRip 上面的应用,3GPP现在也接纳了 MPEG-4 作为视频编码方案。
  最初MPEG-4的主要目的是用于低比特率下的视频通信,但是作为一个多媒体的编码标准,它的范围最后得到了扩展。在技术方面MPEG-4允许不同的软件/硬件开发商创建多媒体对象来提供更好的适应性、灵活性,为数字电视,动态图像,互联网等业务提供更好的质量。  
  MPEG-4提供范围从每秒几k比特到每秒数十兆比特的,它具有下面功能:
改善MPEG-2的编码效率
MPEG-4基于更高的编码效率。同已有的或即将形成的其它标准相比,在相同的比特率下,它基于更高的视觉听觉质量,这就 使得在低带宽的信道上传送视频、音频成为可能。同时MPEG-4还能对同时发生的数据流进行编码。一个场景的多视角或多声道数据流可以高效、同步地合成为 最终数据流。这可用于虚拟三维游戏、三维电影、飞行仿真练习等。
提供混合媒体数据(视频,音频,语音)的编码能力差错容忍使得内容稳定传输。
当在传输有误码或丢包现象时,MPEG4受到的影响很小,并且能迅速恢复。
提供受众视听场景的互动能力,MPEG-4终端用户提供不同的对象支持各种互动要求。
MPEG-4提供了基于内容的多媒体数据访问工具,如索引、超级链接、上传、下载、删除等。利用这些工具,用户可以方便地 从多媒体数据库中有选择地获取自己所需的与对象有关的内容,并提供了内容的操作和位流编辑功能,可应用于交互式家庭购物,淡入淡出的数字化效果等。 MPEG-4提供了高效的自然或合成的多媒体数据编码方法。它可以把自然场景或对象组合起来成为合成的多媒体数据。
MPEG-4对传输数据网是透明的,它可以兼容各种网络。
MPEG-4提供了易出错环境的鲁棒性,来保证其在许多无线和有线网络以及存储介质中的应用,此外,MPEG-4还支持基于内容的的可分级性,即把内容、质量、复杂性分成许多小块来满足不同用户的不同需求,支持具有不同带宽,不同存储容量的传输信道和接收端。这些特点无疑会加速多媒体应用的发展,从中受益的应用领域有:因特网多媒体应用;广播电视;交互式视频游戏;实时可视通 信;交互式存储媒体应用;演播室技术及电视后期制作;采用面部动画技术的虚拟会议;多媒体邮件;移动通信条件下的多媒体应用;远程视频监控;通过ATM网 络等进行的远程数据库业务等。
MPEG-4视频编码核心思想
  在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是采用第一代压缩编码技术,着 眼于图像信号的统计特性来设计编码器,属于波形编码的范畴。第一代压缩编码方案把视频序列按时间先后分为一系列帧,每一帧图像又分成宏块以进行运动补偿和编码,这种编码方案存在以下缺陷:
将图像固定地分成相同大小的块,在高压缩比的情况下会出现严重的块效应,即马赛克效应;不能对图像内容进行访问、编辑和回放等操作;未充分利用人类视觉系统(HVS,Human Visual System)的特性。
  MPEG-4则代表了基于模型/对象的第二代压缩编码技术,它充分利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,支持基于视觉内容的交互功能,这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。
  AV对象(AVO,AudioVisual Object)是MPEG-4为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。在MPEG-4中所见的视音频已不再是过去MPEG-1、MPEG-2中图像帧的概念,而是一个个视听场景(AV场景),这些 不同的AV场景由不同的AV对象组成。AV对象是听觉、视觉、或者视听内容的表示单元,其基本单位是原始AV对象,它可以是自然的或合成的声音、图像。原
始AV对象具有高效编码、高效存储与传输以及可交互操作的特性,它又可进一步组成复合AV对象。因此MPEG-4标准的基本内容就是对AV对象进行高效编 码、组织、存储与传输。AV对象的提出,使多媒体通信具有高度交互及高效编码的能力,AV对象编码就是MPEG-4的核心编码技术。
  MPEG-4实现基于内容交互的首要任务就是把视频/图像分割成不同对象或者把运动对象从背景中分离出来,然后针对不同对象采用相应编码方法,以实现高效压缩。因此视频对象提取即视频对象分割,是MPEG-4视频编码的关键技术,也是新一代视频编码的研究热点和难点。
  MPEG-4不仅可提供高压缩率,同时也可实现更好的多媒体内容互动性及全方位的存取性,它采用开放的编码系统,可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用。
MPEG-4各部分
  MPEG-4由一系列的子标准组成,被称为部,包括以下的部分。对于媒体编解码,重点关注Part2,Part 3, Part 10。
第一部(ISO/IEC 14496-1):系统
  描述视訊和音訊的同步以及混合方式(Multiplexing,简写为MUX)。定义了 MP4 容器格式, 支持类似 DVD 菜单这样的直观和互动特性等。
第二部(ISO/IEC 14496-2):视频
  定义了一个对各种视觉信息(包括视訊、静止纹理、计算机合成图形等等)的编解码器。对视訊部分来说,众多”Profiles”中很常用的一种是Advanced SimpleProfile (ASP),例如XviD编码就 属于MPEG-4Part 2。包括 3ivx, DivX4/Project Mayo, DivX 5, Envivio,ffmpeg/ffds, mpegable, Nero Digital, QuickTime, Sorenson, XviD 等常见的视频格式,
需要注意的是 Divx 3.11, MS MPEG-4, RV9/10, VP6,WMV9 并不属于标准的 MPEG-4 标准。
第三部(ISO/IEC 14496-3):音频
  定义了一个对各种音訊信号进行编码的编解码器的集合。包括高级音訊编码(Advanced Audio Coding,缩写为AAC) 的若干变形和其他一些音频/语音编码工具。即 AAC 音频标准, 包括 LCAAC, HE AAC 等, 支持 5.1 声道编码, 可以用更低的码率实现更好的效果 (相对于 MP3, OGG 等) 。
第四部(ISO/IEC 14496-4):一致性
  定义了对本标准其他的部分进行一致性测试的程序。
第五部(ISO/IEC 14496-5):参考软件
  提供了用于演示功能和说明本标准其他部分功能的软件。
第六部(ISO/IEC 14496-6):多媒体传输集成框架
  即DMIF:Delivery Multimedia IntegrationFramework
第七部(ISO/IEC 14496-7):优化的参考软件
  提供了对实现进行优化的例子(这裡的实现指的是第五部分)。
第八部(ISO/IEC 14496-8):在IP网络上传输
  定义了在IP网络上传输MPEG-4内容的方式。
第九部(ISO/IEC 14496-9):参考硬件
  提供了用于演示怎样在硬件上实现本标准其他部分功能的硬件设计方案。
第十部(ISO/IEC 14496-10):进阶视频编码,也即ITU H.264,常写为H.264/AVC
  或称高级视频编码(Advanced Video Coding,缩写为AVC):定义了一个视频编解码器(codec),AVC和XviD都属于MPEG-4编码,但由于AVC属于MPEG-4Part 10,在技术特性上比属于MPEG-4 Part2的XviD要先进。另外从技术上讲,它和ITU-T H.264标准是一致的,故全称为MPEG-4 AVC/H.264。
第十一部(ISO/IEC 14496-11):场景描述和应用引擎
  可用于多种profile(包括2D和3D版本)的互交互媒体。修订了MPEG-4 Part 1:2001以及Part1的两个修订方案。它定义了应用引擎(交付,生命周期,格式,可下载Java字节代码应用程序的行为),二进制场景格式 (BIFS:Binary Format for Scene),可扩展MPEG-4文本格式(一种使用XML描述MPEG-4多媒体内容的文本格式)系统level表述。也就是MPEG-4 Part21中的BIFS,XMT,MPEG-J。
第十二部(ISO/IEC 14496-12):基于ISO的媒体文件格式
  定义了一个存储媒体内容的文件格式。
第十三部(ISO/IEC 14496-13):IP
  知识产权管理和保护(IPMP for Intellectual Property Management and Protection)拓展。
第十四部(ISO/IEC 14496-14):MPEG-4文件格式
  定义了基于第十二部分的用于存储MPEG-4内容的視訊檔案格式。
第十五部(ISO/IEC 14496-15):AVC文件格式
  定义了基于第十二部分的用于存储第十部分的视频内容的文件格式。
第十六部(ISO/IEC 14496-16):动画框架扩展
  动画框架扩展(AFX : Animation Framework eXtension)。
第十七部(ISO/IEC 14496-17):同步文本字幕格式
  尚未完成-2005年1月达成”最终委员会草案”,FCD: Final Committee Draft。
第十八部(ISO/IEC 14496-18):字体压缩和流式传输(针对公开字体格式)。
第十九部(ISO/IEC 14496-19):综合用材质流(Synthesized TextureStream)。
第二十部(ISO/IEC 14496-20):简单场景表示
  LASeR for Lightweight Scene Representation,尚未完成-2005年1月达成”最终委员会草案”,FCD for Final Committee Draft。
第二十一部(ISO/IEC 14496-21):用于描绘(Rendering)的MPEG-J拓展
  尚未完成-2005年1月达成“委员会草案”,CD for Committee Draft)。
Profile和Level
  MPEG-4提供大量的编码方式和丰富的设置。 和MPEG-2一样,应用一般不可能支持MPEG-4全集,通过profile和level来描述子集。这些子集,通过 “profile”来表明解码器要求,为了避免计算的复杂,每个profile都有一个或者多个“level”。profile和level的有效组合使得编码生成器只需实现标准中所需的子集,同时保持与其他MPEG-4设备的互通。(解码支持范围通常比编码支持范围大),检查其他MPEG-4设备是否符 合标准,即一致性测试。
  对于H.264/AVC(也就是MPEG-4 Part 4)提供下面的profile:
Feature support in particular profiles
SI and SP slices
Flexible macroblock ordering (FMO)
Arbitrary slice ordering (ASO)
Redundant slices (RS)
Data partitioning
Interlaced coding (PicAFF, MBAFF)
CABAC entropy coding
8×8 vs. 4×4 transform adaptivity
Quantization scaling matrices
Separate Cb&and Cr&QP control
Monochrome (4:0:0)
Chroma formats
4:2:0/4:2:2
4:2:0/4:2:2/4:4:4
Sample depths (bits)
Separate color plane coding
Predictive lossless coding
  level用来表明一个profile的解码器的性能要求的范围,例如最大图片分配了,帧频,比特率等等。对于解码器,一个指定的level要求可以对该level以及低于该level的码流进行解码。(A decoder that conforms to agiven level is required to be capable of decoding all bitstreams that areencoded for that level and for all lower levels.
Levels with maximum property values
Max macroblocks
Max video bit rate (VCL)
Examples for high resolution @&
frame rate&
(max stored frames)
per second
BP, XP, MP&
Hi422P, Hi444PP&
128×96@30.9 (8)&
176×144@15.0 (4)
128×96@30.9 (8)&
176×144@15.0 (4)
176×144@30.3 (9)&
320×240@10.0 (3)&
352×288@7.5 (2)
320×240@20.0 (7)&
352×288@15.2 (6)
320×240@36.0 (7)&
352×288@30.0 (6)
320×240@36.0 (7)&
352×288@30.0 (6)
352×480@30.0 (7)&
352×576@25.0 (6)
352×480@30.7(10)&
352×576@25.6 (7)&
720×480@15.0 (6)&
720×576@12.5 (5)
352×480@61.4 (12)&
352×576@51.1 (10)&
720×480@30.0 (6)&
720×576@25.0 (5)
720×480@80.0 (13)&
720×576@66.7 (11)&
1,280×720@60.0 (5)&
1,280×1,024@42.2 (4)
1,280×720@68.3 (9)&
1,920×1,080@30.1 (4)&
2,048×1,024@30.0 (4)
1,280×720@68.3 (9)&
1,920×1,080@30.1 (4)&
2,048×1,024@30.0 (4)
1,920×1,080@64.0 (4)&
2,048×1,080@60.0 (4)
1,920×1,080@72.3 (13)&
2,048×1,024@72.0 (13)&
2,048×1,080@67.8 (12)&
2,560×1,920@30.7 (5)&
3,680×1,536@26.7 (5)
1,920×1,080@120.5 (16)&
4,096×2,048@30.0 (5)&
4,096×2,304@26.7 (5)
 下面资料来自wiki。AAC在MPEG2和MPEG4中定义。
扩展名:.m4a, .m4b, .m4p, .m4v, .m4r, .3gp, .mp4, .aac&
互联网媒体类型:audio/aac, audio/aacp, audio/3gpp, audio/3gpp2,audio/mp4, audio/MP4A-LATM, audio/mpeg4-generic&
格式:有损数据压缩&
延伸自:MPEG-2 音频&
标准:ISO/IEC 13818-7(MPEG-2第7部), ISO/IEC 14496-3(MPEG-4第3部)
  AAC(Advanced Audio Coding),中文称为“高级音频编码”,出现于1997年,基于 MPEG-2的音频编码技术。由Fraunhofer IIS、杜比实验室、AT&T、Sony(索尼)等公司共同开发,目的是取代MP3格式。2000年,MPEG-4标准出现后,AAC 重新集成了其特性,加入了SBR技术和PS技术,为了区别于传统的 MPEG-2 AAC 又称为 MPEG-4 AAC。
AAC格式的主要扩展名有三种:
AAC - 使用MPEG-2 Audio Transport Stream( ADTS,参见MPEG-2 )容器,区别于使用MPEG-4容器的MP4/M4A格式,属于传统的AAC编码(FAAC默认的封装,但FAAC亦可输出 MPEG-4 封装的AAC)MP4 - 使用了MPEG-4 Part 14(第14部分)的简化版即3GPP Media Release 6 Basic (3gp6,参见3GP ) 进行封装的AAC编码(Nero AAC 编码器仅能输出MPEG-4封装的AAC);M4A - 为了区别纯音频MP4文件和包含视频的MP4文件而由苹果(Apple)公司使用的扩展名,Apple iTunes 对纯音频MP4文件采用了&.M4A&命名。M4A的本质和音频MP4相同,故音频MP4文件亦可直接更改扩展名为M4A。
  作为一种高压缩比的音频压缩算法,AAC压缩比通常为18:1,也有资料说为20:1,远胜mp3; 在音质方面,由于采用多声道,和使用低复杂性的描述方式,使其比几乎所有的传统编码方式在同规格的情况下更胜一筹。不过直到2006年, 使用这一格式储存音乐的并不多,可以播放该格式的mp3播放器更是少之又少,目前所知仅有苹果iPod、Sony Walkman(NWZ-A、NWZ-S、NWZ-E、NWZ-X系列)、任天堂NDSi。魅 族M8,此外计算机上很多音乐播放软体都支持AAC(前提是安装过AAC解码器),如苹果iTunes。但在移动电话领域,AAC的支持度已很普
遍,Nokia、Sony Ericsson、Motorola等品牌均在其中高端产品中支持 AAC(一开始主要是LC-AAC,随着移动电话性能的发展,HE-AAC的支持也已广泛)。
  AAC可以支持多达48个音轨,15个低频(LFE)音轨,5.1多声道支持,更高的采样率(最高可达 96kHz,音频CD为44.1kHz)和更高的采样精度(支持8bit、16bit、24bit、32bit,音频CD为 16bit)以及有多种语言的兼容能力,更高的解码效率,一般来说,AAC可以在对比MP3文件缩小30%的前题下提供更好的音质。
相对于传统的LC-AAC,High Efficiency AAC(HE-AAC或写为 AAC-HE)又称为 &aacPlus v1& 或 &AAC+& - 结合了 SBR (Spectral Band Replication) and AAC技术;适用于低比特率(64kbps以下);HE-AAC v2,又称为 &aacPlus v2& - 结合了 Parametric Stereo(参数化立体 声,PS)和 HE-AAC 中的SBR技术。
  因为&AAC&是一个大家族,他们共分为 9 种规格,以适应不同场合的需要,也正是由于 AAC 的规格(Profile)繁多,导致普通电脑用户感觉十分困扰:
MPEG-2 AAC LC 低复杂度规格(Low Complexity)MPEG-2 AAC Main 主规格MPEG-2 AAC SSR 可变采样率规格(Scaleable Sample Rate)MPEG-4 AAC LC 低复杂度规格(Low Complexity),现在的手机比较常见的 MP4 文件中的音频部份就包括了该规格音频文件MPEG-4 AAC Main 主规格MPEG-4 AAC SSR 可变采样率规格(Scaleable Sample Rate)MPEG-4 AAC LTP 长时期预测规格(Long Term Predicition)MPEG-4 AAC LD 低延迟规格(Low Delay)MPEG-4 AAC HE 高效率规格(High Efficiency)
  上述的规格中,主规格(Main)包含了除增益控制之外的全部功能,其音质最好,而低复杂度规格(LC)则是比较简单,没有了增益控制,但提高了 编码效率,至‘SSR’对‘LC’规格大体是相同,但是多了增益的控制功能,另外,MPEG-4 AAC/LTP/LD/HE,都是用在低比特率下编码,特别是‘HE’是有 Nero ACC 编码器支持,是近来常用的一种编码器,不过通常来说,Main 规格和 LC 规格的音质相差不大,因此目前使用最多的 AAC 规格多数是‘LC’规格,因为要考虑手机目前的存储器能力未达合理水准。
部分资料来源与wiki以及。
H.26x有H.261,H.262,H.263, H.263v2以及H.264,H.261基本上已经不再使用。其中H.262和H.264已经在MPEG系列中介绍,他们分别对应MPEG2的第2部和MPEG-4的第10部。不在整理这方面的资料。
H.261其速率为64kbps的整数倍(1~30倍)。它最初是 针对在ISDN(综合业务数字网,Integrated Services Digital Network)上双向声像业务(特别是可视电话、视频会议)而设计的。
H.261是最早的运动图像压缩标准,它只对CIF和QCIF两 种图像格式进行处理,每帧图像分成图像层、宏块组(GOB)层、宏块(MB)层、块(Block)层来处理;并详细制定了视频编码的各个部分,包括运动补偿的帧间预测、DCT(离散余弦变换)、量化、熵编码,以及与固定速率的信道相适配的速率控制等部分。实际的编码算法类似于MPEG算法,但不能与后者兼 容。H.261在实时编码时比MPEG所占用的CPU运算量少得多,此算法为了优化带宽占用量,引进了在图像质量与运动幅度之间的平衡折衷机制。也就是说,剧烈运动的图像比相对静止的图像质量要差。因此这种方法是属于恒定码流可变质量编码。
H.261是第一个实用的数字视频编码标准。H.261的设计相当成功,之后的视频编码国际标准基本上都是基于H.261相同的设计框架,包括 MPEG-1,MPEG-2/H.262,H.263,甚至 H.264。同样,H.261开发委员会(由Sakae Okubo领导,他的日文姓名是大久保荣)的基本的运作方式也被之后的视频编码标准开发组织所继承。H.261使用了混合编码框架,包括了基于运动补偿的 帧间预测,基于离散余弦变换的空域变换编码,量化,zig-zag扫描和熵编码。
实际上H.261标准仅仅规定了如何进行视频的解码(后继的各个视频编码标准也继承了这种做法)。这样的话,实际上开发者在编码器的设计上拥有相当的自由来设计编码算法,只要他们的编码器产生的码流能够被所有按照H.261规范制造的解码器解码就可以了。编码器可以按照自己的需要对输入的视频进行任何预处理,解码器也有自由对输出的视频在显示之前进行任何后处理。去块效应滤波器是一个有效的后处理技术,它能明显的减轻因为使用分块运动补偿编码造成的 块效应(马赛克)--在观看低码率视频(例如网站上的视频新闻)的时候我们都会注意到这种讨厌的效应。因此,在之后的视频编码标准如H.264中就把去块
效应滤波器加为标准的一部分(即使在使用H.264 的时候,再完成解码后再增加一个标准外的去块效应滤波器也能提高主观视频质量)。
后来的视频编码标准都可以说是在H.261的基础上进行逐步改进,引入新功能得到的。现在的视频编码标准比起H.261来在各性能方面都有了很大的提高,这使得H.261成为了过时的标准,除了在一些视频会议系统和网络视频中为了向后兼容还支持H.261,已经基本上看不到使用H.261的产品了。 但是这并不妨碍H.261成为视频编码领域一个重要的里程碑式的标准。
H.263最初设计为基于H.324的系统进行传输 (即基于公共交换电话网和其它基于电路交换的网络进行视频会议和视频电话)。后来发现H.263也可以成功的应用与H.323(基于RTP/IP网络的视 频会议系统),H.320(基于综合业务数字网的视频会议系统),RTSP(流式媒体传输系统)和SIP(基于因特网的视频会议)。
基于之前的视频编码国际标准(H.261,MPEG-1和H.262/MPEG-2),H.263的性能有了革命性的提高。它的第一版于1995年 完 成,在所有码率下都优于之前的H.261。 之后还有在1998 年增加了新的功能的第二版H.263+,或者叫H.263v2,以及在2000年完 成的第三版H.263++,即H.263v3。
H.263v2(通常也叫做H.263+或者1998年版H.263)是ITU-TH.263 视频编 码标准第二版的非正式名称。 它保持了原先版本H.263的所有技术,但是通过增加了几个附录显著的提高了编码效率并提供了其它的一些能力,例如增强了抵抗传输信道的数据丢失的能力(Robustness)。H.263+ 项目于1997年底/1998年初完成(这取决于我们怎么定义&完成&)。
H.263v3:接下来一个被称为&H.263++& 的项目被随即推出,在H.263+的基础上增加了更多的新的功能。H.263++于2000年底完成。增加了下面的附录:
Annex A - Inverse transform accuracy specificationAnnex B - Hypothetical Reference DecoderAnnex C - Considerations for MultipointAnnex D - Unrestricted Motion Vector modeAnnex E - Syntax-based Arithmetic Coding modeAnnex F - Advanced Prediction modeAnnex G - PB-frames modeAnnex H - Forward Error Correction for coded video signal
在H.263之后,ITU-T(在与MPEG的合作下)的下一代视频编解码器是H.264,或者叫AVC以及MPEG-4第 10部分。由于H.264在性能上超越了H.263很多,现在通常认为H.263是一个过时的标准(虽然它的开发完成并不是很久以前的事情)。大多数新的 视频会议产品都已经支持了H.264视频编解码器,就像以前支持H.263和H.261一样。
话虽然如此,H.263在3GPP中仍然占有很高的地位,后继修订的版本,包括运营商的标准一直保留着H.263, 作为必选的要求,地位远远高于H.264,这是个奇怪的现象。一个重要的可能原因是H.263的编码比H.264的要轻载,在手机的modem中提供 H.263的编解码能力,不提供H.264的编解码能力,或者只提供H.264的解码能力不提供编码能力,如果不是智能手机不能在主板的其他芯片(例如 CPU)提供H.264的编解码能力,开发者就没什么办法,H.263可以通过软件来提供,H.264对处理能力的要求很高,目前需要依赖硬件能力提供。因此H.263仍然具有很大的市场,尤其对于小尺寸的手持设备,屏幕分辨率有限,高清无意义。
H.264等同于MPEG-4的第10部,在这里仍然收集资料进行学习记录。
在H.263之后,ITU-T(在与MPEG的合作下)的下一代视 频编解码器是H.264,或者叫AVC以 及MPEG-4第 10部分。由于H.264在性能上超越了H.263很多,现在通常认为H.263是一个过时的标准(虽然它的开发完成并不是很久以前的事情)。大多数新的 视频会议产品都已经支持了H.264视频编解码器,就像以前支持H.263和H.261一样。
H.264/AVC可工作于多种速率,广泛应用于Internet/intranet上的多媒体流服务、视频点播、可视游戏、低码率移动多媒体通信 (视频 手机等)、交互式多媒体应用、实时多媒体监控、数字电视与演播电视和虚拟视频会议等,大有在上述领域一统天下的趋势,有非常广泛的开发和应用前景。
H.264是一种视频高压缩技术,同时称为MPEG-4 AVC,或MPEG-4 Part10。ITU-T从1998年就H.26L的H.26S两个分组,H.26L研制节目时间较长的高压缩编码技术,H.26S则指短节目标准制订部 门。前面的H.263就是H.26S标准化技术,而H.264标准是在H.26L基础上发展而来的。为了不引起误解,ITU-T推荐使用H.264作为这 一标准的正式名称。H.264集中体现了当今国际视频编码解码技术的最新成果。在相同的重建图像质量下,H.264比其他视频压缩编码具有更高的压缩比、
更好的IP和无线网络信道适应性。
首先,H.264具备超高压缩率,其压缩率为MPEG-2的2 倍,MPEG-4的1.5倍。这样的高压缩率是以编码的大运算量来换取的,H.264的编码处理计算量有MPEG-2的十多倍。不过其解码的运算量并没有上升很多。从CPU频率和内存的高速发展的角度来看,1995年推出MPEG-2时,主流的CPU是奔腾100,内存更是小的可怜。而如今主流CPU的工 作频率比那个时候快了30倍,内存扩大了50多倍。所以H.264编码的大运算现在也不算什么大问题了。
高压缩率使图像的数据量减少,给存储和传输带来了方便。加上基本规格公开的国际标准和公正的许可制度,所以,电视广播、家电和通信三大行业都进入到 H.264的实际运用研发中心。美国高等电视系统会议和日本无线电工业和事务协会都准备把H.264作为地面便携式数字电视广播的编码方式。欧洲数字电视广播标准化团体也正在将H.264作为数字电视的一种编码方式来采用。
家电行业中的视频存储设备厂商也看中了H.264。东芝和NEC推出的下一代采用蓝色激光的光碟HD DVD-ROM,因为容量小于Sony等九大公司的蓝光碟,故将视频压缩编码改用H.264,从而使最终的节目录制时长能与蓝光碟相近。H.264也能使 HDTV节目录像和 SDTV的长时间录像成为可能。因而,生产LSI芯片的厂商也十分重视H.264。D9型DVD碟只有8.5GB,不足以存放2小时的HDTV节目,如用 H.264来压缩就变得有可能。同时,在通讯领域,互联网工程任务已开始将H.264作为实时传输协议流的格式进行标准化。互联网和手机的视频传送也会有
H.264作为编码方式。
相对于MPEG压缩编码H.264的变化之一是在帧内编码I画面中,又加入了帧内预测编码技术,即解码时可用周围数据的差分值来重构画面。在运动预 测块中,H.264采用全面运动预测和I画面帧内预测后,编码量得到减少,但LSI的运算处理量增大。为此,H.264引入了DCT的简化处理技术,来减 轻LSI的负担,画质也有所改善。H.264与MPEG-2和MPEG-4的不同还存在于熵编码块中,H.264的熵编码CAVLC(内容自适应可变长度 码)和CABAC(内容自适应二进制算法编码)能提高纠错能力。而MPEG-2和MPEG-4是霍夫曼编码。另外,还加入了解锁滤波器
(Deblocking Filter),有降低噪声的效果。H.264的整数变换以4×4像素块为单位,已比原来的8×8像素块的块噪声少,再次降低,画质得到了进一步提高。
H.264标准分为三档:基本档次;主要档次(可用于SDTV、HDTV和DVD等);以及扩展档次(用于网络的视频流)。其中H.264的基本档 次是免费,用户可以无偿使用,现得到美国苹果公司和美国Cisco系统公司、中国联想公司、诺基亚、美国On2技术公司、德国西门子、TI公司等的支持; 其许可体系要比MPEG-4单纯,公正无差别对待用户和专利持有者。H.264替代MPEG-4的呼声很高,除了其高性能外,低额专利费和公正的无差别许 可制度也至关重要。由于技术的日益成熟,半导体厂商已在进行H.264的编码/解码LSI的开发。特别是HDD录像机和DVD录像机等设备中,采用H.264的实例已很多,更引起了半导体厂商的关心。加之,H.264采用的动画编码方式和音频编码方式具有多样化特性,今后几乎将会是全部厂商的主要规格之一。
编码效率比较
资料来源于wiki与&。
Microsoft 公司主导的音频视频编码系列,它的出现主要是为了进行网络视频传输,现在已经向HDTV 方面进军,开发了 WMV HD 应用。WMV(Windows Media Video)是微软公司开发的一组数字视频编 解码格式的通称,它是Windows Media架构下的一部分。它最初是为低速率流媒体应用作为专有编解码开发出来的,但是2003年微软公司基于Windows Media Video第9版编解码起草了视频编解码规范并且提交给SMPTE申请作为标准。这个标准在2006年3月作为SMPTE
421M被正式批准,这样Windows Media Video 9编解码就不再是一个专有的技术。早期的变解码版本(7和8)仍然被认为是专有技术,因为它们不在SMPTE 421M标准的涵盖范围内。
微软媒体系列分为WMV(Windows Media Video)和WMA(Windows Media Audio),说白了就是微软的视频和音频。
视频流通常与Windows Media Audio音频流组合在一起并且使用扩展名为.wmv或者.asf的Advanced Streaming Format的文件进行封装。WMV通常使用Advanced StreamingFormat(ASF) 封装,它也可以使用AVI或者Matroska格 式封装。如果是AVI封装的文件结果文件可以是.avi,如果是ASF封装的话则是.wmv或者.asf, 如果是MKV封装的话则是.mkv。当使用VirtualDub编 码器编码和WMV9 VCM编解码实现的时候WMV可以存储在AVI文件中。用于Mac的微软公司媒体播放器不支持所有的WMV编码的文
件,因为它只支持ASF文件 封装,Flip4Mac和QuickTime或 者用于MacOSX的MPlayer可 以播放更多的文件。
扩展名: .wmv&
互联网媒体类型: video/x-ms-wmv&
统一类型标识: com.microsoft.windows-?media-wmv&
开发者: 微软公司&
格式: 数字视频
WMV(Windows Media Video)是微软公司开发的一组数字视频编解码格式的通称,它是Windows Media架构下的一部分。它最初是为低速率流媒体应用作为专有编解码开发出来的,但是2003年微软公司基于Windows Media Video第9版编解码起草了视频编解码规范并且提交给SMPTE申请作为标准。这个标准在2006年3月作为SMPTE 421M被正式批准,这样Windows Media Video 9编解码就不再是一个专有的技术。早期的变解码版本(7和8)仍然被认为是专有技术,因为它们不在SMPTE
421M标准的涵盖范围内。
WMV不是仅仅基于微软公司的自有技术开发的。从第七版(WMV1)开始,微软公司开始使用它自己非标准MPEG- 4 Part 2。但是,由于WMV第九版已经是SMPTE的一个独立标准(421M,也称为VC- 1),有理由相信WMV的发展已经不像之前那样是一个它自己专有的编解码技术。现在VC-1专利共享的企业有16家(2006年4月),微软公司也是 MPEG-4 AVC/H.264专利共享企业中的一家。
Windows Media Video v7
Microsoft&Video Codec v3
Windows Media Video v8
Microsoft&Video Codec v2
Microsoft ISO&Video Codec v1
Windows Media Video v9
Windows Media Video v9 Advanced Profile
deprecated as not&不完全兼容。
Windows Media Video v9 Advanced Profile
FourCC全称Four-Character Codes,是由4个字符(4 bytes)组成,是一种独立标示视频数据流格式的四字节,在wav、avi档案之中会有一段FourCC来描述这个AVI档案,是利用何种codec来 编码的。因此wav、avi大量存在等于“IDP3”的FourCC。
Microsoft MPEG-4 v1/v2/v3
常见的有1.0、2.0、3.0三种版本,是基于MPEG-4技术的,其中3.0并不能用于AVI的编码,只能用于生成支持“视频流”技术的ASF文件。
Microsoft MPEG-4 version 1&
是微软基础的视频编码,是非标准的MPEG-4,与MPEG-4 Part2不兼容。FourCC:MPG4
Microsoft MPEG-4 version 2&
VFW的基础编解码。与V与MPEG-4Part2不兼容。VFW(Video for Windows),是微软推出的关于数字视频的一个软件开发包,VFW的核心是AVI文件标准。AVI(AudioVideo Interleave)文件中的音、视频数据帧交错存放。围绕AVI文件,VFW推出了一整套完整的视频采集、压缩、解压缩、回放和编辑的应用程序接口 (API)。由于AVI文件格式推出较早且在数字视频技术中有广泛的应用,所以VFW仍然有很大的实用价值,而且进一步发展的趋势。在VC++开发环境中 调用VFW和使用其它开发包没有什么不同,只是需要将VFW32.lib
文件加入工程中,但在开放视频捕捉与压缩管理程序时需要其它软件硬件设置。VFW为AVI文件提供了丰富的处理函数和宏定义,AVI文件的特点在于它是典 型的数据流文件,它由视频流、音频流、文本流组成。所以对AVI文件的处理主要是处理文件流。FourCC:MP42
Microsoft MPEG-4 version 3&
VFW的基础编解码。与V与MPEG-4Part2不兼容。最终只用于ASF文件。FourCC:MP43
除此之外:&
Microsoft ISO MPEG-4 version 1&
基于DirectX Media Objects (DMO)-based编解码,与MPEG-4 SP(Simple Profile)兼容 。FourCC:MP4S。
Microsoft ISO MPEG-4 version 1.1&
与MPEG-4 ASP(AdvancedSimple Profile)兼容。FourCC:M4S2
目前在Windows平台上比较实用的MPEG-4视频编解码器主要有:由微软公司开发的Microsoft MPEG-4 Codec v1/v2 /v3,主要是配合微软公司的流媒体技术使用;在Microsoft MPEG-4 v3的基础上,由DivXNetworks公司开发的 DivX Codec;在OpenDivX的基础,遵循GPL开发的开源XviD Codec。&
这些codec在windows中以dll方式呈现。
Windows Media Video 7
是DirectXMedia Objects (DMO)-based codec。Microsoft 正式开发的 第一个 Windows Media Video,开始脱离了MPEG-4,和MPEG-4 不兼容,从这一点上可见微软的野心(微软公司开始使用它自己非标准MPEG-4Part 2)。可惜这个版本压缩效果非常烂,打破了微软一飞冲天的美梦,不过它在压缩速度上非常快,现在网络上有很多采用这种格式压缩的 WMV。FourCC:WMV1
Windows Media Video 8
在WMV7 基 础上改进的版本,质量上面进不了不少。是DMO-based codec。FourCC:WMV2.
Windows Media Video 9
微软的重头戏,不光是这一个编码,V9 系列更是一个平台,让微软有足够的能力挑战 MPEG,ITU 等标准化组织。虽然这个版本并没有微软吹得那么厉害,特别 是低码率下比较差,不过跟以前版本相比进步还是非常多的。特别是 WMV HD 的应用,让微软也跻身视频标准领域。&
DMO-based codec. Video for Windows (VfW/VCM) version also available. FourCC:WMV3
Windows Media Video 9 Advanced Profile
在WMV4的Simple和Main profile levels与VC-1标准中的是相同的。VC-1中的AdvancedProfile采用一个新的WMV编解码,称为WindowsMedia Video 9 Advanced Profile。它提高隔行扫描的内容压缩,并与传输无关,使得他可以封装在MPEG的传输流(TS)中或者采用RTP传输。它与之前的WMV9的 codec是不兼容的。
随着 Windows Media Player 10 推出的编码器,能够更进一步控制WMV9 的质量。但是不能在老版本的 WMP9 上播放,也就是不兼容老版本的 WMP9,真不知微软在搞什么?
FourCC:WVC1,VC-1兼容。FourCC:WMVA,不推荐使用非VC-1兼容方式。我们可以认为WMV9与VC-1兼容。
Windows Media Video 9 Screen
静态屏幕无损压缩编码,质量非常好,压缩率高,只针对如屏幕等变化非常小的环境。WMV Screen是一个screencast编解码器,它可以捕抓动态的屏幕内容,将第三方抓屏程序转换到WMV9 Screen文件中。用于之一是计算机的step-by*step演示视频,第一版本是WMV7 Screen,第二个版本也就是当前的版本是WMV9 Screen,支持CBR和VBR。
Windows Media Video 9 Image
静态图像压缩编码。WMV Image是一个视频幻灯片的编码器,播放多个画面时可根据时间进行平移和过度效果展现。与WMV9相比,具有高压缩率和高态图像质量。由于编解码依赖解 码器(播放器)生成实施视频帧,播放WMV Image文件(即使在普通的,30fps)要求很高的处理能力。在最新的版本,WMV9.1 Image,使用Photo Story3提高转换效果,耽于原来的WMV9 Image不兼容。
微软宣称WMV9提供的压缩率为MPEG-4的2倍,MPEG-2的3倍。微软还宣称WMV9的压缩效率笔WMV8高15%~50%。但是在2005年的一个测试报告中,显示WMV9的压缩效率比WMV8要差。
Windows Media Player 10 Mobile
在wiki上,我们注意到“Windows Media Player 10 Mobile”,显示WMV10将用于移动,可能是Windows Mobile。但是我们没有查到进一步的资料。
扩展名 .wma&
互联网媒体类型 audio/x-ms-wma&
统一类型标识 com.microsoft.windows-?media-wma&
开发者 微软&
格式 数字音频
WMA(Windows Media Audio)是微软公司开发的一种数字音频压缩格式。一些使用Windows Media Audio编码格式编码其所有内容的纯音频ASF文件也使用WMA作为扩展名。WMA格式为微软公司私有,但是随着苹果公司的iTunes对它的支持,这 个格式正在成为MP3格式的竞争对手。它兼容MP3的ID3元数据标签,同时支持额外的标签。
WMA可以用于多种格式的编码文件中。应用程序可以使用Windows MediaFormat SDK进行WMA格式的编码和解码。一些常见的支持WMA的应用程序包括Windows Media Player、Windows Media Encoder、RealPlayer、Winamp等等。其它一些平台,例如Linux和移动设备中的软硬件也支持此格式。
WMA 7之后的WMA支持证书加密,未经许可(即未获得许可证书),即使是非法拷贝到本地,也是无法收听的。同时,微软公司开始时宣称的:同文件比MP3体积小 一倍而音质不变,这也得到了兑现。另外,微软公司在WMA 9大幅改进了其引擎,实际上几乎可以在同文件同音质下比MP3体积少1/3左右,因此非常适合用于网络流媒体。
跟MP3相比,WMA在高位的音质渲染力明显不足,甚至还比MP3更差;与MP3相同,通常的WMA也是有损数据压缩的文件格式,对于有更高要求的用户来说WMA并不是一个适合的格式。但在WMA9版本开始支持无损压缩——Windows Media Audio 9 Lossless(在安装WMP11或Windows Media Format 11之后升级至9.1,无损压缩版本最高支持5.1声道编码)。此外WMA也与MP3一样同为有专利版权的文件格式。支持的设备需要购买使用版权。
Windows Media Audio v1/v2
微软最早的音频编码技术,用于 ASF 中,后来被破解也用在 DivX Audio 中,质量比较差。
Windows Media Audio 7/8/9
随着各种不同的 WMV 而推出的相应的音频编码,质量节节提升,不过还没有达到 64kbps CD音质的神化。
Windows Media Audio 9 Professional
WMA9 中 出现的新编码,主要用于多声道编码和高采样率音频的编码,质量不错。
Windows Media Audio 9 Voice
针对语音的编码,最高 20kbps ,不过和 AMR 相比,效果就太差了。
Windows Media Audio 9 Lossless
无损音频编码,可以完美保留CD原质量,是CD备份的不错选择,不过代价是体积过大。
VC-1,全名VC-1视讯编解码器(Video Codec 1),是基于微软WMV9,并推广为工业标准。2003年提出标准化申请,最早名字是VC-9。2006年4月正式通过成为标准。VC-1是SMPTE 421M视频编解码标准的正式名称。HD DVD 和蓝光光碟(Blu-ray Disc)都支援VC-1。微软表示Windows Vista将支援VC-1影像压缩技术的HD DVD规格。电影及电视学会(SMPTE)已采用VC-1为视讯压缩标准。
VC-1是基于Windows Media Video 9压缩技术的影像压缩标准,由三大编解码元件所组成,每一个编解码元件都具有其独自的FourCC编码。
即WMV9。VC-1的Simple和Main这两种Profile就是WMV3应用,使得与WMV 9兼容,支持逐行扫描编解码。隔行扫描的编解码也提供,但在很快地,在微软推出WMVAdvanced profile后,不推荐采用。逐行扫描编解码用于YUV4:2:0,隔行的(不推荐)用于YUV4:1:1。
WMV3用于高质量的视频和流媒体。同样的质量,它只是MPEG-2的带宽的1/2~1/3。在商业上用于高清电影和视频的WMV HD,编码为WMV3 Main Profile @ High Level(MP@HL)。
它是在WMV Advanced Profile被SMPTE吸收为作为VC-1草案之间出现的。它与WVC1之间细微的差役,因此解码器也不一样,2006年起,WMVA被认为是个过时的编码,因为与VC-1不完全兼容。
也就是WMV 9 Advanced Profile,实现了个更新的,完全符合的AdvancedProfile的VC-1编码标准。它支持隔行扫描内容,与底层传输无关。
压缩技术整合了MPEG及H.264之优点,采用Biliner和Bicubic方式,次像素(Sub- Pixel)最小可达4分之1像素。VC-1只有4种动作补偿(motion composition),压缩比无法胜过H.264。VC-1在压缩时间上,明显比H.264短了许多,复杂度约只有H.264的50%,对特效电影有 很杰出的效能表现。由于H.264 使用较小尺寸的转换公式与无法调整的量化矩阵,造成不能完整保留影像的高频细节资讯。
wiki上有一篇&的文章,很值得看一看。我看到这样的一个段:
VC-1:需付费。Reference decoder 并非免费,不过附赠外部文件
H.264:免费.Reference encoder 和 decoder 也是免费。此外,核查小组及M4IF邮寄名单可在一个可能会收到回答了AVC的有关问题。
除此之外,我们在Google上search H.264 license中也看到了说free的字样。但是,果真如此吗?
我一直认为H.264是需要付费的,因此我对上面的表述不确定是否正确。我上网查了一下:也看到“H.264的基本系统无需使用版权&,具有开放的性质,能很好地适应IP和无线网络的使用,”的字样。基于这些疑问,我上网查了一下。IP总是个麻烦的问题,最好向Andriod那样,提供平台,版权,产品维护都是手机生产厂家的事情。
MPEG LA公司是世界领先的替代技术特许服务提供商,它使用户能够通过单笔交易从多个专利持有人那里购买某项技术标准或平台所必须的全球专利权,而不必分别洽谈各项特许权。只要独立管理的一站式专利特许权能够开启方便之门、帮助用户推广某项技术, MPEG LA公司率先采用的特许模式就能提供解决方案。MPEG LA公司的特许权之一就是MPEG-2数字视频压缩,这一技术帮助产生了消费电子历史上应用最为广泛的标准。包括57个国家逾870个MPEG-2基本专利的MPEG-2专利组合特许权拥有至少1500家被许可人,覆盖目前全球市场上的大多数MPEG-2产品,包括机顶盒、DVD播放器、数字电视机、个人
电脑和DVD视频光盘。作为独立特许经营管理人,MPEG LA公司不与任何标准管理机构相关联,也不是任何专利权持有人的关联人。欲了解更多信息,请登录。 ()
我去MEPG-LA网上查阅,发现有AVC/H.264,也就是说这个是需要付费的。在资料中有下面的一张PPT。:
我不是很看得的懂,比如一个H.264的片子,是提供下载片子的内容供应商付钱,还是提供解码器的终端设备商需要付费?又例如使用H.264进行视频电话,小于12分钟不收费,大于12分钟收费?混乱啊。因此知识产权这摊事,还是留个专业的法律人士来负责。
下面资料从wiki中整理获取。
Real系列是RealNetworks提供的,分为RealVideo和RealAudio。
RealVideo是一种影片格式由RealNetworks于 1997年所开发,至2006年时已到RealVideo版本10。它从开发伊始就定位为应用为网络上视频播放上的格式。支持多种播放的平台,包含Windows、Mac、Linux、Solaris以及某些移动电话。相较于其它的视频编解码器,RealVideo通常可以将视频数据压缩得更小。因此它可以在用56Kbps MODEM拨号上网的条件实现不间断的视频播放。
一般的文件扩展名为.rm/.rvm,现在广泛流行的是rmvb格式,即动态编码率的real video。
RealVideo早期使用H.263,在RealVideo8及之后公司采用私有或者不公开的视频格式。官方的的播放器是 RealNetworks RealPlayer SP,最新的版本是v12,在多个平台,包括Windows,Macintosh,和Linux中提供。RealNetworks公司同时也开发了开源的 Helix播放器,但是在Helix项目中没有提供RealVideo,因为Real系列的编解码仍是不公开的。
RealMedia文件可以通过RTSP在网络上传输,但是RTSP只用于建立和管理连接,真正的视频数据是通过Real自己私有的 RDT(Real Data Transport)协议传输。这种方式引起很大的批评,因为难以在其他播放器和服务器中使用RealVideo,现在一些开源项目,例如MPlayer 已经可以播放RDT流。为了支持实时流,RealVideo和RealAudio通常采用CBR(恒定码速)编码,使得每秒传递的数据相等。后来,公司开发了可变码速,成为RealMedia
Variable Bitrate(RMVB),提供更高的水平资料,但是这种格式不适合作为流,因为难以预测某个特定的媒体流需要多少网络资源。带有快速移动和场景变化的视频需要更高的码流,如果码流超出网络所能提供的速率,将会引起中断。
RealNetworks公司说RealVideo和RealAudio编解码的源代码不在RPSL的许可内。在许可源代码在不支持的处理器和操作系统的商用移植中许可。虽然公司拥有大多数的知识产权,但是允许第三方为某个特性享有版权。
RealVideo 1.0
RealVideo的第一个版本在1997年释放,是基于H.263格式。在RealPayer5中提供。FourCC为rv10,rv13
RealVideo G2和RealVideoG2+SVT
也是就要H.263,在RealPlayer6中提供。质量比较糟糕。FourCC为rv20
RealVideo 8
随着 RealPlayer 8 推出的视频格式,是现在主流的网络视频编码之一。编码速度较慢,质量也只能算一般。猜测是基于早期的H.264 draft,在RealPlayer 8中提供,FourCC为rv30。
RealVideo 9
RealNetworks 开 发的新一代编码,质量进步了很多,特别是在底码率下,而且编码速度很快,做到了速与质的很好统一。
猜测是基于H.264,在RealPlayer9中提供。FourCC为rv40.
RealVideo 10
在RealVideo 9 基 础上加入了一些参数,如 EHQ 等,更加精确控制码率,和 RealVideo 9 兼容。在RealPlayer10中提供,FourCC为rv40(与RealVideo9相同)
文件名扩展: .ra, .ram
Internet media type:audio/vnd.rn-realaudio,audio/x-pn-realaudio
RealAUdio是RealNetwoks公司私有的宾朋编解码格式,最早在1995年释放。它包括一系列的音频编解码,从古老拨号modem的 低速率格式到高质量的音乐。可用于媒体流,过去很多的互联网电台使用RealAudio作为他们节目的实时音频流,近年使用得较少,让位与其他流行的格 式。
RealAudio文件后缀为.ra。1997年,公司开始提供视频格式成为RealVideo。将音频和视频合并是以哦那个的容器后缀为.rm。然而,最新的版本,使用.ra用于音频文件,使用.rv用于带或不带音频的视频文件,用.rmvb用于可变速率的视频文件。
.ram(Real Audio Metadata)和.smil(SynchronizedMultimedia Integration Language)文件格式用于流媒体中的链接。在很多情况下,网络并不直接链接一个RealAudio文件,而是链接.ram和.smil文件。这是一 个很小的文本文件,包括音频流的链接。当用户点击一个链接,网络浏览器下载.ram和.smil文件,并加载用户的媒体播放器,媒体播放器从文件中读取 pnm或者rtsp的URL,并开始播放流。
RealAudio文件包括多种音频编解码,每个编解码都是用FourCC(Four Character Code)来表示,介绍如下:
lpcJ: IS-54 VSELP (RealAudio 1)28_8: G.728 LD-CELP (RealAudio 2)dnet: Dolby AC3 (RealAudio 3)sipr: Sipro Lab Telecom ACELP-NET (RealAudio 4/5)cook: G2/Cook Codec (RealAudio 6)atrc: Sony ATRAC3 (RealAudio 8)raac: MPEG-4 LC-AAC (RealAudio 9)racp: MPEG-4 HE-AAC (RealAudio 10)ralf: RealAudio Lossless Format (RealAudio 10)
扩展名 .mov,.qt
互联网媒体类型 video/quicktime
类型代码 MooV
统一类型标识 com.apple.quicktime-movie
开发者 苹果公司
格式  媒体容器
专门属 音频、视频、文字
  或者标题可以改为Apple系列。QuickTime 并不是一个编码,而是一个多媒体平台,它的上面有众多编码,这里只针对几个主流的编码器。
  QuickTime技术拥有三种主要的组件:
媒体播放器,苹果计算机在他自己的网站免费让人下载以及内建在他的计算机中。QuickTime 档案格式-公开文件并且任何人都可以使用,不须权利金。软件开发工具可用于Macintosh和Windows平台。这些工具允许人们开发他们自己的软件来操作QuickTime以及其它媒体档案。这些对已注册开发人员是 免费的(注册免费)。
  苹果在Mac OS和Windows平台推出免费之官方媒体播放软件,名字为&QuickTime Player&(早期的版本简单地使用  了&MoviePlayer&这个名称)。这个播放器也包含一些媒体编辑和媒体创作的特色,但是使用者必须从 Apple购买序列号来打开这些功能,把这个播放器转变为&QuickTimePro&。
QuickTime历史:1991年到1998年:1.x- 2.x
  苹果电脑于日释出第一个QuickTime的版本,作为System 7上的多媒体附加功能。QuickTime的首席开发者,Bruce Leak,于1991年五月的Worldwide Developers Conference做了第一次的公开展示。他在Mac上展示苹果电脑有名的1984电视广告,在那时候是一种令人印象深刻的突破。Microsoft的 竞争技术-Video for Windows- 在1992年11 月之前都还未出现。
  第一个版本的QuickTime制定的基本架构,到现在基本上还存在未更改,包含多重电影轨道,可扩充的媒体形态支持,一种开放的文件格式,以及完整的编辑功能。原本的视频codec包含:
Apple视频codec(也称作&Road Pizza&),适合普通现场动作图像。动画codec,使用简单的run-length图形压缩方式,适合卡通形态的大区域颜色很适合。图形codec,对于每一点8位(8-bit-per-pixel)的图像优化,包含有抖色en:dithering的图形。
  苹果电脑在1992年后期发放了Mac操作系统的1.5版本。
  苹果电脑在1994年二月发布了QuickTime 2.0 for Mac OS版--这个是唯一的一个不免费的版本。在这个版本中加入了对音乐轨迹的支持,音乐轨迹相当于MIDI的数据,这个功能可以驱动sound- synthesis引擎自我创建于QuickTime中(使用的声音许可证来自Roland),或者是任何外部的MIDI设备,因此创建出来的声音只占用 一小部分的电影数据。
  在接下来的2.1和2.5版本中,QuickTime继续免费。工程师改良了对音乐的支持并增加了sprite轨迹,这个功能可以实现创建复杂的动画,文件大小就只比静态的图片大一点。
  QuickTime 2.0 for Windows发布于1994年11月。
QuickTime历史:1998 -
  运行于Mac OS的QuickTime 3.0于日发行。其现有的功能是免费的,但如果要获得Apple所提供的具有更多特性的QuickTime Player和Picture Viewer程序,最终用户需要通过购买一个QuickTime Pro 许可证来解除对软件的限制。
  QuickTime 3.0增加了支持图像导入的组件,从而可以从GIF、JPEG、TIFF和其他文件格式中读取图像。而通过FireWire主要作为视频数据输出的视频输 出组件同样增加了视觉效果,使程序员可以把实时技术运用到视频轨道中。一些效果甚至可以响应用户的鼠标单击,就像是电

我要回帖

更多关于 图片无损压缩软件 的文章

 

随机推荐