音频数字化原理与视频数字化的区别

我知道比特率和采样率的具体概念,也知道模拟信号经过采样-量化-编码,得到数字信号,但一直理不清视频音频的比特率(码率)与采样率之间的联系,请高人指点!
音频中叫采样率,是指把音频信号数字化(AD采样)后一个通道1秒钟有多少个样本,对应而来的就是原始的数据。如44.1kHz的采样率,就是指1个通道1秒钟有44.1k个数据,这数据可以是16位,也可以是24或者其他,这就是采样精度。
码率就是音频文件或者音频流中1秒中的数据量,如1.44Mbps,就是1秒钟内的数据量达1.44Mbits。
原始的音频数据和实际传输的音频流的大小一般不一致,是因为存在压缩算法这东东。压缩后的音频流一般是固定比特率,这样有利于稳定地传输。也可能是可变比特率,同样大小的文件能取得更好的压缩效果。
CD音质,一般2通道,原始音频数据1秒钟的数据量是44.1k*16*2=1411.2kbits, 压缩成128kbps的MP3,1秒钟数据就变成了128kbits了。丢了少许一般人耳或者设备还原不了的细节,节省了大量的磁盘空间或带宽。--视频:
视频中对应时域的概念叫帧率,如电影的24fps,还有各种30fps,60fps,甚至高速摄影中的120fps,就是指1秒钟抓多少幅图像。耳朵比眼睛灵敏多了,眼睛还有视觉残留,所以这个帧率比音频采样率低太多了。但是图像细节更多,所以视频有尺寸大小,分辨率,也有采样精度(8b/10b)之类的区别。假设都是的图像,30fps。图像原始的格式是RGB888,一秒钟的数据量就是(8+8+8)* = 1,492,992,000 bits。
同样视频也存在压缩算法,如H.264,压缩完1秒钟的数据就叫码率。假设H.264压缩1080p的视频,码率是10Mbps,就是说1秒中的数据量为10*= 10,485,760 bits。
两者差别这么大,也是通过色彩空间转化,压缩,丢掉一些人眼感知不到的细节,换取磁盘空间或带宽。=====================一般而言,采样率(帧率)越高,就能越真实低保留【原始模拟的音视频细节】。码率(采样率)越高,能保留的【数字化后的音视频内容】细节就越多,还原出来的音质或者画质就越好。但是,技术是在不断进步的,现在5W的LED比20年前5W的白炽灯要亮太多了。所以得结合各种采样方式,压缩算法质量,甚至音视频特性来分析。
根据采样定理,低通信号的无损采样率应该是信号的带宽的2倍,人耳的听觉极限是20KHz,所以CD的采样速率是 44-48KHz。对于数字记录来说,这个采样率再乘以AD转换的精度,也就是每点 8bit 还是10bit 还是多少,就是音频流的无压缩码速率。&br&&br&但考虑到存储和传输的开销,信息能压缩还是要压缩的,对于视频和音频这样的信息,最终的展现方式决定了大部分情况下,试用有损压缩就足够了。视频信息里,一般图像的低频都是主要成分,极端细节都影响很小,而且帧之间有很强的关联性,可以压缩掉的东西更多,所以视频并不等于一组静态图片。对于音频,同样人耳对于细节的分辨力有限,尤其是人声,由于有很多模型的辅助,12-14kbps(现在各种手机制式的语音编码码速率)的语音编码就会有相当不错的还原效果。
根据采样定理,低通信号的无损采样率应该是信号的带宽的2倍,人耳的听觉极限是20KHz,所以CD的采样速率是 44-48KHz。对于数字记录来说,这个采样率再乘以AD转换的精度,也就是每点 8bit 还是10bit 还是多少,就是音频流的无压缩码速率。 但考虑到存储和传输…
对于WAV等未压缩的情况。&br&音频码率=采样率*位深*声道数目,比如CD的就是=1411kbps。&br&下面这个就是352.8K*24*2=16.9Mbps&br&&img src=&/c57fda9c2bf76_b.jpg& data-rawwidth=&452& data-rawheight=&383& class=&origin_image zh-lightbox-thumb& width=&452& data-original=&/c57fda9c2bf76_r.jpg&&视频的大部分都是压缩过的,你需要转为YUV等才能算。
对于WAV等未压缩的情况。 音频码率=采样率*位深*声道数目,比如CD的就是=1411kbps。 下面这个就是352.8K*24*2=16.9Mbps 视频的大部分都是压缩过的,你需要转为YUV等才能算。
已有帐号?
无法登录?
社交帐号登录
IC民工 /icer2012视频及音频信号的数字化与信源编码_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
视频及音频信号的数字化与信源编码
上传于||暂无简介
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
定制HR最喜欢的简历
你可能喜欢  视频信号是指静止或活动的图像信号,如VCD、超级VCD和DVD中的图像信号。视频信号也同音频信号一样,有模拟视频信号和数字视频信号两种,对模拟视频信号进行数字化处理的一些基本方式与音频信号的数字化相同,例如采样、量化、和变换等。但是,由于视频信号自身的特点,在数字化时有其特殊之处。    1.视频信号数字化的两种方式    对视频信号进行数字化时,有全信号数字化和分量数字化两种基本方式。    (1)全信号数字化方式。对彩色全电视信号直接进行数字化,称为全信号数字化方式,这种方式应用较少。    (2)分量数字化方式。对彩色全电视信号中的亮度信号(Y)、红色差信号(R-Y)和蓝色差信号(B-Y)先分别进行数字化,然后利用时分复用制(通过一定方式将这三个分别数字化的信号复合起来)进行的处理,这种方式称之为分量数字化。、分量数字化由于省去了电视信号的反复和编码,亮度信号和色差信号都分开处理,相互间不存在干扰,对提高图像质量有利,特别是它能够将625行制和525行制两种电视制式统一起来,所以目前普遍采用分量数字化。    2.采样结构    基本的电视制式有两种:一是525/60制(NTSC制,即525行/场频60);二是625/50制(PAL制,即625行/场频50Hz)。无论是哪种制式,电视屏幕上一幅完整的图像都是按照隔行扫描的形式进行的,电视的扫描有水平扫描,又有垂直扫描。对视频采样时就产生了取样点的分布问题,因采样而构成图像上的取样点排列方式称为采样结构。    视频信号的采样结构有两种:一是移动型;二是固定型。    主观评价和实验测试表明,移动型采样结构的图像质量不好,而且给数字处理增加了复杂性,目前很少采用。    固定型采样结构中每一场的采样点都重合,而且都对齐。在帧中,由于前后帧的采样点都精确地处于相同的空间位置上,这样可大大地简化特技重放和降噪等数字处理电路的复杂性。为了获得这种采样结构,要求采样必须是行频的整数倍。    3.分量数字化方式    目前主要采用的是分量数字化方式,特点是对亮度信号和两个色差信号分别进行数字化,然后再采用时分复用制将已经数字化的亮度和色差信号编排成一个码流。在采样结构上,目前主要采用的是固定型,特点是亮度和色差信号的采样点固定,且色差信号的采样点只有亮度信号的一半,并与亮度信号的奇数采样点位置重合。    视频信号中的亮度信号和色差信号都采用8位量化。所谓数字行就是数字化后的一行信号。    视频信号的编码同音频信号的编码一样,也需要进行高效率编码。视频信号高效编码是利用人的视觉特性和电视信号的统计特性来减少码率的编码方法,人的视觉特性方面存在着时间错觉和空间错觉,利用这些特性可实现高效率的视频信号编码。    4.MPEG1和MPEG2    MPEG是英文MovingPtureExpertsGroup的缩写,意为&运动图像专家小组&。这一小组于1988年5月由国际标准组织ISO和国际电工委员会IEC出面组织,为制定活动图像及其伴音的压缩标准进行工作,所制订的标准为国际通用标准,习惯上称此标准为MPEG标准。    (1)MPEG标准3个组成部分。MPEG标准目前主要由视频、音频和系统三大部分组成。    ①视频部分。MPEG标准中的视频部分最重要,因为MPEG标准主要针对的是活动图像。    ②音频部分。活动图像必有伴音相随,对图像的伴音进行处理按照MPEG/音频标准进行。    ③系统部分。对于多媒体而言,在需要单媒体编码标准的同时,也需要有关控制单媒体组合的系统化技术标准,这就是hIPEG/系统标准。    (2)MPEG标准3个等级标准。MPEG标准针对不同的图像质量要求又分成3级:    ①初级标准MPEG1。VCD采用MPEG-1标准对图像和声音进行压缩、解码。    ②通用标准MPEG2。DVD采用MPEG2标准,另外,超级VCD采用了MPEG2VBR可变码率解压技术。    ③高清晰度电视标准MPEG3。    (3)MPEG的基本方法。MPEG是各种技巧和处理算法的最佳有机结合,是目前最为有效的活动图像处理和压缩方法。MPEG的最终目标是将视频和音频信息同步,并将视频和音频信息联合成单一数据流,再将此数据流的速率降至1.5MBit/s。    MPEG的基本方法是:在单位时间内先采集并保存第一帧图像的信息,在对单帧图像进行有效压缩处理的基础上,只存储其余帧图像中相对第一帧图像所产生的变化部分,即它们之间的差(不同部分)信息,以达到压缩之目的。MPEG压缩包括了时间和空间两个方面的内容。    ①时间上的压缩。MPEG视频压缩算法用减少时间冗余量的方法实现。例如,当一幅图像发生变化时,只需要传送差别部分的信息,而不必传送整帧的图像。较好的算法可在每2~3帧画面间作一次比较运算,较差的算法在每12&30帧画面间才作一次比较运算。    ②空间上的压缩。在一帧画面内,有许多重复或相同的部分,例如,存在大量同样的色彩和亮度的色素,空间上的压缩就是利用数据块中相邻间或一帧内数个相邻块间的高度相关性,省略掉冗余信息。由于这种压缩发生在一帧内,所以称为帧压缩。
本网站试开通微、小企业商家广告业务;维修点推荐项目。收费实惠有效果!欢迎在QQ或邮箱联系!
试试再找找您想看的资料
资料搜索:
查看相关资料 & & &
   同意评论声明
   发表
尊重网上道德,遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款
copyright & &广电电器(中国梧州) -all right reserved& 若您有什么意见或建议请mail: & &
地址: 电话:(86)774-2826670&【图文】数字化音频、视频的采集与加工_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
数字化音频、视频的采集与加工
上传于||文档简介
&&教​科​版​第​五​章
大小:253.00KB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢4054人阅读
音视频(20)
音频数字化简单原理&
&&&&从字面上来说,数字化 (Digital) 就是以数字来表示,例如用数字去记录一张桌子的长宽尺寸,各木料间的角度,这就是一种数字化。跟数位常常一起被提到的字是模拟 ( Analog/Analogue) ,模拟的意思就是用一种相似的东西去表达,例如将桌子用传统相机 将三视图拍下来,就是一种模拟的记录方式。
两个概念:
1、分贝(dB):声波振幅的度量单位,非绝对、非线性、对数式度量方式。以人耳所能听到的最静的声音为1dB,那么会造成人耳听觉损伤的最大声音为100dB。人们正常语音交谈大约为20dB。10dB意味着音量放大10倍,而20dB却不是20倍,而是100倍(10的2次方)
2、频率(Hz):人们能感知的声音音高。男性语音为180Hz,女性歌声为600Hz,钢琴上 C调至A调间为440Hz,电视机发出人所能听到的声音是17kHz,人耳能够感知的最高声音频 率为20kHz。
将音频数字化,其实就是将声音数字化。最常见的方式是透过 PCM(脉冲) 。运作原理如下。首先我们考虑声音经过麦克风,转换成一连串电压变化的信号,如下图所示。这张图的横座标为秒,纵座标为电压大小。要将这样的信号转为 PCM 格 式的方法,是先以等时距分割。
我们把分割线与信号图形交叉处的座标位置记录下来,可以得到如下资料,(0.01,11.6 5) ,(0.02,14.00) 、 (0.03,16.00) 、 (0.04,17.74) … ..(0.18,15.94) 、 (0.19 ,17.7) 、 (0.20,20) 。好了,我们现在已经把这个波形以数字记录下来了。由于我们 已经知道时间间隔是固定的 0.01 秒,因此我们只要把纵座标记录下来就可以了,得到 的结果是 11.65 14.00 16.00 17.74 19.00 19.89 20.34 20.07
19.44 18.59 17.47
16.31 15.23 14.43 13.89 13.71 14.49 15.94 17.70 20.00 这一数列。这一串数字就
是将以上信号数字化的结果。看吧,我们确实用数字记录了事物。在以上的范例中,我
们的采样频率是 100Hz(1/0.01 秒 ) 。其实电脑中的 .WAV 档的内容就是类似这个样子
,文件头中记录了采样频率和可容许最大记录振幅,后面就是一连串表示振幅大小的数
字,有正有负。常见CD唱盘是以PCM格式记录,而它的采样频率 (Sample Rate) 是 441
00Hz ,振幅采样精度/数位是 16Bits ,也就是说振幅最小可达 -3/2) ,最
大可达 +/2-1) 。CD唱盘是以螺旋状由内到外储存资料,可以存储74分钟的
音乐。CD唱盘的规格为什么是 44.1kHz、16Bits呢?关于 44.1kHz 这个数字的选取分为
两个层面。首先人耳的聆听范围是 20Hz 到 20kHz ,根据 Nyquist s ,理论
上只要用 40kHz 以上的采样频率就可以完整记录 20kHz 以下的信号。那么为什么要用
44.1kHz 这个数字呢?那是因为在 CD 发明前硬盘还很贵,所以主要将数字音频信号储
存媒体是录像带,用黑白来记录 0 与 1 。而当时的录像带格式为每秒 30 张,而一张
图又可以分为 490 条线,每一条线又可以储存三个取样信号,因此每秒有 30*490*3=4
4100 个取样点,而为了研发的方便, CD唱盘也继承了这个规格,这就是 44.1kHz 的由
来。在这里我们可以发现无论使用多么高的采样精度/数位,记录的数字跟实际的信号大
小总是有误差,因此数字化无法完全记录原始信号。我们称这个数字化造成失真称为量
数字化的最大好处是资料传输与保存的不易失真。记录的资料只要数字大小不改变,记
录的资料内容就不会改变。如果我们用传统类比的方式记录以上信号,例如使用录音带
表面的磁场强度来表达振幅大小,我们在复制资料时,无论电路设计多么严谨,总是无
法避免杂讯的介入。这些杂讯会变成复制后资料的一部份,造成失真,且复制越多次信
噪比 ( 信号大小与噪音大小的比值 ) 会越来越低,资料的细节也越来越少。如果多次
复制过录音带,对以上的经验应该不陌生。在数字化的世界里,这串数字转换为二进制
,以电压的高低来判读1与0,还可以加上各种检查码,使得出错机率很低,因此在一般
的情况下无论复制多少次,资料的内容都是相同,达到不失真的目的。
那么,数字化的资料如何转换成原来的音频信号呢?在计算机的声卡中一块芯片叫做 D
AC(Digital to Analog Converter) ,中文称数模转换器。DAC的功能如其名是把数字信
号转换回模拟信号。我们可以把DAC想像成 16 个小电阻,各个电阻值是以二的倍数增大
。当 DAC 接受到来自计算机中的二进制 PCM 信号,遇到 0 时相对应的电阻就开启,遇
到 1 相对应的电阻不作用,如此每一批 16Bits 数字信号都可以转换回相对应的电压大
小。我们可以想像这个电压大小看起来似乎会像阶梯一样一格一格,跟原来平滑的信号
有些差异,因此再输出前还要通过一个低通滤波器,将高次谐波滤除,这样声音就会变
得比较平滑了。
从前面的内容可以看出,音频数字化就是将模拟的(连续的)声音波形数字化(离散化),
以便利用数字计算机进行处理的过程,主要包参数括采样频率(Sample Rate)和采样数
位/采样精度(Quantizing,也称量化级)两个方面,这二者决定了数字化音频的质量。
采样频率是对声音波形每秒钟进采样的次数。根据这种采样方法,采样频率是能够再现
声音频率的一倍。人耳听觉的频率上限在2OkHz左右,为了保证声音不失真,采样频率应
在4OkHz左右。经常使用的采样频率有11.025kHz、22.05kHz和44.lkHz等。采样频率越高
,声音失真越小、音频数据量越大。采样数位是每个采样点的振幅动态响应数据范围,
经常采用的有8位、12位和16位。例如,8位量化级表示每个采样点可以表示256个(0-25
5)不同量化值,而16位量化级则可表示65536个不同量化值。采样量化位数越高音质越好
,数据量也越大。
反映音频数字化质量的另一个因素是通道(或声道)个数。记录声音时,如果每次生成一
个声波数据,称为单声道;每次生成二个声波数据,称为立体声(双声道),立体声更能
反映人的听觉感受。
除了上述因素外,数字化音频的质量还受其它一些因素(如扬声器质量,麦克风优劣,计
算机声卡A/D与D/A(模/数、数/模)转换芯片品质,各个设备连接线屏蔽效果好坏等)的
综上所述,声音数字化的采样频率和量化级越高,结果越接近原始声音,但记录数字声
音所需存储空间也随之增加。可以用下面的公式估算声音数字化后每秒所需的存储量(假
定不经压缩):
存储量=(采样频率*采样数位)/8(字节数)
若采用双声道录音,存储量再增加一倍。例如,数字激光唱盘(CD-DA,红皮书标准)的
标准采样频率为44.lkHz,采样数位为16位,立体声,可以几乎无失真地播出频率高达2
2kHz的声音,这也是人类所能听到的最高频率声音。激光唱盘一分钟音乐需要的存储量
44.1**60/8=10,584,000(字节)=10.584MBytes
这个数值就是微软Windows系统中WAVE(.WAV)声音文件在硬盘中所占磁盘空间的存储量。
由MICROSOFT公司开发的WAV声音文件格式,是如今计算机中最为常见的声音文件类型之
一,它符合RIFF文件规范,用于保存WINDOWS平台的音频信息资源,被WINDOWS平台机器
应用程序所广泛支持。另外,WAVE格式支持MSADPCM、CCIPTALAW、CCIPT-LAW和其他压缩
算法,支持多种音频位数,采样频率和声道,但其缺点是文件体积较大,所以不适合长
时间记录。因此,才会出现各种音频压缩编/解码技术的出现,例如,MP3,RM,WMA,VQ
F,ASF等等它们各自有自己的应用领域,并且不断在竞争中求得发展。
WAVE、MIDI、MP3、RM常见音频格式简介
WAVE--WINDOWS系统最基本音频格式---*.wav
1、占用巨大硬盘空间,音质最好,支持音乐与语音
2、通常采样使用44KHZ采样/秒,16位/采样,立体声,双声道,CD音质
3、一分钟音乐占用大约10M硬盘空间,56K调制解调器需要30分钟才能完成网络传送
MIDI--电子合成音乐---*.mid
1、与WAVE格式截然不同,只有音乐,没有语音
2、使用音色库回放,有软硬波表之分,
3、十分节省磁盘空间,但是音质回放对声卡依赖较大
4、无法使用Total Recorder录制mid音乐
5、可以使用Wingroove软波表或其它软件转为wave
MP3--最流行音频压缩格式---*.mp3
1、节省硬盘空间,有损压缩,无法复原
2、音质与不同压缩编码软件有关
3、音乐与语音,可以使用各种采样比率
RM--网络流媒体压缩格式---*.rm/*.ra
1、节省磁盘空间,有损压缩,无法复原
2、在目前比较窄的网络带宽下,与Real Server服务器配合,使用Real Player在客户端
比较流畅地播放音视频媒体
其它还有:
1、微软的WMA编码--*.wma
2、微软的ASF流媒体编码--*.asf
3、Yamaha的VQF编码--*.vqf
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:654972次
积分:9971
积分:9971
排名:第1245名
原创:303篇
转载:175篇
评论:125条
(5)(3)(6)(1)(1)(2)(10)(7)(22)(9)(10)(10)(18)(9)(2)(4)(1)(7)(3)(8)(8)(1)(6)(13)(2)(4)(12)(16)(18)(16)(10)(19)(11)(4)(3)(1)(11)(17)(20)(17)(11)(10)(9)(3)(7)(3)(12)(9)(7)(4)(2)(6)(1)(15)(15)(17)(7)

我要回帖

更多关于 音频数字化过程 的文章

 

随机推荐