所有可以让让内存获取二维图像变形的几种手段数据的手段比如qq截图这类的

最近一段时间都没有写博客一昰因为有新的项目要做,而是最近在学习有关H5移动开发相关方面的内容以下是看了“【江哥带你从“零”玩转Html5 + 跨平台开发】”总结的学習笔记,目前只是更新到了H5+CSS3相关视频网站地址://xiaonadiandian/article/details/ 
版权声明:本文为博主原创文章,转载请附上博文链接!

版权声明:CSDN的所有文章均转载自峩博客园的文章由于存在转载丢失,想了解细节可访问我的博客园。 /LXP-Never/ /qq_/article/details/

语音盲带宽扩展技术已经出现了一段时间但到目前为止还没有絀现广泛的部署,部分原因是增加的带宽伴随着附加的工件本文提出了三代盲带宽扩展技术,从矢量量化映射到高斯混合模型再到基於生成对抗性网络的深层神经网络的最新体系结构。这种最新的方法在质量上有了很大的提高并证明了基于机器学习的盲带宽扩展算法茬客观上和主观上都能达到与宽带编解码器相当的质量。我们相信盲带宽扩展现在可以达到足够高的质量,以保证在现有的电信网络中蔀署

 关键词:指标术语-盲带宽扩展,人工带宽扩展生成对抗性网络,客观质量评价主观质量评价,POLQA

  直到几年前语音通信的质量一直受到100多年前的设计选择的限制,这导致了8 kHz采样率实际频率使用范围为300-3400 Hz这种所谓的窄带(Nb)频率范围严重限制了语音质量。最近业界已開始转向“高清声音”和“超高清声音”-分别使用宽带(WB)或超宽带(SWB)编码器其采样率分别为16 kHz或32 kHz,分别对应于50-7000 Hz或50-14000

  然而WB和SWB部署并不普遍,洇为开发、测试和部署支持服务可能需要大量的成本此外,端到端的WB/SWB呼叫需要在两端升级设备.要达到全面覆盖和手机普及率可能需要數年的时间,而将固定电话网络升级到WB/SWB可能需要更长的时间在此之前,很大一部分呼叫仍将使用遗留窄带

  盲带宽扩展(BBE)技术就昰通过将NB语音转换为WB或SWB语音来解决这个问题。在本文中我们将只关注于WB的情况,以便于简化

  已经提出了各种统计方法来预测4-8Hz的语喑部分,通常称为高频段(Hb)从0-4 kHz部分预测,称为低能带(Lb)通常,使用某种形式的谱折叠或统计建模来产生具有宽带语音[3][4]一般特征的信号虽嘫不能期望完美的预测,但可以获得合理的高质量的语音

  矢量量化(VQ)码本映射可以用来创建语音参数从lb到HB[5][6]的离散映射。采用基于高斯混合模型(GMM)的方法通过对语音包络参数的连续建模,保持了lb和hb之间更精确的转换隐马尔可夫模型(HMM)通过利用语音时态信息来扩展gmms[8]。基于神經网络的方法如深神经网络,已经被提出因为他们知道更好地建模高度非线性的问题[9]。

  本文所讨论的统计模型都是基于回归问题Φ最基本的损失函数-均方误差(MSE)它测量了Hb语音包络参数在预测和地面真实之间的差异。MSE损失函数在一般意义上工作良好但难以处理恢复缺失语音HB时固有的不确定性,如详细的光谱形状和浊音/清音能量动力学最小化MSE会鼓励找出看似合理的解的参数平均值,这些解通常过于咣滑因而具有较差的感知质量。

  GANS已在[10]中引入并已成功地应用于二维图像变形的几种手段处理领域,如二维图像变形的几种手段到②维图像变形的几种手段的翻译[11]、二维图像变形的几种手段的超分辨率[12]和文本到二维图像变形的几种手段的合成[13]GaN训练过程鼓励重建向搜索空间的区域移动,具有包含真实HB语音参数分布的高概率从而接近自然语音Hb流形[12]。在这篇文章中我们研究了甘斯如何帮助培。

一般情況下培框架是建立在经典的源滤波器语音产生模型的基础上的。利用该模型窄带语音信号的宽带扩展可分为两个子任务:

为了合成HB语喑信号,我们利用evrc-WB[14]中的HB模型.图一显示了我们的培框架的总体图

  HB激发是通过一个非线性函数由nb激励导出的,该函数产生保持信号谐波結构的高频段激励[14]

  在我们的语音HB扩展模型中,对于每20ms的语音帧使用六阶谱线谱频率(Lsf)对HB进行频谱化,并给出了对应于lb和HB之间能量比嘚增益因子[14]

  对该框架进行了测试,验证了从原始WB语音中提取HB参数时所提供的质量不低于Amr-WB 12.65kbps的客观和主观性能由于培通常达不到12.65kbps的amrb12.65kbps质量,因此框架并不是一个性能瓶颈该框架还用于evrc-WB和高通专有的eamr WB编解码器[16]。

表一:预测器输入输出参数

在我们的HB预测实验中使用的参数列於表1Lb lsfs的后向三角洲用于改进预测,而不需要额外的延迟

4.2.最小均方误差的统计建模

  最基本的方法是码本映射。从宽带语音中提取lb和hb語音包络参数并进一步使用诸如k均值的聚类方法来训练VQ码本。在估计阶段将接收到的窄带参数与码本中的lb包络参数项进行比较,然后選择最接近接收到的窄带包络参数的条目与所选条目对应的HB包络参数用作HB谱包络参数[5]。在实践中最近的码本条目被内插,加权于它们嘚lb包络参数和接收到的窄带包络参数之间的距离[6]

  与码本映射相比,GMM可以连续地对语音包络数据进行建模从而实现软聚类。训练使鼡期望最大化(Em)和最大似然估计(MLE)进行[7]该概率框架在训练过程中引入状态转移概率矩阵,灵活地融合了语音时态信息将模型转化为GMM/HMM混合模型。增加隐马尔可夫(HMM)分量的主要好处在于它可以隐式地利用先前语音帧中的信息来提高估计精度[8]文[7]详细讨论了Lb参数到HB参数的混合均值和協方差矩阵的变形技术。

4.3.1.生成对抗性网络框架

  GAN[10]包括发生器(G)和鉴别器(D)如图2所示。这里对于我们的BBEGAN系统,G是一个深度神经网络它根據LB参数预测HB参数。D是另一个用作二进制分类器的深层神经网络它试图区分预测HB参数和自然HB语音参数。

  在对抗性训练中g试图通过调整其重量和偏差来愚弄d,从而使d相信它的输出是自然的D和g是迭代训练的,它们都试图击败对方这种方法导致g生成与自然数据相同分布嘚输出,因此可以生成更自然的语音

  深神经网络已经被应用于培问题,使用MSE损失例如在[9]。我们以这样一个模型作为起点这里,鼡标准的MSE损耗对Hblsfs和能量的四层发电机进行了预训练.这一训练前阶段是至关重要的使GaN训练过程从一个良好的初始发电机开始,这有助于避免不稳定的问题

  感知损耗函数?的定义对发电机网络的性能起着至关重要的作用。在SRGAN[12]中的感知损失函数设计的启发下我们将Hb语音包络参数域$l{params}$与对抗性损失$l_{adv}$结合起来,将感知损失作为加权和如式(1)所示。

  我们以NTT 1994多语言语料库[17]为训练和验证数据采用10倍交叉验证方案,进行了语音带宽扩展实验数据以16 kHz采样率采样,数字化为16位分辨率采用ITU-TP.341兼容滤波器模拟典型的TX手机响应。我们使用itu-t p.501英国英语[18]作为评估数据集

  对于BBE-VQ,我们使用单独的256元素VQ码本来处理Hb lsfs和增益.三个最近的候选人的加权组合用于预测

  对于BBE-GMM,我们使用了一个GMM HMM混合模型该混合模型有64个状态,每个状态有4个混合状态并且具有完全的协方差矩阵。该算法采用Viterbi译码算法的前向路径不需要前瞻时延。

  对于BBE-GAN发生器和鉴别器都是四层前馈(1层输入层、1层输出层、2层隐层),每个隐层有1024个神经元.ADAM优化器在培训期间使用

  图3和图4显示了在迭代0、100和200的对抗训练过程中典型有声段和无声段的频谱包络。我们可以清楚地看到随着损失函数的远离MSE,BBE-GAN输出正朝着参考WB语音的频谱移動GAN培训过程是提高无声段的能量,同时清除无声段期间不需要的HB噪声这导致语音质量显著提高,具有较少的可听伪影和更高的自然度

图3:语音输出与GAN迭代

图4:无声语音输出与GAN迭代

  对于客观评价,我们遵循了[19]中描述的方法并在ITU-tp补编中进行了定义。27[20]为了满足带宽需求,我们以ITU-T-501英国英语语音材料为输入分别测量了3 GPP RX掩码[21]的RX频率响应。在语音质量方面我们用P.501英式英语测试POLQA[22]的输出分数,用Amr 12.2kbps编码

  峩们为BBE算法绘制了POLQA分数以上讨论。AMR-NB的评分为12.2kbps和AMR-WB在8.85kbps和12.65kbps时显示为参考文献。结果如图5所示其中0dB指示响应遵循掩码的下限。从BBE-VQ到BBE-GMM都有明显的妀进BBE-GAN显示了所使用的统计模型的不断增强的建模能力。在迭代0处的GAN与GAN之间在迭代200(完全训练)处最大POLQA值类似的,但是BBE-GAN在200次迭代时也是這样以更高的数量更好地保持其POLQA得分带宽这是预测质量的良好指示,并且通过减少来自完全训练的GAN的预测伪影

  采用ITU-T-P.800方法对本文提絀的各种算法的主观性能进行了评价.一个退化等级(DCR)[23]测试是在一个独立的测试实验室进行的。测试使用了32个侦听器、42个条件和每个条件下192张選票DCR测试的结果如图6所示,误差条表示95%的置信区间分数与图5所示的客观结果一致。

5.4 Hb衰减与主观品质

  我们应用了几个滤波器对培-GaN鉯调整Hb水平从5db到-10 dB相对于3 GPP WB RX掩膜。图7显示了这些条件的p.800DCR分数注意,如图5所示该级别相对于下掩码限制,因此-5db表示低于掩码下限的响应而5db表示掩码的上限和下限之间的响应。

我们观察到如图5所示的客观度量结果所预测的那样,培-GaN即使在更高的带宽水平上也能保持性能这吔说明了在带宽和质量上与WB编解码器完全相当,并再次证实了客观评价与主观结果的一致性[19][20]

  本文提出了三代盲带宽扩展技术,从VQ到GMM箌GaN我们发现,与经典的统计建模技术相比像GaN这样的机器学习技术在质量上有了显著的提高。基于GaN的预测可以使其质量与WB编解码器相类姒在客观上和主观上都达到了相当于Amr-WB 8.85kbps质量的性能。虽然培技术已经研究了很多年但由于它不能提供与宽带编解码器类似的质量,所以還没有得到广泛的应用我们已经表明,使用GaN等机器学习技术可以达到这一质量水平这有可能加快电信网络中广泛采用培的速度。

我要回帖

更多关于 二维图像变形的几种手段 的文章

 

随机推荐