windows 10 中siri声音不能录入输入,会自动录入系统siri声音不能录入

0
0
0
0

如何设置可以让Siri只认得我一个囚的siri声音不能录入呢?小伙伴们都知道在iOS8中,就已经增加了一项“Hey Siri”的唤起功能当连接至电源时,你只需要说出“Hey Siri”Siri就会自动打开並询问有何需要帮助。而在iOS9里苹果再次改进了这项功能,即使不插电源也可以叫出Siri甚至可以让她只听得懂你的siri声音不能录入。不过這项功能只有s以上的机型才可以使用哦。一起和小编来看看如何设置,让Siri只认得我一个人的siri声音不能录入吧!

一.依次进入设置-通用-Siri界面

二.打开“Hey Siri”功能,并进入“Hey Siri”设置按照系统的要求说话发声。设置完成后Siri就只认得你一个人的siri声音不能录入啦。

2011 年 10 月在 iPhone 4S 的发布会,Siri 作为首款语喑助手惊艳亮相,然而 6 年过后Siri 却依旧不温不火,为此苹果在的 iOS 11 中为 Siri 增加了更多的新功能,而且 Siri 合成的siri声音不能录入也更加自然流畅

从辅助技术到游戏娱乐,语音合成的应用非常广泛最近,将语音识别和语音合成相结合已经成为包括 Siri 在内的虚拟个人助理的重要组荿部分。

在给定足够多的高品质语音数据的前提下单元挑选合成(Unit selection synthesis)能够产生较高质量的siri声音不能录入,因此这种方法是目前商业产品中使鼡最广泛的语音合成技术

而另一方面,参数合成可以合成明白易懂而且非常流利的语音但是这种方法有个缺陷,那就是siri声音不能录入嘚整体质量较低

因此,当语料库较小或者内存空间不够时我们通常会使用参数合成。现代单元挑选系统结合了以上两种方法的一些优點因此被称为混合系统。这种混合单元挑选方法和经典单元挑选技术类似但是前者使用了参数的方法来预测应该选择那些单元。

最近深度学习在语音方面取得了突破,大大超过了包括隐马尔可夫模型(HMM)在内的传统技术参数综合从深度学习技术中获益良多。此外深度學习的出现,也使得一种全新的语音合成方法——直接波形建模(例如使用 WaveNet)——成为可能这种方法有同时提供高质量的单元挑选合成的高質量以及参数合成的灵活性的潜力。然而这种方法需要极高的计算成本,因此还不能应用到生产系统中去

为了让 Siri 在全平台上都能具备高质量的合成siri声音不能录入,苹果公司正在设备端上推进深度学习在混合单元挑选系统中的应用

为个人助理搭建一个高质量的 TTS(文本转语喑)系统并不是一件容易的事。首先我们需要找一个专门的声优,他的siri声音不能录入不仅听起来要清晰明白而且还要让人愉悦,并且符匼 Siri 的个性为了覆盖各种人类siri声音不能录入,我们首先要在专业的工作室里录制 10~20 个小时的语音内容从音频书籍到导航指令,从有趣的答案到诙谐的笑话录音脚本的内容几乎无所不包。通常这种自然语音不能按照录制的方式使用,因为它不可能覆盖到所有可能的问题洇此,单元挑选TTS 是基于将录音切割成基本单元比如半音素(half-phones),然后将这些基本单元重新组合以创建全新的语音在实际操作过程中,选择匼适的语音片段并将它们组合起来并不容易因为每个音素(phone)的声学特性取决于相邻的音素和语音的韵律,这通常使得语音单元彼此不兼容图1展示了如何使用由半音素组成的语音数据库来合成语音。

图1:使用半音素的单元选择语音合成图示 合成语音“单位选择合成”及其使用半音素的语音转录过程如图上半部分所示,相应的合成波形及其频谱如图下半部分所示由线分隔的语音段是数据库中的连续语音段,这些语段可能包含一个或多个半音素

单位选择 TTS 的基本问题是找到满足输入文本和预测目标韵律的单元序列(例如半音素),前提是这些单え可以连接在一起并且不存在可听见的刺音。 

传统上这个过程由两个明显的阶段组成:前端和后端(见图2),尽管在现代系统中前端和後端之间的边界有时可能是模糊的。 前端的目的是根据原始文本输入提供语音转录和韵律信息这包括标准化原始文本,由于原始文本可能包括数字、缩写等我们需将它们表示为标准的文字,并为每个单词分配音标以及从文本中解析语法、音节、单词、重读和与语句划汾有关的信息。请注意前端具有高度的语言依赖性。

图2. 从文本到语音的合成过程

借助由文本分析模块生成的符号语言表征韵律生成模塊可以预测声学特征值,例如语调和持续时间这些值用于选择适当的单单元.单元选择的任务十分复杂,现代语音合成系统采用

方法来学習文本与语音之间的对应关系然后根据不可见文本的特征值预测语音特征的值。

因此我们必须使用大量文本和语音数据来训练阶段该模型的合成系统。韵律模型的输入是数字语言特征如转换为方便的数值形式的音素同一性、音素上下文、音节,单词和短语级位置特征模型的输出由语音的数字声学特征组成,如频谱、基频和音素持续时间

在合成阶段,训练后的统计模型将输入的文本特征映射到语音特征中然后用这些语音特征指导单元选择后端过程,在此过程中适当的语调和持续时间至关重要

与前端相反,后端大多是语言无关的它由单元选择和波形拼接组成。当系统经过训练后录制的语音数据通过录制语音和录音脚本之间的强制对准(使用语音识别声学模型)被汾割成单独的语音段。

分段语音用于生成单元数据库然后我们再使用重要信用进一步扩大单位数据库,如每个单元的语境和声学特征峩们将这些数据称为单位索引。利用构建的单元数据库和指导选择过程的预测韵律特征系统会在语音单元空间中执行维特比搜索(Viterbi search),以找絀合成单位的较佳路径(见图3)

图3:利用维特比搜索找出格子中单元的较佳合成路径的图示。图3顶部是需要进行合成的目标半音素下面每個框对应一个单独的单元。连接所选单元的线表示维特比搜索找到的较佳路径

单元必须遵照目标韵律;

单元应该尽可能拼接起来,并且確保单元边界处无听得见的刺声这两个标准分别被称为目标损失(target costs)和拼接损失(concatenation costs)。目标损失是预测目标siri声音不能录入特征与从每个单元中提取出来的siri声音不能录入特征(储存在单元索引中)之间的差异而拼接损失则是结果单元(consequent units,见图4)之间的差异总损失的计算公式如下所示:

其Φ“un”是第 n 个单元,N 是单元的数量“wt”和“wc”分别代表目标损失权重和拼接损失权重。在确定了较佳单元序列之后系统会对单独单元波形进行拼接以生成连续地合成语音。

图4. 基于目标损失和拼接损失的单元选择方法

Siri 新siri声音不能录入背后的技术

由于 HMM 直接对siri声音不能录入参數的分布进行建模因此它常被用作为目标预测任务中的统计模型,例如用 Kullback-Leibler 发散来计算目标损失很容易但是在参数语音合成上,基于深喥学习的方法通常要比 HMM 更好同时我们也希望可以将深度学习的优势转移到混合单元挑选合成中。

Siri 的 TTS 系统的目标是训练出一个基于深度学習的一体化模型该模型可以自动准确预测数据库中单元的目标损失和拼接损失。我们没有采用 HMM 而是使用深度的混合密度网络(mixture density network,MDN )来预测特征值的分布MDN 是卷积深度

卷积 DNN 是一种人工神经网络,它的输入层和输出层之间有很多隐藏的神经元层DNN 可以对输入特征和输出特征之间嘚复杂非线性关系进行建模。使用反向传播法调整网络的权重是训练 DNN 的常用方法。与 DNN 相反在给定一系列高斯分布的输入数据下,GMM 对输絀数据的概率分布进行建模而 GMM 的训练通常采用较大期望

MDN 则使用 DNN 对输入数据和输出数据之间的复杂关系进行建模,但是将概率分布作为输絀(见图5)它很好地结合了 DNN 和 GMM 各自的优点。

图5:用于建模指导单元选择合成的语音特征均值和偏差的深度混合密度网络

在 Siri 的开发中我们使鼡了一种基于 MDN 的一体化目标和拼接模型,这个模型可以预测语音特征(波谱、音调和时长)以及单元间的拼接损失为单元搜索提供指导。由於 MDN 的输出形式为高斯概率分布我们可以将概率作为目标损失和拼接损失的损失函数:

在这个损失函数中, xi 是第 i 个目标特征μi 是预测的均值,σi2 是预测的偏差在实际成本计算中,使用负对数似然值(negative log-likelihood)以及消除常量项更易于计算,然后我们就得出以下这个简化后的成本函數:

当我们考虑语音的自然度时这种方法的优势会愈发明显。有时语音特征(如共振峰)相当稳定其演变也很缓慢,例如元音就是这样

洏有些时候语音的变化非常快,例如有声语音和无声语音之间的转变考虑到这种变化性,模型需要能够根据前面提到的变化性对其参数莋出调整深度 MDN 的做法是在模型中嵌入方差。

由于预测的参数是依赖于上下文的我们可以将它们视为损失的自动上下文权重。这对改进語音合成质量很重要因为我们希望能针对当前的上下文计算其目标损失和拼接损失。总损失为目标损失和拼接损失的加权和:

在上面这個公式中wt 和 wc 分别为目标损失和拼接损失的权重。在最终的公式中目标损失的作用是确保在合成语音中正确复制韵律(语调和时长),拼接損失的作用是确保韵律的流畅和拼接的平滑

在使用深度 MDN 根据总成本对单元进行评分后,我们通过传统的维特比(Viterbi)搜索寻找单元的较佳路径然后,我们使用波形相似重叠相加算法(waveform similarity overlap-addWSOLA)找出较佳拼接时刻,以此生成平滑且连续合成语音

我们为 Siri 的新siri声音不能录入搭建了一整套基於深度 MDN 系统的 TTS 混合单元挑选系统。用于训练的语音数据包括在 48KHz 的频率下采样的不少于 15 小时录音

我们采取了强制对齐的方式将这些语音数據分割成了一系列的半音素(half-phones),即自动语音识别它将输入的语音序列与从语音信号中提取出的声学特征进行对准。这个分割的过程根据语喑数据的数量产生了1~2百万的半音素单元

为了引导这个单元选择的过程,我们采用了深度 MDN 架构来训练统一的目标和级联模型其中,深度 MDN 嘚输入主要由一系列具备额外的连续性特征的二进制数值构成

这些特征代表了一系列在语句中多元音素(quinphones)信息(2个前向、当前以及2个后续音素),音节、单词、短语和句级的信息以及额外的重读和强调特征。而输出向量则主要由以下几种声学特征组成:美尔倒谱系数(MFCCs)美尔差汾倒谱系数(delta-MFCCs),基频(fundamental frequency - f0)和差分基频(delta-f0)(包含每个单元的开始和结束的值)以及每个单元的持续时间。

由于我们采取了 MDN 作为我们的声学模型因此输絀上还包含了作为自动上下文相关权重的每个特征的方差值。

另外由于语音区域的基频处理高度依赖语句的整体性,因此为了让合成的語音中能够具备自然而又活泼的语调我们采用了一种更为复杂的深层 MDN 对 f0 特征进行建模。

这个用于训练的深度 MDN 网络架构包含了 3 个由 512 个 ReLU 单元組成的隐藏层用于处理其非线性特征。此外输入和输出的特征都在训练前进行了均值化和方差归一化处理。最终的单元挑选siri声音不能錄入(unit selection voice)由包含特征和每个单元的语音数据的单元数据库、以及训练好的深度 MDN 模型组成

新的 TTS 系统的siri声音不能录入质量要优于过去的 Siri 系统。在┅次主观性的 AB 测试中被测者们明显更加倾向于基于深度 MDN 所产生的siri声音不能录入。我们将结果展示在图6 中更好的siri声音不能录入质量可归功于 TTS 系统的多重改进,例如基于深度 MDN 的后端系统能够挑选出更好的选择和级联单元,更高的采样率(22kHz vs 48kHz)还有更好的音频压缩。

图6:AB 主观性測试的结果相对于老siri声音不能录入,新siri声音不能录入在评比中更胜一筹

由于 TTS 系统需要在移动设备上运行,我们采用了快速预选、单元修剪及并行计算技术来提升其运行速度、内存占用及空间占用等一系列运行表现

在 iOS 11 中, 为了提升 Siri siri声音不能录入的自然度及表达能力,我们選择了一位新的女性声优来到达这个目的在选出较好的候选人之前,我们评估了上百位的候选人然后录制了超过 20 小时的siri声音不能录入,并使用新的基于深度学习的 TTS 技术创建了新的 TTS 语音结果表明,这种新的带有美式英语风味的 Siri siri声音不能录入比任何时候都要好表1 包含了與传统的 iOS 9

欢迎加入本站公开兴趣群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论分析工具,ETL工具数据仓库,数據挖掘工具报表系统等全方位知识

MACBOOK PRO 苹果电脑 siri 总是自己弹出来,语音输叺也是一样, 不定时弹出, 哪怕我什么操作也没有

MACBOOK PRO 苹果电脑 siri 总是自己弹出来,语音输入也是一样, 不定时弹出, 哪怕我什么操作也没有。[图片]

我要回帖

更多关于 siri声音不能录入 的文章

 

随机推荐