班长大人百度网盘高清云资源

you have been blocked叮咚,开启语音模式【徐水吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:228,155贴子:
叮咚,开启语音模式收藏
游山玩水,户外拓展,赏花赏月,那你还不赶紧进来看看.
你赶快吃药起,吃完药赶快睡觉起
又出来得瑟了昂你后面那个“楼主”两个字是怎么弄的
为什么我后面没有
我是新手,可以告诉我吗
前排被人抢了
神牛摄影器材--为专业摄影者打造,你值得拥有!
宝儿,估计只有你能和小数字相媲美
开启神经模式了吧几天不神经就折腾
大家都散了吧,这是我们医院的病人
——保定市第六医院院长宣   ___♬ 谁在寂寞的空港       催促着离去的航班♛___
第二个宝爷,看来以后贴吧又热闹料
女神你好~~
爱上一匹野马,可我的家里没有草原
又有一个夜里欢
开启犯二模式,进来不回复是二,回复是忒二。
果真是逗比姑凉
登录百度帐号推荐应用
为兴趣而生,贴吧更懂你。或模式识别在语音识别中的应用
模式识别在语音识别中的应用
1.语音识别技术简述
语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。
由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。
下面介绍常用的一些声学特征。
线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。
倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。
Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。
MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。
语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。
HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。
语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。
上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi-Phone,考虑前一音和后一音的影响的称为Tri-Phone。
2.语音识别技术简述
英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。
语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。
N-Gram:该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。
连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。
Viterbi:基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。
由于语音识别对当前时间点之后的情况无法预测,基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性,同一时刻的各条路径对应于同样的观察序列,因而具有可比性,束Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。这一时齐Viterbi-Beam算法是当前语音识别搜索中最有效的算法。
N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典,这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解,往往要利用一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析,进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。
N-best搜索产生一个候选列表,在每个节点要保留N条最好的路径,会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选,但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径,保留k条。词候选网格以一种更紧凑的方式给出多候选,对N-best搜索算法作相应改动后可以得到生成候选网格的算法。
前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后,搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中,因而可以使用启发式的A算法进行后向搜索,经济地搜索出N条候选。
3.系统实现
语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。
听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。
对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。
自适应与鲁棒性
语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。
解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。
说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。
语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。
以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。一种通过语音唤醒寻找手机的方法及系统的制作方法
专利名称一种通过语音唤醒寻找手机的方法及系统的制作方法
技术领域本发明涉及远距离语音识别领域,由其涉及一种语音唤醒识别手机的方法及系统。
背景技术在日常使用手机的过程中,经常会发生到处找手机找不到的情况。一般情况下,会通过另外一部电话拨打该手机的电话号码的方式来找手机。这种方式寻找手机需要满足一定的前提条件,存在一定的局限性。比如:没有第二部手机发起主动呼叫时,或者用户不记得自己的手机号的情况下,则无法通过上述方式找到手机。已公开的专利文献,如公开号为CNA和CNA的专利,都涉及到了采用近距离无线通信技术来寻找手机的方法。但这类方法需要额外增加一个与手机独立的硬件设备,而且需要在手机硬件内部增加相应的通讯硬件设备。这种体系结构有一定的局限性:一是必须在手机的硬件设计时考虑增加该功能,实现起来技术复杂、开发测试周期较长;二是增加了手机设计和生产的成本;三是额外的增加了第二个外部设备,用户需要随身携带,使用起来非常不方便。因此,很少在实际的手机中见到有基于这类专利的应用。
本发明的目的在于提供一种通过语音唤醒技术实现的更高效自然、方便快捷的寻找手机的方法及系统。本发明提供一种通过语音唤醒技术寻找手机的方法,包括:建立一个覆盖全国各方言区口音的语音库和各种实际环境下的噪声数据库。采用中的语音库训练音素模型,并通过状态聚类方法得到上下文相关的三元音素模型;采用语音库及噪声数据库训练VAD模型。根据使用者提供的唤醒词文本,通过自适应方法从音素模型中生成定制音素模型。根据使用者提供的唤醒词文本,通过语音识别解码网络扩展方法,生成定制的唤醒词检测所需要的解码网络资源。根据使用者的实际需求,本发明通过在语音识别网络标识多个唤醒词对应文本的方法,以支持使用者定义多个唤醒词,这样使用者将自己常用且熟悉的词定义成唤醒词,通过说不同的唤醒词都可以寻找到手机,避免使用者忘记单个唤醒词带来的不便。采用VAD模型,对手机麦克风采集的语音逐帧计算语音和噪声的似然比,并根据似然比判断是否是语音,如果是静音或者环境噪声则舍弃,如果是语音则将语音数据进行实时检测,采用音素模型及解码网络资源进行实时解码,检测语音中是否出现唤醒词。检测出唤醒词后,调用智能手机的相应接口,让手机播放铃声和/或震动,以便使用者可以方便的知道手机所在的位置。当使用者找到手机后,手动停止播放铃声和/或震动。本发明提供两种唤醒模式,唤醒模式一允许使用者在任意时间说出唤醒词来寻找手机,在该模式工作状态下,只要使用者说出唤醒词即可以实现手机唤醒;唤醒模式二要求唤醒词在句首才能够有效进行寻找手机,在该模式工作状态下,可以避免在随意聊天时无意中说到了唤醒词导致的误唤醒操作。使用者可以动态地设置和切换两种唤醒模式,十分方便。远距离唤醒是本发明的一个重要技术特征,和传统的语音处理技术相比,由于使用者说话时离手机设备的麦克风的距离一般在0.2米 10米范围内,而传统语音处理技术,这个距离一般在0.2米以内,因此,在进行语音处理时,远距离语音中不仅受到周围环境噪声的影响,更重要的是语音信号的混响会导致语音唤醒的正确率大幅度下降。针对远距离语音信号的这一特点,本发明采用了针对性的算法研究,以大幅提升远距离情况下语音唤醒的成功率。具体算法主要包括远距离语音信号处理和远距离语音声学模型训练两部分,详细描述如下:远距离语音信号处理算法包括两部分:首先进行前端处理,传统语音信号处理中的采用的短时谱分析无法解决混响带来的问题,本算法通过长时谱分析算法、谱减法去除混响信号带来的谱激变;然后,在提取出声学特征后,采用减均值、方差规整并进行自回归滑动平均模型算法去除由于环境噪声带来的谱激变。远距离语音声学模型训练流程,首先在训练数据中针对性的增加远距离录音数据,使得训练出来的声学模型能够与实际使用环境相匹配。同时,针对远距离进行了 HMM状态数、音素模型聚类算法调整,进一步提升远距离语音下的性能。本发明提供一种通过语音唤醒技术寻找手机的方法和系统,所述系统包括:语音唤醒模块,用于实时检测语音数据中的唤醒词并控制手机播放铃声和/或震动提示用户手机具体方位;自定义唤醒词模块,用于输入唤醒词文本,并向云端自定义唤醒词模块发送请求,完成唤醒词资源包的下载。云端自定义唤醒词模块,用于接收自定义唤醒词模块发送的请求并进行处理,提供唤醒词资源包的下载。本发明的优点:一是不需要增加额外的硬件,直接将系统安装到手机上便可以使用;二是使用者直接通过说话来寻找手机,提供了一种非常自然、快捷的寻找手机的方法;三是使用者可以自定义个性化的说法来寻找手机,让找手机的过程充满乐趣。
图1是本发明实施例寻找手机的系统结构2是本发明实施例寻找手机的云端自定义唤醒词的系统结构3是本发明实施例寻找手机的方法流程4是本发明实施例寻找手机的自定义唤醒词的方法流程图
具体实施例方式下面结合图例,给出通过语音唤醒寻找手机的方法及其系统更详细的技术特征以及一些典型的实施案例。一种通过语音唤醒寻找手机的方法和系统。所述系统由一语音唤醒模块、自定义唤醒词模块和云端自定义唤醒词系统组成。如图1所示,所述系统包括语音唤醒模块11、自定义唤醒词模块12、唤醒词资源包
13。在寻找手机时,使用者与手机的距离相对于正常使用语音识别系统而言比较远的,一般情况下在0.2米到10米的范围内。在远距离范围内,使用者只需要喊出唤醒词,系统检测到语音并分析出语音中包含唤醒词后,即可启动手机铃声和/或震动,从而迅速地找到手机。实际系统存在两种唤醒模式:模式一只要使用者说出唤醒词即可以实现手机唤醒;模式二要求唤醒词在句首才能够有效进行寻找手机,这主要是考虑避免在随意聊天时无意中说到了唤醒词导致的误唤醒操作,使用者可以动态地设置和切换两种唤醒模式,十分方便。本实施例所述的语音唤醒模块11,包括实时录音模块IlUVAD模块112、特征提取模块113、唤醒词检测模块114和反馈控制模块115。其中所述实时录音模块111通过调用手机通用API接口获取麦克风数据;VAD模块112采用基于能量和模型的方法检测从实时录音模块111中获取的数据中是否存在语音信号,并从数据中将语音信号提取出来;特征提取模块113负责将语音信号进行长时谱减分析和短时谱特征提取;唤醒词检测模块114通过将语音的声学特征送入解码器进行维特比解码,检测是否包含有唤醒词出现;反馈控制模块115负责检测到关键词后控制手机向用户进行反馈,即播放铃声和/或使手机震动
坐寸ο本实施例的特征提取模块113中,用于训练音素单元HMM模型的声学特征逐帧提取,首先,采用长时谱减法去除远距离混响带来的频谱激变影响,其次,每25ms数据提取出一中贞的预感知线性预测(PLP, Perceptual Linear Prediction)特征,巾贞移为IOms0并采用减均值、方差规整和自回归滑动平均模型去除环境噪声影响。在本实施例建立噪声数据库,噪声数据库要求覆盖手机实际使用过程中各类实际噪声环境。录音设备覆盖各类常见的智能手机麦克风。在本实施例所述的自定义唤醒词模块12,用于输入唤醒词文本数据,并向云端自定义唤醒词模块的HTTP服务21发送处理请求,在云端自定义唤醒词模块完成处理后,进行资源包13的下载及存储。本模块支持多个唤醒词文本输入。本实施例所述的唤醒词资源包13,包含声学模型及解码网络等资源。如图2所示,所述云端自定义唤醒词系统包括HTTP服务21、后台服务22。当用户需要设置个性化找手机的唤醒词时,用户可以在手机上输入唤醒词内容文本,并提交到云端自定义唤醒词系统,即可方便地下载个性化唤醒资源包,同时,该模块支持多个唤醒词的自定义资源生成。本实施例所述的Http服务21,包括用于接收自定义唤醒词模块12发送请求的唤醒词文本输入211和资源包下载212。在本实施例所述的后台服务22,包括语音库221、模型训练222、模型裁减223和解码网络扩展224。在本实施例建立语音库221中,语音库221的录音文本要求覆盖中英文所有的音素和音节单元,常用音节的分布相对均衡。录音人要求覆盖全国各大言区,录音人性别均衡,年龄呈高斯分布。在本实施例的模型训练222中,包括音素建模和VAD建模,采用了基于统计的隐马尔科夫模型(HMM,Hidden Markov Model)进行建模。同时,在音素模型中,进一步米用上下文相关的建模方法,对状态数进行聚类。在本实施例的模型裁减223中,通过分析唤醒词文本输入211的上下文关系,将模型训练222中建立的通用音素模型进行裁减。在本实施例的解码网络扩展224中,自定义唤醒词资源模块采用了基于加权有限状态转换器(WFST, Weighted Finite State Transducer)的方法,结合模型训练222中建立的音素模型,将用户提供的唤醒词文本转化为语音识别解码网络,该转换功能由部署在z 端系统提供,也可以集成在本地系统中实现。如图3所示,使用者在寻找手机时,在距离手机10米以内的范围内,说出唤醒词,系统经过VAD检测出有语音数据后,立即进行实时的唤醒词检测,一旦检测到用户说了唤醒词,系统自动开启手机铃声和/或振动,方便使用者确定手机的具体方位。所述云端自定义唤醒词模块对请求进行处理后提供资源包下载的过程如图4所示:首先,建立语音库和噪声数据库,提取声学特征,训练音素模型并得到上下文相关的三元音素模型,同时训练VAD模型;然后,根据自定义唤醒词模块12发送的自定义唤醒词文本,提取出唤醒词对应的发音序列,构造自定义的音素模型、识别网络和发音词典,生成自定义唤醒词资源包供自定义唤醒词模块12下载。以上所述,仅为本发明的优选实施例,并不用以限制本发明,凡依本发明权利要求及说明书内容所作的任何修改、等同 替换和改进等,均应包含在本发明的保护范围之内。
1.一种通过语音唤醒寻找手机的系统,其特征在于,包括:
语音唤醒模块,用于实时检测语音数据中的唤醒词并控制手机播放铃声和/或震动提示用户手机具体方位;
自定义唤醒词模块,用于输入唤醒词文本,并向云端自定义唤醒词模块发送请求,完成唤醒词资源包的下载。
云端自定义唤醒词模块,用于接收自定义唤醒词模块发送的请求并进行处理,提供唤醒词资源包的下载。
2.按权利要求1所述的通过语音唤醒寻找手机的系统,其特征在于:
所述语音唤醒模块包括,
实时录音模块,用于调用手机API接口获取麦克风数据;
VAD模块,用于检测从实时录音模块中获取的数据中是否存在语音信号并进行提取;
特征提取模块,用于将语音信号进行长时谱减分析和短时谱特征提取;
唤醒词检测模块,用于将特征提取模块提取得到的声学特征发送给解码器进行维特比解码,检测是否有唤醒词出现;
反馈控制模块,用于根据预先设定调用手机响应接口,控制铃声和/或手机震动。
3.按权利要求1所述的通过语音唤醒寻找手机的系统,其特征在于:
所述自定义唤醒词模块,支持一 个唤醒词和/或多个唤醒词。
4.按权利要求1所述的通过语音唤醒寻找手机的系统,其特征在于:
所述云端自定义唤醒词模块包括,
唤醒词文本接收模块,用于接收自定义唤醒词模块发送的唤醒词文本请求;
语音库,用于存储常用音素和音元字节;
噪声库,用于存储各种实际环境下的噪声数据;
模型训练模块,用于采用基于统计的隐马尔科夫模型进行音素建模和VAD建模,采用上下文相关的建模方法对状态数进行聚类,得到上下文相关的三元音素模型及VAD模型;模型裁剪模块,用于通过分析输入文本的上下文关系,将模型训练模块建立的音素模型进行裁剪;
解码网络扩展模块,用于采用基于加权有限状态转换器的方法,结合模型训练模块建立的音素模型,将唤醒词文本转换为语音识别解码网络;
资源包下载模块,用于提供唤醒词资源包的下载。
5.按权利要求4所述的通过语音唤醒识别手机的系统,其特征在于:
所述解码网络扩展模块既可以部署在云端,也可以部署在本地。
6.按权利要求1-5之一所述的通过语音唤醒寻找手机的系统,其特征在于:
通过远距离语音信号处理和远距离语音声学模型训练提高语音识别正确率,
其中,所述通过远距离语音信号处理包括:通过长时谱分析算法、谱减法去除混响信号带来的谱激变,然后,在提取出声学特征后,采用减均值、方差规整并进行自回归滑动平均模型算法去除由于环境噪声带来的谱激变;
所述远距离语音声学模型训练包括:在训练数据中针对性的增加远距离录音数据,进行HMM状态数、音素模型聚类算法调整。
7.按权利要求1-5之一所述的通过语音唤醒寻找手机的系统,其特征在于:所述智能手机包括两种工作模式,模式一允许在任意时间检测到唤醒词即可命令反馈控制模块进行下一步动作,模式二要求在句首检测到唤醒词才可命令反馈控制模块进行下一步动作。
8.一种通过语音唤醒寻找手机的方法,其特征在于,包括:
用户使用手机上的自定义唤醒词模块输入唤醒词文本,并向云端自定义唤醒词模块发送请求,云端自定义唤醒词模块对请求进行处理后提供唤醒词资源包的下载,所述自定义唤醒词模块下载唤醒词资源包;
手机上的语音唤醒模块实时检测语音数据并提取其中的唤醒词,控制手机播放铃声和/或震动提示用户手机具体方位。
9.按权利要求8所述的通过语音唤醒寻找手机的系统,其特征在于:
所述语音唤醒模块实时检测语音数据并提取其中的唤醒词进一步包括,
实时录音模块调用手机API接口获取麦克风数据;
VAD模块检测从实时录音模块中获取的数据中是否存在语音信号并进行提取;
特征提取模块对语音信号进行长时谱减分析和短时谱特征提取;
唤醒词检测模块将提取得到的信号声学特征发送给解码器进行维特比解码,检测是否有唤醒词出现;
如果有检测词出现,反馈控制模块根据预先设定调用手机响应接口,控制铃声和/或手机震动。
10.按权利要求8所述的通过语音唤醒寻找手机的方法,其特征在于:
所述云端自定义唤醒词模块对请求进行处理后提供唤醒词资源包的下载进一步包括,
唤醒词文本接收模块接收自定义唤醒词模块发送的唤醒词文本请求;
模型训练模块采用基于统计的隐马尔科夫模型音素建模和VAD建模,采用上下文相关的建模方法对状态数进行聚类,得到上下文相关的三元音素模型及VAD模型;
模型裁剪模块通过分析输入文本的上下文关系,将模型训练模块建立的音素模型进行裁剪;
解码网络扩展模块采用基于加权有限状态转换器的方法,结合模型训练模块建立的音素模型,将唤醒词文本转换为语音识别解码网络;
资源包下载模块提供唤醒词资源包的下载。
11.按权利要求8-10之一所述的通过语音唤醒寻找手机的方法,其特征在于:
通过远距离语音信号处理和远距离语音声学模型训练提高语音识别正确率,
其中,所述通过远距离语音信号处理包括:通过长时谱分析算法、谱减法去除混响信号带来的谱激变,然后,在提取出声学特征后,采用减均值、方差规整并进行自回归滑动平均模型算法去除由于环境噪声带来的谱激变;
所述远距离语音声学模型训练包括:在训练数据中针对性的增加远距离录音数据,进行HMM状态数、音素模型聚类算法调整。
12.按权利要求8-10之一所述的通过语音唤醒寻找手机的方法,其特征在于:
所述方法包括两种工作模式,模式一允许在任意时间检测到唤醒词即可命令反馈控制模块进行下一步动作,模式二要求在句首检测到唤醒词才可命令反馈控制模块进行下一步动作。
本发明公开了一种通过语音唤醒技术来寻找手机的方法及系统。所述系统应用于智能手机上,包括一语音端点检测(VAD)模块,负责实时检测手机麦克风数据,检测是否有用户在说话及其说话的开始时间点;一语音唤醒模块,负责对语音端点检测模块检测到的语音进行实时解码,检测用户是否说了唤醒词;一自定义唤醒词模块,负责根据用户需求,自定义唤醒词并生成相应的资源。本发明通过智能语音唤醒技术检测到用户在寻找手机,并在检测到唤醒词后启动手机铃声和/或震动,从而能够方便、快捷地找到手机。本发明还提供了用户自定义唤醒词的功能,根据用户自身喜好定制个性化的唤醒词,让寻找手机更有乐趣。
文档编号G10L15/28GKSQ
公开日日 申请日期日 优先权日日
发明者雷雄国, 王艳龙, 王欢良, 俞凯, 邹平 申请人:苏州思必驰信息科技有限公司

我要回帖

更多关于 班长大人百度网盘高清 的文章

 

随机推荐