这两个字是同打一个字出现两个字,求识别高手识别识别

凤凰号出品
智能副驾是搜狗在 AI 落地应用上的全新探索
原标题:智能副驾是搜狗在 AI 落地应用上的全新探索AI 热潮袭来,受到了各大企业和资本方的追逐,而很多移动互联网企业也大都一头扎进这个领域,欲成为这场技术革新的引领者,或至少成为早期参与者。不过,从目前的情况来看,放眼整个 AI 领域,跟随者甚众,但落地产品寥寥。而作为率先入局者之一的搜狗,不同于其他巨头们企业争相布局通用型 AI 平台的思路,而是基于其在 AI 领域的天然优势,选择深挖垂直领域做功能型人工智能。7 月 18 日,搜狗地图智能副驾这款产品推出,这是搜狗通过整合自身资源在人工智能落地上一个全新方向的探索,其中的隐含意味是:这只是一个开端,搜狗地图未来还将承载更多 AI 落地的方向。「毫无疑问,地图是非常好的承载平台。」搜狗地图总经理孔祥来告诉雷锋网。这款智能副驾产品支持用户全程进行语音交互,一定程度上解放了驾驶员的手和眼,给用户带来更智能、安全和便捷的驾驶体验和乐趣。开发这款产品之前,搜狗地图团队为此收集了 1 万多份用户调查问卷,做了充分的用户需求调研。他们发现,用户在车内的最常见需求都跟行驶以及互联网消费相关。虽然车企以及同行业其他服务商也有相关产品落地,但孔祥来认为,以目前竞品的语音交互技术来说,用户体验等方面都不够好。而这也是他们选择从这个应用场景切入的缘由,搜狗也有能力大幅度提升此类产品的交互体验。除了在发布会所提到的技术外,孔祥来以搜狗的语音识别这个技术细节为例进行了阐述:由于智能副驾这款产品是在搜狗内部做深度集成,所以地图团队会独享一些不对外开放的接口。「现在你去看任何一家语音识别,只要开放 SDK 这种,你去把用户输入的音频流给到它,它只给你单一结果,而搜狗的语音识别会给到我们 N 个结果。虽然说大家的语音识别率做得比较高了,95% 也好,还是 96%、 97%,这是单字识别率,说了一百个字,95 个字是对的。事实上我们仔细想一想,用户整句表达的时候,在车内至少要说 7 个字,他想表达自己需求的时候,那 97% 的识别率一下子就掉到了 80%。」「如果你只输出单一结果,这意味着一句话中间错了一个字,后面的语义理解可能就挂掉了,这就是为什么我们一开始在内部做深度耦合解决这个问题。因为搜狗的语音识别对内合作是有多个结果,它会告诉我,识别概率最高的一个结果。」同时,他们也发现,输出的结果排第二、第三位的也有可能是对的,这又如何解决?当然是通过后面的语义理解、分析引擎,从而判断出第一个不对,第二个或第三个才是对的。「比如我们经常会问,我已经给你找到一个地方了,你是不是要确认?用户可能会说确认,但是用户说确认非常短,就是两个字的一句话,这种短语句的识别,都是语音识别的难点,有时第一个识别结果并不是对的,但是我们在后面可以挽救回来。」孔祥来告诉雷锋网。还有一个问题是,纵观业内做语音识别的公司的语音识别率都号称达到 97% 左右,但在产品上的效果却不尽人意,却是为何?孔祥来对此解释说,除了噪声以外,在相对安静的环境下,识别率其实也没有想象中那么高。很重要一个原因是,过去的产品之所以强调正确率,仍然是把它当做语音识别看待,而现在讨论的范畴并不仅限于此,还包括语义理解以及(数据)分发技术都要与之匹配。就单独做语音技术的公司而言,国内不乏佼佼者。它们有非常强的技术,但缺乏地图所需要的数据。而有的地图服务商虽然有数据,却没有足够好的语音交互技术。搜狗地图兼具两者优势,「像搜狗有自己的语音识别,有庞大的语义理解团队,有地图搜索、导航能力,后面还有大搜索,搜狗所有的技术都是自有化状态。」孔祥来称,这也是搜狗地图团队对智能副驾会在车内形成竞争优势的信心所在。不过,搜狗地图并不急于通过这一款产品去抢占更多市场份额,「这个不是我们现在关注的重点,我们推出这款产品的根本目的还是希望 AI 技术通过某种方式落地」,他说。雷锋网了解到,目前搜狗地图已与福特、博世等公司建立了深度合作关系,而智能副驾的推出会更有利于提升这些车企对他们实力的认知。据了解,最新上市的福特翼搏已经使用了搜狗专门定制开发的系统,并对所有的交互逻辑都做了深度定制。未来将会有更多车型搭载搜狗智能副驾。除了搜狗地图发布智能副驾外,搜狗在今年下半年到明年还会有一系列「大动作」。「你会发现,一定会有越来越多的 AI 产品发布,因为这本身就是搜狗正在努力做的方向。」孔祥来说道。
本文来自凤凰号,仅代表凤凰号自媒体观点。
用微信扫描二维码
分享至好友
用微信扫描二维码
分享至朋友圈
凤凰争鸣微信号
来点暖心的!扫这里Google,微软,科大讯飞的语音识别引擎对比
我的图书馆
Google,微软,科大讯飞的语音识别引擎对比
Google提供了一个在线语音识别的API接口,通过该API可以进行中文、英文等语言的识别。
API地址:xjerr=1&client=chromium&lang=zh-CN&maxresults=1
—参数解释
xjerr:错误标准
client: 客户端类型
lang:待识别语言类型,en-US是英文,中文为zh-CN,
maxresults:最大返回识别结果数量
—识别基本流程:
从音频输入设备获取原始音频并编码或直接调用音频文件。
将音频POST至接口地址。
分析处理返回的JSON并得出结果。
—请求接口
地址:如前
请求方式:http post
请求数据:编码后的音频数据
音频编码格式:wav、speex或flac。
音频采样频率:8000Hz、11025Hz、16000Hz、22050Hz、24000Hz、32000Hz、44100Hz、48000Hz
—主要优点
语音识别引擎庞大,识别精度很高,适用于文本语音识别。提供多国语言的语音识别。
任何平台都可以进行访问,容易使用。
—主要缺点
API未开放,未能获知具体开发细节。
识别引擎位于服务器端,识别的速度和网络质量有关,识别速度较慢。
待识别音频的格式、大小、时长的限制。
MicrosoftSpeech SDK
—Microsoft Speech SDK是微软公司提供在Windows平台上开发语音识别和语音合成应用程序的开发包,简称为SAPI,内含SR(Speech Recognition)和SS(Speechsynthesis)引擎,因此可以很方便地在自己的应用程序中添加这些功能。
—该语音引擎支持多种语音的识别和朗读,包括英文、日文、中文等。微软推出的应用编程接口API,虽然现在不是业界标准,但是应用比较广泛。
—识别基本流程:
从音频输入设备获取原始音频并编码或直接调用音频文件。
设定语音引擎和识别上下文等内容,配置本地访问属性。
分析处理得到的文本结果
—请求接口
请求方式:本地访问
请求数据:编码后的音频数据
音频编码格式:wav
音频采样频率:8000Hz、11025Hz、16000Hz、22050Hz、24000Hz、32000Hz、44100Hz、48000Hz
—主要优点
基于COM组件,便于与DirectShow中的组件整合。
语音识别引擎位于本地,便于访问,识别速度较快。
待识别音频的大小、时长无限制。
—主要缺点
缺少其他平台的支持,仅支持windows平台。
语音识别引擎不够庞大,识别精准度较低。
仅提供中日英三种语言的语音识别功能。
iFLY Mobile Speech Platform 2.0
—科大讯飞为开发者提供了语音应用开发平台,提供语音合成、语音听写、语音识别、声纹识别等服务,为语音应用开发爱好者提供方便易用的开发接口,使得用户能够基于该开发接口进行多种语音应用开发。
—其主要功能有:
实现基于HTTP协议的语音应用服务器,支持语音合成、语音听写、语音识别、声纹识别等服务
提供基于平台和PC上的语音客户端子系统,内部集成音频处理和音频编解码模块,提供关于语音合成、语音听写、语音识别和声纹识别完善的API
—只需要在上申请成为开发者,便可以下载相关的SDK和开发文档。
—主要优点
支持平台丰富,各个平台上都有相应的详细SDK文档
语音识别引擎较庞大,对中文的识别精度很高。
具端点检测功能,便于划分识别文本的句子。
—主要缺点
识别引擎位于服务器端,须远程访问,识别速度较慢。
对语言支持不如Google,目前仅支持中文听写。
需要使用1028端口,在某些地方会有使用限制。
当软件用户达到百万次后,需要开始收费。
—测试流程:
从麦克风输入语音并编码或直接调用音频文件,调用的音频文件主要是从或是新闻节目中提取其音频,前者主要体现识别语音口音的多样性,后者是体现识别语音口音的正规性,从麦克风输入体现对针对某个人特定的口音。主要测试音频文件格式为wav和flac(flac需要由相同采样率的wav转换而来)测试采样率有8KHz、16KHz、24KHz、32KHz、44.1KHz。
分析各个引擎的识别准确度和花费时间时,选取了5段时长为25S、平均长度为150个中文字符的音频作为其测试音频,记录识别正确的文字和花费时间,准确度以识别正确的文字/文本总字数,同时包含识别出的单独的字、词,花费时间对于非本地引擎需要考虑音频传送和结果返回的时间。
分析各个引擎中语速对识别准确度的影响,针对同一文本,测试不同语速(分为慢速、中速、快速)的音频,且时间均控制在25S,仅选取了24KHz和44.1KHz音频进行测试,因为由测试准确度的测试中,已经得出在24KHz和44.1KHz情况下,识别精确度较高。
分别用google、Microsoft和科大讯飞语音识别引擎对测试音频文件进行测试。其中使用google和科大讯飞引擎需通过访问其相关服务器,而Microsoft的语音识别引擎则是从本地进行访问。
对所得结果进行数据分析,列出数据表格,分析各自引擎的优缺点。
测试结果:
语速对识别时间的影响
& && && && && && && && &慢速& && && && && &&&中速& && && && && && & 快速
Google& && && && &&&8s& && && && && && & 8.94s& && && && && &10.125s
SAPI& && && && && & 6.06s& && && && && &6.63s& && && && && &&&5.375s
科大讯飞& && && & 34.6s& && && && && &35s& && && && && && && &23.6s
&&语速对识别精度的影响
& && && && && && && && &慢速& && && && && &&&中速& && && && && && & 快速
Google& && && &&&78.93%& && && &&&77.52%& && && && && &11.58%
SAPI& && && && && &28.7%& && && && & 42.79%& && && && && &6.81%
科大讯飞& && && &78.2%& && && && & 80.48%& && && && &&&15.53%
结果评价:
—1.Google
Google语音识别引擎可以识别wav格式音频,但是测试所用wav均为非原始wav故识别精度很低,若将其转换为flac后则识别精度增加。对于flac格式中文音频,快速语音准确率达到11.58%,中速语音准确率达到72.52%,平均花费时间8.94S。慢速语音准确率达到78.93%,平均花费时间为8S。对于英文音频,快速语音准确率达到40.22%,中速语音准确率达到89.2%,慢速语音准确率达到80.58%,平均花费时间各为9.2s,8.5s和9.9s。
不同的音频采样率对识别效果和花费时间有影响,识别效果主要体现在音频中间部分名词和音频末端1s的识别结果,于中文而言新闻类平均准确率为72.37%,电影类平均准确率为44.36%。于英文而言,电影类平均准确率为35.3%。平均花费时间采样率越大,识别时间越短,如24KHz和44.1KHz的同样内容音频,后者时间少1S左右。
对于google语音识别引擎,由于语速过快会导致识别不准确,会出现多个音识别为一个字的现象,故所用时间较短,但是准确度较差。而语速过慢时,虽然语音的特征更加明晰会使得准确率上升,但是字与字之间的联系不密切,会出现本该是一个词却识别为同音的两个字,导致准确率下降,故其平均准确率和中速识别率相当,另一方面是所需识别的字较少,故识别时间相对中速短。
对于视频流提取的音频和麦克风输入人声的识别,麦克风输入人声的平均准确度高于视频流中的的平均准确度,原因是视频流中的人声会带有各种口音一般带有背景噪音,而麦克风输入人声是单一的稳定的,背景噪音较小。准确度顺序大致为:新闻类&特定人&电影类,但不能忽略电影中也存在普通话标准发音。对于时间长度为20s以上的快速语音,测试期间无法识别,一直未能返回正确结果。不知原因。对于特定人输入的音频,音频头尾都可正确识别。若是输入视频流中音频,头尾1S的内容都不能很好的识别,容易出错。
Google语音识别引擎数据库丰富,可以识别大部分日常用语,还包括当下流行词汇,人名,地名等。对于新闻类词汇判别比较准,而特定专业类名词通常以同音字代替。
对于google识别的时间包括网络发送音频数据包时间,识别花费时间,返回结果时间。由于引擎位于服务器,需要通过网络访问,故网络质量在识别时间上占据极重要的位置,识别过程中经常会发生访问延迟、访问超时和请求无效等错误,故应该在网络良好的条件下使用google引擎,这也是非本地语音引擎库的缺点。同时音频文件超过1M时,也无法正确返回结果,估计是服务器的文件限制。
若考虑语音的精准度,则倾向于选择google语音识别引擎。
微软的SAPI语音识别引擎可以识别任意采样率的wav格式音频,当采样率比较低时如仅为8KHz,音频内容采样过程中会缺失,故识别不准确,理论上来说,采样率越高,识别精度越好。但是采样率超过一定值后,改进并不明显。经过测试得出以44.1KHz采样率识别精度较好,且花费时间较短。快速语音准确率为6.81%,中速语音准确率达到42.79%,平均花费时间6.63S。慢速语音准确率达到28.7%,平均花费时间为6.06S。识别效果主要体现在音频中间部分名词和音频末端1s的识别结果,新闻类平均准确率51.48%,电影类平均准确率为41.43%,特定人平均准确率为53.06%。
对于特定人输入的音频,音频头尾都可正确识别。若是输入视频流中音频,头尾1S的内容容易漏识别,且漏识别内容并非不显示,而是以其他文字代替诸如“他、淡”等字,影响了识别结果的理解。
微软语音识别引擎数据库位于本地,访问方便、快捷,无需考虑网络延迟、音频文件过大无法传送等问题。其缺点便是本地数据库的大小限制了其识别精度,需要通过长时间的训练才有可能达到比较高的精准度,而相比之下google引擎数据库可以收集网络上的所有资料,训练文本并不缺乏,容易达到很高的精准度。SAPI可以识别大部分日常用语和常用的新闻词汇,但是对当下流行词汇,人名,地名识别精度很低,对特定专业类名词通常也以同音字代替。
—3.科大讯飞
科大讯飞语音识别引擎仅可识别wav格式音频,为了达到理想的效果,有诸如条件限制,如音频须为采样率16KHz、每采样一点16bit、单声道,且音频长度小于90s。由于具有端点检测功能,每句话的长度不宜过长。快速语音准确率达到17.63%,平均花费时间29.2S。中速语音准确率达到80.48%,平均花费时间35S。慢速语音准确率达到78.2%,平均花费时间为34.6S。平均花费时间比另外两个引擎多了许多,主要原因是其端点检测功能,故一次能识别的语句长度有限制,需要分段识别,因此加长了识别的时间。
端点检测的好处是方便音频中句子的分段,易于对对识别结果的理解。
其引擎库也是位于服务器,需要通过网络访问,识别的时间包括网络发送音频数据包时间,识别花费时间,返回结果时间。网络质量在识别时间上也占据极重要的位置,且其需要开启80/1028端口后才能有效使用该引擎。待识别的音频需要质量清晰,一般对于网上流媒体而言,声音质量不高,识别较困难。
以上的SAPI和科大讯飞的测试DEMO都是用他们SDK里自带的。GOOGLE的C#代码可参照
另外介绍关于google语音识别的内容还可以参照本文中有转载其小部分内容。
由于测试样本数量并不算多,因此以上测试仅供参考。
馆藏&23477
TA的最新馆藏[转]&
喜欢该文的人也喜欢有几个字不认识,求解答 (敝鸟)这是一个字,但是真心不知道读音,就分成两个字了. “敝”在上,“鸟”
有几个字不认识,求解答 (敝鸟)这是一个字,但是真心不知道读音,就分成两个字了. “敝”在上,“鸟”[王雩] 左边是“王”字旁,右边是“雩”.【琈】[犭勺](这是一个字)[囱此] 这也是一个字,左边是偏旁.
鷩(𫜁):赤雉,即锦鸡.普通话音bì.粤语广州话音bit3(粤语拼音,香港语言学学会方案,下同),同音字:憋、鳖、彆(彆扭).㻬:㻬一种玉.普通话音tū.粤语广州话音tou1,同音字:滔、韬、饕.琈:1.一种玉.普通话音fú.粤语广州话音fau4,同音字:浮、蜉、涪.2.同「璷」,一种玉.普通话音fū.粤语广州话音fu1,同音字:夫、敷、呼.犳:1.古书中记载的一种兽,像豹,没有花纹.普通话音zhuó.粤语广州话音zoek3,同音字:雀、著(穿著).最後一个字找不到,有可能是「𣬉」字吗?(𣬉:1.小笼.2.同「毘(毗)」.普通话音pí.粤语广州话音pei4,同音字:皮、疲、琵.)附上述各字在古代韵书(宋《广韵》)中记载的读音(反切),以利确定现今各字在各汉语方言的读音:鷩(𫜁):并列切、必袂切㻬:他胡切琈:缚谋切犳:之若切(毗:房脂切)反切法简述:反切法是古代韵书常用的为汉字注音的方法.反切法注音,即取前一字的声母及声调的阴阳,取后一字的韵母及声调的类型(平、上、去、入),两字相拼即是被切字的读音.
与《有几个字不认识,求解答 (敝鸟)这是一个字,但是真心不知道读音,就分成两个字了. “敝”在上,“鸟”》相关的作业问题
[qí] 青黑色:巾.;极,很:难.切.言之~详.;姓.
岑cén【释义】①小而高的山.②姓.岑(形声.从山,今声.本义:小而高的山)同本义岑,山小而高也.――《说文》可使高于岑楼.――《孟子》.注:“岑楼,山之锐岭者.”按,谓山之层叠似楼也.”未始离于岑.――《庄子·徐无鬼》.注:“岸也.”饮青岑之王醴兮.――张衡《思玄赋》托九成之孤岑兮.――马融《长笛赋》又如:岑嶅(多小
如:他们都要求比赛呢用在陈述句末,表示动作或情况正在继续〖usedattheendofadeclarativesentence,indicatingthenotionthatanactionorsituationisinprogress〗.如:他学习呢用在句中表示停顿〖usedtoindicateapause〗.如:现
坚持人们都想在事业或学业上有所成就,但是,只有一部分人取得了胜利,而相当一部 分人却陷入失败的若痛之中.这是为什么呢?俗语说“功到自然成”.按理说那些失败者完全可以尝到胜利的喜悦,但他们往往缺少一种 胜利的必要条件,那就是坚持.这就是他们失败的原因.上边的俗语中所提到的“功到”其 中已经隐含了“坚持”的意思.可见,一个
“江”字的三滴水,同其他三点水篆书写法一样,即中间一个大弯竖,它的两边四个小弯竖.右边的工字中间的竖也写出一个弯来即可.
岑cén(1)(形声.从山,今声.本义:小而高的山)(2)同本义 [small but high hill]岑,山小而高也.――《说文》可使高于岑楼.――《孟子》.注:“岑楼,山之锐岭者.”按,谓山之层叠似楼也.”未始离于岑.――《庄子·徐无鬼》.注:“岸也.”饮青岑之王醴兮.――张衡《思玄赋》托九成之孤岑兮.――马融
经过一学期的学习 我又学习了很多新知识 但还有些地方掌握的不够熟练 说明平时的练习还有所欠缺 下学期会着重加强 ;同时还参加了一些集体活动 丰富了课余生活 ;工作也相对认真 同学们较满意 下学期会更加努力
这个情况建议你自己弄吧,你可以参考下别人的写法.
说一不二.吆五喝六
不知道啊!你问她呗!
清琴,从左到右
字形方正又带点飘逸:柳体不错,比较劲节,我练的就是柳体 可去书店买字帖
感谢生活中的磨难 “天将降大任于斯人也,必先苦其心志,劳其筋骨,饿其体肤,空乏其身,行拂乱其所为,所以动心忍性,曾益其所不能.”这是孟子说过的话. 自古圣贤多磨难.很多时候,往往没有经历磨难,难成大器.表面上看,磨难的日子是苦涩的,可怕的.它可以使一些人意志低迷消沉,无法奋起.但磨难可以说又实在是我们生活中最真诚的朋友
彳,拼音:chì .亍,拼音:chù .【彳亍】慢慢走,走走停停的样子.
守株待兔 欣喜若狂
仁心十分治千病,妙手除灾,换来人间春意暖;和味百草健万家,灵丹济世,化作天下甘雨甜. 请采纳!
曾听说过台湾漫画家蔡志忠说:如果拿橘子s来比6喻人c生,一n种橘子b大b而酸,一c种橘子b小j而甜,一e些人w拿到大s的就会抱怨酸,拿到甜的又r会抱怨小w,而我拿到了z小e橘子y会庆幸它是甜的,拿到酸橘子q会感谢它是大h的”.我很赞成这位漫画家的态度,我也j始终相信积极的人o生态度最终会帮助人e取得成功的.爱柯夫g,一

我要回帖

更多关于 两个字组成一个字 的文章

 

随机推荐