语音识别领域的计算机领域最新进展展目前是什么样的水准

深度学习登台语音识别,AI赶超人类 | 总编专栏--相关文章
“” 的更多相关文章
日,由微软首席语音科学家黄学东博士带领的语音团队在权威的产业标准 Switchboard 语音识别基准测试中,实现了对话语音识别词错率5.9%,首次达到与专业速记员持平。2014年Echo推出后,两年多时间内应用场景爆炸性增长,从同步语音数据、播放音乐发展到几十种家电的智能家居设备控制,再发展到语音购物、语音支付、语音叫外卖、语音打车等多场景应用,亚马逊的Alexa人机语音交互玩得出神入化。
它们均通过一种名为深度学习的人工智能(AI)技术来实现,不过不少科学家还是喜欢以其最初的学术名称来称呼它:深度神经网络。不出意外,目前被商业部署的深度学习应用程序大多数都牵涉到像谷歌、微软、Facebook、百度和亚马逊这样的拥有深度学习计算所需的海量数据的大公司。谷歌在2011年推出了专注于深度学习的谷歌大脑项目,2012年年中将神经网络引入旗下的语音识别产品,并在2013年3月留住了神经网络先驱乔弗里·辛顿。
百度的人工智能要先让机器听懂自然语言|界面·科技。“我想百度AI实验室认为改变机器和人交流的方式,让机器能够理解和识别自然人类的自然语言,是目前最重要的事情。”Adam说,他们团队这几年致力于把深度学习运用在人力自然语言识别和理解上,而这也是基于中国市场的需求和痛点而言的。语音识别是通向诸多人工智能场景的一块基石,比如自动驾驶、AI医疗等等都需要机器能够先听得懂人类的自然语言。
人工智能顶级玩家。这几家公司都是国外人工智能领域的顶级玩家,当然国内也不乏百度、阿里巴巴等佼佼者。20多年前,在微软研究院成立初期就有部分工作集中在包括语音识别、自然语言和计算机视觉等在内的人工智能研究上,有力推进了人工智能以及包括机器学习等在内的相关领域的发展。2016年12月,在新零售业务Amazon Go中,亚马逊充分展示了机器视觉、深度学习算法和传感器三大技术整合的人工智能系统的能力。
传统的语音识别系统,是由声学模型、词典、语言模型构成的,而其中的语音模型和语言模型是分别训练的,而不同的语言也有不同的语言模型,比如英语和中文。Deep Speech 2最早是用英语训练的,最早只能够识别英语,但由于Deep Speech 2是端到端的训练模式,Adam在硅谷密探的采访中表示,在这个系统建立之后,只需要用中文训练数据替代英文训练数据,在经过训练之后就有了强大的中文识别引擎,就能够很好的识别中文。
吴恩达 NIPS 2016:利用深度学习开发人工智能应用的基本要点(含唯一的中文版PPT)今日,在第 30 届神经信息处理系统大会(NIPS 2016)中,百度首席科学家吴恩达教授发表演讲:《利用深度学习开发人工智能应用的基本要点(Nuts and Bolts of Building Applications using Deep Learning)》。二、主要的深度学习模型。人类水平的误差与训练集的误差之间的差距是可避免的偏差,这部分误差可以通过进一步的学习/模型调整优化来避免。
语音识别的前世今生:深度学习彻底改变对话式人工智能。人们对语音识别的活跃研究已经进行了几十年,而事实上,即使是在二十世纪50年代和60年代,人们也一直在试图构建语音识别系统。语音识别系统的评估标准主要基于其误字率(WER),误字率是指语音识别系统识别错误的单词有多少。近来在语音识别领域有这么多的突破,那么我们自然要问,语音识别接下来的突破口在哪?深度学习在语音识别和对话式AI领域刻下了深深的印记。
微软是人工智能领域的另一巨头。原因是人工智能计算有它的独特性,人工智能是迭代式反复读取数据和刷新模型的方式,与传统计算模式有很大的不同,这是人工智能发展遇到的又一瓶颈。谷歌、微软、Facebook等大公司以及卡耐基·梅隆大学、NYU等高校纷纷开源核心的机器学习算法,谷歌的TensorFlow、微软的DMTK、Facebook的Torch、卡耐基·梅隆大学的Petuum、加州伯克利分校的Caffe等,都提供了成熟的人工智能和深度学习算法模块。
【演讲】微软AI首席科学家邓力:图文并茂回顾十年AI路。文章讲了深度神经网络对语音识别产生的影响,以及怎么把不同的机器学习方法包括深度神经网络的方法整合起来,使得大规模的语音识别得到进展。这也是为什么深度学习在语音识别上是第一个成功的例子。前两天烟台的“中国计算语言学大会”有许多演讲,每个题目都跟深度学习相关——深度学习跟机器翻译、深度学习跟问答、深度学习跟语法分析、深度学习跟情感分析,等等。
语音识别领域的最新进展目前是什么样的水准?黄学东博士,微软人工智能及微软研究事业部技术院士,目前领导微软在美国、中国、德国、以色列的全球团队,负责研发微软企业人工智能、微软认知服务等最新人工智能产品和技术。所以神经网络对计算机语音识别的贡献不可低估。另外,微软的研究使得语音识别在Switchboard达到了很高的水平,但是跨领域的语音识别performance还是一个问题,所以微软提供了一个可以量身定制的语音识别系统。
语音识别距人类只差0.4% 机器即将比肩人类?语音识别的研究源头可追溯至1950年,计算机科学之父阿兰·图灵在《思想》(Mind)杂志上发表了题为“计算的机器和智能”的论文,首次提出了机器智能的概念,论文还提出了一种验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了,这就是后来鼎鼎有名的人工智能图灵测试。
【专访】黄学东:CNTK是我们的秘密武器。这里转载微软首席语音科学家黄学东在9月底接受《机器之心》采访的节选,听他分析人与机器的最大区别在于人的鲁棒性非常好,以及CNTK如何帮助微软团队持续完善语音识别技术,他同时认为人工智能研发从整体而言目前仍然处于从感知到认知的过渡阶段,前面还有很长一段路要走,不知这一判断算不算悲观?……现在人工智能最优秀的进步是在感知阶段,包括语音识别,视觉图像识别等等。
扎克伯格下面的路 如果扎克伯格不放弃这事,而是持续对此进行改善,那下面会发生什么?根据上图,显然的在扎克伯格这里Jarvish被理解成了一个命令控制型的系统,但感知这环节被忽略了,尽管扎克伯格自己在文章里也提到感知上下文是非常关键的一个环节(Understanding context is important for any AI.) 这种理解在互联网企业那里很可能非常有代表性,但问题就在于感知恰恰是打造一个初级的Jarvis这样的系统时最难的环节。
了解人工智能,看这篇报告就够了.收藏(60页人工智能报告全文)今天汽车互联网为大家带来亿欧智库的《人工智能产业综述报告》。2 冷静审视人工智能技术的本质。基础支撑层的算法创新发生在上世纪80年代末,是大数据和计算力将人工智能推到镁光灯之下,而建立在这之上的基础技术便是计算机视觉、语音识别和自然语言理解,机器试图看懂、听懂人类的世界、用人类的语言和人类进行交流,研究人类智能活动的规律。
百度AI平台将逐步开放,助力构建百度AI生态圈。1、AI机构:人工智能实验室(AI Lab,负责基础性研究工作)、各个事业部都有AI团队(负责AI应用研究)2、应用方向:游戏AI、社交AI、内容AI、工具型AI3、智能产品:小冰、小微、云搜和文智、优图人脸识别、QQ物联、微信硬件平台、叮当智能语音助手、绝艺(类似AlphaGo)、深度学习平台DI-X4、资本布局:投资Diffbot、iCarbonX(碳云智能)、CloudMedX、Skymind、Scaled Inference;
2017年中国人工智能。目前的人工智能属于专用人工智能,如计算机视觉、超级人工智能。根据应用范围的不同,人工智能可以分为专用人工智能、通用人。iiMediaResearch(艾媒咨询)数据显示,中国人工智能产业规。内外人工智能研究和应用场景不断进步的基础上,中国人工智能。人工智能产业是指以人工智能关键技术为核心的,由基础支撑和。为人工智能产业提供数据的收。发,人工智能是百度战略和战术上的核心,基于庞大的基础数据。
深度学习真的会带来人工智能吗?深度学习又叫深度神经网络,是人工神经网络(ANN)算法的一种改进。和李志飞同一天加入谷歌的雷欣,此时在“深度学习之父”Geoffery Hinton一个学生的帮助下,搭建一个用于语音识别的深度学习系统。“Geoffery Hinton他们06年开始就在用深度学习做图形和语音识别,一直到了12年,七年时间才实现了突破”,说到这里,余凯从沙发上站起来:“我相信用深度学习做自然语言处理,也会有这一天的。”
微软芮勇人工智能时代,我们能做什么?微软在人工智能、语音识别、计算机视觉上投入巨大,并已经在相关领域取得了很多优秀的研究成果,我们也非常想把一些核心技术放在这样一个智能平台上,使得第三方的开发者更容易站在巨人的肩膀上,而不再是从零开始,他们可以更专注于他们想开发的应用,而人工智能的核心技术就直接从我们的平台上使用就可以了。当人工智能助理有了广度、深度和温度,我们理想的人工智能便离我们不远了。
从Mate10到EI,华为狂奔在人工智能新赛道。通用服务:在基础平台服务之上,华为云EI提供了视觉、语音、自然语言等领域API服务,这让华为EI能够应用于多个应用场景。在机器翻译方面,华为EI的机器翻译系统在华为内部就有着丰富的应用场景,能够助力华为数万海外员工减少跨语言交流的困难。能够预见的是,作为华为云的拳头产品,EI也将获得华为更大的支持和投入,进而助推华为在人工智能的“新赛道”上越跑越快。
它满足了人类对于“语音识别”技术的终极幻想。包括Siri和微软TTS在内,语音识别被发展到了眼下的第二个阶段:它们可以通过一定的规则和算法,将那些事先没有包含在数据统计模型中的“话”也解释出来,并且足够简单。即使语音识别技术已经能够适于应用,真正的人机交互还有待于语音识别的更深层—语义识别技术的发展。当机器听到语音,进行识别之后,会从“语义数据库”中搜索出与其相匹配的关键词,与人的语义理解还有很大区别。
美国《连线》杂志网络版今天撰文称,虽然神经网络技术早在上世纪80年代就已经成为热门领域,但后来却逐渐沉寂。神经网络算法极大地改变了科技运行模式以及我们使用科技的模式,而语音指令只是其中的一个例子。Android首先拍摄下语音指令的图像,之后由谷歌使用其神经网络模型分析用户所说的内容。迪恩表示,谷歌现在正在多款产品中使用神经网络算法——有些只是尝试,有些不是——但进展都不及果冻豆的语音识别软件。
在2009年左右,DNN被用于语音识别领域,语音识别率得到大幅提升,识别率突破90%,达到商用标准,这极大的推动了语音识别领域的发展,这几年内又先后成立许多语音识别相关的创业公司。微软在office和vista中都应用了自己开发的语音识别引擎,微软语音识别引擎的使用是完全免费的,所以产生了许多基于微软语音识别引擎开发的语音识别应用软件,例如《语音游戏大师》《语音控制专家》《芝麻开门》《警卫语音识别系统》等等软件。
【吴恩达】Spark Summit 2016 演讲:AI 超能力(PPT 视频)2012年错误率17%,2013年错误率13%,2014年错误率8.5%,2015年错误率5.5%,2016年错误率3.5%。正如电力一样,AI也会对社会产生颠覆性的影响。演讲的最后,吴恩达说:“未来,AI 将会为公司、消费者以及工程师创造巨大的价值。如果你了解AI、分布式计算和HPC,你将会改变整个行业,也会让人看到这种超能力。我希望我们都能有这种超能力。我会为人类尽自己最大的努力。”
亚马逊首席科学家:Alexa背后的深度学习技术是如何炼成的?作为2017开年最火的人工智能之星Alexa项目的领导者,亚马逊首席科学家Nikko Strom带来了演讲,详细阐述了Alexa里的大规模深度的基本架构、语音识别、语音合成等内容,尤其提到了Alexa为“鸡尾酒派对难题”找到了有效的解决方法。2011年加入亚马逊,并担任首席科学家,领导语音识别及相关领域的深度学习项目,是如今炙手可热的亚马逊Echo和Alexa项目的创始成员。
山世光:今天的三位大咖里,俞凯老师做语音识别,颜水成老师主攻视觉方向,而李航老师则在自然语言的理解处理领域非常资深,而且在更加广泛的人工智能上问题上也有研究,包含了声、图、文三个领域。李航:这是个挺好的例子,其实刚才我们提到的语音,俞凯老师做的东西跟语言相关,只不过是从语音对话的角度去看这个东西,其实语音和语言比较容易自然的结合在一起,现在已经变成一个相对比较大的领域。
微软邓力:驱动大数据人工智能多种应用的三类深度学习模式(附PPT下载)在26日的主题报告环节,微软人工智能首席科学家、IEEE Fellow邓力博士做了《驱动大数据人工智能多种应用的三类深度学习模式》的主题演讲,他首先介绍了深度学习的基本定义,以及深度学习的三种模式。然后,邓力介绍了深度学习在语音识别方面的进展,他表示,目前苹果、谷歌、亚马逊都在用深度学习研究语音识别,并取得了较好的效果。
语音识别新突破:微软AI小胜人类专家。微软研究院的一篇新论文宣称他们的语音转录技术已经能小胜人类对话转录专家,即使人类专家的文本已经接受了另外一个人的复核。研究团队并没有将此成就归功于算法或者数据上的突破,而是对现有的AI架构进行调整。在学习完2000小时的人类讲话后,微软的系统也听写了同样的音频,错误率为5.9%和11.1%。微软要想取得其他方面的突破,这是基础。
【重磅】雷鸣对话吴恩达(Andrew Ng):超级大咖深度解析人工智能的发展现状与未来。1)深度学习的技术现状和未来发展2)语音识别、计算机视觉和自然语言等领域的现状、挑战和未来发展预期3)自动驾驶、机器人等AI技术产业化的未来预期和相关探索。深度学习的技术现状和未来发展【雷鸣】首先我们探讨第一个问题:深度学习的技术现状和未来发展,是否会成为通用基础技术?【徐伟】深度学习是为人工智能的一个重要部分。语音识别领域的最新进展目前是什么样的水准?_突袭网
当前位置&:&&&&语音识别领域的最新进展目前是什么样的水准?
热门标签:&
语音识别领域的最新进展目前是什么样的水准?
来源: 由用户
编辑:张俊
谢邀。关于这个问题,我们想采用微软首席语音科学家黄学东博士在清华大学的讲座――微软是如何利用人工智能技术做好语音识别的,回答这个问题。讲座中,黄学东博士为大家回顾了语音识别领域的发展历程,并分享了微软在这一领域取得的一些最新突破。黄学东博士,微软人工智能及微软研究事业部技术院士,目前领导微软在美国、中国、德国、以色列的全球团队,负责研发微软企业人工智能、微软认知服务等最新人工智能产品和技术。作为微软首席语音科学家,黄学东博士领导的语音和对话研究团队在 2016 年取得了语音识别历史性的里程碑。1993年加盟微软之前,黄学东博士在卡内基?梅隆大学计算机学院工作。曾荣获1992年艾伦纽厄尔研究卓越领导奖、1993年IEEE 最佳论文奖、2011年全美亚裔年度工程师奖。2016年Wired 杂志评选他为全球创造未来商业的25位天才之一。他在爱丁堡大学、清华大学、湖南大学分别获得博士、硕士、学士学位。他还已获IEEE和ACM院士等殊荣。 ――――这里是正式回答的分割线――――今天我想给大家分享一下微软在人工智能领域取得的一些最新突破,也分享一下我们在20多年的历程中,是怎样持之以恒取得这些突破的。先看看今年《经济学人杂志》的封面故事――我们终于可以和机器讲话了。里面有一个很有名的图表总结了整个领域从1954年IBM科学家第一次进行机器翻译的探索,到2016年微软第一次在会话语音识别上达到人类水平的历史性突破。在几十年的历程中,有非常多优秀的公司在语音和语言领域进行了不懈地探索,终于在今天,达到了和人一样精准的语音识别,这是非常了不起的历史性突破。1982年我在清华做硕士论文时,做的就是语音识别。硕士毕业读博士时,我在计算机系方棣棠先生的带领下,继续做这方面的研究。很难想象在我的有生之年,我们能让计算机语音识别可以达到如此精准的水平。所以想跟大家分享一下,我们是怎样追求这个梦想,持之以恒,通过不懈的努力达到历史性突破的。近两年人工智能受到热议,其实人工智能包括了两个主要的类别以及三个主要的因素:第一,平台。比如我要到清华演讲,一定会有个场地,有一个舞台,而这个舞台就相当于计算。今天的计算通过英特尔、英伟达等公司的不懈努力和1982年我们在苹果、IBM PC/XT上面做的语音识别是有天壤之别的。当时我们在IBM PC/XT上用了德州仪器公司的TMS320,我还用汇编语言在上面写了第一个开发程序。如今,要做先进的语音识别训练也需要GPU,这和当年的TMS320有异曲同工之妙。这是第一,要有一个平台。第二,数据。我在这里讲话要有氧气。人工智能和语音识别也是一样的,要有大数据才能把算法做得精准。第三,算法。算法很重要,要有内容。这三点,缺一不可。再来人工智能包括感知和认知这两大块。可以毫无疑问地说,在感知这个领域,人工智能已经几乎达到人类同样的水平,但这当然是在特定任务的情况下。在认知领域,包括自然语音理解、推理、知识学习等,我觉得还差的很远。所以大家在说人工智能达到了前所未有的高度时,一定要搞清楚,说的是在认知领域还是在感知领域。2015年,微软亚洲研究院率先在计算机视觉领域有了很大的突破。研究员们在当年的ImageNet图像识别挑战赛中使用了神经网络有152层的深度学习,这是非常了不起的突破。而去年微软在语音识别的Switchboard上再次取得重大突破,使得计算机的语音识别能力超过世界上绝大多数人,与人类专业高手持平。语言是人类特有的交流工具。今天,计算机可以在假定有足够计算资源的情况下,非常准确地识别你和我讲的每一个字,这是一个非常大的历史性突破,也是人工智能在感知上的一个重大里程碑。所以,我想简单回顾一下语音识别的发展历程。几年前我和James Baker,Raj Reddy合写了一篇文章。Raj Reddy是图灵奖得主,James Baker是第一个用马尔可夫模型做语音识别的人,当年创建了Dragon公司并一直担任CEO,我最年轻。所以文章可以说表达了我们三代人在语音领域过去40年里的一些追求。虽然文章发表在两年前,但现在看里面讲的很多东西已经过时了,因此可以看出这个领域的进展有多么神速。再看看Switchboard,这是整个工业界常用的一个测试数据集。很多新的领域或新的方法错误率基本都在20%左右徘徊。大规模标杆性的进展是IBM Watson,他们的错误率在5%到6%之间,而人的水平基本上也在5%到6%之间。过去20年,在这个标杆的数据集上,有很多公司都在不懈努力,如今的成果其实并不是一家公司所做的工作,而是整个业界一起努力的结果。各种各样的神经网络学习方法其实都大同小异,基本上是通过梯度下降法(Gradient Descent)找到最佳的参数,通过深度学习表达出最优的模型,以及大量的GPU、足够的计算资源来调整参数。所以神经网络对计算机语音识别的贡献不可低估。早在90年代初期就有很多语音识别的研究是利用神经网络在做,但效果并不好。因为,第一,数据资源不够多;第二,训练层数少。而由于没有计算资源、数据有限,所以神经网络一直被隐马尔可夫模型(Hidden Markov Model)压制着,无法翻身。深度学习翻身的最主要原因就是层数的增加,并且和隐马尔可夫模型结合。在这方面微软研究院也走在业界的前端。深度学习还有一个特别好的方法,就是特别适合把不同的特征整合起来,就是特征融合(Feature Fusion)。如果在噪音很高的情况下可以把特征参数增强,再加上与环境噪音有关的东西,通过深度学习就可以学出很好的结果。如果是远长的语音识别,有很多不同的回音,那也没关系,把回音作为特征可以增强特征。如果要训练一个模型来识别所有人的语音,那也没有关系,可以加上与说话人有关的特征。所以神经网络厉害的地方在于,不需要懂具体是怎么回事,只要有足够的计算资源、数据,都能学出来。我们的神经网络系统目前有好几种不同的类型,最常见的是借用计算机视觉CNN(Convolution Neural Net,卷积神经网络)可以把不同变化位置的东西变得更加鲁棒。你可以把计算机视觉整套方法用到语音上,把语音看成图像,频谱从时间和频率走,通过CNN你可以做得非常优秀。另外一个是RNN(Recurrent Neural Networks,递归神经网络), 它可以为时间变化特征建模,也就是说你可以将隐藏层反馈回来做为输入送回去。这两种神经网络的模型结合起来,造就了微软历史性的突破。微软语音识别的总结基本上可以用下图来表示。这是2017年ICASSP刚刚发表的一篇文章。我先给大家简单介绍一下。第一,Switchboard和人类比较的时候,很多人做过不同的实验。1997年Lippman就做了大量的实验,人的错误率大约在4%左右,当时的语音识别系统错误率在80%左右,从80%到4%这是遥不可及的,那时是90年代中期。当然,测试数据也在不断变化,后来微软把测试数据送给人工标注专家进行测试,但并不告诉他们这是要测的,而是把这些数据当成是普通数据标注的一部分。我们得到的人工标注专家的错误率是5.9%。后来IBM又请澳大利亚最优秀的专家反复听,用4个团队标注,它的错误率在5.1%左右。我相信如果让我们这些普通大众来标注,错误率都将超过6%。上图是业界在过去几十年里面错误率下降的指标,可以看到5.8%是微软在去年达到的水平。Switchboard的错误率从80%左右一直到5.8%左右,是用了什么方法呢?我们是怎么达到这个目标呢?大家知道语音识别有两个主要的部分,一个是语音模型,一个是语言模型。语音模型我们基本上用了6个不同的神经网络,并行的同时识别。很有效的一个方法是微软亚洲研究院在计算机视觉方面发明的ResNet(残差网络),它是CNN的一个变种。当然,我们也用了RNN。可以看出,这6个不同的神经网络在并行工作,随后我们再把它们有机地结合起来。在此基础之上再用4个神经网络做语言模型,然后重新整合。所以基本上是10个神经网络在同时工作,这就造就了我们历史性的突破。 另外,微软的研究使得语音识别在Switchboard达到了很高的水平,但是跨领域的语音识别performance还是一个问题,所以微软提供了一个可以量身定制的语音识别系统。微软的自定义语音服务(Custom Speech Service)在每个人的应用场景里都可以完全量身定制语音识别系统。这是微软把人工智能普及化的最好案例之一。――――这里是回答结束的分割线――――以上回答摘选自黄学东博士的演讲,了解完整演讲内容,请移步:讲堂|黄学东:微软是如何利用人工智能技术做好语音识别的感谢大家的阅读。本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在为人工智能的相关研究提供范例,从专业的角度促进公众对人工智能的理解,并为研究人员提供讨论和参与的开放平台,从而共建计算机领域的未来。微软亚洲研究院的每一位专家都是我们的智囊团,你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”,让我们在分享中共同进步。也欢迎大家关注我们的微博和微信账号,了解更多我们研究。http://weixin.qq.com/r/PUliejrEzWeyrX4Z9xwv (二维码自动识别)
更多精彩 >>>1,550被浏览100,873分享邀请回答10830 条评论分享收藏感谢收起主题信息(必填)
主题描述(最多限制在50个字符)
申请人信息(必填)
申请信息已提交审核,请注意查收邮件,我们会尽快给您反馈。
如有疑问,请联系
CSDN &《程序员》研发主编,投稿&纠错等事宜请致邮
你只管努力,剩下的交给时光!
如今的编程是一场程序员和上帝的竞赛,程序员要开发出更大更好、傻瓜都会用到软件。而上帝在努力创造出更大更傻的傻瓜。目前为止,上帝是赢的。个人网站:www.xttblog.com。个人QQ群:、
个人大数据技术博客:http://www.iteblog.com1,550被浏览100,873分享邀请回答8111 条评论分享收藏感谢收起

我要回帖

更多关于 计算机领域的最新进展 的文章

 

随机推荐