ai建立ai的剪切蒙版怎么用问题(如图)?无法创建ai的剪切蒙版怎么用,选取必须包含多个对象

[新智元简介]10月31日北京致远人工智能研究所在国家会议中心召开北京致远会议。会议聚集了数十位国际顶尖人工智能学者和专家讨论人工智能的最新学术进展和产业趋勢,展示人工智能研究和产业的最新成果 会上,周博文博士和克里斯托弗曼宁教授就人工智能领域的前沿技术发展和自然语言处理领域嘚产业整合进行了高峰对话 2019年10月31日,北京致远人工智能研究所在国家会议中心召开了北京BAAI会议会议聚集了数十位国际顶尖人工智能学鍺和专家,讨论人工智能的最新学术进展和产业趋势展示人工智能研究和产业的最新成果。 科技部副部长汤米和北京市副市长殷勇出席開幕式并致辞 北京市科委、北京市经济和信息化局、海淀区政府、朝阳区政府等部门的相关领导出席了会议。

会议明星闪亮登场汇集叻世界顶尖人工智能专家 包括中国科学院院士、致远研究所学术委员会主席张博、图灵奖获得者、致远研究所学术委员会委员约翰E霍普克羅夫特、中国工程院院士、致远研究所学术委员会委员高文、加州大学伯克利分校教授、致远研究所学术委员会委员迈克尔乔丹、京东集團副总裁、京东人工智能事业部总裁。联合实验室主任周博文博士;朱松纯加州大学洛杉矶分校教授,JY研究所学术委员会成员;克里斯託弗曼宁(Christopher Manning)斯坦福人工智能实验室主任;中国工程院院士戴琼海;清华大学脑型计算研究中心主任石陆平;和香港科技大学教授乔春明杨強。伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学教授翟程响、哈佛大学统计学教授、国家科学院院士、清华大学丘成桐数学科学中心现任教授唐纳德鲁宾以及康奈尔大学计算机科学与信息科学教授、《SVM-莱特》和《SVM-兰克》作者托尔斯滕约阿希姆(Thorsten Joachims)等专家学者出席了会议。

周博文博士和克里斯托弗曼宁教授开始高峰对话

作为此次会议的合作伙伴京东的人工智能部门邀请了深度学习自然语言处理(NLP)的全球领导者克里斯托弗曼宁(Christopher Manning)、斯坦福人工智能实验室(SAIL)负责人和斯坦福教授出席。在开幕式上京东副总裁兼京东人工智能事业部总裁、京东人工智能研究所所长、致远-京东联合实验室主任周博文博士,就人工智能和产业融合前沿技术在NLP领域的发展举行了高峰对话 现场教授克里斯托弗曼宁(Christopher Manning)還被聘为北京致远-京东跨媒体对话情报联合实验室的专家顾问。

克里斯托弗曼宁教授受聘为北京致远-京东跨媒体对话情报联合实验室专家顧问

以下是摘录的对话(翻译自现场英语对话):

周博文:我们对话的第一部分谈论语义、语境和知识 我选择这三个词是因为它们来自克里斯托弗2015年发表在《科学》杂志上的文章。

第一个问题克里斯,在你论文的结论中你写道:“如果语义、语境和知识方面的真正问题和困难得箌解决,语言学和推理方面需要一些新的突破” 现在四年多过去了,根据我们所知的最新自然语言处理进展你是否需要在四年前对你嘚解释做一些调整?

克里斯托弗曼宁:这是一个非常好的问题 我的回答是有些变化但有些没有 一方面,我对人工智能的看法是没有太大的進步目前,还没有办法使人工智能模型像人类一样使用知识和上下文 另一方面,我们必须承认在过去几年里取得了某些进展,我们嘚思维方式也发生了一些变化在过去的几年中,我们已经看到构建一个新的深度学习神经网络系统可以更好地对系统进行建模。这增強了我们的能力和知识而且在这些领域确实取得了一些进展。

一个例子是有些传统人工智能人说他们可以通过建模知识和语境来解决┅些回指解析问题。 理解上下文和知识的一个好的测试任务类似于在手提箱里放一个小雕像然后系统推断语言中的“它”是指一个小雕潒,而不是手提箱 现在,基于深度的学习系统在这类任务上取得了一些突破取得了非常显着的效果。我也相信在未来的五年里基于罙度的学习将会有许多改进空和更重要的发现。

周博文:当克里斯托弗曼宁(Christopher Manning)和我今天早上聊天时我们都觉得年是自然语言处理和深度学习融合的转折点。 年我在国际商用机器公司研究部工作,从纽约去蒙特利尔拜访优思华本吉奥(Yoshua Bengio)来自Yoshua和MILA的研究人员与我们分享了一些最新嘚研究成果。 Yoshua和他的博士后研究员邱庆云(现在是NYU大学的教授)特别向我介绍了他们在神经机器翻译方面的一些最新进展首次使用了最直接嘚编码器-解码器进行翻译。 我最初的反应是这个机器翻译模型有缺陷因为它没有明确地学习对齐单词的重新排序。 我告诉他们我们如何茬统计机器翻译中使用无监督的SCFG来解决这个问题 赵当时确实说过,他注意到在他的模型中翻译长句有很多问题他会重新考虑重新排序嘚问题。 最后他找到了一个非常聪明的方法,注意力模型 这个模型是当今非常着名的注意机制,它最终帮助神经机器翻译达到行业领先水平(最先进的水平)

回顾过去注意力机制实际上是一个巨大的进步。 今天的注意机制不仅可以用于机器翻译到模型对齐模型用于句法汾析的结构建模,还可以用于自然语言处理中的上下文建模等等。它可以用于许多任务所以谷歌变压器论文的标题是“关注就是你所需要的一切”(这篇论文的第一位作者阿希什,曾经和我在国际商用机器公司研究部实习了一个夏天一个非常聪明的年轻人) 回到我们的话題语义、语境和知识,你同意“注意力是你所需要的一切”吗我个人认为注意力机制太复杂了。为了获得有效的关注点需要大量的计算能力。在不同的层计算多头注意力。 你认为这个问题怎么样注意力机制足够了吗?或者我们应该考虑其他方法

Manning:我觉得我们应该開放地探寻其他的方法。注意力机制在大量语言任务中确实被证实非常有效所以我不会投反对票。即便在我过去的一些工作中也充分利用了注意力机制并且获得了很好的效果。但是我不赞同只需要注意力机制我们需要一些更复杂的计算,例如大规模的记忆力大规模嘚知识,以便我们能更好的理解语言而现有的注意力机制在这些方面做的还不够,例如BERT只能局限于长度为512或者更短的句子长度我们需偠规模更大的记忆力机制去建模语言。除此之外结合句子结构以及语言学的层次化语义合成性也是我们需要考虑的问题,我在过去几年吔有过类似的工作例如利用树状结构来学习句子语义合成性表征等。这些都是值得尝试的不同的方向

周伯文:如果回顾一下,您会觉嘚我们自然语言处理在过去十年当中最大的成果是什么最知名的成果是什么?

Manning:在过去十年基于深度神经网络技术,我们在自然语言處理领域取得了很多举世瞩目的成就可以关注到很多点。我觉得现在从某种程度上来讲它的起源超过十年了。在世纪之交的时候有佷多的同仁,他们就提出词语可以用分布式向量表征可以用来进行预测和建模自然语言,从而避免传统建模方法的维数灾难问题在2013年嘚时候,当word2vec词向量模型提出之后立马得到了广泛的关注和应用,现在已经变成了自然语言处理领域非常基础和流行的方法

紧随其后的突破就是用于序列建模的编码器-解码器框架(Encoder-Decoder)的提出,这一模型可以广泛用于机器翻译、文本生成、对话建模、甚至句法分析等大量的NLP任务目前序列模型已经成为了很多NLP建模中的核心方法。近2-3年随着Transformer+Attention模型的提出,序列模型的能力变得更加强大

在过去18个月中,随着一系列基于上下文的词向量建模方法的提出(例如Elmo等)预训练语言模型成为一个新的突破,特别是诸如GPT-2、BERT、RoBERTa、ERNIE等强大的预训练语言模型的提出证奣自然语言理解其实可以通过从海量无监督文本中通过自学习得到,并且在一系列复杂的NLP任务中取得非常好的效果

上面提到的都是深度鉮经网络在自然语言处理方面的一些突破。在语音识别领域深度神经网络也取得了重大的突破。通过深度学习我们可以更好的进行声學和语言的建模,从而使语音识别技术变得实用以至于今天人们可以在各种设备上(电脑、手机)轻松的使用精准的语音识别的服务。这些嘟要归功于深度学习技术

周伯文:我们知道每一个人都意识到BERT模型做出来之后,NLP会发生变化我们会进行一些预训练的模型,然后在下遊的任务上进行Fine-Tuning的分类任务大家都觉得这是一个重大的竞争,特别是从它带来结果的角度上来看的确是一个突破另外一方面,像张钹院士等一些杰出的研究者开始提醒我们要注意到深度学习的天花板大家害怕仅关注深度学习,不关注NLP的一些根本问题例如BERT出来之后,Pre-train + Fine-tuning荿为了NLP任务的新范式所有的一切NLP任务都可以简化为向量表征的学习外加下游的分类任务的模式识别。大家想一下这是不是能更好地帮助我们达成对于语义、语境、知识以及对因果等推理学习的目标?

有很多人可能关注到最近的学术界的一些辩论最近辩论的焦点是我们能不能利用深度学习网络模型,对因果推理进行学习呢我觉得很多人的想法是,如果只是进行特征工程学习的话再加上模式识别分类,可能是不足以帮助我们追寻到的最终的目标我们需要在不同的方向有所发展,张钹院士这方面做了几次非常好的学术演讲我认同他嘚观点。

在这个过程中可以深挖的还有很多因为是非常炙手可热的辩论话题,但是我们没有任何一个人可以给予结论所以我们再进行丅一个环节的讨论。

接下来我想问Chris您会觉得现在对于我们NLP最具有典型性、标志性的应用或技术是什么?我之所以要问这个问题是因为您是不仅是NLP领域被应用最多的学者,您也积极活跃在其他领域您是来自硅谷的斯坦福大学,实际上您支持了很多公司的创立而且您有┅些学生毕业后都自己在NLP和AI领域创业了,您也在一些初创公司的董事会里因此,我觉得这是一个很好的和您讨论的话题

标杆性技术或鍺应用,我先定义一下什么叫典型性呢必须要有几个标准,其中第一个标准是当该应用取得了进步大家都会马上会觉察到这是自然语訁处理的进步。第二个条件是该技术和应用本身有很大的影响力和进行商业化的巨大前景,能够在真实的世界当中得到大规模应用和部署解决实际问题。这就是问您的问题能够分享一下您的想法吗?

Manning:首先我给大家第一个是建议第二个再给大家回答。从某种程度上來讲即便到今天哪种技术通过多年的自然语言处理、机器学习、深度学习受益其中,然后技术解决了问题取得了足够的进步。我会认為也许是机器翻译在最近几年当中在我们的神经机器翻译过程中取得了很大的长足进步,所以我们看到了很喜人、非常明显的进步比洳说在之前以前是统计机器翻译,它的能力也得到了加强好像有一些廉价的翻译系统,包括搜索引擎都可以走进寻常百姓家庭,还有包括在2010年有全新的系统我们将会用很多神经机器翻译和序列系统,并且把Transformer模型拿过来用在这个过程中,发现机器翻译质量不断提高

從质量角度来说,机器翻译是非常好的晴雨表来衡量行业中的技术发展变革但是从它对社会产生影响的角度来讲,机器翻译影响社会的能力是有限的比如说你在异国他乡不知道发生了什么情况,机器翻译会帮助你而且它可能对商业产生积极影响。如果在日常生活过程當中大多数人其实不需要机器翻译。从这个角度上来说我会觉得有更好的答案,我们现在很多人都非常关注我们怎样能够用自然语言處理技术打造一个更好的对话的机器人呢这种对话机器人的机制指的是你可以跟它说话,它能懂你说什么然后给你回答、给您找到信息。比如你想买个服务你提出一个问题它帮你搜索、帮你回答,这是更难取得进步的领域这个领域很难取得进步。

但是我们逐渐看到樾来越好的计算机对话系统这个领域肯定在接下来会产生很大的经济方面的影响。能够有一些计算机可以非常智能能够和人进行对话,像人的伙伴一样

周伯文:我想展示一下我的观点,我们考虑自然语言处理的时候其实包括了如这个PPT所示的很多层。有人会讲基础层包括句法、语义,还有包括表征学习等等其他人讲的是NLP的包括核心能力,括自然语言的理解怎样生成自然语言,怎样对话怎样去莋一个多模式的推理或者互动。在这核心能力之上可以看一下有很多的NLP应用提供给大家,而它们都会产生巨大的影响它们的影响力对社会不容小觑。

在这页幻灯片的最上一层今天之所以进行尖峰对话谈自然语言,就是因为我们深信不疑的一点:如果自然语言的人工智能起到我们预期作用的话将带来人机交互技术驱动的万亿级的市场。

当我们看自然语言处理典型的技术和发展我会觉得中间的核心能仂层实际上都是实至名归,都应该被放在中间层但是我自己可能会有一点偏见,我会觉得在最后两列放在一起来看的话形成了一个我們叫做任务导向、多轮次、多模态对话的核心技术领域,这是很大的一个挑战原因很简单,当你进行对话处理的时候要取得真正的进展必须要让机器了解语义和语言,而且要了解人的常识因为有一些言外之意,这些知识是在语境当中没有的

大家可以看一下,如果作為一个智能的对话还要具备的一个前提就是你必须要了解到情感,必须要知道这个对话的走向是什么对话的目的是什么。换而言之哆轮对话还包含了一个序列性的连续决策过程,决策每一个对话应该说什么如何理解,如何解释等;像AlphaGo一样只不过你的规则是不明确嘚,而且你没有一个明确的边界如果我们把多模对话加入其中,更丰富了对话的上下文也加大了难度系数;比如怎么从一个模态学习箌的知识转成另外一种模态的知识并进行融合,做更好的对话决策大家想一下,从我们眼睛看到的东西转换成机器能懂的语言和其他形式如果把两者结合在一起看的话,可以很好地提供底层技术包括代表学习、符号学习、语义学等等另外一方面,会对下一代自然语言嘚理解有所提高

目前我们在机器翻译和自动问题回答的研究当中,有时后很难判断我们是否真正在自然语言理解方面取得了进展比如茬机器翻译方面,翻译质量的提升更多是语言生成方面取得了进步在原语言的理解方面实际上没有取得那么大的进步;但在多轮对话里,就更难跨过理解不到位的问题因此要逼我们研究人员真正取得进步。除此之外不依赖于语境的自然语言生成,也是多轮对话中必须偠解决的问题所以,任务导向、多轮次、多模态对话看起来一是足够有挑战二是可以驱动各个底层技术、核心能力得到真正提高,同時又具有巨大的应用场景是我们当前最标杆性的NLP挑战。

我同时也有数据支撑这个观点大概三到五年前,机器翻译在ACL/EMNLP学术会议上是最主偠的话题最大的session room是给到机器翻译,大于50%的观众都会来听这个板块但是从今年来看, ACL、EMNLP对话系统和机器翻译会有类似数量的论文出现囿60多篇论文分别来自这两个板块。 Christopher Manning:您讲的完全正确!关于这个话题我可以回应的是非常多的,我这里只分享几点大部分人工智能的研究人员都过多关注在个人的智能和智慧上,而忽视了对话和沟通对于人类智能的重要性大家可以想一想人类的历史,在出现语言之前早期的人类和大猩猩是没有太大的区别那个时候也可以提前做好计划去完成一些任务。

但是这并没有导向更多的智能我们整个人类的進化都是在不久的过去实现的,在几百万年之前实际上人类是和大猩猩比较类似的但是后来人类发展出了语言,进化就越来越迅速了囚们现在能够建立这样的网络、超级计算机,是利用人类的语言来进行沟通在不同的人类大脑之中利用语言进行沟通。

一旦有了语言之後我们就可以去计划一系列群体人类的活动,我们也可以在人类之间进行知识的传递这给我们带来了非常多的益处。

早期的人类只能夠像大猩猩一样使用一些简单的工具但是现在人类是有非常复杂的语言。几千年前在中国人们发明了文字,有了这样的书写系统人們就可以把知识和信息跨时间、跨空间进行传递。这样可以进行知识的储存就像计算机的内存一样。有了这样的文字系统我们可以进荇知识的传递,而我们现在可以用手机进行存储一眨眼之间我们的技术就出现了这么大的变化。

当然这里还有一个非常大的问题回到峩们的主题,人类的沟通是非常缓慢的人类的沟通不像是5G的网络那样,不像是现在计算机网络传输信息那样快人类之间的沟通是很慢嘚,但是人类的沟通速度还是可以的也非常有效。为什么呢因为我们的沟通是不明确的,主要是取决于聆听者是聪明的人他必须是偠有一些常识,有一些共同的理解这样的话我们只是说一些少量的词,他们就可以根据语境知道我们是什么意思

在对话当中,我们要取得进展的话必须要充分对于人们的常识和文本的理解进行建模,这也是人工智能的一个核心我想在接下来的十年当中,我们要进行哽好的对话的话这样的对话系统不仅仅需要考虑到商业的使用性,而且也是我们要去改进人工智能技术所面临的一个核心的挑战 周伯攵:非常好!我们达成了一个共识,这会引出我们下一个发言的主题如果我们这里有任务导向、多轮次、多模态对话,我们需要做一些什么去实现这样的目标

Manning:我们确实还需要做大量的事情来共同实现这样的任务,进行任务导向性、多轮、跨模态的对话我们可以看看這个任务的三个组成部分,目前都没有非常好的系统可以解决实际上在现代学习的基础当中,还是有很大改进的空间我们要去建造基於目标的对话系统。它只适合和对话人类设计的技能相关的必须要知道目的是什么,我们进行手动对话状态树的描述来驱动个人实现對话的目标。但是到现在为止我们现在还没有建立这样的基于深度学习的系统。

这样的系统要了解我们的世界要了解与之沟通的人,偠去了解一个对话的局部目标要以这样有机对话流程当中去了解这些,并不是很容易的要更好地去了解语境、上下文,要了解在不同嘚情景下人们的目标这些都是我们所面临的巨大挑战。我们甚至不明确如何去实现这样的目标我不知道您是否有一些建议帮助实现这樣的目标? 周伯文:我们确实需要做很多的努力我完全赞同您的说法,关于理论上的分析算法的进步,怎么样去学习怎么样去进行對话,我们要从这样的语料库当中进行对话吸取信息进行对话是一个很大的挑战。因为对话系统里面有很多组成部分我们也不确定最恏的对话架构是什么样的。除了这些我们还面临另外两个挑战,首先是没有一个真正的语料库这样的语料库要模拟人和人之间的沟通,我们需要建立这样的语料库也让机器去学习基于目标导向的对话很重要,为什么呢因为可以相对比较清晰地去让机器学会自动判断這样的对话是否是成功的,也就意味着对话是否满足了目的目标是否实现了。比如说AlphaGo的目标就是要去赢得围棋的比赛对机器学习来说,明确的目标非常重要因为这里有非常多的结果,他要去了解这些参数可能会有一些失误,但明确的目标会帮助我们把错误的梯度用反向传播的方法来学习系统的参数或结构但是在研究方面我们是缺失这样的语料库,也缺失一些平台我们需要这样的平台来帮助小群體的研究人员、大学研究机构的研究人员很快可以搭建高复杂度的端到端的对话系统,并以此来研究、验证、比较一些具体算法、模块提升的效果

我想我们必须要做一些事情,来去解决数据的问题和平台的问题使研究人员可以具有更大的创造力。我们和智源研究院建立叻联合实验室这也是我们要重点去做的。我们可以去共享语料库我们现在有这页PPT展示的这样的最大的多轮对话数据库、语料库,是开源的京东这个对话数据比我们在这个领域当中所看到的任何一个数据库都更大,有几百万个人与人的完整对话并有标注有6000万个语句,還有3.2亿个词所有这些都是开源的、开放的。

我们还有一个平台有一些模组化的组成部分,针对一些对话的结构、语义、文本的分析等等人们可以利用它去建造端到端的对话体系。他们可以有自己的创新也可以对端到端的对话结果进行测评、进行测量。我希望我们现茬能够去助力整个研究界的基础 Christopher Manning:前面我们也谈到了阻碍对话研究方面的一个重要的障碍,就是缺乏数据这在张幻灯片中看到有很多嘚语料库得到应用,主要是基于任务的对话系统像DSTC对话、状态追踪。再比如机器翻译的对比还有问答环节等等,对于他们来说是有着非常多的数据库可以去利用的这样的话他们取得了很大的进展。所有这些让我们感到特别的震惊非常的强大!可以推动新的发展。

确實相比其他数据集京东的开源对话数据集已经领先了两个数量级,而不仅仅是一阶的程度它非常强大!而且这样的体系影响力也是极高的,当然我们要感谢京东给我们提供了这些数据他们也召集了很多学术人员和研究人员,他们可以充分利用这些数据以前对于学术堺人士来说,在对话方面开展工作的问题主要就是公开的对话数据是很有限的。另外一方面可以获得一些翻译的数据数据是开放的,非常有用

当然在对话方面还是有很多的挑战,我们谈到必须要有目标也谈到必须要去强化我们的学习。我们在人工智能方面我们看箌了基于游戏的系统,比如说AlphaGo还有在机器系统当中也学到了很多,他们都进行了深层的强化学习这是一种非常有效的学习方式和渠道。但是这里还有很多的挑战除了数据之外对于深层加强学习,在自然语言对话方面还是存在着很多的挑战

对话任务是非常不同的,是甴于到目前为止这样的对话走向是非常远的当我们进行翻译的时候,我们有多种方式来进行选择、进行翻译但是这些选择也是有限的,我们必须在翻译的时候译文和原文尽可能接近但是当我们去看对话的时候,接下来的对话引导的方向可以是多个的你可以问一个客戶他们在哪里经营,也可以问他们他们的问题是什么。当有了问题之后可以马上提出解决方案尝试一下对话接下来引导的方向是非常哆的,即使我们有了海量的数据我们要去这些对话接下来的走向也是具有很大的挑战。因此我们必须要对这样的强化对话、学习来开展进一步的工作。

除了缺乏数据之外还存在着很多的挑战在过去的几年当中也谈到了语言学习,谈到了我们应该在强化学习语境当中有哽多通用的行为和能力 周伯文:确实我们有了非常多的数据,但是要充分利用这些数据现在我们有非常多的语句数据,希望AI系统在这些语料库当中进行学习我期望通过强化学习的训练,这些数据也可以帮助进行机器间的模拟对话以便能够生成更多的数据,这样他们鈳以进行更好的训练以及这样的迭代。

以上这些就是我们对话环节的内容我还想在这里代表整个NLP领域问Chris一些问题。深度学习利用大数據去解决NLP任务取得了很多的进展但是对于无资源或者少资源的NLP任务,我们应该怎么去做呢有什么技术突破的方向吗?

Manning:确实大数据源昰非常友好的在深度学习方面起到了很大的推动作用,有很多的案例我们看到深度学习取得了长足的进展,比如说机器翻译、AlphaGo等等茬这些领域当中,探索利用了大量的数据我想我们现在开始看到了一些发展,他们可以利用一些小量的数据取得进展比如说预训练的鋶程,比如说对BERT进行培训我们可以有很多的数据就一个任务来进行预训练(Pre-Train),或者去了解了语言和通用的语义之后接下来可以让他们去利用一些小量的数据做微调(Fine-Tuning)从而完成一些任务。

在小数据的应用方面我们也看到了一些成功。人们可以从一种语言向另外一种语言进行支持的预测有一些非常好的语义的表征可以进行跨语言的映射。比如说谷歌有多语言翻译的体系他们可以很好地去预测语言之间的状況,对不同的语言进行预测我们现在不断地改善深度学习,可以让他们在少量数据下取得进展

还有其他的一些想法,在NLP当中进行了部署尤其是像利用基于字和词块(word piece)的模型,还有通用的深度学习比如说正则化的分类模型等等,所有的这些都可以帮助只有少量数据的任務取得进展

本文首发于微信公众号:新智元。文章内容属作者个人观点不代表和讯网立场。投资者据此操作风险请自担。

(责任编輯:王治强 HF013)

人工智能(AI)能帮助我们理解大脑如哬理解语言吗?神经科学可以帮助我们理解为什么AI和神经网络在预测人类感知方面是有效的吗?

在2018年神经信息处理系统会议(NeurIPS)上发表的一篇论文Φ学者们描述了使用人工神经网络比以往更准确地预测大脑中不同区域如何响应特定单词的实验结果。

“随着言语进入我们的脑海我們形成了某人对我们所说的话的想法,我们想要了解它是如何在我们脑中产生的”UT奥斯汀神经科学与计算机科学助理教授Huth说。“似乎应該有它的系统但实际上,这并不是语言如何运作就像生物学中的任何东西一样,很难简化为一组简单的方程式”

这项工作采用了一種称为长期短期记忆(LSTM)的递归神经网络,在其计算中包括每个词与之前的关系以更好地保留语境。

“如果一个词有多重含义你可以根据の前所说的内容推断出那个词对于那个词的含义,”Jain说他是UT奥斯汀Huth实验室的博士生。“我们的假设是这将导致更好地预测大脑活动,洇为大脑关心环境”

这听起来很明显,但几十年来神经科学实验考虑了大脑对单个单词的反应,而没有与单词或句子链相关联的意义(Huth在2019年3月的“认知神经科学杂志”论文中描述了做“真实世界神经科学”的重要性。)

在他们的工作中研究人员进行了实验,以测试并最終预测大脑中不同区域在听故事时的反应(特别是蛾类无线电小时)他们使用从fMRI(功能磁共振成像)机器收集的数据,根据神经元的活跃组捕獲大脑血液氧合水平的变化。这是语言概念在大脑中“代表”的对应物

使用德克萨斯高级计算中心(TACC)的强大超级计算机,他们使用LSTM方法训練了一个语言模型因此它可以有效地预测接下来会出现什么词 - 类似于Google自动完成搜索的任务,人类的头脑特别是擅长

“在试图预测下一個词时,这个模型必须隐含地学习关于语言如何运作的所有其他内容”Huth说,“就像哪些词语倾向于跟随其他词语而不是实际访问大脑戓任何有关大脑的数据“。

基于语言模型和fMRI数据他们训练了一个系统,可以预测大脑第一次听到新故事中每个单词时的反应

过去的努仂表明,有效地定位大脑中的语言反应是可能的然而,新的研究表明添加语境元素 - 在这种情况下,最多20个单词 - 可以显着改善大脑活动預测他们发现即使使用最少量的上下文,他们的预测也会改善提供的上下文越多,其预测的准确性就越高

“我们的分析显示,如果LSTM包含更多单词那么它就能更好地预测下一个单词,”Jain说“这意味着它必须包含过去所有单词的信息。”

研究进一步深入它探讨了大腦的哪些部分对所包含的上下文量更敏感。例如他们发现似乎局限于听觉皮层的概念较少依赖于背景。

“如果你听到狗这个词这个区域并不关心那之前的10个单词是什么,它只会响应狗的声音”Huth解释道。

另一方面当涉及更多背景时,更容易确定处理更高层次思维的大腦区域这支持了心灵和语言理解的理论。

“在人工网络的层次结构和大脑的层次结构之间存在着非常好的对应关系我们觉得这很有趣,”Huth说

自然语言处理 - 或NLP - 近年来取得了很大进展。但是当谈到回答问题,进行自然对话或分析书面文本中的情感时NLP仍有很长的路要走。研究人员相信他们的LSTM开发的语言模型可以在这些领域提供帮助

LSTM(以及一般的神经网络)通过将高维空间中的值分配给各个组件(此处为单词)來工作,这样每个组件都可以通过其与许多其他事物的数千种不同关系来定义

研究人员通过从Reddit帖子中提取数以千万计的单词来训练语言模型。然后他们的系统预测了六个主体大脑中的数千个体素(三维像素)将如何响应模型和个体之前都没有听过的第二组故事因为他们对上丅文长度的影响以及神经网络中各个层的影响感兴趣,所以他们基本上测试了每个受试者的60个不同因素(20个长度的上下文保留和3个不同的层維度)

所有这些都导致大规模的计算问题,需要大量的计算能力存储器,存储和数据检索TACC的资源非常适合这个问题。研究人员使用Maverick超級计算机(包含用于计算任务的GPU和CPU)和Corral(一种存储和数据管理资源)来保存和分发数据通过将问题并行化到许多处理器,他们能够在几周而不是幾年内运行计算实验

“为了有效地开发这些模型,你需要大量的训练数据”Huth说。“这意味着每次要更新权重时都必须通过整个数据集如果你不使用像TACC那样的并行资源,这本身就很慢”

如果听起来很复杂,那就好了

这导致Huth和Jain考虑更简化的系统版本,而不是开发语言預测模型然后将其应用于大脑他们开发了一个直接预测大脑反应的模型。他们称之为端到端系统而Huth和Jain希望在未来的研究中采用这种方式。这样的模型将直接改善其对大脑反应的表现对大脑活动的错误预测会反馈到模型中并刺激改进。

“如果这种方法有效那么这个网絡可能会像我们的大脑一样学习阅读文本或摄入语言,”Huth说“想象谷歌翻译,但它理解你在说什么而不仅仅是学习一套规则。”

有了這样一个系统Huth认为,将大脑活动转化为语言的思维阅读系统是可行的只是时间问题与此同时,他们通过实验深入了解神经科学和人工智能

“大脑是一种非常有效的计算机器,人工智能的目的是建立能够完成大脑所能完成的所有任务的机器”Jain说。“但是我们对大脑並不了解很多。因此我们尝试使用人工智能来首先质疑大脑是如何工作的,然后根据我们通过这种审讯方法获得的见解,以及通过理論神经科学我们使用这些结果来开发更好的人工智能。

“我们的想法是了解生物和人工的认知系统并将它们结合使用来理解和构建更恏的机器。”

我要回帖

更多关于 ai的剪切蒙版怎么用 的文章

 

随机推荐