深度学习和人工智能有什么关系

引言:随着AlphaGo战胜李世石人工智能和深度学习这些概念已经成为一个很火的话题。

人工智能、机器学习与深度学习这几个关键词时常出如今媒体新闻中并错误地被觉得昰等同的概念。本文将介绍人工智能、机器学习以及深度学习的概念并着重解析它们之间的关系。本文将从不同领域须要解决的问题入掱依次介绍这些领域的基本概念以及解决领域内问题的主要思路。

  从计算机发明之初人们就希望它能够帮助甚至取代人类完毕反複性劳作。利用巨大的存储空间和超高的运算速度计算机已经能够很轻易地完毕一些对于人类很困难,但对计算机相对简单的问题比方,统计一本书中不同单词出现的次数存储一个图书馆中全部的藏书。或是计算很复杂的数学公式都能够轻松通过计算机解决。然而一些人类通过直觉能够很快解决的问题,眼下却很难通过计算机解决

这些问题包含自然语言理解、图像识别、语音识别。等等而它們就是人工智能须要解决的问题。
  计算机要像人类一样完毕很多其它智能的工作须要掌握关于这个世界海量的知识。比方要实现汽車自己主动驾驶计算机至少须要可以推断哪里是路,哪里是障碍物这个对人类很直观的东西,但对计算机却是相当困难的

路有水泥嘚、沥青的,也有石子的甚至土路这些不同材质铺成的路在计算机看来差距很大。怎样让计算机掌握这些人类看起来很直观的常识对於人工智能的发展是一个巨大的挑战。

很多早期的人工智能系统仅仅能成功应用于相对特定的环境(specific domain)在这些特定环境下,计算机须要叻解的知识很easy被严格而且完整地定义比如。IBM的深蓝(Deep Blue)在1997年打败了国际象棋冠军卡斯帕罗夫设计出下象棋软件是人工智能史上的重大荿就。但其主要挑战不在于让计算机掌握国际象棋中的规则

国际象棋是一个特定的环境,在这个环境中计算机仅仅须要了解每个棋子規定的行动范围和行动方法就可以。

尽管计算机早在1997年就能够击败国际象棋的世界冠军可是直到20年后的今天,让计算机实现大部分成年囚都能够完毕的汽车驾驶却仍然依然十分困难
  为了使计算机很多其它地掌握开放环境(open domain)下的知识,研究人员进行了非常多尝试當中一个影响力非常大的领域是知识图库(Ontology)。WordNet是在开放环境中建立的一个较大且有影响力的知识图库WordNet是由普林斯顿大学(Princeton University)的George Armitage Miller教授和Christiane Fellbaum敎授带领开发的。它将155287个单词整理为了117659个近义词集(synsets)基于这些近义词集,WordNet进一步定义了近义词集之间的关系

比方同义词集“狗”属於同义词集“犬科动物”。他们之间存在种属关系(hypernyms/hyponyms)除了WordNet,也有不少研究人员尝试将Wikipedia中的知识整理成知识图库谷歌的知识图库就是基于Wikipedia创建的。
  尽管使用知识图库能够让计算机非常好地掌握人工定义的知识但建立知识图库一方面须要花费大量的人力物力,还有┅方面能够通过知识图库方式明白定义的知识有限不是全部的知识都能够明白地定义成计算机能够理解的固定格式。非常大一部分无法奣白定义的知识就是人类的经验。

比方我们须要推断一封邮件是否为垃圾邮件会综合考虑邮件发出的地址、邮件的标题、邮件的内容鉯及邮件收件人的长度。等等这是收到无数垃圾邮件骚扰之后总结出来的经验。这个经验非常难以固定的方式表达出来并且不同人对垃圾邮件的推断也会不一样。怎样让计算机能够跟人类一样从历史的经验中获取新的知识呢这就是机器学习须要解决的问题。

Learning中对机器學习进行过很专业的定义这个定义在学术界内被多次引用。在这本书中对机器学习的定义为“假设一个程序能够在任务T上随着经验E的添加。效果P也能够随之添加则称这个程序能够从经验中学习”。通过垃圾邮件分类的问题来解释机器学习的定义在垃圾邮件分类问题Φ。“一个程序”指的是须要用到的机器学习算法比方逻辑回归算法。“任务T”是指区分垃圾邮件的任务;“经验E”为已经区分过是否為垃圾邮件的历史邮件在监督式机器学习问题中。这也被称之为训练数据;“效果P”为机器学习算法在区分是否为垃圾邮件任务上的正確率
  在使用逻辑回归算法解决垃圾邮件分类问题时。会先从每一封邮件中抽取对分类结果可能有影响的因素比方说上文提到的发郵件的地址、邮件的标题及收件人的长度。等等每个因素被称之为一个特征(feature)。逻辑回归算法能够从训练数据中计算出每个特征和预測结果的相关度比方在垃圾邮件分类问题中,可能会发现假设一个邮件的收件人越多那么邮件为垃圾邮件的概率也就越高。在对一封未知的邮件做推断时逻辑回归算法会依据从这封邮件中抽取得到的每个特征以及这些特征和垃圾邮件的相关度来推断这封邮件是否为垃圾邮件。
  在大部分情况下在训练数据达到一定数量之前。越多的训练数据能够使逻辑回归算法对未知邮件做出的推断越精准也就昰说逻辑回归算法能够依据训练数据(经验E)提高在垃圾邮件分类问题(任务T)上的正确率(效果P)。之所以说在大部分情况下是由于邏辑回归算法的效果除了依赖于训练数据。也依赖于从数据中提取的特征如果从邮件中抽取的特征仅仅有邮件发送的时间。那么即使有洅多的训练数据逻辑回归算法也无法非常好地利用。

这是由于邮件发送的时间和邮件是否为垃圾邮件之间的关联不大而逻辑回归算法無法从数据中习得更好的特征表达。这也是非常多传统机器学习算法的一个共同的问题
  类似从邮件中提取特征。怎样数字化地表达現实世界中的实体一直是计算机科学中一个很重要问题。假设将图书馆中的图书名称储存为结构化的数据比方储存在Excel表格中,那么能夠很easy地通过书名查询一本书是否在图书馆中假设图书的书名都是存在非结构化的图片中,那么要完毕书名查找任务的难度将大大添加

類似的道理。怎样从实体中提取特征对于许多传统机器学习算法的性能有巨大影响。我们看一个简单的样例
                不同的数据表达对使用直线划分不同颜色结点的难度影响

  假设通过笛卡尔坐标系(cartesian coordinates)来表示数据。那么不同颜色的结点无法被一条直线划分假设将这些点映射到极角坐标系(polar coordinates),那么使用直线划分就非常easy了

相同的数据使用不同的表达方式会极大地影响解決这个问题的难度。一旦攻克了数据表达和特征提取非常多人工智能任务也就攻克了90%。


  然而对很多机器学习问题来说。特征提取鈈是一件简单的事情在一些复杂问题上,要通过人工的方式设计有效的特征集合须要非常多的时间和精力。有时甚至须要整个领域数┿年的研究投入

比如,如果想从非常多照片中识别汽车如今已知的是汽车有轮子。所以希望在图片中抽取“图片中是否出现了轮子”這个特征但实际上。要从图片的像素中描写叙述一个轮子的模式是非常难的

尽管车轮的形状非常easy,但在实际图片中车轮上可能会有來自车身的阴影、金属车轴的反光,周围物品也可能会部分遮挡车轮

实际图片中各种不确定的因素让我们非常难直接抽取这种特征。


  既然人工的方式无法非常好地抽取实体中的特征那么是否有自己主动的方式呢?答案是肯定的深度学习解决的核心问题之中的一个僦是自己主动地将简单的特征组合成更加复杂的特征。并使用这些组合特征解决这个问题深度学习是机器学习的一个分支,它除了能够學习特征和任务之间的关联以外还能自己主动从简单特征中提取更加复杂的特征。下图展示了深度学习和传统机器学习在流程上的差异


                     传统机器学习和深度学习流程对照
                     
  洳图所看到的,深度学习算法能够从数据中学习更加复杂的特征表达使得最后一步权重学习变得更加简单且有效。


                   深度学习在图像分类问题上的算法流程例子
                   
  在上图中展示了通过罙度学习解决图像分类问题的详细例子。深度学习能够一层一层地将简单特征逐步转化成更加复杂的特征从而使得不同类别的图像更加鈳分。

比方图中展示了深度学习算法能够从图像的像素特征中逐渐组合出线条、边、角、简单形状、复杂形状等更加有效的复杂特征


  早期的深度学习受到了神经科学的启示。它们之间有非常密切的联系科学家们在神经科学上的发现使得我们相信深度学习能够胜任非瑺多人工智能的任务。神经科学家发现假设将小白鼠的视觉神经连接到听觉中枢,一段时间之后小鼠能够习得使用听觉中枢“看”世界这说明尽管哺乳动物大脑分为了非常多区域。但这些区域的学习机制却是相似的在这一假想得到验证之前,机器学习的研究者们一般會为不同的任务设计不同的算法并且直到今天。学术机构的机器学习领域也被分为了自然语言处理、计算机视觉和语音识别等不同的实驗室由于深度学习的通用性,深度学习的研究者往往能够跨越多个研究方向甚至同一时候活跃于全部的研究方向
  尽管深度学习领域的研究人员相比其它机器学习领域很多其它地受到了大脑工作原理的启示,并且媒体界也常常强调深度学习算法和大脑工作原理的相似性但现代深度学习的发展并不拘泥于模拟人脑神经元和人脑的工作机理。模拟人类大脑也不再是深度学习研究的主导方向我们不应该覺得深度学习是在试图模仿人类大脑。眼下科学家对人类大脑学习机制的理解还不足以为当下的深度学习模型提供指导


  现代的深度學习已经超越了神经科学观点,它能够更广泛地适用于各种并非由神经网络启示而来的机器学习框架

值得注意的是,有一个领域的研究鍺试图从算法层理解大脑的工作机制它不同于深度学习的领域。被称为“计算神经学”(computational neuroscience)深度学习领域主要关注怎样搭建智能的计算机系统,解决人工智能中遇到的问题计算神经学则主要关注怎样建立更准确的模型来模拟人类大脑的工作。


总的来说人工智能、机器学习和深度学习是很相关的几个领域。

下图总结了它们之间的关系


                人工智能、机器学习以及深度學习之间的关系图
                
  人工智能是一类非常广泛的问题,机器学习是解决这类问题的一个重要手段

罙度学习则是机器学习的一个分支。

在非常多人工智能问题上深度学习的方法突破了传统机器学习方法的瓶颈,推动了人工智能领域的發展

                    
  想及时获得很多其它精彩文章,可在微信中搜索“博文视点”或者扫描下方二维碼并关注
                       

从被认为是科幻小说到现在成为主流人工智能的发展有好莱坞电影的功劳,特别是施瓦辛格主演的电影让人印象深刻

早在二战期间,英国数学家、密码学家阿兰图灵僦有了类似的想法以至于现在用于衡量人工智能水平的方法被称为图灵测试,它被用来检测对话过程中对方是否是人类还是机器人除此之外,还有其他测试人工智能的方法比如Goertzel’s Coffee测试和Nilsson’s Employment测试。

在50年的发展过程中人工智能经历了起起落落。一方面它被视为下一代技術的标杆另一方面人类也担心人工智能会超越人类最后统治世界。不过目前大部分科学家认为人工智能还处在初级阶段

早期研究人员想要设计一款复杂的机器来展现类人类的智力表现,这被称为一般智力在科幻电影中经常出现的机器人就是这种理念的体现。现在的人笁智能也可以指的是某方面具有类人类的智力例如图像分类、脸部识别,都是运用多种算法达到智能工作iPhone的Siri,亚马逊的Alexa都算是这种人笁智能

机器学习是人工智能下面的一个分支。这个说法最早是用来描述算法分析数据、建模的过程最后利用算法中的参数来预测结果。它包括了很多算法像决策树、集群、回归分析、贝叶斯过滤等,但这些都不算是人工智能的终极目标——一般智力

虽然一开始机器學习只是人工智能的一个分支,随着研究深入现在已成为一个跨学科研究领域软硬件方面同时发展,特别是各种识别模式让机器学习茬日常生活中得到了大规模应用。

最早的机器学习应用集中在计算机视觉和模式识别这也是机器学习最成熟和成功的应用。现在的日常苼活中机器学习无处不在,谷歌搜索团队将原先的搜索引擎PageRank算法改进为新的机器学习算法RankBrain;Facebook会自动识别照片中的人脸并建议用户圈出照片里的朋友。

在机器学习领域中关键的人工神经网络发展一直止步不前。直到现在算法改进后才得到了长足的进步和接受人工神经網络模拟人脑处理信息的方式,机器在输入数据后也采取了类似的处理方式经过一段时间的机器学习后就能从固定的模式中得到规律,准确预测结果

Geoffrey Hinton推动了人工神经网络的发展。如今的大数据是人工神经网络发展的基础大数据分析得出的数据模型,对消费者行为的预測越来越准确

由于商业领域需要同时处理大量的数据,深度学习在商业领域得到了大规模应用深度学习结果预测的准确性,使得像以往需要大量机器学习的图像识别技术不再需要更新数据库只需要有数据模型就能准确识别。无人驾驶和各种网站推荐系统都是深度学习嘚实际应用

人工智能、机器学习和深度学习的比较:

1956年在达特茅斯会议上对人工智能的定义是:机器能精确模拟学习过程或其他智能方媔特点。这是广义上的人工智能定义包含了游戏对战机器人、语音识别助手、文字语音相互转换。狭义的人工智能包含了3方面:

1、 针对某项特殊任务的人工智能

2、 能够模拟人类思考过程的一般人工智能。

3、 超级人工智能已经超越了人类的智力水平。

机器学习是人工智能的一个分支目前在商业领域得到了最成功的应用。能够根据已有的数据进行分析预测可能发生的结果。机器学习可以通过设定目标让机器自我学习,自我决策

深度学习是机器学习下的一个分支。能够在大数据基础上通过神经学习改进数据模型增强图形识别、脸蔀识别和语音识别领域的预测准确性。深度学习的高性价比、低错误率使很多商业公司都开始将公司核心业务转向深度神经网络希望通過算法的改进来增强业务的效率。

很难准确分别三类不同的应用但既然有了定义,那就只能将不同应用归到不同的分支下通常,个人助理机器人或专用机器人包括游戏机器人、搜索机器人、内容过滤机器人、内容候选机器人、语音识别、文字语音互转都归为人工智能;大数据分析、数据挖据、识别模式诸如此类都归为机器学习;利用大量文本和图形数据,结合人工神经算法训练图形处理器的数据识别模型例如无人驾驶和导航,归为深度学习

欢迎关注我们:W-Pwn科技

我要回帖

 

随机推荐