深度学习和人工智能之间是什么样的关系

热门搜索:
当前位置:
读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别
在这篇文章中,数据科学家与分析师 Vincent Granville 明晰了数据科学家所具有的不同角色,以及数据科学与机器学习、深度学习、人工智能、统计学、物联网、运筹学和应用数学等相关领域的比较和重叠。
在这篇文章中,数据科学家与分析师 Vincent Granville 明晰了数据科学家所具有的不同角色,以及数据科学与机器学习、深度学习、人工智能、统计学、物联网、运筹学和应用数学等相关领域的比较和重叠。Granville 介绍说,由于数据科学是一个范围很广的学科,所以他首先介绍了在业务环境中可能会遇到的数据科学家的类型:你甚至可能会发现你自己原来也是某种数据科学家。和其它任何科学学科一样,数据科学也可能会从其它相关学科借用技术;当然,我们也已经开发出了自己的技术库,尤其是让我们可以以的方式(甚至完全无需人类干预)处理非常大规模的非结构化数据集的技术和算法,进而实时执行交易或进行预测。1. 数据科学家具有哪些不同类型?在最近,数据科学家 Ajit Jaokar 则又讨论了 A 型数据科学家(分析师)和 B 型数据科学家(建造者)之间的区别:A 型数据科学家能够很好地编写操作数据的代码,但并不一定是一个专家。A 型数据科学家可能是一个实验设计、预测、建模、统计推理或统计学方面的事情的专家。然而总体而言,一个数据科学家的工作产品并不是「P 值和置信区间」——就像学术界的统计学有时候建议的那样(而且这常常是为传统的制药等等行业工作的)。在谷歌,A 型数据科学家被称为统计学家、定量分析师、决策支持工程开发分析师,也有一些被称为数据科学家。B 型数据科学家:这里的 B 是指 Building。B 型数据科学家和 A 型数据科学家具有相同的背景,但他们还是很强的程序员、甚至经验丰富的软件工程师。B 型数据科学家主要关注在生产环境中使用数据。他们构建能与用户进行交互的模型,通常是提供推荐(产品、可能认识的人、广告、电影、搜索结果等)。而对于业务处理优化,我也有自己的看法,我将其分成了 ABCD 四个方向,其中 A 表示分析科学(analytics science),B 表示业务科学(business science),C 表示计算机科学(computer science),D 则表示数据科学(data science)。数据科学可能会涉及到编程或数学实践,但也可能不会涉及到。你可以参考 http://suo.im/11bR7o 这篇文章了解高端和低端的数据科学的差异。在一家创业公司,数据科学家通常要做很多类型的工作,其扮演的工作角色可能包括:执行、数据挖掘师、数据工程师或架构师、研究员、统计学家、建模师(做预测建模等等)和开发人员。虽然数据科学家常常被看作是经验丰富的 R、Python、SQL、Hadoop 程序员,而且精通统计学,但这不只不过是冰山一角而已——人们对于数据科学家的这些看法不过是来自于重在教授数据科学的部分元素的数据培训项目而已。但正如一位实验室技术人员也可以称自己为物理学家一样,真正的物理学家远不止于此,而且他们的专业领域也是非常多样化的:天文学、数学物理、核物理、力学、电气工程、信号处理(这也是数据科学的一个领域)等等许多。数据科学也是一样,包含的领域有:生物信息学、信息技术、模拟和量化控制、计算金融、流行病学、工业工程、甚至数论。对我而言,在过去的十年里,我专注于机器到机器和设备到设备的通信、开发能自动处理大型数据集的系统、执行自动化交易(比如购买网络流量或自动生成内容)。这意味着需要开发能够处理非结构化数据的算法,这也是人工智能、物联网和数据科学的交叉领域,也可被称为深度数据科学(deep data science)。其对数学的需求相对较少,也只涉及到较少的编程(大部分是调用 API),但其却是相当数据密集型的(包括构建数据系统),并且基于专门为此背景而设计的全新统计技术。
本文由入驻OFweek公众平台的作者撰写,除OFweek官方账号外,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
邮箱/用户名:
忘记密码?
用其他账号登录: QQ
请输入评论
机械自动化单片机
广东省/深圳市
四川省/成都市
广东省/深圳市
广东省/深圳市
广东省/深圳市
广东省/深圳市
北京市/海淀区
广东省/深圳市
广东省/深圳市
广东省/惠州市
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:引言:随着AlphaGo战胜李世石,人工智能和深度学习这些概念已经成为一个非常火的话题。人工智能、机器学习与深度学习这几个关键词时常出现在媒体新闻中,并错误地被认为是等同的概念。本文将介绍人工智能、机器学习以及深度学习的概念,并着重解析它们之间的关系。本文将从不同领域需要解决的问题入手,依次介绍这些领域的基本概念以及解决领域内问题的主要思路。本文选自《Tensorflow:实战Google深度学习框架》。
  从计算机发明之初,人们就希望它能够帮助甚至代替人类完成重复性劳作。利用巨大的存储空间和超高的运算速度,计算机已经可以非常轻易地完成一些对于人类非常困难,但对计算机相对简单的问题。比如,统计一本书中不同单词出现的次数,存储一个图书馆中所有的藏书,或是计算非常复杂的数学公式,都可以轻松通过计算机解决。然而,一些人类通过直觉可以很快解决的问题,目前却很难通过计算机解决。这些问题包括自然语言理解、图像识别、语音识别,等等。而它们就是人工智能需要解决的问题。  计算机要像人类一样完成更多智能的工作,需要掌握关于这个世界海量的知识。比如要实现汽车自动驾驶,计算机至少需要能够判断哪里是路,哪里是障碍物。这个对人类非常直观的东西,但对计算机却是相当困难的。路有水泥的、沥青的,也有石子的甚至土路。这些不同材质铺成的路在计算机看来差距非常大。如何让计算机掌握这些人类看起来非常直观的常识,对于人工智能的发展是一个巨大的挑战。很多早期的人工智能系统只能成功应用于相对特定的环境(specific domain),在这些特定环境下,计算机需要了解的知识很容易被严格并且完整地定义。例如,IBM的深蓝(Deep Blue)在1997年打败了国际象棋冠军卡斯帕罗夫。设计出下象棋软件是人工智能史上的重大成就,但其主要挑战不在于让计算机掌握国际象棋中的规则。国际象棋是一个特定的环境,在这个环境中,计算机只需要了解每一个棋子规定的行动范围和行动方法即可。虽然计算机早在1997年就可以击败国际象棋的世界冠军,但是直到20年后的今天,让计算机实现大部分成年人都可以完成的汽车驾驶却仍然依旧十分困难。  为了使计算机更多地掌握开放环境(open domain)下的知识,研究人员进行了很多尝试。其中一个影响力非常大的领域是知识图库(Ontology)。WordNet是在开放环境中建立的一个较大且有影响力的知识图库。WordNet是由普林斯顿大学(Princeton University)的George Armitage Miller教授和Christiane Fellbaum教授带领开发的,它将155287个单词整理为了117659个近义词集(synsets)。基于这些近义词集,WordNet进一步定义了近义词集之间的关系。比如同义词集“狗”属于同义词集“犬科动物”,他们之间存在种属关系(hypernyms/hyponyms)。除了WordNet,也有不少研究人员尝试将Wikipedia中的知识整理成知识图库。谷歌的知识图库就是基于Wikipedia创建的。  虽然使用知识图库可以让计算机很好地掌握人工定义的知识,但建立知识图库一方面需要花费大量的人力物力,另一方面可以通过知识图库方式明确定义的知识有限,不是所有的知识都可以明确地定义成计算机可以理解的固定格式。很大一部分无法明确定义的知识,就是人类的经验。比如我们需要判断一封邮件是否为垃圾邮件,会综合考虑邮件发出的地址、邮件的标题、邮件的内容以及邮件收件人的长度,等等。这是收到无数垃圾邮件骚扰之后总结出来的经验。这个经验很难以固定的方式表达出来,而且不同人对垃圾邮件的判断也会不一样。如何让计算机可以跟人类一样从历史的经验中获取新的知识呢?这就是机器学习需要解决的问题。  卡内基梅隆大学(Carnegie Mellon University)的Tom Michael Mitchell教授在1997年出版的书籍Machine Learning中对机器学习进行过非常专业的定义,这个定义在学术界内被多次引用。在这本书中对机器学习的定义为“如果一个程序可以在任务T上,随着经验E的增加,效果P也可以随之增加,则称这个程序可以从经验中学习”。通过垃圾邮件分类的问题来解释机器学习的定义。在垃圾邮件分类问题中,“一个程序”指的是需要用到的机器学习算法,比如逻辑回归算法;“任务T”是指区分垃圾邮件的任务;“经验E”为已经区分过是否为垃圾邮件的历史邮件,在监督式机器学习问题中,这也被称之为训练数据;“效果P”为机器学习算法在区分是否为垃圾邮件任务上的正确率。  在使用逻辑回归算法解决垃圾邮件分类问题时,会先从每一封邮件中抽取对分类结果可能有影响的因素,比如说上文提到的发邮件的地址、邮件的标题及收件人的长度,等等。每一个因素被称之为一个特征(feature)。逻辑回归算法可以从训练数据中计算出每个特征和预测结果的相关度。比如在垃圾邮件分类问题中,可能会发现如果一个邮件的收件人越多,那么邮件为垃圾邮件的概率也就越高。在对一封未知的邮件做判断时,逻辑回归算法会根据从这封邮件中抽取得到的每一个特征以及这些特征和垃圾邮件的相关度来判断这封邮件是否为垃圾邮件。  在大部分情况下,在训练数据达到一定数量之前,越多的训练数据可以使逻辑回归算法对未知邮件做出的判断越精准。也就是说逻辑回归算法可以根据训练数据(经验E)提高在垃圾邮件分类问题(任务T)上的正确率(效果P)。之所以说在大部分情况下,是因为逻辑回归算法的效果除了依赖于训练数据,也依赖于从数据中提取的特征。假设从邮件中抽取的特征只有邮件发送的时间,那么即使有再多的训练数据,逻辑回归算法也无法很好地利用。这是因为邮件发送的时间和邮件是否为垃圾邮件之间的关联不大,而逻辑回归算法无法从数据中习得更好的特征表达。这也是很多传统机器学习算法的一个共同的问题。  类似从邮件中提取特征,如何数字化地表达现实世界中的实体,一直是计算机科学中一个非常重要问题。如果将图书馆中的图书名称储存为结构化的数据,比如储存在Excel表格中,那么可以非常容易地通过书名查询一本书是否在图书馆中。如果图书的书名都是存在非结构化的图片中,那么要完成书名查找任务的难度将大大增加。类似的道理,如何从实体中提取特征,对于很多传统机器学习算法的性能有巨大影响。我们看一个简单的例子。                          不同的数据表达对使用直线划分不同颜色结点的难度影响
  如果通过笛卡尔坐标系(cartesian coordinates)来表示数据,那么不同颜色的结点无法被一条直线划分。如果将这些点映射到极角坐标系(polar coordinates),那么使用直线划分就很容易了。同样的数据使用不同的表达方式会极大地影响解决问题的难度。一旦解决了数据表达和特征提取,很多人工智能任务也就解决了90%。  然而,对许多机器学习问题来说,特征提取不是一件简单的事情。在一些复杂问题上,要通过人工的方式设计有效的特征集合,需要很多的时间和精力,有时甚至需要整个领域数十年的研究投入。例如,假设想从很多照片中识别汽车。现在已知的是汽车有轮子,所以希望在图片中抽取“图片中是否出现了轮子”这个特征。但实际上,要从图片的像素中描述一个轮子的模式是非常难的。虽然车轮的形状很简单,但在实际图片中,车轮上可能会有来自车身的阴影、金属车轴的反光,周围物品也可能会部分遮挡车轮。实际图片中各种不确定的因素让我们很难直接抽取这样的特征。  既然人工的方式无法很好地抽取实体中的特征,那么是否有自动的方式呢?答案是肯定的。深度学习解决的核心问题之一就是自动地将简单的特征组合成更加复杂的特征,并使用这些组合特征解决问题。深度学习是机器学习的一个分支,它除了可以学习特征和任务之间的关联以外,还能自动从简单特征中提取更加复杂的特征。下图展示了深度学习和传统机器学习在流程上的差异。                            传统机器学习和深度学习流程对比                       如图所示,深度学习算法可以从数据中学习更加复杂的特征表达,使得最后一步权重学习变得更加简单且有效。                            深度学习在图像分类问题上的算法流程样例                     在上图中,展示了通过深度学习解决图像分类问题的具体样例。深度学习可以一层一层地将简单特征逐步转化成更加复杂的特征,从而使得不同类别的图像更加可分。比如图中展示了深度学习算法可以从图像的像素特征中逐渐组合出线条、边、角、简单形状、复杂形状等更加有效的复杂特征。  早期的深度学习受到了神经科学的启发,它们之间有非常密切的联系。科学家们在神经科学上的发现使得我们相信深度学习可以胜任很多人工智能的任务。神经科学家发现,如果将小白鼠的视觉神经连接到听觉中枢,一段时间之后小鼠可以习得使用听觉中枢“看”世界。这说明虽然哺乳动物大脑分为了很多区域,但这些区域的学习机制却是相似的。在这一假想得到验证之前,机器学习的研究者们通常会为不同的任务设计不同的算法。而且直到今天,学术机构的机器学习领域也被分为了自然语言处理、计算机视觉和语音识别等不同的实验室。因为深度学习的通用性,深度学习的研究者往往可以跨越多个研究方向甚至同时活跃于所有的研究方向。  虽然深度学习领域的研究人员相比其他机器学习领域更多地受到了大脑工作原理的启发,而且媒体界也经常强调深度学习算法和大脑工作原理的相似性,但现代深度学习的发展并不拘泥于模拟人脑神经元和人脑的工作机理。模拟人类大脑也不再是深度学习研究的主导方向。我们不应该认为深度学习是在试图模仿人类大脑。目前科学家对人类大脑学习机制的理解还不足以为当下的深度学习模型提供指导。  现代的深度学习已经超越了神经科学观点,它可以更广泛地适用于各种并不是由神经网络启发而来的机器学习框架。值得注意的是,有一个领域的研究者试图从算法层理解大脑的工作机制,它不同于深度学习的领域,被称为“计算神经学”(computational neuroscience)。深度学习领域主要关注如何搭建智能的计算机系统,解决人工智能中遇到的问题。计算神经学则主要关注如何建立更准确的模型来模拟人类大脑的工作。
全文阅读:&&
阅读(...) 评论()深度学习和人工智能之间是什么样的关系? - 知乎293被浏览32755分享邀请回答256 条评论分享收藏感谢收起人工智能、机器学习和深度学习之间区别 - 简书
人工智能、机器学习和深度学习之间区别
人工智能是未来。人工智能是科幻。人工智能已经深入我们的日常生活。这些话都没错,当然这要看你指的是哪种程度的人工智能。举个例子,今年早些时候 Google DeepMind 的 AlphaGo 项目在举世瞩目的围棋比赛中一举击败了韩国选手李世石,媒体就是使用了人工智能、机器学习和深度学习这几个术语,来解释 DeepMind 获胜的原因。但是三者其实不是一回事。搞清三者关系的最简单方法,就是把它们想象成一个同心圆,其中人工智能最大,此概念也最先问世;然后是机器学习,出现的稍晚;最后才是深度学习,不过却是如今人工智能爆炸式发展的根源,处于前两者的范围之内。
机器学习的发展历程
从低潮到繁荣自从 1956 年计算机科学家们在达特茅斯会议(Dartmouth Conferences)上确认人工智能这个术语以来,人们就不乏关于人工智能奇思妙想,研究人员也在不遗余力地研究。在此后的几十年间,人工智能先是被捧为人类文明光明未来的钥匙,后又被当作过于自大的异想天开而抛弃。老实说,在 2012 年之前,人工智能确实处于二者之间。但是在过去几年中,人工智能出现了爆炸式的发展,尤其是 2015 年之后。大部分原因,要归功于图形处理器(GPU)的广泛应用,使得并行处理更快、更便宜、更强大。另外,人工智能的发展还得益于几乎无限的存储空间和海量数据的出现(大数据运动):图像、文本、交易数据、地图数据,应有尽有。下面我们来回顾一下计算机科学家如何让直到 2012 年还处在低潮的人工智能,迎来了数亿人每天都在使用的大繁荣。人工智能:机器展现的人类智能
人工智能:机器展现的人类智能
人工智能先驱们在达特茅斯开会时,心中的梦想是希望通过当时新兴的计算机,打造拥有相当于人类智能的复杂机器。这就是我们所说的“通用人工智能”(General AI)概念,拥有人类五感(甚至更多)、推理能力以及人类思维方式的神奇机器。在电影中我们已经看过无数这样的机器人,对人类友好的 C-3PO,以及人类的敌人终结者。通用人工智能机器至今只存在 于电影和科幻小说里,理由很简单:我们还实现不了,至少目前为止。我们力所能及的,算是“弱人工智能”(Narrow AI):执行特定任务的水平与人类相当,甚至超越人类的技术。现实中有很多弱人工智能的例子。这些技术有人类智能的一面。但是它们是如何做到的?智能来自哪里?这就涉及到下一个同心圆:机器学习。机器学习:实现人工智能的一种方法
机器学习:实现人工智能的一种方法
简单来说,机器学习就是使用算法分析数据,从中学习并做出推断或预测。因此与传统的使用特定指令集手写软件例程,实现特定任务的做法不同,我们使用大量数据和算法来“训练”机器,由此来学习如何完成任务。机器学习的概念来自早期的人工智能研究者,已经研究出的算法包括决策树学习、归纳逻辑编程、增强学习和贝叶斯网络等。众所周知,上述任何一个算法都没有实现通用人工智能的最终目标,而且靠这些早期的机器学习方式甚至都没有实现弱人工智能。许多年来,计算机视觉一直是机器学习最佳的领用领域之一,尽管还需要大量的手动编码才能完成任务。研究者会手动编写一些分类器(classifier),如边缘检测筛选器,帮助程序辨别物体的边界;图形检测分类器,判断物体是否有八个面;以及识别“S-T-O-P”的分类器。在这些手动编写的分类器的基础上,他们再开发用于理解图像的算法,并学习如何判断是否有停止标志。到了这一步已经不错,但还不算惊艳。尤其是在雾天的时候,标志也不是特别清晰,或者会有树遮挡。计算机视觉和图像检测直到最近才达到人类水平也是有原因的:经不住考验,而且容易出错。不过,时间和正确的学习算法改变了这一切。深度学习:实现机器学习的一种技术
深度学习:实现机器学习的一种技术
早期机器学习研究者中还开发了一种叫人工神经网络的算法,但是发明之后数十年都默默无闻。神经网络是受人类大脑的启发而来的:神经元之间的相互连接关系。但是,人类大脑中的神经元可以与特定范围内的任意神经元连接,而人工神经网络中数据传播要经历不同的层,传播方向也不同。举个例子,你可以将一张图片切分为小块,然后输入到神经网络的第一层中。在第一层中做初步计算,然后神经元将数据传至第二层。由第二层神经元执行任务,依次类推,直到最后一层,然后输出最终的结果。每个神经元都会给其输入指定一个权重:相对于执行的任务该神经元的正确和错误程度。最终的输出由这些权重共同决定。因此,我们再来看看上面提到的停止标志示例。一张停止标志图像的属性,被一一细分,然后被神经元“检查”:形状、颜色、字符、标志大小和是否运动。神经网络的任务是判断这是否是一个停止标志。它将给出一个“概率向量”(probability vector),这其实是基于权重做出的猜测结果。在本文的示例中,系统可能会有 86% 的把握认定图像是一个停止标志,7% 的把握认为是一个限速标志,等等。网络架构然后会告知神经网络其判断是否正确。不过这个示例也有点超前了,因为之前大部分时间人工智能研究者们都对神经网络避之不及。神经网络的概念出现的很早,但是没有产出一点像样的“智能”。问题在于即使是最基础的神经网络也要耗费巨大的计算资源,因此当时不算是一个可行的方法。不过,以多伦多大学 Geoffrey Hinton 教授为首的一小批狂热研究者们坚持采用这种方法,最终让超级计算机能够并行执行该算法,并证明该算法的作用。当然这也是采用了 GPU 之后才实现的。如果我们回到停止标志那个例子,很有可能神经网络受训练的影响,会经常给出错误的答案。这说明还需要不断的训练。它需要成千上万张图片,甚至数百万张图片来训练,直到神经元输入的权重调整到非常精确,几乎每次都能够给出正确答案(不管是否为雾天或雨天)。只有在这时,神经网络才算学会了什么是停止标志。Facebook 利用神经网络记住了你母亲的面孔;吴恩达 2012 年在谷歌实现了可以识别猫的神经网络。吴恩达的创新是扩大神经网络的规模,增加网络的层数和神经元数量,然后通过系统运行大量的数据进行训练。吴恩达使用的是 1 千万个 YouTube 视频中的图像。吴恩达真正做到了深度学习中的“深度”。如今,在某些情况下,通过深度学习训练过的机器在图像识别上表现优于人类,这包括找猫、识别血液中的癌症迹象等。谷歌的 AlphaGo 学会了围棋,并为比赛进行了大量的训练:不断的和自己比赛。深度学习赋予了人工智能美好的未来深度学习使得机器学习乃至人工智能整个领域出现了众多实际应用。深度学习的出现,使得任何机器协助看上去都成为可能。无人驾驶汽车,更好的预防性医疗,甚至更棒的电影推荐,都已经实现或即将实现。人工智能已经成为现实,也是我们的未来。在深度学习的帮助下,人工智能甚至可能达到我们一直有以来幻想的科幻状态。我猜,未来你会有自己的 C-3PO,甚至包括终结者。
读最经典的书,做最真实的人。

我要回帖

 

随机推荐