手机能提个现的赌拖有什么好处博游戏;熟练掌握什么技能?

自然语言处理和大部分的或者人工智能领域的技术一样,是一个涉及到多个技能、技术和领域的综合体。

所以自然语言处理工程师会有各种各样的背景,大部分都是在工作中自学或者是跟着项目一起学习的,这其中也不乏很多有科班背景的专业人才,因为技术的发展实在是日新月异,所以时刻要保持着一种强烈的学习欲望,让自己跟上时代和技术发展的步伐。本文作者从个人学习经历出发,介绍相关经验。

图1 自然语言处理工程师技能树

数学对于自然语言处理的重要性不言而喻。当然数学的各个分支在自然语言处理的不同阶段也会扮演不同的角色,这里介绍几个重要的分支。

代数作为计算数学里面很重要的一个分支,在自然语言处理中也有举足轻重的作用。这一部分需要重点关注矩阵处理相关的一些知识,比如矩阵的SVD、QR分解,矩阵逆的求解,正定矩阵、稀疏矩阵等特殊矩阵的一些处理方法和性质等等。

对于这一部分的学习,既可以跟着大学的代数书一起学习,也可以跟着网上的各种公开课一起学习,这里既可以从国内的一些开放学习平台上学,也可以从国外的一些开放学习平台上学。这里放一个学习的链接,网易公开课的链接:线性代数#/search/all。(其他的资料或者平台也都OK)。

在很多的自然语言处理场景中,我们都是算一个事件发生的概率。这其中既有特定场景的原因,比如要推断一个拼音可能的汉字,因为同音字的存在,我们能计算的只能是这个拼音到各个相同发音的汉字的条件概率。也有对问题的抽象处理,比如词性标注的问题,这个是因为我们没有很好的工具或者说能力去精准地判断各个词的词性,所以就构造了一个概率解决的办法。

对于概率论的学习,既要学习经典的概率统计理论,也要学习贝叶斯概率统计。相对来说,贝叶斯概率统计可能更重要一些,这个和贝叶斯统计的特性是相关的,因其提供了一种描述先验知识的方法。使得历史的经验使用成为了可能,而历史在现实生活中,也确实是很有用的。比如朴素贝叶斯模型、隐马尔卡模型、最大熵模型,这些我们在自然语言处理中耳熟能详的一些算法,都是贝叶斯模型的一种延伸和实例。

这一部分的学习资料,也非常丰富,这里也照例对两种概率学习各放一个链接,统计学导论,贝叶斯统计:。

信息论作为一种衡量样本纯净度的有效方法。对于刻画两个元素之间的习惯搭配程度非常有效。这个对于我们预测一个语素可能的成分(词性标注),成分的可能组成(短语搭配)非常有价值,所以这一部分知识在自然语言处理中也有非常重要的作用。

同时这部分知识也是很多机器学习算法的核心,比如决策树、随机森林等以信息熵作为决策桩的一些算法。对于这部分知识的学习,更多的是要理解各个熵的计算方法和优缺点,比如信息增益和信息增益率的区别,以及各自在业务场景中的优缺点。照例放上一个链接:。

这部分内容的重要性就不做赘述了。学习了上面的基础知识,只是万里长征开始了第一步,要想用机器实现对自然语言的处理,还是需要实现对应的数据结构和算法。这一部分也算是自然语言处理工程师的一个看家本领。这一部分的内容也是比较多的,这里就做一个简单的介绍和说明。

首先数据结构部分,需要重点关注链表、树结构和图结构(邻接矩阵)。包括各个结构的构建、操作、优化,以及各个结构在不同场景下的优缺点。当然大部分情况下,可能使用到的数据结构都不是单一的,而是有多种数据结构组合。比如在分词中有非常优秀表现的双数组有限状态机就使用树和链表的结构,但是实现上采用的是链表形式,提升了数据查询和匹配的速度。在熟练掌握各种数据结构之后,就是要设计良好的算法了。

伴随着大数据的不断扩张,单机的算法越来越难发挥价值,所以多数场景下都要研发并行的算法。这里面又涉及到一些工具的应用,也就是编程技术的使用。例如基于Hadoop的MapReduce开发和Spark开发都是很好的并行化算法开发工具,但是实现机制却有很大的差别,同时编程的便利程度也不一样。

当然这里面没有绝对的孰好孰坏,更多的是个人使用的习惯和业务场景的不同而不同。比如两个都有比较成熟的机器学习库,一些常用的机器学习算法都可以调用库函数实现,编程语言上也都可以采用,不过Spark场景下使用Scala会更方便一些。因为这一部分是偏实操的,所以我的经验会建议实例学习的方法,也就是跟着具体的项目学习各种算法和数据结构。最好能对学习过的算法和数据结构进行总结回顾,这样可以更好的得到这种方法的精髓。因为基础的元素,包括数据结构和计算规则都是有限的,所以多样的算法更多的是在不同的场景下,对于不同元素的一个排列组合,如果能够融会贯通各个基础元素的原理和使用,不管是对于新知识的学习还是对于新解决方案的构建都是非常有帮助的。

对于工具的选择,建议精通一个,对于其他工具也需要知道,比如精通Java和MapReduce,对于Spark和也需要熟悉,这样可以在不同的场景下使用不同的工具,提升开发效率。这一部分实在是太多、太广,这里不能全面地介绍,大家可以根据自己的需求,选择合适的学习资料进行学习。这里给出一个学习基础算法(包含排序、图、字符串处理等)的课程链接:。

这一部分就更多是语文相关的知识,比如一个句子的组成成分包括:主、谓、宾、定、状、补等。对于各个成分的组织形式也是多种多样。比如对于主、谓、宾,常规的顺序就是:主语→谓语→宾语。当然也会有:宾语→主语→宾语(饭我吃了)。这些知识的积累有助于我们在模型构建或者解决具体业务的时候,能够事半功倍,因为这些知识一般情况下,如果要被机器学习,都是非常困难的,或者会需要大量的学习素材,或许在现有的框架下,机器很难学习到。如果把这些知识作为先验知识融合到模型中,对于提升模型的准确度都是非常有价值的。

在先期的研究中,基于规则的模型,大部分都是基于语言模型的规则进行研究和处理的。所以这一部分的内容对于自然语言处理也是非常重要的。但是这部分知识的学习就比较杂一些,因为大部分的自然语言处理工程师都是语言学专业出身,所以对于这部分知识的学习,大部分情况都是靠碎片化的积累,当然也可以花一些精力,系统性学习。对于这部分知识的学习,个人建议可以根据具体的业务场景进行学习,比如在项目处理中要进行同义词挖掘,那么就可以跟着“百科”或者“搜索引擎”学习同义词的定义,同义词一般会有什么样的形式,怎么根据句子结构或者语法结构判断两个词是不是同义词等等。

随着深度学习在视觉和自然语言处理领域大获成功,特别是随着AlphaGo的成功,深度学习在自然语言处理中的应用也越来越广泛,大家对于它的期望也越来越高。所以对于这部分知识的学习也几乎成为了一个必备的环节(实际上可能是大部分情况,不用深度学习的模型,也可以解决很多业务)。

对于这部分知识,现在流行的几种都是需要学习和关注的,特别是循环神经网络,因为其在处理时序数据上的优势,在自然语言处理领域尤为收到追捧,这里包括单项RNN、双向RNN、LSTM等形式。同时新的学习框架,比如对抗学习、增强学习、对偶学习,也是需要关注的。其中对抗学习和对偶学习都可以显著降低对样本的需求,这个对于自然语言处理的价值是非常大的,因为在自然语言处理中,很重要的一个环节就是样本的标注,很多模型都是严重依赖于样本的好坏,而随着人工成本的上升,数据标注的成本越来越高,所以如果能显著降低标注数据需求,同时提升效果,那将是非常有价值的。

现在还有一个事物正在如火如荼地进行着,就是知识图谱,知识图谱的强大这里就不再赘述,对于这部分的学习可能更多的是要关注信息的链接、整合和推理的技术。不过这里的每一项技术都是非常大的一个领域,所以还是建议从业务实际需求出发去学习相应的环节和知识,满足自己的需求,链接。

随着知识图谱在搜索领域的大获成功,以及知识图谱的推广如火如荼地进行中,现在的自然语言处理有明显和知识图谱结合的趋势。特别是在特定领域的客服系统构建中,这种趋势就更明显,因为这些系统往往要关联很多领域的知识,而这种知识的整合和表示,很适合用知识图谱来解决。随着知识图谱基础工程技术的完善和进步,对于图谱构建的容易程度也大大提高,所以自然语言处理和知识图谱的结合就越来越成为趋势。

语义理解仍然是自然语言处理中一个难过的坎。目前各项自然语言处理技术基本已经比较成熟,但是很多技术的效果还达不到商用的水平。特别是在语义理解方面,和商用还有比较大的差距。比如聊天机器人现在还很难做到正常的聊天水平。不过随着各个研究机构和企业的不断努力,进步也是飞速的,比如微软小冰一直在不断的进步。

对于新的深度学习框架,目前在自然语言处理中的应用还有待进一步加深和提高。比如对抗学习、对偶学习等虽然在图像处理领域得到了比较好的效果,但是在自然语言处理领域的效果就稍微差一些,这里面的原因是多样的,因为没有深入研究,就不敢妄言。

目前人机对话、问答系统、语言翻译是自然语言处理中的热门领域,各大公司都有了自己的语音助手,这一块也都在投入大量的精力在做。当然这些上层的应用,也都依赖于底层技术和模型的进步,所以对于底层技术的研究应该说一直是热门,在未来一段时间应该也都还是热门。之前听一个教授讲过一个故事,他是做parser的,开始的时候很火,后来一段时间因为整个自然语言处理的效果差强人意,所以作为其中一个基础工作的parser就随之受到冷落,曾经有段时间相关的期刊会议会员锐减,但是最近整个行业的升温,这部分工作也随之而受到重视。不过因为他一直坚持在这个领域,所以建树颇丰,最近也成为热门领域和人物。

所以在最后引用一位大牛曾经说过的话:“任何行业或者领域做到头部都是非常有前途的,即使是打球,玩游戏。”(大意)

笔者是跟着项目学习自然语言处理的,非科班出身,所以的经验难免会有偏颇,说出来仅供大家参考, 有不足和纰漏的地方敬请指正。

要做算法研究,肯定需要一定的知识积累,对于知识积累这部分,我的经验是先学数学理论基础,学的顺序可以是代数→概率论→随机过程。当然这里面每一科都是很大的一个方向,学的时候不必面面俱到,所有都深入理解,但是相对基础的一些概念和这门学科主要讲的是什么问题一定要记住。

在学习了一些基础数学知识之后,就开始实现——编写算法。这里的算法模型,建议跟着具体的业务来学习和实践,比如可以先从识别垃圾邮件这样的demo进行学习实验,这样的例子在网上很容易找到,但是找到以后,一定不要看看就过去,要一步一步改写拿到的demo,同时可以改进里面的参数或者实现方法,看看能不能达到更好的效果。个人觉得学习还是需要下苦功夫一步一步模仿,然后改进,才能深入的掌握相应的内容。对于学习的资料,上学时期的各个教程即可。

工欲善其事必先利其器,所以好的工具往往能事半功倍。在工具的选择上,个人建议,最高优先级的是Python,毕竟其的宣传口语是:人生苦短,请用Python。第二优先级的是Java,基于Java可以和现有的很多框架进行直接交互,比如Hadoop、Spark等等。对于工具的学习两者还是有很大的差别的,Python是一个脚本语言,所以更多的是跟着“命令”学,也就是要掌握你要实现什么目的来找具体的执行语句或者命令,同时因为Python不同版本、不同包对于同一个功能的函数实现差别也比较大,所以在学习的时候,要多试验,求同存异。

对于Java就要学习一些基础的数据结构,然后一步一步的去编写自己的逻辑。对于Python当然也可以按照这个思路,Python本身也是一个高级编程语言,所以掌握了基础的数据结构之后,也可以一步一步的实现具体的功能,但是那样好像就失去了slogan的意义。

自然语言处理领域也算是一个知识密集型的行业,所以知识的更新迭代非常的快,要时刻关注行业、领域的最新进展。这个方面主要就是看一些论文和关注一些重要的会议,对于论文的获取,Google Scholar、arxiv都是很好的工具和资源(请注意维护知识产权)。会议就更多了KDD、JIST、CCKS等等。

自然语言生成:从计算机数据生成文本。目前用于客户服务、报告生成和总结商业智能洞察。   语音识....

本章节主要学习TensorFlow的基础语法及功能函数。学完本章后,TensorFlow代码对你来讲....

长安汽车在重庆召开新闻发布会,正式发布“北斗天枢”智能化战略,并首次公布“4+1” 行动计划。长安汽....

在相当长的时间内,人工智能只能服务医生,辅助医生,不可能取代医生,因为部分疾病需要根据病史和患者各个....

人工智能的发展曾经经历过几次起起伏伏,近来在深度学习技术的推动下又迎来了一波新的前所未有的高潮。

近日,国内三大安防企业海康威视、大华股份以及宇视科技(千方科技)相继发布2018年上半年业绩报告,呈....

当今社会,安全检查就成为了我们在出行过程中不可避免需要经历的过程,安检帮助我们发现危险品,有效杜绝安....

近日,从工业和信息化部获悉,今年以来,国内多个省市积极推进人工智能产业发展,在工业和信息化部和各省市....

随着云计算、大数据、算法技术等条件的成熟,人工智能(AI)在产品优化、消费提升、攻克顽疾、应对气候变....

Graham Taylor 是 CIFAR 机器和大脑学习项目的全球学者,任圭尔夫大学和矢量研究所工....

在2017年我们推出了一个技术叫做PSPNet(见上图)。这是我们学校的研究组和商汤科技一起开发的,....

物联网已经成为近几年的热门话题,目前的发展情况也是非常好,特别是在智慧城市、工业、安防、交通等领域,....

韩国科学技术院(KAIST)上周在大田市举办了“人工智能世界杯”,证明人工智能已经准备好进入足球世界....

智慧城市的建设是一个浩大的系统性工程,需要达成多维度的协同化运作,实现数据上的联通,技术上的整合协作....

NVIDIA RTX 平台自面市以来一跃成为行业标准游戏开发平台,成功将实时光线追踪技术运用至游戏。....

随着人工智能底层技术的相对成熟,语音交互机器人、公共服务机器人、早教机器人等产品陆续进入大众视野,A....

上海发那科机器人有限公司总经理钱晖在2018年世界机器人大会上表示,机器人正在变得越来越智能,从最初....

数千年来,月球一直引人遐想,但关于它以及太阳系的历史,仍有数不清的问题悬而未决。有些答案就存在于月球....

客服作为企业直接接触用户和消费者的重要环节,在很大程度上影响着企业的销售业绩、服务质量以及品牌建设。....

更让人惊喜的是,优必选今年还带来了两款创新产品——便携式机器人悟空和智能巡检机器人ATRIS,以及首....

为了衡量手术是否成功,脑外科医生通常会对比术前和术后的MRI扫描图,以确定肿瘤是否被成功切除。由于对....

在最近举行的2018世界机器人大会上,机器人前沿技术和产业发展话题引起社会关注。我国机器人产业现状如....

曾祥永说:“目前国内很多教育机构有意向采用人脸识别技术统计学员的到课情况,以及课堂效果的评估,而FR....

鸿海精密在台湾证交所公告称,其子公司以1000万美元收购北京蓦然认知科技有限公司的开曼子公司的12%....

为什么Nvidia会在这个复杂的芯片上放这么多不同类型的处理器和加速器呢?目前自动驾驶所需的软件和数....

中国在过去美国人的眼中,只善于负责而缺乏创新,但如今,这种认知将完全被颠覆。时下数据被冠于 "新的石....

人工智能已经上升为国家战略,面向AI的全球竞争已经拉开大幕。长虹以人工智能为切入点,基于物联网、大数....

据介绍,EU5 定位为“人工智能轿车新典范”,按里程长短,分为R500、R550两个版本。其中,R5....

经常关注科技圈的朋友们,想必最近都被“2018中国人工智能大会”这条新闻刷了屏,人工智能自1956年....

经济的数字化转型发展是全球新一轮科技和产业革命最典型的标志,其中最关键的动力来自人工智能等前沿技术的....

中国的人工智能消费者类产品还处在初级的系统集成阶段,仍然需要进一步加大对于市场和人工智能的技术认知。

近年来,物联网、云计算、大数据、人工智能等专业名词愈来愈成为信息产业和科学技术界的热门词汇,这四者紧....

随着人工智能变得越来越聪明,关于AI将消灭人类的说法也不断涌现出来。事实上,很多大人物都在呼吁人们提....

 Arm公司是全球知名的半导体知识产权 (IP) 提供商,全世界超过95%的智能手机和平板电脑都采用....

新闻稿将该公司区块链平台的“品牌战略”描述为“科学、哲学和艺术的化身,它就像列奥纳多?达?芬奇(Le....

华登国际的投资史可谓战功赫赫。据陈立武先生表示,其华登国际这三十年历史中,大概投了500多家公司,其....

人工智能追求的长期目标是使机器能像人类一样感知世界和解决问题。对当前人工智能而言,解决某些对人类来说....

是的,人类选择尊重AI的学习自主性。去年10月,DeepMind团队发布了一个新的棋类AI:Alph....

据Glassdoor最近的一份报告,在过去四年中,美国薪酬最高的工作岗位都是技术部门。苹果、亚马逊、....

首届中国国际智能产业博览会今日在重庆开幕,Qualcomm Incorporated总裁克里斯蒂安诺....

在所有这些关于人工智能、机器学习和认知技术的炒作和热潮中,早就存在一种不安感:一项从计算机诞生之初就....

据智电网,8月20日工业和信息化部门发布了今年前6个月家电行业运行情况。今年上半年,家用电器行业主营....

日前,市轨道办官方微信发布深圳地铁 14 号线最新进展。据悉,深圳地铁 14 号线连接福田中心区和龙....

聚集中英创新力量,共同推进新型智慧城市建设。

人工智能正在推动一场新的工业革命,其影响范围小则涉及个人生活,大则影响国家安全,让人们在期待的同时,....

人工智能学科研究的主要内容包括:知识表示、自动推理和搜索方法、机器学习和知识获取、知识处理系统、自然....

摘要: 阅读本文以了解更多关于人工智能、机器学习和深度学习方面的知识,以及它们对商业化意味着什么。 如果正确的利用模式识...

摘要: 阅读本文以了解更多关于人工智能、机器学习和深度学习方面的知识,以及它们对商业化意味着什么。 如果正确的利用模式识...

1、背景a、鹅厂近期发布了自己的,包括身份证ocr、名片ocr、文本分析等一堆API,因为前期项目用到图形OCR,遂实现试用了一...

作为模式识别或者机器学习的爱好者,同学们一定听说过支持向量机这个概念,这可是一个,在机器学习中避不开的重要问题。 其...

这里是新增设的「1024创意街」栏目,我是1024君。 在这里我们将邀请不同领域的创意分享者,和大家共同分享关于AI的超有趣...

AI/DL在迅速发展 随着数据量的爆发式增长和计算能力的不断提升,以及在算法上的不断突破,人工智能(AI,Artificial In...

编者按: 最新的数据显示,目前,我国约有2.2亿人患有不同程度的听力损失,患有中度以上听力损失的占有7000多万。他们生活在...

近年来,人脸识别技术以燎原之势迅速落地生根。除了“刷脸”进站、“刷脸”支付、“刷脸”签到、“刷脸”执法等社会型应用以外,...

过去二十年,全国互联网公司数量呈现爆炸性增长,诞生了阿里、京东、腾讯、百度等互联网行业巨头。如今,云计算、大数据、人工智...

我要回帖

更多关于 赌拖 的文章

 

随机推荐