excel数据处理兼职问题

没有更多推荐了,
加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!我为什么要在Excel和R之间徘徊——数据分析者的基本修养这两天兴致上头,暂时把数据分析的学习抛诸脑后,竟然去写Calligraphy的文章去了。但是,我也没有偷懒。就在这几天之内,我想了一些问题。其中有一个很重要的,就是对于立志成为Data Scientist的朋友而言(或者有志于投研、量化、咨询这些会间接接触数据分析的朋友),他们究竟需要怎样的知识结构?一、知识结构:Data Scientist的能力值就像FIFA里面球员的能力值雷达图一样,每个人的能力都有所侧重。图片是网上随便找来的。可以看出这是一位进攻强,速度快,技术与身体都很不错的球员。与此相对的,其防守和意识是明显的短板。我们甚至可以推测:他应该是一名锋线球员。不得不说,每个球员都希望像C罗一样,六项能力近乎全满。然而毕竟人的精力与天赋都有边界,不是每个人都能够达到完美。所以更多的人会成为角色球员,侧重于一种或几种能力。毕竟足球讲究团队合作,各种专精于单项的角色球员相互配合,每个人能力互补,才是实现球队实力最大化的最佳策略。在数据分析当中,也有几项基本能力,可以组成类似的雷达图。我在此借鉴一下Rachel Schutt《数据科学实战》的说法,把数据科学家的能力分成七大块,分别是:数据可视化,机器学习,数学,统计学,计算机科学,沟通技巧,领域知识。为了方便,我们干脆把数据可视化和统计学归在一起,统称为统计学,这样就变成了六项能力——机器学习,数学,统计学,计算机科学,沟通技巧,领域知识机器学习:机器学习是计算机科学里的一个分支,与人工智能密切相连。我们凭借自己的智慧进行统计分析时,无非是通过各种手段来寻找数据的规律和其中内蕴的逻辑。而这些方法可以统统教给计算机,让计算机代替人脑进行很多繁重的工作。数学能力:应该主要指的是“提供算法的能力”。也就是说,当实际问题被提出之后,精通数学的数据科学家应当能够提出一套完整的算法,让问题得以量化,并能够顺利地交给计算机解决。比如提出目标“依据上市公司财务指标,建立一个有效的选股模型”,那么数据科学家们应当合力建立基本的假设,指定每项指标对于选股结果的可能影响,再由数学家们分别量化,建立算法,开始模型回测和改善。统计学能力:这应该是所有数据科学家必须具备的能力。统计学包括描述统计和推断统计两大块,描述统计主要包括实验设计、调查设计、探索性数据分析和数据可视化等内容,而推断统计内容比较复杂,内容很难统一概括,只能概括为回归分析、时序分析、最优化分析等等模块化的内容。描述统计的知识大多很直观。相对应的,在实务当中,描述统计一般用来实现复杂数据分析系统和简单外界的对接。具体来讲,通过实验/调查设计,获取第一手数据;通过探索性数据分析,探索数据的基本特征(均值、离散程度等),并寻找分析的切入点;通过数据可视化,把数据分析结果以简单易懂的方式呈现出来。推断统计的知识则抽象、艰深、模块化。除掉参数估计、假设检验之类基础性的内容,其余的回归分析、方差分析、时序分析之类,都是基于基本的原理之下的固定套路,分别构成独立的模块。但他们的根本目标都是一致的:探索数据内或数据间的相关、因果、差异或是特定规律。正因为推断统计的可量化性,所以大数据分析会更加离不开它。正因为其抽象性,所以必须有艰深的数学知识和完善的计算机知识辅助推断统计的开展。计算机科学:计算机是当前几乎所有工业和商业项目最重要的生产工具。基于数学和统计学的任何构想,都必须借由计算机科学加以实现。而用于数据分析的计算机工具也是五花八门,包括但不限于R, Python, SAS, SPSS, Stata, Excel。
回想一下我们的题目,为什么要把R和Excel进行对立?我们待会开始说明。沟通技巧:掌握沟通技巧,意味着你的客户跟你的交流会愉悦而高效,也意味着你能够有效地把信息在团队内部进行传递。毕竟一方面,客户对于数据分析必然不如你的团队了解,你对于客户也不会知根知底;另一方面,团队里的码农和数学家可能都是nerds,彼此聊天会产生牛头不对马嘴的感觉。所以,沟通技巧是串联团队的重要技巧,也是与客户深入接触、共谋成事的专业能力。领域知识:任何数据分析,都必须首先基于合理的逻辑。例如,我们一般不会拿企业的资产对负债和所有者权益的时间序列数据进行回归,因为任何稍有财务常识的人都知道资产=负债+所有者权益,这样的回归分析往往无法产生任何有意义的结果。每一个Data Scientist都不可能全知全能。在做到具体项目的时候,每项具体数据的解读可能会成为巨大的难题,需要该领域内的专家来阐述它们之间的内在逻辑。否则,数据分析很可能会生产出毫无意义的结果,甚至是错误的结果。六项能力解释完了。但值得一提的是:首先,这六项能力的重要性并不一致。就像球员的进攻能力和防守能力,究竟哪个比较重要?我们无法回答这个问题。其次,六项能力之间有很多交叉。例如,球员的进攻能力和速度,毫无疑问是相关的,速度更快的球员往往进攻能力会更强。对于Data Scientist而言,数学能力更强,往往意味着统计学能力也会更强。最后,六项能力很难量化。我们需要耗费很多精力,才能定下一个考评体系,给每一位Data Scientist的每项能力进行精确的打分。譬如,John的数据可视化能力为什么要给70分?他比数据可视化得到65分的Mike强在哪里?所以说,更多时候,这六项能力只是一个大致的参考。 举例说明。我心目中,数据分析团队的Leader应该是这样的:各项能力都趋近完美,才能成为Leader。而尤其突出的沟通技巧,保证了Leader在客户面前能够表现出色,也能很好地为下属分配任务。对于领域知识的高度理解加上出色的统计学知识,让Leader能够轻松理解项目的数据逻辑,不至于带领团队误入歧途。略逊的机器学习、计算机科学和数学能力,可以让团队中的数学家和高级程序员们加以补足。理想的高级程序员,则往往没有Leader那样完美的数据。但他们必须拥有完美的机器学习和计算机科学能力,从而能够独立担当起任何算法的实现。而作为理科生,他们的数学和统计学也不能太差。至于领域知识和沟通技巧,反倒不是那么重要了。(没有黑的意思。。)我也给自己做了一个主观评分,大致如下图:得益于还算丰富的实习经历,所以我的沟通技巧还可以。而统计学是我的专业,相对不会太差。关于领域知识,由于本科学习的是金融学,所以也只限于金融领域。至于计算机科学和机器学习能力,由于刚开始学习不久,基本还是荒原状态。能力值分布,很大程度上决定了你在数据分析团队内可能所处的位置。我反思自己的能力值:目前来讲短板非常严重。如果要进入数据分析团队,可能也只能打打杂,或者在培训之后成为客户经理。毫无疑问,如果我想改变这一处境,就必须付出大量针对性的努力。目前来看,对我而言最合适的方向是成为团队内的客户经理。这意味着我必须把沟通技巧、领域知识和数据可视化能力进一步提高,同时补上机器学习和计算机科学的短板。而若能够进一步提高,也许终有一日,能够胜任leader。二、我为什么要把R和Excel对立起来?经过刚刚的分析,大家可能发现,我们是在用能力值建立模型。模型指向的目标,则是一个非常重要的话题:Data Scientist的职业规划。模型中,Data Scientist的不同“方向”被区分开来、对立起来。码农和客户经理走的不会是同一条路,它们的能力值侧重点也就截然相反。这就是我今天一直在思考的内容:R和Excel的对立,不仅是数据分析工具的对立,也是数据分析“方向”的对立。对于资深的Data Scientist而言,R和Excel的区别早就了然于心。R和Python,Javascript等“写代码”的数据分析工具,注定是要被贴上这样的标签:后台的、抽象的、艰深的、专业化的。而Excel,作为处于鄙视链最底端的工具,它的标签应该是:直观的,易于上手的,应用广泛的,便于交流的。我的职业领域偏向于金融。只要看一看金融领域的招聘、实习信息,就能知道这个行业的风向是怎样。随便在这几天推送的实习信息里截了几张图。这绝对不是有偏样本,因为所有提到了软件Skill方面要求的,我全都截过来了。当然,由于现在不是校招高峰期,所以没有找到相关的招聘信息。(其实就是懒的去找)很显然,Excel能力才是真正的基本能力,乃至于根本能力。而R,SAS这些逼格满满的神器,可能只被当做是“附加能力”了。三、既然Excel这么重要,我为什么还要徘徊于R和Excel之间?这就是一个技能树的问题了。我们的职业规划,需要参照的方向非常之多。比如,2015年高考之际,正值牛市转熊、千股跌停的关头。7月家长们填志愿的时候,估计在看到财经类院校的时候,心里都会咯噔一下,依稀想起上天台的恐怖。虽然没有数据支持,但是讲道理,财经类院校的分数理应比往年会有一定的下降。虽然我们都知道,我国牛熊大致7年一循环。也就是说,在2015年高考的少年少女们读完本科+研究生,毕业实习的当口,正好能赶上下一波牛市。但是大部分普通人并不会有这样的考虑。我们以上帝视角来看,会说这些没有远见的人们“目光短浅”。但是谁也不比谁强,这恰恰是我们每天也在犯的错误——是否Excel在当下火爆、好用,就只学习Excel呢?是否R能力在毕业之际,无法产生一票胜诉的压倒性优势,就不学习R呢?很显然,最终的答案,还是一片混沌。R能力在职业规划的道路上,终究是有一席之地的。终有一天,我们要脱离每日只和Excel打交道的日子,转而对着Rstudio敲起代码(或者对着SAS,对着Python界面等等)。这种时候,我们也许已经成为了数据分析团队中的Leader,或是高级程序员之类。一切都要取决于职业规划。还是搬出自己的例子。虽然我学了一段时间的R(明明才一个多月。。),然而我明显地发现,现在这个时间节点上,提高Excel能力,会对我有更多的帮助。理性人考虑边际量,我应该会选择短期内补一补Excel。但长期而言,R的学习并没有必要中断。通过在项目和日常的数据分析情境中,以R的思维进行思考,外加闲暇时读一读R的书籍和专栏文章,能够让我的R能力有长足的提升。写这一篇文章呢,也是希望每一位学习数据分析的朋友,要从结果出发看问题。不要盯着一项技能不放,而要参照自己的真实需要。一切学习都不是盲目的,而要服从于自己的职业规划。或者我们放到更高层次来说,任何时候,“应该学习什么知识”都是一件需要多动脑子的事情。如果文章的观点对你有用,麻烦点个赞吧~欢迎持续关注我的数据分析学习笔记,目录在下面——26416 条评论分享收藏文章被以下专栏收录我不喜欢冷冰冰的课本,喜欢带着温情和关怀来讲专业知识。我拒绝学院派不近人情的知识象牙塔,致力于介绍从实务、从现实出发的实用数据分析思维。
专栏里会陆续写R,SAS,以及很多数据分析实用工具。欢迎共同学习数据分析的朋友们关注,希望我的经验能够带给你们一些帮助。&数据分析报告展示
关于洛阳市 5 PM2.5
的影响因素分析及预测研究
外出兼职对大学生成长的影响分析
北京市GDP分析及预测报告
分析师:56071人
在线学习:64082人
证书 | 成绩
&&证书查询
数据分析师
调查分析师
&&成绩查询
&关注校企平台公众号
@ Copyright . Collect From 中国大数据分析师官网

我要回帖

更多关于 excel数据处理兼职 的文章

 

随机推荐