facebook数据中心和亚马逊的数据科学家哪边职位更好

出处: 随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是中国统计网为大家翻译的数据科学家面试常见的77个问题
下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。
1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。
2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?
3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?
4、什么是:协同过滤、n-grams, map reduce、余弦距离?
5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?
6、如何设计一个解决抄袭的方案?
7、如何检验一个个人支付账户都多个人使用?
8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?
9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义“好”?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好?
10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言?
11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?
12、你最喜欢的编程语言是什么?为什么?
13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。
14、SAS, R, Python, Perl语言的区别是?
15、什么是大数据的诅咒?
16、你参与过数据库与数据模型的设计吗?
17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法?
18、你喜欢TD数据库的什么特征?
19、如何你打算发100万的营销活动邮件。你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗?
20、如果有几个客户查询ORACLE数据库的效率很低。为什么?你做什么可以提高速度10倍以上,同时可以更好处理大数量输出?
21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?
22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?
23、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?
24、请举例说明mapreduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些?
25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表,对于内在或者运行速度来说?对于数据库分析的评价?
26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法?
27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下)
28、什么是星型模型?什么是查询表?
29、你可以使用excel建立逻辑回归模型吗?如何可以,说明一下建立过程?
30、在SQL, Perl, C++, Python等编程过程上,待为了提升速度优化过相关代码或者算法吗?如何及提升多少?
31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案?取决于什么内容?
32、定义:QA(质量保障)、六西格玛、实验设计。好的与坏的实验设计能否举个案例?
33、普通线性回归模型的缺陷是什么?你知道的其它回归模型吗?
34、你认为叶数小于50的决策树是否比大的好?为什么?
35、保险精算是否是统计学的一个分支?如果不是,为何如何?
36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱的数案例。
37、为什么说均方误差不是一个衡量模型的好指标?你建议用哪个指标替代?
38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比?你对A/B测试熟吗?
39、什么是敏感性分析?拥有更低的敏感性(也就是说更好的强壮性)和低的预测能力还是正好相反好?你如何使用交叉验证?你对于在数据集中插入噪声数据从而来检验模型的敏感性的想法如何看?
40、对于一下逻辑回归、决策树、神经网络。在过去15年中这些技术做了哪些大的改进?
41、除了主成分分析外你还使用其它数据降维技术吗?你怎么想逐步回归?你熟悉的逐步回归技术有哪些?什么时候完整的数据要比降维的数据或者样本好?
42、你如何建议一个非参数置信区间?
43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率?
44、什么是归因分析?如何识别归因与相关系数?举例。
45、如何定义与衡量一个指标的预测能力?
46、如何为欺诈检验得分技术发现最好的规则集?你如何处理规则冗余、规则发现和二者的本质问题?一个规则集的近似解决方案是否可行?如何寻找一个可行的近似方案?你如何决定这个解决方案足够好从而可以停止寻找另一个更好的?
47、如何创建一个关键字分类?
48、什么是僵尸网络?如何进行检测?
49、你有使用过API接口的经验吗?什么样的API?是谷歌还是亚马逊还是软件即时服务?
50、什么时候自己编号代码比使用数据科学者开发好的软件包更好?
51、可视化使用什么工具?在作图方面,你如何评价Tableau?R?SAS?在一个图中有效展现五个维度?
52、什么是概念验证?
53、你主要与什么样的客户共事:内部、外部、销售部门/财务部门/市场部门/IT部门的人?有咨询经验吗?与供应商打过交道,包括供应商选择与测试。
54、你熟悉软件生命周期吗?及IT项目的生命周期,从收入需求到项目维护?
55、什么是cron任务?
56、你是一个独身的编码人员?还是一个开发人员?或者是一个设计人员?
57、是假阳性好还是假阴性好?
58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗?分别给案例。
59、Zillow’s算法是如何工作的?
60、如何检验为了不好的目的还进行的虚假评论或者虚假的FB帐户?
61、你如何创建一个新的匿名数字帐户?
62、你有没有想过自己创业?是什么样的想法?
63、你认为帐号与密码输入的登录框会消失吗?它将会被什么替代?
64、你用过时间序列模型吗?时滞的相关性?相关图?光谱分析?信号处理与过滤技术?在什么样的场景下?
65、哪位数据科学有你最佩服?从哪开始?
66、你是怎么开始对数据科学感兴趣的?
67、什么是效率曲线?他们的缺陷是什么,你如何克服这些缺陷?
68、什么是推荐引擎?它是如何工作的?
69、什么是精密测试?如何及什么时候模拟可以帮忙我们不使用精密测试?
70、你认为怎么才能成为一个好的数据科学家?
71、你认为数据科学家是一个艺术家还是科学家?
72、什么是一个好的、快速的聚类算法的的计算复杂度?什么好的聚类算法?你怎么决定一个聚类的聚数?
73、给出一些在数据科学中“最佳实践的案例”。
74、什么让一个图形使人产生误解、很难去读懂或者解释?一个有用的图形的特征?
75、你知道使用在统计或者计算科学中的“经验法则”吗?或者在商业分析中。
76、你觉得下一个20年最好的5个预测方法是?
77、你怎么马上就知道在一篇文章中(比如报纸)发表的统计数字是错误,或者是用作支撑作者的论点,而不是仅仅在罗列某个事物的信息?例如,对于每月官方定期在媒体公开发布的失业统计数据,你有什么感想?怎样可以让这些数据更加准确?
您可能也喜欢:
相关 [数据 科学家 面试] 推荐:
- 互联网分析
随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件. 或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是中国统计网为大家翻译的数据科学家面试常见的77个问题. 下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考. 1、你处理过的最大的数据量.
- 互联网分析
《哈佛商业评论》(Harvard Business Review)近期声称,21世纪最性感的工作是数据科学家. 这一美国商学院期刊表示,数据科学家集“数据黑客、分析师、沟通大师和受信任的顾问”于一身,并指出,这种技能的结合极为罕见. 这正是全球各地诸多企业的问题所在. 尽管公司经理深知大数据所能带来的效益,但他们难以找到拥有合适技能的人才.
- 景峰 - 《程序员》杂志官网
文 / Jeff Hammerbacher. Facebook有了“自知之明”. 在2005年9月,Facebook首次向非大学生公开,允许高中生注册账号. 忠实的用户愤怒了,但Facebook团队认为这是为网站做出的正常方向. 那么它该如何证明它的方案是正确的呢. 此外,在几乎所有可登录Facebook网站的学校中,Facebook已经渗入学生当中,但还是在有部分学校中,该网站一直不受青睐.
- 互联网分析
在互联网企业中,LinkedIn是一家出了名的“慢公司”,但LinkedIn也是最成功的社交网络,用户品质、广告价值都是行业翘楚,秘密在于LinkedIn有一个高效的数据科学家团队. 作为社交网络, LinkedIn并不是最大的,也不是生长最快的. 成立于2003年的LinkedIn, 花了500天, 才达到了100万用户.
- 互联网分析
数据科学家到底应该具备哪些技能. 对于这个新兴职业的定位和展望,我们也许Facebook的招聘说明中找到答案. Facebook近日公开招募数据科学家,负责分析Facebook拥有的全球最大的人际关系数据库. 在
Facebook的数据科学家招聘说明中,数据科学家被归类到“软件工程职业”,但实际上Facebook的数据科学家的工作更多是在产品层面.
- 美国留学申请与就业找工作咨询博客|Warald|一亩三分地论坛
从2011年下半年开始,Warald注意到LinkedIn上Data Scientist相关工作在迅速增长,2012年更是增幅显著,好多公司都在扩充或者创建自己的data science or analytics team. 也有越来越多的人在自己的LinkedIn profile头衔里添加big data、data scientist、data analyst之类的字眼,希望被猎头或者公司直接搜索到.
- IT经理网
数据科学家被《财富》杂志誉为21世纪最性感的职业,但遗憾的是大多数企业里都没有真正的数据科学家人才. 根据麦肯锡
报告,仅仅在美国市场,2018年大数据人才和高级分析专家的人才缺口将高达19万. 此外美国企业还需要150万位能够提出正确问题、运用大数据分析结果的大数据相关管理人才. 那么,对于不同职业经历和专业背景的IT人士来说,如何才能尽快转型,加入数据科学家的钻石王老五的行列呢.
- 博客园_新闻
英文原文:
5 More Tools All Data Scientists Should Know How to Use. 即使是知识渊博的数据科学家也能提升他们的技术水平. 当谈及到分析你编纂的数据时,有大量的工具可以帮助你更好的理解数据. 我们与我们的数据科学指导者探讨了很久,最后总结出了一个包括 5 个数据科学工具的列表,同时这也是你在当今的社会形势下应该掌握的 5 个数据科学工具.
- 199IT互联网数据中心
工具/产品/解决方案是数据科学家洞察数据的利器. KDNuggets网站对此观点进行了年度调查,来分析数据科学家在用哪些类型的工具,并提供了调查的
匿名原始数据. 通过主成分析(PCA)法进行降维分析. 对所有的工具同时进行关系分析,常规来说,PCA通过对大样本数据统计性质(eg, 协方差)的分析,试图用主要特征来解释关系.
- IT经理网
数据已经成了福特公司的“燃油”,从产品设计到商业智能,从汽车部件到社交网络上的用户,福特公司每天需要处理海量且快速增长的数据. 今日福特公司首席数据官Michael Cavaetta做客Structure Show,
介绍了福特公司的大数据处理经验,归结为三点:. 数周前福特公司在北美国际汽车展上亮相的F-150皮卡车型采用了轻型铝材取代钢材提高燃油经济性.
坚持分享优质有趣的原创文章,并保留作者信息和版权声明,任何问题请联系:@。直播丨Facebook数据科学家如何运用300PB海量数据库?
作为数据行业新人的你,也许还不知道产品研发中怎样才能让数据更好地发挥作用;
作为“准新人”的你,也许并不了解数据科学家的具体职责;
作为相关专业在校生的你,也许不清楚数据科学家最常用的系统工具有哪些。
如今互联网数据量越来越庞大,以Facebook为例,每天要处理的数据量超过500TB。数据科学家处理和分析这些数据有什么独门秘籍?
1月7日,我们特意邀请Facebook资深数据科学家龙飞老师,他会带来关于数据科学家你感兴趣的所有。
数据科学家的职责与日常工作
常用的数据系统和工具
产品周期中数据发挥的作用
Analytics Manager @ Facebook
现于Facebook任Analytics Manager。曾担任Amazon Head of Analytics, North American Sales和58同城Chief Data Officer。
美西:日晚07点
美东:日晚10点
中国:日早11点
复制链接或点击“阅读原文”:
https://zoom.us/webinar/register/db0a48a82e071add4481ef37
?加入讲座讨论群
责任编辑:
声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
今日搜狐热点当前位置: &
2,196 次阅读 -
作者: 36氪的朋友们
编者按:本文来源于知乎,作者邹昕,Facebook数据科学家,主要工作为用户增长数据分析,微信公众号再生谈(reborn_chat)。著作权归作者所有。转载请联系作者获得授权。
本文内容来源于作者在知乎的一场直播,内容关于如何通过数据分析驱动用户增长。由于 Facebook 有严格的保密要求,所以这次直播内容不会透露属于内部消息的数据、产品或者策略。直播里提到的例子如果涉及到 Facebook ,都会是已经公开的信息(一般是 Facebook F8 大会提到过的或者 Engineer blog 上的内容)。
先简单介绍一下我自己。我是清华生物系本科和硕士毕业,之后去北卡大学念药物药理学的博士,中间发现自己不适合走生物科研的路,所以在博士开始两年多的时候决定转硕士走人。很幸运的是当时的导师也很理解和支持我,拿到硕士之后我重新申请了北卡州立大学的数据分析的项目。毕业之后在 Discover 公司做信用卡风险模型和数据分析,大概工作了两年多。
最后在今年年初的时候跳槽到 Facebook 做数据科学家,我们组是做用户增长的,我负责的一块主要是跟用户好友关系、好友推荐系统相关的数据分析。今天的分享就是关于通常情况下互联网产品是如何用数据分析来驱动用户增长的。
一、行业特点
说到互联网产品的用户增长,可能大家都有所耳闻。与传统行业相比,互联网相关的产品有几个不一样的特点。一是由于网络效应,由于互联网相关产品更容易扩展,更有可能出现爆炸性增长的局面。二是互联网行业更容易出现赢者通吃的局面,比如优酷和土豆的合并,携程和去哪的合并,立马形成行业垄断。三是在行业发展前期一旦有一个好的产品领先,后来者就很难翻盘了,所以互联网行业会出现前期大量烧钱抢占市场和用户的局面,比如 Uber 是一个特别典型的例子。
二、Retention / 用户留存
对用户增长来说,什么是最重要的呢?有人说是用户最重要,有人说是 Acquisition 也就是新用户获取最重要。对很多互联网公司来说,不管是热门 Startup 还是已经比较成型的公司,首先需要解决的问题的是 retention,也就是用户留存。这也是为什么十几年前,大家通常用的指标都是注册用户,而Facebook 创始人 Mark Zuckerberg 从一开始就给公司定了明确的目标,注册用户并不是最重要的,最重要的应该是活跃用户。
用户留存曲线
好的产品和不好的产品用户留存是什么样子的呢?有这里就需要提到一个概念用户留存曲线。如下图所示,横轴是从注册开始到现在的天数,纵轴是活跃用户的比例。这里用的例子是月活用户,也就是说如果过去一个月之内你用过这个产品,那么你就算是一个 active user。很显然,注册开始第一天,大家都是月活,第二天第三天直到30天都是如此,从第31天开始,有一部分人不是月活了,因为他们只在第一天用了,之后就再也没用过,以此类推第32天33天等等。一个好的产品,应该是像蓝色曲线这样,随着时间的推移会有下降,但是到一定程度之后会趋于跟 x 轴平行。如果你看到一条绿线这样的用户留存曲线,那就你就需要好好研究一下你的产品了,因为这意味着随着时间的推移,所有注册用户都会放弃你的产品。那么即使你把全世界的人都抓来注册了,终究月活用户数也会变成0。
用户留存 vs. 新产品
推出新产品的时候,用户留存曲线是非常重要的,以确保有一个足够好的产品,接下来才是把这个产品推向更多用户的时候,很多互联网公司比如 Airbnb 都有类似的策略。当然不同的产品,关注的指标很有可能是不一样的。比如说微信,假如你看月活的话,那可能意义就不是很大了。一个月用一次微信的用户,说有不了什么问题,更应该关注的可能是日活,或者发了多少条信息这种。那么对于 Airbnb 来说,月活则是一个比较适用的指标,其它比如每个月有多少房间预订之类,也是应该关注的指标。
神奇时刻 — magic moment / Ahhhaa moment
假设现在你有一个很好的产品,用户注册之后过一了段时间也还是有很多人留下来继续使用。那么接下来怎么做用户增长?
很多社交网络产品都提到一个概念叫 magic moment,直译过来的话就是神奇时刻。什么算 magic moment 呢?比如对于 Facebook 来说,你注册之后,在上面看到你现实生活中认识的好友,看到他们的照片,状态等等。这个时候对新用户来说,心里想的是啊!原来 Facebook 是干这个用的。比如对于知乎来说,可能是在答了一个题之后,看到小红点显示有人点赞,或者是感谢,或者是关注等等。同样,对于LinkedIn,Twitter,微信,微博也是类似,新用户或者是找到他们想要联系的好友,或者是找到他们想要粉的人,这一时刻让用户有继续使用下去的动力。
例子 — 用户留存率 vs. 好友数
对于很多社交网络产品,比如说 LinkedIn 来说,一个很简单便是很有效的分析方法,就是看用户留存率跟好友数的关系。当你的好友数低于某一个值的时候,用户留存率会非常的低。当好友数量达到一定数量的时候,再增加好友数对留存率的影响就很小了。那么确定下来这个值之后,工程师们要做的就是以这个为目标进行各种产品改进、优化、新产品开发等等。有人可能会问了,这里面有个很显然的问题,就是你只能说明这是相关性,而不是因果性。但是最终解决办法其实很简单,不管 Facebook 也好,LinkedIn 也好,微信也好,如果你没有好友的话,肯定是没有人会继续用的。所以这里面肯定有因果性在里面。同时肯定也有相关性,很大程度上二者肯定是相互影响的,通常来说好友越多,更有使用产品的动力。产品使用的更好,好友也更多。
三、A/B 测试
上面一段提到在设定某一个目标之后,工程师们接下来就要通过各种产品改进、优化、新产品开发等,互联网公司基本上都是通过 A/B 测试来确定是否发布产品,是公司产品开发非常重要的一环。在湾区这边有一个 meetup 小组就是专门讲 A/B 测试的,像 Uber, LinkedIn, Netflix 等等都在这个小组介绍过各个公司是怎么做 A/B 测试的。
接下来就以 Airbnb 为例子来说明 A/B 测试为什么重要,如何做 A/B 测试,以及中间可能遇到的问题。
例子来源:/experiments-at-airbnb/
为什么要做实验
实验是最有效的证明因果关系而非相关性的工具。以 NBA 为例,数据显示,当科比出手10-19次时,湖人的胜率是71.5%;当科比出手20-29次时,湖人的胜率骤降到60.8%;而当科比出手30次或者更多时,湖人的胜率只有41.7%。
根据这组数据,为了赢球,科比应该少出手?并不一定如此。有可能科比出手少的时候是因为队友状态好,并不需要他出手太多。也有可能是因为球队早早领先,垃圾时间太多。而出手太多的比赛是因为比赛艰难或者队友状态不好,需要他挺身而出。当然,以上也只是可能之一,具体是什么情况光靠这组数据并不能得出任何结论。
A/B 测试的用处
对 Airbnb 来说,很多时候一个新产品的发布,是很难说明结果到底是新产品的呢,还是别的因素。如下图所示,红色部分是新产品发布和撤回的时间段,这期间的变化到底是因为产品呢,还是别的因素?有可能用户受到时间的影响,比如周中和周末的区别,是否假期,天气等等。对于 Airbnb 这种旅行相关的公司来说,这些外在影响尤其大。通过实验则可以把产品的影响跟别的外在因素的影响区分开,产品做一个小的改变,跟对照组进行对比,这就是 A/B 测试。
实验需要跑多久?
A/B 测试的老大难问题:实验跑多久最合适?结束太早可能产品的真正效果还没有足够时间体现出来,实验拖太长会影响产品迭代改进的效率,这对诸如 Airbnb 这样的初创公司还是 Facebook 这样讲究 move fast 的公司来说,都是很麻烦的事情。
例子 — 搜索价格范围
Airbnb 曾经测试过把价格选择范围从最高的$300改成$1000。一周之后,根据下图的红线显示,实验效果显著 (p&0.05),也就是说改成$1000之后预订会增加。但是事实上实验继续进行下去的话,你就发现这个改变其实是没有效果的,最终也没有统计显著 (p&0.05)。
不过虽然这个测试的结果是中性的,考虑到有一部分用户的确需有查找高端房源的需要,Airbnb 还是决定把最高搜索价格从$300改成了$1000。那么到底实验应该进行多久呢?通过各种复杂的统计分析,Airbnb 总结出了一套动态决定边界(Dynamic decision boundary),综合考虑p值和实验进行的天数。
四、全面理解实验结果
通常来说,选定一个或几个指标(metrics)来分析实验结果,以免主观挑选实验结果(cherry picking)。但是仅仅看一个指标也是不行的,很容易就错过全局,一叶瞕目。比如 Airbnb 做过一个非常大的改动,在用户搜索的结果显示里,更加强调房源的照片和在地图上显示的地点。项目非常大,大家都认为结果会很好,用户调研显示也是如此。
尽管如此,Airbnb 还是决定如常做一下 A/B 测试,然后发现了问题:结果基本是中性的。幸好 Airbnb 的数据科学家们并没有就此结束,相反,他们看了看不同的方面,包括在不同浏览器的效果,发现 IE 是最大问题所在。很快进一步发现,新产品在某些老版本的 IE 上会有 bug,以至于预订率了超过3%。修复了在 IE 上的 bug之后,立马预订率就变成提高超过2%,与其它浏览器上效果类似了。这是一个非常典型的例子。很多时候看到中性的实验效果,不妨根据不同的维度进行细分,比如浏览器、同家、用户类型等等。
问题: Twitter 2015 年用户增长为 11%,这是否存在增长的危机?为什么?
结果 too good to be true
不管是自己打造的 A/B 测试系统,还是使用第三方的系统,都是有可能出问题的。如果默认系统都是有效的话,有时候麻烦就来了。有时候可能是使用过程中出了问题,有时候可能是系统本身的问题。最简单的办法是跑个 A/A 测试,也就是实验组和对照组都是一样的产品,然后看系统结果怎么说。
Airbnb 做过一系列 A/A 测试,发现在实验组和对照组的用户数量基本一致的时候,系统是正常工作的,显示中性的结果。但是当对照组的用户远超实验组(75% vs. 25%)的时候,结果显示高达-15%的偏差。最后发现原因在于对用户的追踪问题,很大一部分用户没有正常的记录到实验组里去。未必每一个公司都会碰到完全一样的问题,不过适当的进行 A/A 测试,确保系统正常工作是非常重要的。
五、据驱动用户增长的前提
首先需要有一个好的产品。其次在创业初期,所有人都需要有这个概念。最后需要要 infrastructure 的支持,诸如 logging,dashboard,A/B 测试系统等的建立。例如:Uber 的 A/B 测试系统(推荐看 Uber 的 A/B 测试系统是个什么样子的GIF图)
六、问答环节
Q: 数据分析的用户量达到多少,分析结果才靠谱。
A: 通常对大的互联网公司来说是百万级别,当然这对于多数公司是没法有这么大的用量的,所以通常情况下来说需要看产品本身用户量的大小,个人感觉一般一万以上是一个基准。当然除了用户量大小以外还需要看统计检验的显著性,以及实验的时间来综合考虑。
Q: 工作中主要使用的分析工具是什么?除了 Python, R, SQL,平时工作中是否还有更多或者更有针对性的工具使用要求?
A: 工作中最主要使用的分析工具是 SQL, SQL 和 SQL。通常 ad-hoc 的一些分析基本都是 SQL 来做,如果数据量大了之后通常就是 Hive,但是 Hive 基本语法跟 SQL 的类似的。再就是用 Python 写 pipeline,这里面 python的作用是写一个自动跑 SQL 的脚本,所以其实还是写 SQL。除此之外数据可视化也是一个比较重要的方面,通常 Excel 和 Tableau 是很有效的两个工具。也有人会用来 R 或者 Python 来做数据可视化这一部分。总体来说最基本也最重要的工具就是 SQL。
Q: Facebook 如何通过旗下不同平台 (messenger, WhatsApp, Snapchat, Facebook Timeline) 收集、管理和使用同一用户的信息。
A: 具体怎么收集和管理同一用户的信息不太清楚。如果用过 Facebook 和 Instagram 的话应该会发现如果在 Facebook 上加了一个好友,同时你们也上 Instagram 的话,那么会收到提醒说要不要 follow 他/她的 Instagram 之类。另外 Snapchat 不是 Facebook 旗下的 :)
Q: 一般如何选择 A/B testing 的 sample group?
A: 涉及到以下几个方面,首先是需要考虑 sample size,可能一开始是 1%, 然后增加到更大比如 5%, 10%, 50% 之类。其次是需要考虑到产品会影响到哪一部分的用户,比如 iPhone 或者 Android 用户,或者是只影响到某一个国家等等。最后是需要考虑到 testing 的时间,根据不同产品不同测试的要求,可能是几天或者几周不等。
Q: Facebook 有什么著名的基于数据的 User Growth Campaign?
A: 一个例子是用户好友推荐系统。解释一下这个功能就是根据用户的情况来推荐好友,可能很多人非常不喜欢这个功能,比如说会觉得推荐的人不是很相关啊或者推荐了现男友的前女友啊或者前男友的现女友啊之类。当然推荐系统有很多提高的地方,但总体来说这个功能是非常成功的。一方面在几年前的 F8 大会上公司介绍过对新用户来说,在初期达到某一数量的好友数是非常重要的,这其中好友推荐系统就是一个很重要的功能,给用户省了很多事。另一方面在 Facebook 推出这个功能之后,别的很多公司也有类似的功能,比如 LinkedIn 推荐 connection, Airbnb 推荐房间等等。
Q: 对于一个具体的目标(例如“好友推荐”, DAU,乃至“盈利”等),如何建立相关的数据模型、设立相关指标,如何完成数据的难与改进的流程。
A: 首先需要考虑的产品组设立的具体目标跟公司的总体目标是不是相一致的,如果提高了这个产品的具体目标,但是对公司总体的目标却没有影响,甚至是反面的影响,那就需要考虑一下哪里出了问题了。其次是设定了一个具体目标之后,最好在一段时间内坚持这个目标,而不是经常做一些改动,否则的话会影响到数据分析的效率,比如说要构建新的 dashboard / report / pipeline 之类。最后每过一段时间需要再回过头看具体产品组的目标跟公司的长期发展目标是不是一致的,包括 back test 以及 long term holdout 等测试。
Q: 一个优秀的数据分析师应该具有哪些基本功和特质?优秀的数据分析者和平庸的数据分析者的差距在哪里?
A: 一个优秀数据分析师具备的基本功首先是在技术上达到一定的要求,其次是对产品有一定的了解,包括产品开发从头到尾的整个流程,这是基本的要求。那么要成为一个优秀的数据分析者,我觉得最重要的一点是能够对身边的人产生影响。比如对工程师的影响,让他们也能通过数据分析来发现问题,因为他们是具体开发产品的,对产品的理解是非常深刻的(通常情况下对产品和细节的理解要比数据分析师深的多)。所以如果把自己的经验分享给工程师、产品经理等,让他们一起利用数据来分析问题解决问题,这样的话对开发、改进产品是非常有效的,会成为一个非常优秀的数据分析师(向这个目标努力)。
Q: 数据分析在产品改进、公司决策应当处于什么位置,当两者出现了矛盾的时候如何解决?
A: 通常来说对于短期目标来说是由数据分析的结果来决定的,当然前提数据分析的结果是正确有效的,这种情况下一般来说是数据说话。那么对于长期的目标来说数据分析的作用会小一些,更多的是由公司的决策层来决定整个方向。比如说互联网产品从桌面端向移动端的变化,这个通过数据分析是很难体现出来的,因为现有的数据不一定能说明将来的发展,当初大部分人使用电脑,但是最几年用户更多转到手机等移动端,那么这种情况是很难通过数据来体现的,这个时候就需要看决策层的眼光了。比如说从腾讯的重心从 QQ 转到微信,Facebook 从桌面端转到移动端这种大的方向转变,个人感觉数据分析起的决定性作用都比较小。
Q: 当前硅谷来说,数据分析的主流运用场景在哪里?未来数据分析的趋势是怎样的。
A: 主要几个场景:第一是各种 A/B testing,这是用得最多最广泛的场景,也就是产品改变好还是不好,都需要通过 A/B testing 来决定。另外一个就是通过数据分析来监控一些异常情况,通过过去的趋势来看是不是有异常情况,比如说过去一天或者一周用户突然增加了 10% 或者 减少了 10%,那么就需要通过数据分析来看这到底是正常的波动呢,还是某些方面出了问题。最后就是通过数据分析来寻找机会,比如产品哪些地方可以改进之类。未来数据分析的一个重要的趋势是如何从大量的数据里找出有用的信息,因为现在数据实在是太大太杂太乱太快了,如何从这些数据里挖掘出有价值的信息变得非常重要。另外一方面是如何根据产品的需求寻找新的数据来源,为改进产品服务。
Q: 数据分析项目(或产品)的研发过程中,分析师和业务人员有哪些合作?
A: 如果这里面的业务人员指的是产品经理以及工程团队的话,合作是非常紧密的。一个典型的研发过程是通过数据分析发现产品某个方面或者流程有改进的机会,然后产品经理以及工程团队(程序员)沟通是否可行,其中可能还会涉及到设计人员对产品的改进,最后由程序员来实现需求。接下来再通过实验比如 A/B 测试看效果,有需要的话会有多次的迭代、改进。效果好的话那么就可以发布新产品,同时后续还会通过数据分析来追踪产品的表现 (performance),整个流程下来数据分析跟产品经理、设计、程序员都是紧密相关的。如果说业务人员指的是运营相关的话,那基本是没太有什么交集的。
Q: 对于小公司、小行业来说,最大的竞争对手网站每天的日活量也就 10 万上下,这样想做数据分析,分析的用户量应该确定到多少呢?
A: 如果是做 A/B 测试的话,1 万以上的用户量差不多是下限了,再少如果几千的话,那需要测试的差异非常明显才能够比较明确的说这个差异是真的差异呢还是一些背景噪音。如果是做类似漏斗分析或者用户转化图这种的话,那么上千的用户量就可以开始有这个概念了。当然需要注意的是数据分析是有局限性在里面的,尤其对于产品、公司发展初期来说,不要把过多的精力放在数据分析上面去追求统计显著之类,而应该是更多的打磨好产品,找到产品合适的市场。
Q: 现在的工作都是 SQL 做 CRM 的 report,有 adhoc 有 regular,但觉得都没什么创造性,很机械没前途啊。。。该怎么往更偏 solution 方向的职位跳呢?
A: 需要改进的方面最重要的一点是对产品的理解。因为数据分析的最终目的是改进产品本身,或者说让更多的人使用产品。不管做 report 也好 adhoc 也好,数据分析最重要的结果是这些对产品有什么意义,比如提供哪些可以改进的方面,哪个步骤是有问题的等等。为了做到这一点首先就需要对产品有一个很深刻的了解,而不仅仅是把目光集中在数据分析这一点上。另外还可以通过自己的特长和经验来影响合作的人,比如说产品经理、程序师等,让他们也能方便的使用数据来帮助产品开发。
Q: 在金融场景中,由于风险的滞后性,导致测试周期非常长,有什么方法能较好解决这类问题吗?
A: 总来说这是由于行业特性决定的,基本上很难有什么好的解决办法。我之前在信用卡公司做风险控制,比如说看用户的坏帐率,基本上都是看长期的结果,比如说 6 个月,一年或者两年这种。再考虑到开始设置实验对照组,模型开发、数据分析的时间,还有之后看模型表现 (performance) 的时间,整个过程就更加的长了。假设是看 6 个月的风险,现在开始设置实验对照组,那么要能看到用户的表现的话至少需要等到 6 个月之后,再开始花几个月半年(这算比较快的)做模型和数据分析,之后再等 6 个月看结果,所以一个项目完整的流程下来都是至少一两年的。基本上是由行业特性决定的,不可能像互联网行业的一些项目周期这么快。
Q: 想问怎么看待 FB 用户增长降低,原生内容分享减缓,用户流向 Instagram 的情况呢?
A: 首先根据每年的公开数据来看 FB 用户的增长并没有降低,当然这个增长速度是不可能一直持续增长十几年,因为世界上一共就那么多人。至于原生内容分享减缓,这个的确有一些这样的报道,个人感觉对于 Social network 来说基本都会有这样的趋势,比如说十几年前最开始大家用 Myspace,然后 Facebook 出来之后大家觉得这个比较酷就都使用 Facebook 了,随后有 Instagram, Snapchat 等的出现,用户又有一部分转到这些。国内的互联网市场基本也有这个一趋势,比如十几年前我上大学的时候校内网也就是后来的人人网非常的火爆,后来微信出来之后大家一窝蜂的涌到了微信。对于这种情况来说,就公司领导层的动作来看一个应对方法就是通过收购,比如 Instagram 和 Whatsapp 都被收购了,所以如果说有内容流向 Instagram 的话那是没什么太大的问题的。此外根据公开的报道,对收购 Snapchat 也是有过兴趣的,只是最后没有谈成。第二个应对就是公司自己需要持续开发新的产品。比如说微信是一个很好的例子,腾讯并没有因为有 QQ 的存在就一直把目光局限在这上面,而是从自己内部打破,开发出了微信这款神级产品。因为对互联网产品业说,如果停步不前不保持改变的话,那么终究是会被别人打破超过的。与其这样不如自己开发出新的产品来超过原来的产品。
Q: 2B 的业务有成熟的数据分析驱动客户的案例么?
A: 一时想不起来有特别典型的案例,感觉比较接近一点是 Uber。虽然 Uber 的最终目的是给打车的人提供服务,但是他们很重要的一点策略是通过先打开大量的司机的市场。因为司机数量上来之后,首先是大家会发现打车的等待时间会变得非常短,另一方面是司机之间的竞争变得更强,更容易提供优质的服务,所以客户的体验会有一个大大的提高。另外一个例子大家可以关注一下国内的一个公司收 GrowingIO,是 LinkedIn 前 business analytics 老大回国创立的 startup,他们主要做的是给公司提供数据埋点、分析的服务,大家可以关注一下,我觉得他们长期来看是会有一个很好的发展的。
Q: 能分享一下在工作中各项任务的时间占比例吗?
A: 这个根据不同的时间段会有不同。 如果是在定期做规划的时候,会有很多跟产品组其他人员的沟通,比如说产品经理、工程人员、设计等,大概 50% 的时间的样子。另外一半的时间就是把之前一段时间的分析整理总结一下,通过这些结果来找到下一个阶段的产品需要改进、集中资源的地方。这个时间段的话,那基本是大概 20% 的时间用来跟产品组其他人员沟通,剩下 80% 的时间做分析。做分析的时间里面大概一半是一些 adhoc analysis,20%-30% 做一些对长期来看有好处的工作,比如说 pipeline 的工作把一些过程自动化。还有一部分时间就是看已有的一些 report/dashboard,包括监测有没有异常啊,产品的 performance 是否符合预期等等。
Q: 请问国内哪些行业对数据分析师需求量特别大?游戏行业怎么样?
A: 个人了解的比较多的是互联网和金融行业,当然这个是有 bias 的,因为我之前在金融行业,现在在互联网行业,那么自然认识的这两个行业的人也会比较多,国内联系我的猎头基本也是这两个方面的。比如说一些机会像阿里,支付宝,蚂蚁金服等,要么是跟互联网相关,要么是跟金融相关,要么就是互联网金融。至于游戏行业的话对于国内不太了解,美国这边也有一些相关的工作职位。不过个人感觉总体来说最大的还是互联网和金融这两个行业,此外还有管理咨询行业也增加了很多数据分析相关的职位。
Q: 一个优化目标对应的可验证的改进点有很多,比如一个简单的注册指标,需要考虑注册界面的各个因素,还有很多其他因素。请问怎么确定应该验证哪些点?以及如何确定验证的优先级?
A: 首先需要考虑的是做一个整个流程的数据,比如以注册为例,有多少人到这个页面,多少人开始这个流程,每一步一直到最后有多少人确认了注册整个过程。之后看一下各个步骤的转化率,找到特别低的一个或者步骤。另外还可以跟类似的产品的对比,不同地区、不同用户的比较等等,看哪一个步骤的转化率相对来说特别低,那么这就需要优先考虑的地方。
Q: 数据分析能用在微信公众号或者视频内容吗?如果可以,能分别举个例子吗?
A: 关于微信公众号或者视频内容我个人没有什么经验,公众号也是前段时间才刚开的。不过我感觉跟互联网产品是相通的,最重要的一点还是 retention retention retention。初期的时候需要保证有一个好产品,有好的内容,确保用户来了之后会留下来继续保持关注你的内容。如果没有做到这一点的话,那很有可能拉来很多新用户,但是一段时间之后他们发现内容没有什么特别的,那么接下来要么就取消关注,要么就不再打开内容了。所以最开始需要先把内容做好,在保证留存率的基础上再开始做推广。当然我对这方面的产品并不太熟悉,只是根据其它互联网产品的经验的一些想法。
Q: 机器学习中的算法在数据分析中的应用现状是怎样的,所占比重大吗?会与产品的设计挂钩吗?邹老师怎么看机器学习在数据分析中的前景?
A: 机器学习跟数据分析二者是相关,因为机器学习的算法做出来最终终要看的是对产品的影响。比如说一个排序系统,最终要看它是否增加了更多的用户,增加了用户的活跃度、增加了用户的粘性。机器学习对产品的影响我觉得是长期来看肯定是会非常大的,比如说 Facebook 的 Newsfeed,它不是按时间来排序的,因为最近发生的事情不一定是用户最关心的。这个产品不管对公司来说还是对用户来说都是有好处的。比如说公司可以有巨大的广告机会在里面。对用户来说可以优先看到机器学习排序出来的最重要、用户最感兴趣的那部分内容。当然这个机器学习的结果永远不会是完美的,需要不停的改进,也正因为这样个人以为它的发展前景是非常好的。跟产品设计是直接相关的,一般来说机器学习这一块是跟工程组在一起的,也就是程序员/码工们一起的,跟产品的联系非常紧密。(知乎也可以按机器学习的结果来排序 Newsfeed,不过不是强制的。个人猜测终有一天会是强制按机器学习的结果来排序)
Q: 硅谷现在有哪些专门做数据的公司?主要业务是什么呢?
A: 最有名的应该是 Palantir Technologies 了,专门给政府、军队、国防部门提供数据服务的,创始人是 Paypal 黑帮那几个像 Peter Thiel 等等。非常有意思的一个独角兽。
Q: 工作中有遇到用户增长/产品数据分析的KPI和公司sales business KPI不同的情况。想问邹老师有没有遇到过类似的情况,有没有协调的方法?
A: 这个在现在的公司没有遇到过,因为我们产品组这边跟 sales 基本是没什么交集的,所以也不存在 KPI 打架的情况。在之前公司有 risk 跟 marketinng 的 KPI 不同的情况。因为 risk 部门的一指标就是用户的风险高低,也就是最后看到坏帐率,而对于 marketing 来说最重要的是有多少新增用户,这两个很多时候是相爱相杀的。如果需要获取更多的新用户的话,那很有可能就要降低风控的标准,坏帐率就上去了。如果要控制坏帐率在一个较低的水准的话,那么获取新用户的难度就加大了,因为毕竟只有那么优质用户在外面,要么用高成本获取新的优质用户,比如说各种 promotion,要么就只能降低风控 (underwriting) 的标准了。碰到这种情况的话基本根数据分析关系就不是太大了,主要是老大们说了算。
Q: 请问数据分析师从长远来看会取代传统的user 和 user testing吗?
A: 我觉得暂时来看是没法取代的,因为数据分析更侧重在产品这一块,而 user research 或者 user testing 更侧重在用户这一块。虽然对产品的分析可以了解到一些用户的想法,user research 还是更直接一点,比如说用户的想法这种是很难通过产品本身的分析来发现的。再者 user research 还有可能发现一些新的领域,也是对现有产品分析的一个补充。所以个人感觉几年之内是没法取代的。
Q: 请问有没有数据分析相关的专业书籍或者书籍推荐呢?
A: 首先可以参考统计基本的东西,说实话我自己没有看过什么跟数据分析相关的专业书籍,只是学过一些统计的东西。至于数据分析相关的可以推荐的话首先可以参考一下管理咨询方面的案例,从这里面找找灵感,比如 Case in Point。其次除了书籍以外还可以参考一些网上的信息,比如知乎也好一些微信公众号也好,都可以找到一些很不错的资源,有时候知识系统更新会比看书更快一点。
Q: 请问知道一些在学术机构应用数据分析的案例吗?比如科学计量或者数据管理一类的。
A: 对学术界不太了解具体的案例,不过就我所知现在很多商学院发 paper 什么的也是有数据支持的话会更容易发好杂志一些,别的像计量相关的学科也有很多都要用到数据分析,算是一个趋势。
Q: 能分享一下国内或者国外数据分析这个行业职业发展的情况吗,比如什么行业/公司会设置专职的数据分析职位,发展情况如何呢?
A: 首先讲讲在美国这边的发展,基本上职位空缺是挺多的,主要是集中在互联网和金融行业,现在管理咨询行业相关的职位也越来越多,至少近期几年来看发展情况还是相当不错的(当然没法跟码工比了)。国内的话也是集中在互联网和金融行业,比如阿里、蚂蚁等等。
Q: 在用户推荐上,如何解决多个不同场景推荐问题,场景可能会非常多,几十个,几百个,上千数万。
A: 对用户推荐系统的开发不熟,个人感觉是针对不同场景,可以把场景作为一个输入 (input),这样来达到每个场景有针对性的推荐。
Q: 数据分析跟产品经理的配合是怎样的?目前很多互联网公司都还没有数据分析师,在有数据分析师的公司,数据分析师和产品的合作方式也不是很清晰。
A: 不同的产品或者不同的组会有区别,也要考虑到产品经理和做数据分析对产品以及数据的理解。通常来说二者是合作的关系,一个比较理想的合作流程是数据分析师基于对产品的理解,通过数据分析发现产品可以改进的地方,同时产品经理也懂数据,这样沟通起来更顺畅。当然具体到实际工作中会有区别,比如说如果产品经理比较资深的话可能更多的是产品经理提出需求,然后数据分析师来回答这些问题。反过来如果数据分析师比较资深的话,那么可能会更独立一点,不太理会产品经理的问题。总体来说比较理想的状况是二者互相合作,同时对对方的领域也有一定的理解,便于沟通。
Q: 如Facebook一开始没那么多的用户量,只有哈佛学生时数据分析还能用吗?数据分析是只能在用户量十万以上时才能发挥最大作用吗?
A: 很显然我没有经历过 Facebook 的阶段。根据对一些案例的学习来看,在产品用户量非常少的情况下,只需要做非常非常基本的数据分析,也就是用户来使用产品之后是否留下来。其它的比如 A/B test 也好,通过数据分析找机会也好都是不需要的,因为这些涉及到很多成本,尤其是时间上的成本对产品初期的快速迭代是有害的。只有在用户量达到一定阶段之后,才需要 A/B test 之类的介入,以达到数据分析的最大作用。
Q: 一家互联网公司的数据分析团队应占这家公司员工的比重是多大呢?对于小型初创公司,数据分析团队是必要的吗?
A: 我觉得理想的比例是这样的,一个产品经理,一到两个数据分析,10-20 个工程师,以及一个设计方面的。对于小型初创公司来说,并不需要数据分析团队,而是团队里每一个人都应该懂一些最基本的数据分析(像上一条提到的,这时候的数据分析也不需要太复杂),然后通过这些基本的分析把握一个大的方向就可以了。像 A/B test 这种更多的是进行一些优化这种,对于小型初创公司来说是没有必要甚至有害的。如果产品的效果需要做 A/B test 才能看出差异的话,那么用户增长可能也是很缓慢,对于初创公司来说是很危险的。
Q: 做数据分析如果想进Facebook的话,您有什么建议吗?招聘时看重哪些标准呢?比如说发论文参加比赛之类的。录用国内的学生可能性大吗?
A: 如果指的是做数据分析也就是 analytics 方面的话,发论文参加比赛包括算法比赛,Kaggle 之类用处是不大的。最重要的几个方面,一是对产品的理解,比如说用什么指标来看产品的好坏,怎么设计实验,如何分析实验结果等等。二是技术方面的,这个最主要的就是写 SQL 了。另外还有就是一些基本的数学、概率、统计方面的知识,以确保做的分析是正确的。对于从国内直接过来的机会相对比较小,一是因为不同的工作环境、文化的差异,二是涉及到工作签证的问题。现在工作签证(H1B)都是需要抽签的,也给国内直接应聘美国这边的工作带来了很大的障碍,暂时还没有接触到做数据分析的这样的例子。
Q: 传统行业(零售)的区域销售经理,平时也会用Excel分析自己的销售数据,如何转行到互联网企业做数据分析呢?是不是去读一个专门的硕士比较好呢?刚才听您讲的内容,感觉很多方法都和传统行业是相通的。应用场景不一样。
A: 首先最重要的一点是技术方面需要一个变化,最基本的 SQL 是需要会的,Excel 是肯定不够的,其次别的诸如会 Python 之类也是很有帮助的。如果有一些大数据方面的经验比如 Hive 之类也是很有帮助的。从传统行业到互联网行业做数据分析的思路应该是有很多相通的地方的,需要加强的更多的是对产品的理解,数据来源的理解。至于读一个专门的硕士的话我觉得是没有特别的必要,当然如果时间短见效快的话可以考虑,可以参考一下以前毕业生的去向,如果很大一部分都去了互联网行业的话那可以考虑,如果只有很少一部分甚至没有毕业生去这个行业,那就要谨慎考虑了。你可以用数据分析的思路研究一下相关项目。
Q: 除了职业发展相关,从你的经验看,数据分析(或者相关的工具方法)在生活中有没有应用的场景,帮助个人提高效率, 理财之类。
A: 这个实在是没有想到什么好的例子。
Q: 请问如何培养自己数据分析的思维?感觉数据分析需要有很全面,逻辑的思维?
A: 的确如此,数据分析需要很全面、逻辑的思维,这也是为什么这边数据分析招的很多人并不是从统计专业过来的,因为传统来说统计跟数据分析完全相关的,但其实不完全是,统计对数据分析来说更多是一个基础,还需要看分析的思路。很多以前一些理工科的比如说学物理啊之类的在做这一块。比如说以前读 PhD 的时候一些研究问题的思路是很有效的,虽然中途 quit 了,但是后来工作的时候发现这些提出问题解决问题的思路是很相通很有帮助的。至于如何培养自己数据分析的思维,我觉得最有效的办法是去念一个 PhD(开个玩笑,念 PhD 时间实在是太长了,五六年就过去了,还是不要念了)。我在之前的一篇文章里提到一个例子,也就是在使用 google map 的时候,到了目的地之后会显示目的地的街景,那么这个时候你就可以问自己很多问题,比如说为什么要显示街景,除了街景还可以显示什么?比如显示附近的停车场?那么什么时候应该显示目的地的街景,什么时候应该显示附近的停车场,如果来测试哪个效果好等等。就跟小孩子一样多问几个为什么,平时多做这种思维训练还是很有帮助的。
注:转载文章均来自于公开网络,仅供学习使用,不会用于任何商业用途,如果侵犯到原作者的权益,请您与我们联系删除或者授权事宜,联系邮箱:contact@dataunion.org。转载数盟网站文章请注明原文章作者,否则产生的任何版权纠纷与数盟无关。
相关文章!
不用想啦,马上 发表自已的想法.
做最棒的数据科学社区
扫描二维码,加微信公众号
联系我们:

我要回帖

更多关于 facebook数据分析 的文章

 

随机推荐