大家好我是汤林鹏,来自普林斯顿大学的一名博士生
在刚刚过去的夏天,我与视频基础设施团队紧密合作从事针对I流媒体视频引擎(SVE)的负载测试框架的工作,即茬将视频呈现给用户之前进行并行处理我还与Facebookface下载的内容分发网络(FBCDN)团队合作,将我们以前设计的RIPS(FAST15论文FB研究博客)一种新型的缓存框架投入生产。
在这里我想以一名毕业生的身份,从三个方面分享我的心得体会:
(1)技术方面如何构建一个生产质量体系;
(2)非技术方面,如何在开放的环境(如Facebookface下载)中茁壮成长;
(3)生产和研究之间的关系
如何建立一个生产质量体系
从零开始建立一个系统,直到它运行在数千台服务器上服务数十亿的用户,是非常有价值的但这比在实验室里创造出一个原型要复杂得多,那么什么是重要嘚指导原则呢
测试,再测试有什么方式能比在现实环境中测试更能确保系统的可靠性呢?然而测试也是一种艺术。以流媒体视频引擎为例:生产层处理用户请求;测试层运行负载测试并测试新功能而对整体系统没有任何影响;开发层,每个工程师可以快速启动一个尛的开发层来进行小实验这三层的规模越来越小,但是灵活性越来越高从而可以实现产品的快速迭代。
日志和图表软件一旦开发出來,通常会稳定的应用于生产一段时间所以,使其易于维护非常重要除了良好的代码设计和清晰的注释,还需要事件日志记录和数据統计并汇总生成实时图表。实际上Facebookface下载(其他大型科技公司也是如此)整个团队都致力于开发这些工具。当问题发生时他们可以迅速確定问题所在并为系统监控配备良好的设备,从而能更好地理解系统的监控性能情况进而做出改进。
吸取教训有趣的是,要更好地叻解系统行为确保长时间稳定运行,一个重要的方法就是把它推到极限观察它是如何失败的。我实习的部分工作是为流媒体视频引擎設计并实现一个负载测试框架此框架可以产生不同类型的工作负载,然后逐渐提高系统的负载直到系统出现问题这些负载测试帮助团隊定位多个问题以及性能瓶颈,最终加速了产品正式发布Facebookface下载内部的一些团队甚至通过转移用户的请求来对整个后端系统进行压测。
如哬在一个开放的环境中茁壮成长
Facebookface下载在团队之间的自我管理与合作方面拥有开放的文化管理层更多的承担服务的角色。下面是一些我从隊友中观察到的典型特点我认为在这样一个开放的环境中成长是很重要的。
接触一个人如果只在团队内舒适的做自己份内的工作,就會浪费在Facebookface下载工作的巨大优势你应该去接触其他团队,看看他们在做什么听听他们面临什么问题,并思考如何解决问题是对现有的笁具进行修改,还是建立新的工具而新项目的开始往往源于这个过程。
如果你对其他团队的工作感到兴奋那为什么不加入他们呢?我們听过一些大公司的整个部门因为不再创造价值而被裁员或转移到其他部门的故事我经常开玩笑说,这类事件是不可能在Facebookface下载中发生洇为工程师们会早在这种事发生之前离开,去做更有趣的项目
了解别人的观点。合作既可能是有益的也可能是令人沮丧。任何形式的茭流都需要大家抽出宝贵的时间,因此我们必须尊重对他们的承诺了解公司的观点和目标,你就能更好的理解他们所做出的响应知噵如何协作更有益于他们的工作,并持久保持互惠互利的关系
在做决定时考虑一下其他团队。整个Facebookface下载的后端通过硬件和软件的依赖关系连接在一起一个团队的决定将对其他团队的系统产生影响。例如当决定一个服务需要多少台机器时,我们不仅需要考虑每台机器可鉯提供多少带宽而且如果我们使用100%的机器带宽,是否会跑满机架的带宽从而影响同一机架其他团队的服务?当开发我们的系统时我們在多个场合受到其它系统问题的影响,这些影响通常很难跟踪和调试所以,我们必须尽量不给其他团队增添麻烦
保持方向感。当开發一个新的系统时我们需要克服许多障碍,并不断付出时间和精力做好预算优秀的工程师不仅需要迅速解决问题,还需要明确哪些问題更重要这通常需要分析日志,找到问题根源设计妥善解决方案,列出任务列表保持明确的方向感同时兼顾无限的工程细节,是在這瞬息万变的世界里快速进步的关键
我现在已经在攻读博士学位上花了三年多时间,我以前的实习工作已经或多或少地以研究为方向了这是我第一次深入生产系统实习,我们设计并实施了SVE负载测试框架通过进行一系列的测试,大大加快测试进度最终推出SVE。我们还实現了在Facebookface下载的CDN基于闪存的缓存框架RIPQ以前它只是一个学术的原型,现在它已在生产中应用
当我把更多的精力投入到生产系统,并开始欣賞所有的工程成果时我对研究有了更深入的了解,更能明确两者的优势和特性
开发生产系统是一个综合性的工作,在整个系统顺利运荇之前要做好所有准备工作。在用于执行一个功能时会有许多可供选择的技术大多数时候,一个不理想的技术可能会比较慢需要更哆的硬件,或者它只是一些快速的解决方案并没有推广到所有的情况,但它仍然会工作
另一方面的研究往往集中在生产中遇到的特定問题上。我们发现了一个有趣的问题制定了一个关于它的抽象概念。基于这种概念去尝试理解和解决一个普遍存在的问题,确实很好做研究的另一种方法是从想法开始。系统中的例子比如稳定杂凑、Bloom过滤器、谱系这些好的想法都为一系列不同的问题提供解决方案。
苼产和研究似乎是两个不同的世界那二者可以协调起来吗?
我们必须着眼于大局虽然通常一个单一的技术不会成为一个生产系统成功嘚关键,但当我们检查各个方面时会发现它们往往来源于研究项目当中。一个项目对一个系统的贡献可能比较小但是,对整个社会的聚集效应非常巨大
我也很高兴看到Facebookface下载对研究开放的态度。许多没有经过正规科研训练的工程师如果对一些研究项目感兴趣就可以将蔀分时间投入到研究活动中去。毕竟发现和分享新知识的渴望深深扎根在我们的内心
欢迎加入本站公开兴趣群
炼数成金创业营北京群群號
炼数成金创业营上海群群号
炼数成金创业营广深群群号
|