be_t36 5 哪些网络视频用户规模模大数据?

基于大数据的健康未来_新浪健康_新浪网
& 新闻 &&正文
基于大数据的健康未来
  财新《新世纪》
LIFE记者 阳敏
  顾东君在担任九阳股份公司新闻发言人五年后,终于转换自己的人生主战场,成立了一家名叫微酷客的互联网科技公司。用顾东君自己的话说,她将“全面拥抱互联网和大数据时代”。
  味库APP,正是搭载顾东君追赶这个时代浪潮的列车。它兼具美食、购物与社交功能,与众多美食类APP不同,味库反其道而行,它需要用户通过扫描或者手动输入厨电、调味品以及食材,再由系统自动推荐各种菜谱组合。
  这样的设计思路会带来什么样的大逆转?这要从一年前顾东君带领九阳团队打下的一场社会营销战说起。
  2013年4月,以厨房小家电闻名的九阳在天猫网上商城发布一款新品――面条机。这款“新神器”只需要3分钟,就能制作出健康安全的面条,省去和面、揉面、擀面等耗时工艺。首发后的三天内,九阳旗舰店共卖出机器8920台,仓库一度断货。这背后,更有价值的信息是,其中近半数订单来自新浪微博的引流,直接访问转化率为18.24%。
  这是怎么实现的?您可能立刻会想到,找KOL,那些活跃在新浪微博的“关键意见领袖”。顾东君和她的同事们,在微博的汪洋大海中,找到了@宝贝吃起来,这是一个专门教人给宝宝制作辅食的资深育儿专家的微博。通过它九阳很快又找到50位年轻妈妈,她们都专注于母婴领域,对于普通网友来说更易亲近,也更易于学习和模仿。
  这些育儿达人陆续在微博上晒自己的面条机体验以及各式创意图片,从放面粉、加果汁到出面条,成都担担面、杭州的片儿川、意大利空心面⋯⋯很快,面条机在微博和百度上成为热搜话题,信息的覆盖从母婴群体扩展到了美食、健康养生等领域。
  九阳团队也尝试寻找粉丝数上百万的大号进行网络营销,收效甚微。相反,@宝贝吃起来这个粉丝数不过一万有余的微博号却撬动了一场几乎零成本的营销活动。这样的反差带给顾东君许多思考。面条机推广的微博试验,是九阳团队用人工的办法,通过评估候选KOL微博的内容质量、粉丝质量、粉丝活跃度等筛选出50位KOL,那么,是否还有更科学智能的分析工具,能帮助企业更高效、更准确地遴选出在社交媒体上对核心消费者具有影响力的意见领袖呢?互联网时代,传统企业又该如何将广告精准地送达潜在用户?
  以大数据为基础的精准营销,已经在颠覆传统的广告模式。九阳的工作经历带给顾东君许多灵感,并促使她将大数据的思维始终贯穿在味库APP架构设计之中,开发味库APP的“逆向”菜谱推荐模式也是这样诞生的。
  显然,当用户习惯于将自家厨房内各种电器、调味品和食材的情况告诉味库时,味库对用户会越来越了解:它知道你在用哪些厨具,用了多少年了;你经常用哪些调味品,保质期还有多久;它也知道你经常购买哪些食材,甚至还知道你是素食分子,还是奶制品爱好者,或者是一个准妈妈⋯⋯
  在顾东君看来,掌握了用户的厨房和偏好,对用户实现个性化推荐这件事情就变得顺理成章。于是,当你家厨房的橄榄油还剩一个月就到期时,你可能会意外地收到来自味库的问询:亲,有一款黑醋橄榄油刚刚面世,您有兴趣尝试一下吗?生产者与消费者之间信息不对称的鸿沟,就这样消弥了。
  要是味库足够聪明的话,它还能担任你的“贴心生活管家”:不管是健康早餐、创意晚餐,还是时令食谱,都能从味库获得推荐。如果最近你肉吃得太多,也会收到来自味库的提示,将你近期身体蛋白质摄取过高,而维生素摄取过低的营养状况一一告知。
  此外,你还能在味库上寻找各种方便,因为它已为100多万种商品建立了数据库。打开APP,扫一扫各种食材上的条形码,即可获得该商品相应的烹饪方法和专用食谱。不仅如此,你还能看到网友的各种点赞和吐槽,学习别人上传的各种创意玩法,当然也能上传自己的心得灵感――久而久之,各种如“器皿控”“榴莲控”的社交圈就形成了。
  一切皆可数据化的“物联网”思维,本身就蕴含在大数据之中。“通过这种模式,本来不具备联网能力的厨房电器、厨具乃至食材,都被纳入了物联网。”味库CEO顾东君说,“用户在查询的同时,也反馈给我们更多有关他的饮食习惯和厨房情况的数据。”
  用大数据思维将生活、美食、健康、社交及购物等多种元素打通的架构,以及呈现未来私人智能生活空间的前瞻性,使味库顺利筹集到1000万元天使轮融资,1.1版本上线仅20天即获得近15万用户。最近在“百度91开发者大赛”中,创业半年的味库从500多家参赛APP中胜出,获得“金熊掌”综合奖。
  发现健康大数据“蓝海”
  有人说,2013年是大数据元年,未来五年会有一大批基于大数据商业模式的公司催生出来。在味库身上,的确看到了这种趋势。
  资深互联网评论人士谢文认为,大数据时代将首先对健康和医疗领域带来深刻变革,因为该领域已经过了思想革命的概念阶段,逐步迈入商业模式创新时期。这或许恰好解释了为何移动健康行业在今年成为风险投资的热土。
  如果把大数据时代分为前台、中台和后台三个主战场,前台就是数据终端,负责数据获取和传输,如手机、电脑、智能眼镜、汽车以及各种传感器等,将物质世界和人类社会的一切数据化。在谢文看来,前台是目前争夺的主要战场,出现的创新数不胜数――这正是近两年智能手表、智能手环、电子秤等智能可穿戴设备大热的背景。
  与此同时,各种健康数据收集平台也在今年陆续登台亮相:先是三星公司5月底发布一款健康追踪腕带Simband和智能健康追踪平台SIMI,接着苹果公司在6月WWDC大会上发布移动应用平台HealthKit,数天之后,谷歌紧追不舍在其年度开发者大会上推出名为Google Fit的健康平台。近日,微信以公众号为接口,与咕咚、华为、乐心和iHealth四款运动手环展开合作的消息又博到不少中国媒体的眼球。外界纷纷揣测,腾讯公司此举实乃有意借微信打造出一个开放的健康数据平台。
  面对如火如荼的大数据前台、中台争夺战,百度董事长兼CEO李彦宏5月29日在黄山召开的“百度联盟峰会”上语惊四座:“我们真正想要的数据现在没有,或是还没有搜集上来,已经被搜集上来的数据基本没有价值。”
  “戴个手环、弄个眼镜”,计算每天走多少步、消耗了多少卡路里、心跳多少次,对治病没有什么帮助。“互联网公司通过可穿戴设备搜集了很多数据,结果又发现没法对这些数据进行分析。”李彦宏说。
  李彦宏矛头所向,指的是这波抢夺大数据资源的混战――参战者只管数据“大”不大,却不管到手的数据“真”不真。事实上,如何获取真正具有价值的数据,如何对数据展开分析并从中发现相关性建立模型,最后再诞生出具有创造性的商业模式,这才是大数据时代的根本。
  在顾东君眼中,获取数据只是手段和路径,最终要将它用于产品和服务的改造,让用户获得更好的体验。“这样的数据才是活的数据。”顾东君说,不能产生终极价值的数据都是“死数据”,不管这些数据有多“大”。
  去哪儿寻找健康大数据的蓝海?美年大健康产业集团创始人俞熔认为,从商业角度来讲,体检是医疗行业最合适最理想的入口。“通过体检可以获得用户多维度的全面的身体信息,这绝对不是可穿戴设备可以比拟的,可穿戴最多能取到一些心率血压等体外数据,而这些只是健康信息里很小的一部分。”俞熔说,如果没有医学影像和抽血生化等检查,一些重要的数据根本无法获取。
  目前,美年大健康产业集团在全国55个主要城市开放了130余家体检及医疗服务中心,集聚了超过1万名教授、医生和健康顾问,2014年计划服务人次逾700万。手握如此庞大的健康数据,俞熔不断在思索,如何才能有效地利用好它们,为客户提供更加个性化的产品和服务。
  在利用体检数据方面,美国硅谷早有成功案例。几年前,经尔纬数据技术有限公司创始人糜万军在美国硅谷完成了一个大数据创业项目。该项目利用数据挖掘技术,综合分析斯坦福大学全校员工的体检记录和就诊记录,并据此对所有人每年的医疗费用进行预测。糜万军说,项目成立的初衷,是希望利用个人的医疗信息预测其医疗费用,给保险公司做参考。但后来,美国许多大企业却成为客户的主要来源。
  变化是这样发生的:糜万军带领的团队,在了解每名员工的健康状况之后,通过数据分析,为其制订了个性化的健身计划,有效地帮助员工改善了健康状况。这项业务受到美国企业的欢迎,从斯坦福大学到思科、苹果等大公司,都乐于购买它的服务。
  创新总在以极快的速度迭代,但在李彦宏看来,真正能给医疗健康行业带来革新的,是一种“慢数据”:通过一种简单的方法,在三个月、半年甚至更长的时间内,持续不断地监测你的某些指标,通过长时间的数据积累,准确预测你未来患上的某种疾病的可能性,以达到中医所讲的“治未病”的效果。
  这并非空穴来风。7月13日,发表在阿尔茨海默症国际会议上的四篇论文进一步支持了如下结论:通过对眼睛和嗅觉的检测,能够预测阿尔茨海默症(俗称老年症)的发生。
  无独有偶,最近伊利诺斯大学的研究者透露,他们根据现有数据研究发现,人脸的衰老速度与寿命之间存在着确切的关联。假设该研究顺利进入应用阶段,保险公司只需对准顾客的面部乃至照片扫描一番,即可知晓他的天寿几何,从而优化该顾客的相关保险配置。
  等待人工智能
  今天,大数据已经在生活和医疗健康行业扎根萌芽。随着科技的发展,人类社会管理方式的进步,它也将对军事、金融、航空以及制造业等各行各业带来变革。同时,智能社会、智能社区以及智能交通等等,将随着大数据应用的突破逐渐成型。
  据麦肯锡预测,未来中国大数据产品的潜在市场规模有望达到1.57万亿元。或许,在5-10年间,下一个谷歌或者下一个Facebook将在大数据领域诞生。
  然而,大数据时代的推进,也面临重重桎梏。首先,它给人类社会现有的管理方式带来了极大的挑战。如谢文所言,大数据时代的核心词是开放与融合,以及“一切皆可数据化”的思维。但是,“完整综合的、开放公共的、动态及时的”大数据并不会自动生成,它有赖于政府数据开放平台和数据交易市场的建成。
  据工信部于2014年5月发布的《大数据白皮书》,目前不少国家已加入到开放政府数据行动,推出公共数据库开放网站。例如,美国数据开放网站 Data.gov目前已有超过37万个数据集、1209个数据工具、309个网页应用和137个移动应用,数据源来自171个机构。
  “开放数据”已经成为一种潮流,所有国家、公司乃至个人或早或晚都将卷入其中。但在谢文看来,无论政府还是公司,中国在信息共享方面的理念都相当保守,同时还缺乏完善的市场经济制度和法治体系作为基础支撑。这都将成为中国大数据发展中的致命弱点。
  实现数据的开放与融合,还仅仅是大数据时代迈出的第一步。《大数据白皮书》中提到,在人类全部数字化的数据中,仅有非常小部分的数值型数据(约占总数据量的1%)得到深入分析和挖掘(如回归、分类、聚类),大型互联网企业对网页索引、社交数据等半结构化数据也只进行了浅层分析(如排序),占总量近60%的语音、图片、视频等非结构化的数据,还难以进行有效分析。
  要“激活”这些数据,还有赖于人工智能领域的突破性发展。目前,科学家主要凭借先验知识,通过人工建立数学模型来进行数据分析。
  顾东君坦言,味库APP仍处在一个产品逐渐完善的阶段,而整个的构思也只实现了四分之一。“由于最终的结果涉及智能化推荐,推荐的精准程度取决于算法的准确度,技术对于味库来说是一个大的挑战。”她说。
  目前,全球几大IT巨头都在潜心研究人工智能。IBM中国开发中心首席技术官毛新生曾如此诠释肩负着IBM人工智能发展未来的电脑系统Watson:“它不光要像人一样理解自然语言,学习Common Sense(常识),读懂医学知识,还要在大量数据里面找到相关性⋯⋯我们给Watson灌输无数的医疗文献,尤其是与相关的医疗文献,让它理解与癌症相关的各种知识,比如基因、蛋白质。然后,再灌入100多万份的病历,让Watson以相关性为基础,寻找经常出现的模式。”
  人工智能并不理解事物之间的因果关系,但它比任何人都“见多识广”,能够准确地回答:你可能得了什么病,该做哪些检查,吃什么药,会有什么结果。目前,IBM已经把Watson推进了厨房,或许很快,我们还将会在金融、法律以及服务等许多领域看到人工智能引领大数据未来的身影。■
  财新记者于达维、财新LIFE健康记者张鹏对此文亦有贡献
文章关键词:
&&|&&&&|&&&&|&&
您可通过新浪首页顶部 “”, 查看所有收藏过的文章。
请用微博账号,推荐效果更好!
看过本文的人还看过大数据最核心的价值是什么?
【HanHsiao的回答(609票)】:
日更新了两张图,修改一些拼写错误。
下面是一些长篇的讨论,这里我把的核心价值理解为核心价值。
“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”——马云卸任演讲
本文尝试从三大产业的角度将大数据的核心商业价值分类讨论。
首先例举一些大数据的典型应用,然后解释大数据的定义,最后总结大数据的价值。
我们知道:第一次工业革命以煤炭为基础,蒸汽机和印刷术为标志,
第二次工业革命以石油为基础,内燃机和电信技术为标志,
第三次工业革命以核能基础,互联网技术为标志,
第四次工业革命以可再生能源为基础,_________为标志。
空白处你会填上什么?欢迎大家讨论。但是目前可以预测的是,数据和内容作为互联网的核心,不论是传统行业还是新型行业,谁率先与互联网融合成功,能够从大数据的金矿中发现暗藏的规律,就能够抢占先机,成为技术改革的标志。
一、大数据的应用
大商业价值的方法主要分为四种:客户群体细分,然后为每个群体量定制特别的服务。
模拟现实环境,发掘新的需求同时提高投资的回报率。
加强部门联系,提高整条管理链条和产业链条的效率。
降低服务成本,发现隐藏线索进行产品和服务的创新。
Mckinsey列出了各个行业利用大数据价值的难易度以及发展潜力。《Big data: The next frontier for innovation, competition, and productivity》
各种Data之间的关系图,注意Open Data是完全包含了Open government data(政府开放数据)
Mckinsey也列出了Open Data时代里七大行业潜在的经济价值,自上而下分别是教育,运输,消费品、电力、石油与天然气、医疗护理、消费金融。(感谢知友安阳提供的补充链接资料)
大数据的类型大致可分为三类:
传统企业数据(Traditional enterprise data):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。机器和传感器数据(Machine-generated /sensor data):包括呼叫记录(Call Detail Records),智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等。社交数据(Social data):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。
从理论上来看:所有产业都会从大数据的发展中受益。但由于数据缺乏以及从业人员本身的原因,第一、第二产业的发展速度相对于第三产业来说会迟缓一些。
1985年,我国国家统计局明确地把我国产业划分为三大产业:农业(包括林业、牧业、渔业等)定为第一产业。
工业(包括采掘业、制造业、自来水、电力、蒸汽、煤气)和建筑业定为第二产业。
把第一、二产业以外的各行业定为第三产业。
第三产业即除第一、第二产业以外的向全社会提供各种各样劳务的服务性行业,主要是服务业。其中第三产业可具体分为两大部门:一是流通部门;二是服务部门。再细分又可分为四个层次:
第一层次,流通部门。包括交通运输行业、邮电通讯行业、物资供销和仓储行业。
第二层次,为生产和生活服务的部门。包括金融业、商业饮食业、保险业、地质普查业、房地产业、公用事业、技术服务业和生活服务修理业务;
第三层次,为提高科学文化水平和居民素质服务的部门。包括教育文化、广播电视事业、科学研究事业、卫生、体育和社会福利事业;
第四层次,为社会公共需要服务的部门。包括国家机关、党政机关、社会团体、以及军队和警察公安司法机关等。
我们可以看出,由于某些客观原因,相对于第一产业和第二产业来说,第三产业凭借自身的优势,大多汇聚了当前最海量的数据以及大批的科研中坚力量。接下来让我们看一些典型例子,当前新形势下与三大产业密切相关的大数据应用。
(1).第一产业孟山都(),农业
孟山都是一家美国的跨国农业生物技术公司,其生产的旗舰产品抗农达,即年年春(Roundup)是全球知名的嘉磷塞除草剂,长期占据市场第一个位置。该公司目前也是基因改造(GE)种子的领先生产商,占据了多种农作物种子70%–100%的市场份额,而在美国本土,更占有整个市场的90%。已经统治了生物工程种子业务超过十年。
孟山都首先发起“Green Data Revolution”运动,建立农业数据联盟(Open Ag Data Alliance)来统一数据标准,让农民不用懂“高科技”也能享受大数据的成果。典型的应用如农场设备制造商John Deere与DuPont Pioneer当前联合提供“决策服务(Decision Services)”,农民只需在驾驶室里拿出平板电脑,收集种子监视器传来的数据,然后将其上传给服务器,最终服务器返回化肥的配方到农场拖拉机上。
天气意外保险公司(),农业The Climate Corporation为农民提供Total Weather Insurance (TWI)——涵盖全年各季节的天气保险项目。利用公司特有的数据采集与分析平台,每天从250万个采集点获取天气数据,并结合大量的天气模拟、海量的植物根部构造和土质分析等信息对意外天气风险做出综合判断,然后向农民提供农作物保险。前不久从Google Ventures、Founders Fund等多家公司获得超过5000万美元的风险投资。 2013年被孟山都收购。
土壤抽样分析服务商(),农业
Solum目标是实现高效、精准的土壤抽样分析,以帮助种植者在正确的时间、正确的地点进行精确施肥。农户既可以通过公司开发的No Wait Nitrate系统在田间进行分析即时获取数据;也可以把土壤样本寄给该公司的实验室进行分析。2012年获得Andreessen Horowitz 领投的1700万美元投资后,已累计融资近2000万美元。
了解更多:
(2).第二产业
2013年9月,工业和信息化部发布了《关于印发信息化和工业化深度融合专项行动计划(年)》的通知。明确提出推动物联网在工业领域的集成创新和应用:
实施物联网发展专项,在重点行业组织开展试点示范,以传感器和传感器网络、RFID、工业大数据的应用为切入点,重点支持生产过程控制、生产环境检测、制造供应链跟踪、远程诊断管理等物联网应用,促进经济效益提升、安全生产和节能减排。
大数据的业务多是数据驱动型,具有数据量大、种类多、实时性高的特点。工业企业对数据的记录以往看来主要分为两种方法:传统的纸笔和Excel电子表格记录。这些操作起来看似简单的数据管理方式为企业生产及质量监控埋下了巨大的隐患,也让数据挖掘无从谈起。
随着信息化与工业化的融合发展,信息技术渗透到了工业企业产业链的各个环节。例如Sensor、RFID、Barcode、物联网等技术已经在企业中得到初步应用,工业大数据也开始逐渐得到积累。企业中生产线高速运转时机器所产生的数据量不亚于计算机数据,而且数据类型多是非结构化数据,对数据的实时性要求也更高。因此工业大数据所面临的问题和挑战很多,所以通用电气公司(General Electric)的副总裁兼全球技术总监William Ruh认为相对于工业大数据来说,工业互联网(Industrial Internet)才是当前急需的,因为大数据本身并没有让信息的提取更加智能,业务比数据本身更加重要。他举了一个核磁共振成像扫描的例子:
Here’s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data produced by an MRI machine is disconnected from the person that needs it the most.
At a very simplistic level, there are many individuals working as a team to make the scan happen. A nurse administers medications or contrast agents that may be an MRI technologist
and a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent.
又如在工业中,压力、温度等数据的特点是需要语境才能理解的。燃气轮机排气装置上的温度读数与一台机车的内部温度是完全不同的。燃气轮机改善热敷需要使用非常复杂的算法运行模型。在笔记本电脑上,一个典型的查询要获得答案一般需要三个星期。在基于大数据的分布式系统上发布同样的查询执行一种计算只需要不到一秒钟。
第三方认证机构(),工业
德国汉德技术监督服务有限公司的前身是德国锅炉检验协会(简称T?V)早在1869年,德国锅炉检验协会就承担了德国国内所有锅炉运行安全的检验工作,保证了锅炉生产的安全。渐渐的,德国锅炉检验协会取得了德国政府的授权,开展对其他产品的检验工作,从采矿,电力系统开始,到压力容器,机动车辆,医疗设备,环境保护,宇航工业,医疗产品等等,现在的德国汉德技术监督服务有限公司已经成为了许许多多产品的安全代号。主要体系认证包括企业质量管理体系,生产环境体系,生产碳排放方案等。T?V当前从建筑绿色标准体系方面提出了对于大数据能源管理的探索,以微软新总部,蒂森克虏伯电梯总部为例,在整个项目实施中引入大数据能源管理,在建筑的设计规划阶段、施工阶段、运营阶段等多个阶段通过数据化的能源管理系统,实现建筑的低碳、绿色、智能。
工业自动化软件商(),工业
Wonderware作为系统软件涉及的专业企业,对于大数据的计算和运用是从比较“IT”的角度出发的。Wonderware 的实时数据管理软件能够提供一个工厂所需要的从建立到报废的所有实时数据。目前已经退出移动版本,工程总监在手机上就能够随时随地监控设备的运行状况。目前全球超过三分之一的工厂应用Wonderware公司的软件解决方案。
了解更多:
(3).第三产业
这一个部分的内容比较多。这里只提出一些典型的应用例子,欢迎补充。健康与医疗:的健身腕带可以收集有关我们走路或者慢跑的数据,例如行走步数、卡路里消耗、睡眠时长等数据与健康记录来改善我们的健康状况;等公司正在开发床垫监测传感器,自动监测和记录心脏速率、呼吸速率、运动和睡眠活动。该传感器收集的数据以无线方式被发送到智能手机和平板电脑进行进一步分析;美国公共卫生协会()开发用来的症状,通过大生成报告显示用户所在地区的流感活动。
视频:互联网电视能够追踪你正在看的内容,看了多长时间,甚至能够识别多少人坐在电视机前,来确定这个频道的流行度。美国国内规模最大的商业视频流供应商,收集的数据包括用户在看什么、喜欢在什么时段观看、在哪里观看以及使用哪些设备观看等。甚至记录用户在哪视频的哪个时间点后退、快进或者暂停,乃至看到哪里直接将视频关掉等信息。典型的应用是Netflix公司利用数据说服BBC重新翻拍了电视连结剧《纸牌屋》,而且成功的挖掘出演员Kevin Spacey和导演David Fincher的支持者与原剧集粉丝的关联性,确定新剧拍摄的最佳人选。When the program, a remake of a BBC miniseries, was up for purchase in 2011 with David Fincher and Kevin Spacey attached, the folks at Netflix simply looked at their massive stash of data. Subscribers who watched the original series, they found, were also likely to watch movies directed by David Fincher and enjoy ones that starred Kevin Spacey. Considering the material and the players involved, the company was sure that an audience was out there.
交通:《》通过分析公交车上GPS定位系统每天的位置和时间数据,结合时刻表预测出每一辆公交车的到站时间;WNYC开发的通过开源行程平台(Github:和)获取的数据将纽约市划分成2930个六边形,模拟出从每一个六边形中点到边缘的时间(地铁和步行,时间是上午九点),最终建模出4290985条虚拟线路。用户只需点击地图或者输入地址就能知道地铁到达每个位置的时间;实时交通数据采集商的口号是(永不迟到!^^),通过记录每位用户在行驶过程中的实时数据例如行驶车速,所在位置等信息并进行数据汇总分析,而后计算出最佳线路,让用户能够避开拥堵。
电子商务: 是一家预测商品价格并为消费者提出购买时间建议的创业公司,通过抓取亚马逊、百思买、新蛋及全球各大网站上数以十亿计的数据进行分析,最终整合在一个页面中方便消费者对比查看,并且能够预测产品的价格趋势,帮助用户确定商品的最好购买时机。已经于2013年被 eBay收购。
政治:奥巴马在总统竞选中使用大数据分析来收集选民的数据,让他可以专注于对他最感兴趣的选民,谷歌执行董事长Eric Schmidt当时向奥巴马的大数据分析团队投资数百万美元并聚拢核心成员成立了咨询公司,该公司将会将在奥巴马连任竞选中所获得的经验应用到商业和非营利行业中。(了解更多可以看看MIT technology的文章)
金融: 是由是Google的前任 CIO,Douglas Merrill创立金融数据分析服务提供商,使用机器学习算法和大数据为放款者提供承保模式,旨在为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。公司使用分析模型对每位信贷申请人的上万条原始信息数据进行分析,只需几秒时间便可以得出超过十万个行为指标。目前违约率比行业平均水平低 60%左右。另外一个不得不提到的是风险管理先驱者,通过大数据分析为银行和信用卡发卡机构、保险、医疗保健、政府和零售行业提供服务。FICO 信用分计算的基本思想是:把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。FICO 已经为三分之二的世界 100 强银行提供服务,提高了客户忠诚度和盈利率、减少欺诈损失、管理信贷风险、满足监管与竞争要求并快速获取市场份额。想了解更多的企业可以看看附录中《经济学人》的文章《》。
电信:采用平台开展大数据工作,通过集成数据综合分析客户流失的原因,根据分析结果优化网络布局为客户提供了更好的体验,在一个季度内将流失率减半;韩国新成立一家公司,通过大数据分析用户的使用行为,在用户做出决定之前推出符合用户兴趣的业务防止用户流失。美国公司将记录用户在Wifi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。比如当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券。英国公司发布了新的安全数据分析服务Assure Analytics—,帮助企业收集、管理和评估大数据集,将这些数据通过可视化的方式呈现给企业,帮助企业改进决策。
一般来说盈利性质的商业公司和企业都不会轻易泄露自己的数据、建模方法和分析过程,所以还有很多大家不知道的神秘应用潜伏在黑暗里,如同《三体》中的”黑暗森林法则“。
宇宙就是一座黑暗森林,每个文明都是带枪的猎人,像幽灵般潜行于林间,轻轻拨开挡路的树枝,竭力不让脚步发出一点儿声音,连呼吸都必须小心翼翼:他必须小心,因为林中到处都有与他一样潜行的猎人,如果他发现了别的生命,能做的只有一件事:开枪消灭之。在这片森林中,他人就是地狱,就是永恒的威胁,任何暴露自己存在的生命都将很快被消灭,这就是宇宙文明的图景,这就是对费米悖论的解释。
二、大数据的定义
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。
数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
价值密度低(Value)。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
处理速度快(Velocity)。大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。
看看专家们怎么说。
舍恩伯格,
不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。
埃里克·西格尔,大数据时代下的核心,预测分析已在商业和社会中得到广泛应用。随着越来越多的数据被记录和整理,未来预测分析必定会成为所有领域的关键技术。
城田真琴,
从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。 它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
三、大数据的价值了解了大数据的典型应用,理解了大数据的定义。这时相信在每个人的心中,关于大数据的价值都有了自己的答案。
2010年《Science》上刊登了一篇文章指出,虽然人们的出行的模式有很大不同,但我们大多数人同样是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即93%的人类行为可预测。
Limits of Predictability in Human Mobility
A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual’s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.
而大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。
举个例子,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。偶然中包含着某种必然。
随着计算机的处理能力的日益强大,你能获得的数据量越大,你能挖掘到的价值就越多。
实验的不断反复、大数据的日渐积累让人类发现规律,预测未来不再是科幻电影里的读心术。
如果银行能及时地了解风险,我们的经济将更加强大。
如果政府能够降低欺诈开支,我们的税收将更加合理。
如果医院能够更早发现疾病,我们的身体将更加健康。
如果电信公司能够降低成本,我们的话费将更加便宜。如果交通动态天气能够掌握,我们的出行将更加方便。如果商场能够动态调整库存,我们的商品将更加实惠。
最终,我们都将从大数据分析中获益。
四、结束语。
Here's the thing about the future.关于未来有一个重要的特征
Every time you look at it,每一次你看到了未来
it changes because you looked at it.它会跟着发生改变 因为你看到了它
And that changes everything else.然后其它事也跟着一起改变了
数据本身不产生价值,如何分析和利用大数据对业务产生帮助才是关键。
祝每一个DMer都挖掘到金矿和快乐:)
参考文献:
[1].《大数据时代》作者维克托迈尔舍恩伯格的演讲
【chym的回答(19票)】:
Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...
【陈文强的回答(3票)】:
人类是如此之热衷于对世界和自身的认识。一开始他们仅仅通过线性图形去描绘我们看到的东西,接着是规则的立体图形;微积分的时代更是用复杂的数据描绘我们看到的外在物质世界;借助计算机我们可以轻易地解构任何一座建筑和山峰。虽然,微积分的理性时代打破了中世纪人们对外在客观赋予克里斯马式的温情,外在客观变成了一堆图形和数据;但是起码人们还可以说他们的心灵是自由的,不是冷冰冰的数据。现在看来,大数据正打算摧毁人类最后的心灵慰藉。我们有理由感到恐慌而非欣喜若狂。
大数据在零售行业已经初现端倪,相信大家都听说过啤酒和纸尿裤的沃尔玛案例。计算机满足了数据容量和计算逻辑的要求以后;大数据时代的面纱才被揭开。原来,我们一直认为的自由意志不过是一系列因素的结果。那么,如果人为填充了这些因素,我们是不是......这个念头太过于可怕了。在那些买纸尿裤“偶遇”啤酒的爸爸们看来,一切都显得那么平静。
【宫文佳的回答(3票)】:
“大数据就像青少年性爱:每个人都在讨论,但没有人真正知道怎么搞。每个人都认为其他人正在做,于是大家都说自己在做……” By 丹·艾瑞里(Dan Ariely)
不要被大数据的概念所唬住。难道大数据流行之前就不能通过分析数据,挖掘用户喜好以及需求,不断地优化调整自身吗?
从古至今,数据一直都是没有有价值的,而怎么去分析解读才具有真正的价值。
所谓大数据的核心价值如同数据一样,不过是数据量大了,复杂了,而流行起来的一个概念而已。
【AlexZhu的回答(2票)】:
帮助媒体创建了一个模糊且容易让人误解的但又非常适合普通非专业人士理解的术语。帮助聚拢了一大堆不同专业领域的专业技术人员并让他们开心地工作在此光环下。帮助不同专业领域的技术人员简单有效地向非专业的财主申请相关项目资助。帮助更多地青年义无反顾地蹦向这时尚前沿的领域。笔者是个很土鳖的人,喜欢用晦涩的术语,对这么时尚的用语真的没有什么好感。但是每当亲戚朋友问我是学什么的时候,我都会时尚一把,说我是搞大数据的,每当这时候,我爸妈都有一种自豪感,我看着都高兴。想想大数据之前,说出来都是泪啊。对我来说,这就是大数据的核心价值。
【吴捷的回答(2票)】:
大数据的定义都是模糊的,何谈核心价值。况且数据本身就是中性的,运用数据的方式也是工具罢了,你说一把榔头有什么核心价值?
【孙汶的回答(1票)】:
我觉得大数据的最核心的价值在于如何获取训练集数据,并对其建模建立预测模型。这就是涉及到两个问题数据收集和数据挖掘技术。在当前大数据时代,我觉得更珍贵的是数据收集。虽然信息化时代,大量数据产生,但是不是每个人都有机会去获取。当前利用大数据最好的公司是google,其次是亚马逊;而国内就BAT三家公司。他们都是互联网企业,数据的收集成本最低。而且大数据时代对数据结构提出新的要求,传统的数据结构是关系型数据,那是在传统的小数据时代诞生的产物,而人的行为数据很难仅靠规范化结构化的关系型数据能记录的。
本人现在也在思考如何在房地产企业利用大数据,毕竟2014年房地产进入了拐点,但是发现单纯的一家企业的数据真的难以运用大数据,而合作就涉及到共享机制。这也是制约了非互联网企业使用大数据的重要因素。
【brim的回答(1票)】:
简单的总结下,第一是区别于传统的统计学,受益于现代信息科技的发展,攫取数据不再局限于样本模式,可以完全的用到所有的数据。第二是对于数据不再要求精确性,可以容忍复杂,这个可以从谷歌搜索的词条里面收集信息就可以看出。第三是关注数据间的相关性而不是因果关系,就是这个数据可以得出的结论可能风牛马不相及,但是就是相关,对于喜欢探其究竟的人可能有点纠结了。以上属于自己看书总结的,相当的浅薄……
【王丹的回答(1票)】:
核心价值在于,对于海量数据的存储和分析,相比现存的所有其他技术,大数据在“优秀、快速、廉价”3个方面的综合成本最优。
当这项技术作用于自己时(如google等),自己受益(成本降低);作用于客户时,将使客户受益。能让自己或客户受益的技术,就有其商业价值。因而,大数据并不是空话,只是像所有新兴技术一样,商业化需要一定的时间,在现在看来,还属于雷声大雨点小的阶段,才会让人觉得,忽悠成分多一些。
=======================我是解释的分割线==========================
虽然大数据并不局限于技术的实现,但hadoop系列技术,已经是事实上的标准,因此,讨论这些核心价值时,不能脱离hadoop系列技术。
这是最关键的一条,后续均假定数据为海量的。
少量的数据,IT有一打的解决方案,大数据技术并不占优。
首先有很多很多需要存储的数据。
其次,存储可以完全线性扩展,只需增加存储用的服务器节点即可,默认的副本技术基本上能保证数据不会丢失。无需购买专门的存储产品。
海量数据的分析必须要分布式处理,否则时间成本无法接受。分布式技术很早就有,但都比较专业和复杂。hadoop让分布式处理只需几十上百行代码即可完成,专业的程序员只需很短的时间,就可以学会基本的分析技术。当然,专业的分析,还得专家来做,专家总是很贵的。
hadoop系列技术专为海量数据处理而设计,IT界的顶级公司均参与贡献和实践相关的技术,具备完善的生态圈,各种需求基本都能满足。相较于其他的分布式技术,hadoop更加优秀。
1)集群的处理性能,将随着运算节点的增加而线性扩展。
2)基于java语言实现,大大降低了学习的门槛。
3)部署和维护集群,变得越来越容易(有很多自动化的集群构建和维护工具,包括许多商业版本,都提供web界面的运维功能)。
这个廉价是相对于IOE等而言的,不代表只能用很便宜的PC :-)
1)不用购买IBM、Oracle、EMC等公司昂贵的硬件、软件和服务,也无需windows授权。
通用的PC Server(DIY、定制或1~2w一个的服务器,基本满足要求)。
oracle 11g 1个CPU无限期使用的license是17万,至少抵得上10台服务器,1个cpu才能干多少事?而且数据会一直增长,你必须购买更多的授权,并且每年还要交服务费。EMC、IBM等同理。
2)因为会这项技术的人或公司越来越多,购买或定制开发基于相关技术的商业产品越来越便宜
综上,相对于其他技术体系,大数据的综合成本最优。
oracle的价格,来自于:
【张昊的回答(1票)】:
核心价值。。。好奇怪的说法,应该一千个人眼里有一千个哈姆雷特吧
我个人认为,核心价值在于,相比于原本的统计分析,我们需要假定一个模型,然后用数据去验证这个模型,比如,房价涨是因为有人在炒,然后搜集炒房人的炒房数和房价画出时序图,如果是符合递增状态,可以认为假设成立
但是,如果想知道这个是不是伪命题怎么办呢?就得头脑风暴出一堆和房价上涨有关的数据,整理好以后,用回归分析的方法提取一下公式,看是不是炒房人的系数是正且大的,这是一个很费力的方法而且可能答案只覆盖了一部分原因
当用数据挖掘的方法,问题就会得到简化(数据挖掘而不是大数据,因为老师没有教过大数据,只教过数据挖掘,大数据只是话题),将历史房价变化数据,所有和房价相关无关的数据都丢入模型中,简简单单的算个决策树的熵,答案也许就呼之欲出了...
(例子可能不准确,因为数据格式都是假想的)
【知乎用户的回答(1票)】:
【李鹏飞的回答(0票)】:
提供决策依据,使决策从事后向事前转变。
【时阳的回答(0票)】:
的回答很全面。
企业信息化过程中的重要一环。相信任何产业都可能用到~
【任毅的回答(0票)】:
将 习惯&常识&关系,可度量化。
【洪亮的回答(0票)】:
题主理解差不多对头,实例分析可参见
How Big Data Factored into House of Cards
In 2011 Netflix made one of the biggest decisions they’ll ever make. It wasn’t anything material, but rather it was about content. They outbid top television channels like HBO and AMC to earn the rights for a U.S. version of House of Cards, giving them 2 seasons with 13 episodes in each season.
At a cost of $4 million to $6 million an episode, this 2-season price tag is over $100 million. Netflix has undoubtedly made other big money investments before (shipping centers, postage costs, etc.), but nothing like this on the content side. So why did they make such a big bet, and how did analytics factor into the decision? Let’s get into it.
Pre-Green-light
Before green-lighting House of Cards, Netflix knew:
A lot of users watched the David Fincher directed movie The Social Network from beginning to end.
The British version of “House of Cards” has been well watched.
Those who watched the British version “House of Cards” also watched Kevin Spacey films and/or films directed by David Fincher.
Each of these 3 synergistic factors had to contain a certain volume of users. Otherwise, House of Cards might belong to a different network right now. Netflix had a lot of users in all 3 factors.
This combination of factors had a lot of weight in Netflix’s decision to make the $100 million investment in creating a U.S. version of House of Cards. Jonathan Friedland, Chief Communications Officer, says “Because we have a direct relationship with consumers, we know what people like to watch and that helps us understand how big the interest is going to be for a given show. It gave us some confidence that we could find an audience for a show like House of Cards.”
In an interview with Gigaom, Steve Swasey, VP of Corporate Communications, expands:
“We have a high degree of confidence in [House of Cards] based on the director, the producer and the stars…. We don’t have to spend millions to get people to tune into this. Through our algorithms, we can determine who might be interested in Kevin Spacey or political drama and say to them ‘You might want to watch this.’”
Swasey says it’s not just the cast and director that predict whether the show will be a success. “We can look at consumer data and see what the appeal is for the director, for the stars, and for similar dramas,” he says. Add this to the fact that the British version of House of Cards has been a popular DVD pick for subscribers. Combining these factors (and the popularity of political thrillers) makes it seem like an easy decision for Netflix to make. The only question was how much they were willing to invest. We’ll get into the early ROI numbers a little later.
After the Green Light
Now that Netflix has made the $100 million investment, they are in part responsible for promoting it. And with the data they have, they can make a “personalized trailer” for each type of Netflix member, not a “one size fits all” trailer. Let me explain…
Before a movie is released or TV show premiers, there’s typically one or a few trailers made and a few previews selected. Netflix made 10 different cuts of the trailer for House of Cards, each geared toward different audiences. The trailer you saw was based on your previous viewing behavior. If you watched a lot of Kevin Spacey films, you saw a trailer featuring him. Those who watched a lot of movies starring females saw a trailer featuring the women in the show. And David Fincher fans saw a trailer featuring his touch.
So now that the first season has run, let’s look at some of the early metrics. These won’t determine immediately whether the House of Cards investment can be considered successful, but rather the trajectory that it’s on.
What do you think the average success rate is for new TV shows? In other words, if a television network green lights a new TV show, what are the chances it will be profitable or won’t be cancelled after a couple of seasons?
Your guess?
The answer is 35%, on average.
When a network green lights a show, there’s a 35% chance it succeeds and a 65% chance it gets cancelled. At the time of this writing, Netflix has 7 TV shows, of which 5 have been renewed for another season. If this rate can continue for years, the Netflix success rate will be about 70%.
So why does Netflix renew shows at a higher rate than conventional television networks? Does the data make the difference? Is the success rate legitimate or can you not compare an Internet
television network to conventional TV networks?
Has House of Cards been a success? It has brought in 2 million new U.S. subscribers in the first quarter of 2013, which was a 7% increase over the previous quarter. It also brought in 1 million new subscribers from elsewhere in the world. According to The Atlantic Wire, these 3 million subscribers almost paid Netflix back for the cost of House of Cards.
And what about current subscribers? Does having House of Cards make them less likely to cancel their subscription?
Yes, for 86% of them.
A survey showed that 86% of subscribers are less likely to cancel because of House of Cards but only if Netflix stays at the $7.99 price point. While this may seem impressive, you should take this survey with a grain of salt. As the author points out:
“The sample size is small. Only 346 of the 1,229 U.S. consumers surveyed on February 12-13, 2013 are Netflix customers, although another 223 are classified as non-subscribers who have access to a Netflix subscription. About 10% of subscribers and those with access to Netflix viewed at least one episode of House Of Cards in the first 12 days after it became available. The average person who tuned in watched six episodes over that period, but 19.4% watched all 13.”
What can be safe to say is that House of Cards gives all Netflix subscribers one less reason to cancel. How big or how small the reason is arbitrary.
【好奇害死猫的回答(0票)】:
挖掘大数据的目的在于对社会/群体/个人行为的预测即“寻找动机”,如果能提前5秒预知未来(动机也是影响未来的一种因素),时间线的走向就可以被操控。
大数据最核心的价值所在是其中与人的行为模式相关的几个字节,看XXOO信息可以导出”撸“字,看航班和景点信息可以导出”游“字,看淘宝、苏宁、亚马逊信息可以导出”买”字或“闲”字。把这些导出的关键字节和对应的时间标示联系起来,各个点以log日志的形式进行记录和分析,通过人工神经网络之类的数学魔法进行总结,可以完整的描述人的行为模式并作出预测。
个人觉得这个和红警或者星际里的寻路算法或录像功能很像,星际争霸的录像功能可以对应的用来解释大数据应用于行为模式解析。
关键词+时间标记=路点,路点串联=路径,路径延伸=预测。
【杨勇的回答(0票)】:
个人觉得大数据可以是描述整个人类社会的一个模型,对于个人来讲,也可以是一种思维模式。
一般的思维判断靠现象,比如看见蚂蚁搬家会判断要下雨,这种思维方式是靠样本数量积累经验,是扁平化的,而大数据则是一种多维度的立体思维方式,它更准确更客观。
“大象无形,大音希声”,掌握了大数据思维的人不会通过一种特别具体狭隘的方法去思考问题,而是会从各个角度综合来判断问题。夸张一点来说,有点像黑客帝国里的尼奥瞬间看见全世界都是代码的状态,当维度足够多的时候,根本不用依靠“方法”,事物的样子自然就呈现出来。
这就是所谓“道法自然”
有意见请轻拍
【盼盼的回答(0票)】:
简单说,大数据的核心是预知!
&&&&&本文固定链接:
【上一篇】
【下一篇】
您可能还会对这些文章感兴趣!
最新日志热评日志随机日志

我要回帖

更多关于 网络视频用户规模 的文章

 

随机推荐