大数据是做什么的 可以做什么

用户名:Slaytanic
文章数:132
评论数:758
访问量:1477528
注册日期:
阅读量:1297
阅读量:3317
阅读量:580922
阅读量:464652
51CTO推荐博文
Hadoop和大数据是这两年最火的词儿们之一,越来越多的公司对这个东西感兴趣,但是我接触到的大多数公司里的人,无论是技术人员还是老板。都不知道怎么能把这些东西用于改善自己公司的业务。在解答的过程中,提炼出几个要点,记录一下。
大数据和云是不是一回事?
这是最容易混淆的概念之一,我个人认为这是两回事,云服务,无论是云主机还是云存储还是云的其他应用,都是向用户提供一个接口,但这个接口的后端是虚拟机技术,或者分布式存储技术,或者其他分布式计算技术等等。简而言之,云的概念就是我向你提供服务,而你不需要关心这种服务的架构或者技术实现有多么复杂。打个比方,就好象是,云之前的时代我们要用电,就需要自己造一个电厂发电,造机组,造变电站,然后再去用它。而云服务就好象是别人搭好了一个电厂,电线直接进你家,你要用,只需要插上插头,不需要关心电是怎么被制造出来的。电力的生产和电力设备的维护都由国家电网承担。联系到网络方面,就是,我们以前要自己买服务器,自己装系统,自己上架,自己做负载均衡,自己维护软硬件环境。有了云之后,这些都通过云服务商的虚拟机技术完成了。数据安全和网络安全都由云服务商提供,你也不需要专门请人维护一堆设备。
而说到大数据,这个可以是基于云的,也可以是不基于云的。大数据的处理技术与提供云服务的技术是不尽相同的,但是又有所交集。可以说,云服务是基础设施,是市政工程,而大数据是城市里的高楼大厦。大数据可以基于云,也可以不基于云。
从技术角度上说,国内的大多数云服务商,主要提供的是虚拟机服务,这是一种分的概念,把一台物理服务器拆成多个虚拟的小服务器,尽可能多的使用其物理资源,避免浪费。而大数据是合的思想,是把很多台服务器合并成一个虚拟的巨型服务器,通过分配计算资源使数据可以快速的为生产力服务。用一句中国的老话形容大数据和Hadoop就是:三个臭皮匠顶个诸葛亮。用合并起来的计算资源超越小型机或者中型机的计算能力。这里面当然也有云的概念存在着,就是说,你不需要关心数据的存储和计算到底是怎么完成的,你只需要用就可以了。
大数据技术是不是一定需要数据量大才可以,数据量不大就不需要用?
通常是这样认为的,但是并不绝对,计算维度大,计算过程复杂也都可以认为是大数据。换句话说,就是,如果你所需要的数据,在你所需要的时间内无法正常计算出来,你可能就需要用到大数据的技术了。
一方面,你的数据需要的存储量超过数据库或者数据仓库的能力范围,你可能需要大数据技术;另一方面,你的计算量超过传统的数据处理手段的时效性能力范围之外,你也可能需要大数据技术。而典型的计算能力的挑战就是来自于数据挖掘和多维度分析。可能数据量不大,但是算法和过程很复杂,也可能会需要大数据的技术。比如对用户做推荐,基于用户群的分类做精准的广告投放。或者在传统行业计算气象预报,计算地质数据做石油探测,矿产探测。又或者用在金融行业,通过对历史数据建立数学模型,对证券和期货贷款等做风险预估。之所以阿里巴巴对于中国的经济和进出口的预测比商务部和统计局更精准,除了他们有一群数学和统计专家外,大数据是完全不可或缺的技术手段。
大数据技术是不是就是那个什么憨杜普?
显然不是,大数据领域存在很多厂商和应用,有开源的,有收费的。比如一些非Hadoop大数据处理的公司和软件,EMC的Greenplum,Splunk公司的splunk等等。这些都不是基于Hadoop的,但是也有共同的缺陷,就是很贵。所以,大多数公司采用开源软件来完成大数据的业务处理。而开源领域做得最好的,应该就是hadoop了。所以现在hadoop基本成了大数据处理的代名词了。基于Hadoop衍生了很多家商业公司,因为Apache的许可协议并不拒绝商业。像国内比较知名的Cloudera,MapR,他们的商业产品都是基于Hadoop及其周边的生态软件。
大数据应该怎么推进公司业务的发展?
这是个关乎想象力的事情,有了大容量和大计算,至于怎么用,这只能自己想。原来数据怎么做现在还怎么做,不过除了啤酒与尿布,口香糖与避孕套之外,还有一个比较生动的案例大约是这样的:美国有一个公司,在各产粮区每隔一英里插一个传感器,收集空气湿度和土壤含氮量等数据。收集上来以后通过大数据的处理手段和算法,预测出该地区的收成可能会是什么情况,然后把预测报告卖给美国的农业保险公司。
Hadoop有什么优缺点?
Hadoop的优点是数据的容量和计算能力以及数据的备份安全性有了很大程度的提升,1.0最大可以支持到大约4000台服务器的并行存储和运算,而2.0大约可以支持6000台服务器。不过2.0现在还不是很完善,所以生产环境还是建议用1.0。我认为4000台集群的容量和计算能力足以匹敌IBM的大型机,从去年12月15号的中国银行大型机宕机事件来看。大型机就算安全性再有保障,也毕竟是单点。真出了故障,谁也不敢拍板切换到备份大型机上。Hadoop 1.0已经有了很多方案去解决单点问题,2.0自己就支持单点故障切换。或许未来继续发展,将全面超越大型机。事实上,IBM已经开始出自己的Hadoop发行版了。
至于缺点,就是Hadoop1.0还是存在单点问题,但是可以通过其他技术手段弥补做到热切换,只是要求维护人员的技术水平较高。另外一个缺点是计算的时间会比较长,还无法做到实时查询和快速决策响应。但是有很多其他的方案在弥补Hadoop的这个问题,像Apache出的跟Google Dremel竞争的Drill,Cloudera推出的Impala,和其他一些产品。而实时计算则有Twitter开源的Storm集群,设计理念跟Hadoop是一样的,但是可以对实时数据流进行计算,并即刻生成计算结果。做到随查随出。
在各个开源社区的支持下,在全世界程序员的共同努力下,大数据的处理能力也在高速的发展,程序员们正在用自己的智慧改造这个世界。本文出自 “” 博客,请务必保留此出处
了这篇文章
类别:┆阅读(0)┆评论(0)
12:05:26 12:44:51 13:45:04 14:33:35 09:37:03 18:34:33 20:32:07 13:05:54 15:31:57 16:43:57 21:10:04 08:56:15 17:03:08 17:20:47 08:30:20 09:42:13 10:29:31 15:36:53 16:13:08 23:25:40 18:16:50如果再有SARS,大数据可以做什么?_网易科技
如果再有SARS,大数据可以做什么?
用微信扫码二维码
分享至好友和朋友圈
在百度大数据开放大会上,中国疾病预防控制中心的高福院士在开讲时就向听众抛出了一个问题“如果2003年百度的搜索引擎和现在一样发达,能够提前告知我们广州、香港已经开始出现SARS病毒感染了,那么其他地区的危害是否会变得小一些?”而这一问题也其实暴露了传统疾病预防控制的方式的不足,最大的不足在于实时性上,疾病的传染控制抢的就是时间,与死神赛跑。而此次疾病预防控制中心与百度的合作也正是意在改变现状,开始利用大数据对疾病传播进行更先进的监控与控制。谷歌已在疾病预测防控上已经走出先例,那么我们先来看下谷歌的谷歌流感趋势(Google Flu Trends,GFT)的工作成果,再对比百度,从中窥视中国疾病预防控制的大数据未来。一,谷歌在疾控上的成就2008年,谷歌上线“谷歌流感趋势”项目,该项目开始预测流感传播。2009年在美国的H1N1爆发几周前,谷歌成功预测了H1N1在全美的传播范围,具体到了州还有特定地区,判断非常及时,令美国公共卫生机构以及全美大为震惊,疾控中心通常只能在流感爆发一两周之后才可以做到,而谷歌的及时性让全美侧目。这是真正第一次利用搜索引擎大数据对疾病控制的预测尝试,谷歌因此也获得巨大殊荣。二,中国疾控中心的大数据方向此次疾控中心与百度深入合作,不仅利用百度的数据技术来达到疾病传播的控制,还将拿出官方的监测数据与百度进行深入分析并建立模型。以下是在大数据下,疾病控制可以做到以下几点。1,提前确定一定规模的未知疾病,为疫情控制争取时间。无论传统检测还是大数据都是无法监测到任何没有临床症状的病例的,这些经验在医院的临床经验中都为0。但大数据却可以做到一件事,通过医院的共享信息以及百度监控指定地区的用户的频繁搜索关键词,可以检测到某个地区已经出现了诸如不明原因的肺炎,某地餐馆让多少人出现呕吐腹泻等异常状况......然后再通过与疾病控制中心的病毒库中的病毒分析,寻找吻合的病毒,进行比对分析然后将其找出,为判断疾病赢取时间。换句话说,有了大数据后,疾病预防可以真正在第一时间内去判断出疫情的病毒源,进而为控制争取时间。另外要说明一点的是,当前的科技下,疫情的发生是谁也无法控制的,我们目前唯一能够控制的就是及时制止其传播的范围,而大数据则是目前唯一的也是最佳的途径。2,判断人员流向,控制疫情。在疫情发生后,虽然国家可以第一时间控制住当地疫情,但是人员流动则是无法控制的。现在利用百度的技术可以做到,比如A地突然爆发了传染病,而此时根据百度大数据的监控就能监测到传染源区人员的主要流向地是B地与C地,于是疾控中心就拿出对应的医疗技术和对应的治疗药品以及疫苗来防治,第一时间赶到B地与C地,将一切药物准备就绪并为当地人接种疫苗,这样一来就减少了盲目的广撒网式的全面布局情况,通过百度提供的人员流动数据,让控制疫情在效率上大幅度提升。3,治疗药物和疫苗的迅速研发。在疫情发生后最重要的事情就是研发对应药物,传统的做法是一个小范围的研发,然后用传统的交流方式,但是有了大数据就不可同日而语。在病人的治疗中,所有药物的使用数据以及用户的病情数据都将全部联网,当机器检测到发现某种药物(通过读取录入的药物数据)对病人的病情(通过读取录入病人健康的关键指数后的数据)有部分效果后,将会迅速纳入研发的决策范围,为研发部门提供有用参考,为研发对抗疫情的药物以及预防疫情的疫苗,提供全网的大数据的支持。4,传播动力学模型建立。疫情的传播模型在学术上有很多研究成果,但是这些学术研究都很难落地,就像《反脆弱》里说的这种涉及社会问题的理论要想建立,从学术到实践是一种大众错觉,真正建立起理论的永远是实践再到学术然后再不断微调。而现在拥有了大数据的全面监控后,疾控中心也就有了更多的实践支持,就可以开始真正从实践中建立有关疫情的复杂动态网络的传播动力学。目前,疾控中心将国家拿出监控点的数据,从乡镇到医院的数据,与百度已有的大数据结合,再加上百度更强的分析能力,一起绘制出传播的模型,来为今后的疫情控制工作做更多的参考。5,建立全民预警机制。高院士有个愿景,希望未来的大数据疾病预防控制的预警不仅仅只是他们这些坐在办公室的决策者能够收到,更希望能够让全民享有这样的福利,来保障更多人的安全。比如当你去出差时,百度会在你的手机上提前通知你,你将要去的地区有食品安全问题,再比如第一时间通知你,你所在的地区有流感地区的人群大量流入,让你及时做好预防工作以及接种疫苗等等。关于这一点,我认为并不遥远,相信在近期就能够做到。三,谷歌的前车之鉴谷歌虽然在09年的预测上做出了漂亮的成绩,但是在2013年的2月谷歌流感趋势被媒体大量批评,原因就在于其数据总是偏高于真实的流感数据。谷歌出错的原因有很多,比如谷歌的搜索算法调整会间接影响到用户习惯,再比如谷歌的推荐搜索以及相关性推荐也会影响用户的搜索结果,此外搜索某个关键词的用户也不一定是患病用户,再加上运营商的地理位置判断等问题,使得谷歌出现算法过度拟合的情况,将噪声当成了信号,导致其结果的不准确性。而谷歌的反复试错,也让百度在该项目上更加警惕,所以直到最近才开展该项目,想必是已经做好了充足的准备有了充足的自信,才敢开始该项目,并接受大众的检验。结语:之前交通部与百度的合作,再加上现在的疾控中心与百度的合作让我们看到互联网产生的大数据已经进入了到国家决策的层面。未来的政府也将更加依赖于这些大数据的支持来做决策,而我们也将一起利用这些共享开放的数据,为自己所用。关注人工智能公众号:“机器之心”,个人公众号:“首席发言者”文章为作者独立观点,不代表虎嗅网立场
本文来源:虎嗅网
责任编辑:王晓易_NE0011
用微信扫码二维码
分享至好友和朋友圈
加载更多新闻
热门产品:   
:        
:         
热门影院:
阅读下一篇
用微信扫描二维码
分享至好友和朋友圈海文国际告诉你,学大数据能干什么_凤凰资讯
海文国际告诉你,学大数据能干什么
用微信扫描二维码分享至好友和朋友圈
&&&&大数据、数据科学、人工智能......这些词近年来委火,天天听到这些词儿,处处看到这些字儿,无论是企业还是个人,似乎不跟这些词搭上点关系,自己就被这个时代淘汰了一样。海文国际作为全球知名的IT教育机构,我们开设大数据课程,上门咨询大数据课程的人天天络绎不绝,总会碰到一些学员问到:我很想学大数据,但我不知道学习了大数据后能干吗?如果您也有同样的疑问,不防花几分钟时间,读完此文详细了解学习大数据,你未来能干什么?
&&&&首先想详细解释下两个词儿:数据科学与大数据
&&&&数据科学(Data Science)这一概念自大数据崛起也随之成为数据领域的讨论热点,从2015年开始,“数据科学家”便成为了一个工作职位出现在各种招聘信息上。那么究竟什么是数据科学?大数据和数据科学又是什么关系?大数据在数据科学中起到怎样的作用?本文主要是想起到科普作用,使即将或正在从事数据工作的朋友对数据科学工作有一个全概貌了解,也使有想法进入大数据领域的朋友在真正从事大数据工作之前对行业的情况有所知晓。数据科学是一个混合交叉学科(如下图所示),要完整的成为一个数据科学家,就需要具备较好的数学和计算机知识,以及某一个专业领域的知识。所做的工作都是围绕数据打转转,在数据量爆发之后,大数据被看做是数据科学中的一个分支。
&&&&大数据(Big Data)其实已经兴起好些年了,只是随着无处不在的传感器、无处不在的数据埋点,获取数据变得越来越容易、量越来越大、内容越来越多样化,于是原来传统的数据领域不得不思考重新换一个平台可以处理和使用逐渐庞大数据量的新平台。用以下两点进一步阐述:
&&&&&吴军博士提出的一个观点:现有产业+新技术=新产业,大数据也符合这个原则,只是催生出来的不仅仅是一个新产业,而是一个完整的产业链:原有的数据领域+新的大数据技术=大数据产业链;数据使用的范围,原来的数据应用主要是从现有数据中的数据进行采样,再做数据挖掘和分析,发掘出数据中的潜在规则用以预测或决策,然而采样始终会舍弃一部分数据,即会丢失一部分潜在规则和价值,随着数据量和内容的不断累积,企业越来越重视在数据应用时可以使用全量数据,可以尽可能的覆盖所有潜在规则从而发掘出可能想到或从未想到的价值。
&&&&在我从事大数据相关工作和学习的10年时间里,我一直认为大数据是一个以数据流向为主的链条或管道,数据从何而来,又去往哪里,不仅是哲学上的一个问题,也可以在做数据工作的时候考虑这个问题。
&&&&1数据平台
&&&&Data Platform,构建、维护稳定、安全的大数据平台,按需设计大数据架构,调研选型大数据技术产品、方案,实施部署上线。对于大数据领域涉及到的大多数技术都要有所了解,并精通某一部分,具备分布式系统的知识背景;
&&&&对应职位:大数据架构师,数据平台工程师
&&&&2数据采集
&&&&Data Collecting,从Web/Sensor/RDBMS等渠道获取数据,为大数据平台提供数据来源,如Apache Nutch是开源的分布式数据采集组件,大家熟知的Python爬虫框架ScraPy等。
&&&&对应职位:爬虫工程师,数据采集工程师
&&&&3数据仓库
&&&&Data Warehouse,有点类似于传统的数据仓库工作内容:设计数所仓库层级结构、ETL、进行数据建模,但基于的平台不一样,在大数据时代,数据仓库大多基于大数据技术实现,例如Hive就是基于Hadoop的数据仓库。
&&&&对应职位:ETL工程师,数据仓库工程师
&&&&4数据处理
&&&&Data Processing,完成某些特定需求中的处理或数据清洗,在小团队中是结合在数据仓库中一起做的,以前做ETL或许是利用工具直接配置处理一些过滤项,写代码部分会比较少,如今在大数据平台上做数据处理可以利用更多的代码方式做更多样化的处理,所需技术有Hive、Hadoop、Spark等。随便说下,千万不要小看数据处理,后续的数据分析、数据挖掘等工作都是基于数据处理的质量,可以说数据处理在整个流程中有特别重要的位置。
&&&&对应职位:Hadoop工程师,Spark工程师
&&&&5数据分析
&&&&Data Analysis,基于统计分析方法做数据分析:例如回归分析、方差分析等;大数据分析例如Ad-Hoc交互式分析,SQL on Hadoop的技术有:Hive、Impala、Presto、Spark SQL,支持OLAP的技术有:Kylin;
&&&&对应职位:数据分析师
&&&&6数据挖掘
&&&&Data Mining,是一个比较宽泛的概念,可以直接理解为从大量数据中发现有用的信息。大数据中的数据挖掘,主要是设计并在大数据平台上实现数据挖掘算法:分类算法、聚类算法、关联分析等。
&&&&对应职位:数据挖掘工程师
&&&&7机器学习
&&&&Machine Learning,与数据挖掘经常一起讨论,甚至被认为是同一事物。机器学习是一个计算机与统计学交叉的学科,基本目标是学习一个x-&y的函数(映射),来做分类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多数据挖掘的工作是通过机器学习提供的算法工具实现的,例如个性化推荐,是通过机器学习的一些算法分析平台上的各种购买,浏览和收藏日志,得到一个推荐模型,来预测你喜欢的商品。
&&&&对应职位:算法工程师,研究员
&&&&8深度学习
&&&&Deep Learning,是机器学习里面的一个topic(非常火的Topic),从深度学习的内容来看其本身是神经网络算法的衍生,在图像、语音、自然语言等分类和识别上取得了非常好的效果,大部分的工作是在调参。不知道大家有否发现现在的Google翻译比以前的要准确很多,因为Google在去年底将其Google翻译的核心从原来基于统计的方法换成了基于神经网络的方法;
&&&&对应职位:算法工程师,研究员
&&&&9数据可视化
&&&&Data Visualization,将分析、挖掘后的高价值数据用比较优美、灵活的方式展现在老板、客户、用户面前,更多的是一些前端的东西,也可能要求有一定的美学知识。结合使用者的喜好,以最恰当的方式呈现数据价值;
&&&&对应职位:数据工程师,BI工程师
&&&&10数据应用
&&&&Data Application,从以上的每个部分可以衍生出的应用,例如广告精准投放、个性化推荐、用户画像等。
&&&&对应职位:数据工程师
&&&&我建议想进入大数据领域的朋友可以选一个与自己现有技术背景相匹配的方向作为入门,如海文国际的大数据课程,这个课程适合之前做SA、DBA、JAVA开发的有一定IT基础的人,同时也适合那有志于入进大数据领域的零基础的的人员,从知识的广度,让学员建立一套有章可循、有据可依然的大数据思维;然后学员再将学习的魔爪延伸到其他感兴趣的方向,这是最快进入这个领域的一个方法。当然,我们要知道上面所列的每一个方向都需要耗费大量的时间、脑力、体力,都是这个智能时代继续发展的过程中不可或缺的一部分,海文国际大数据课程或许是最能帮助你的。
用微信扫描二维码分享至好友和朋友圈
凤凰资讯官方微信
播放数:440019
播放数:1810733
播放数:1386838
播放数:5808920今日推荐&:&
大数据能做什么?需要做什么?
左起:姜奇平、刘琳珂、丁磊、邢志峰、李安颖刚才来自五个不同领域嘉宾就大数据发表了自己的精彩的见解,我们下边一个单元有请五位嘉宾到台上来,我们共同举行一个对话,有请丁磊、李安颖、李旭阳、邢志峰和刘琳珂,五位先生到台上就坐,大家欢迎!用比较概括语言描述一下大数据能做什么?需要做什么?我解释一下这个问题。能做什么呢?咱们举一个具体的情景,什么情景,雾霾,假设现在让你去治理雾霾,比如说让你改行解决雾霾问题,或者你给别人出主意,说大数据分析咱们这雾霾怎么形成的?有什么办法治理?依你的专业知识或者所在领域你可以出点什么建议。比如说我们可以如何发现雾霾构成它的规律,怎么治理它或者解决,提高人们健康水平等等,以此为例,咱们谈谈大数据它可以做什么,能够对我们的生活产生什么样的影响。第二,我们以大家所在领域专业知识,你们认为我们大数据今后需要重点发展什么?在各种各样的领域里边,这里边包含两方面,在你所在的领域可能有十个选项,你认为选出最重要的方向,你认为未来的五年十年,应该是什么东西最有前途最需要发展。或者说除了你这个领域以外,包括整个大数据领域,你认为哪些是非常重要,有必要加码加以重点发展。先从邢志峰总说起,你提雾分析,跟咱们雾霾分析不知道能有什么关系,能不能用上,我是提个头。& &邢志峰:雾分析跟雾霾没有什么大的关系,字面上可能有点像。刚才姜老师提了雾霾这个问题,我自己觉得雾霾这个问题跟大数据关系也不是特别大,姜老师提这个问题我脑子里一直在转,我们分析雾霾的构成,我相信可以通过大数据做一些分析,包括世界各地包括伦敦之前几十年前雾霾很严重,这么多年来,它的雾霾变化以及它做了哪些措施一定通过数据分析做洞察。包括今天北京市雾霾很严重,到底是机动车还是污染企业还是炼油等等制造企业等等我相信也可以分析。我个人觉得数据,如果要具体到雾霾,更重要的事情,我提个建议,北京市环保局联合政府,比如我有车甚至我自己也是一个业主,我可能开服装店等等,是不是可以计算出每个人其实你在雾霾这个角色里面,产生雾霾这个角色里面你到底做了哪些“贡献”,现在的问题,我自己体会有很多的车主包括有很多企业老板,一方面我们在抱怨北京市雾霾很严重,一边开着车或者在使用不是绿色环保这样的一些措施来出行。我觉得一个很重要的数据力量,很多时候是我们没有看到我们作为一个微小的个体,我们对整个大社会的影响到底是什么。如果有可能的话,给我计算一个雾霾贡献指数,每天这个指数在变化,其实我相信我会有同理心,我会知道克制自己的欲望,即使我有钱也不去买高能耗的车等等。对于每个企业,每个企业都有雾霾贡献指数,企业自身有社会责任,也会有一些自律,这样的一种方式可能会推动我们社会进步。主持人:这招是高,过去我们讲什么呢?80年代有一句话说从我做起,现在大家见到雾霾埋怨别人,跟自己没关,你有一个显示牌自己增加多少雾霾,贡献雾霾率有多少,下次我见着北京市领导提提建议。&&丁磊:通过数据能够驱动一定程度上的关于雾霾的决策和优化。好比某些企业污染比较大,作为决策的这些制定者能不能根据这些数据进行一些更加合理化的优化,使得整个社会上的雾霾量会有一个控制,同时又不会影响我们经济发展、个人生活方便性,这可能通过数据来驱动或者说辅助一个决策制定的理念,我觉得这个非常有道理。我个人这边分享,我想C端消费者来讲讲,我这边确实有一个实际案例,我可以给大家看看手机上两幅照片,一个是我在家里测的雾霾值,你可以说是小数据,73。我解释一下,我家里不在窗户边上测的PM2.5,你可以认为有一定的偏差,我不是说这个值测得比较准,给我比较好方向性雾霾指数。因为当雾霾大的时候,我这个数值确实变大,我这个测量数字跟实际雾霾有相关性的。第二张照片,图已经变成红色或者说黄色,这张也是在家里同一个时刻,窗户边上测的PM2.5浓度,由73变成177,这个数字告诉我什么信息,在雾霾天,我尽量不要在窗户边上待着,同样拿一个仪器在家里不同位置测出两个不同的数字。雾霾这么大,对于消费者没任何意义,现在即使在我家里通过简单仪器简单测量,告诉我雾霾大的时候尽量不要在窗户边上待着,我也分享给身边的朋友。总结一下,五买这个事在一定程度上帮大家改善一定的生活,雾霾天做一个C,应该去哪些地方,不应该去哪些地方,在公司房间里,哪些房间雾霾值要大,我们尽量不要去。你说这个数据是小数据,但是行动数据。& &主持人:从数据采集,大数据帮助我们更多了解情况,首先我自己我就觉得始终有些不解之迷,我小时候看天气也是乌突突,有全样本的数据证明,过去是多么严重,现在多么严重,我有一个& 比较,现在没有说明。第二个困惑是什么呢?我看明明数据比较高,我看得很清楚,我家住在山里边,我看四周围那个山,如果有一面山我能看到,绝对是特别清楚,我一读那个数非常高,很严重。你刚才说那个数字情况我就严重怀疑,数据& 采集器摆哪儿,摆在公路边,大卡车一喷气,明明天气很好,说很坏。但是也有反面情况,我觉得这个空气好像很不好,数字却很低,其实跟这个数据采样有关系,大数据全样本采集数据而且还要持续采集数据,在不同地方采集数据,可能将来还有大有作为。& &刘琳珂:雾霾数据不好找,你找到的PM& 2.5的数据是近几年的数据,你想对比数据是很困难,比如说你想对比某一个区域二氧化碳、一氧化碳,某种工业污值排放数据你是找不到,你找气象数据,这个地方风、雨情况也是不好找。但是单求过去五年的PM2.5,对比北京、广州、上海、深圳,北京污染程度比他们高一些,但是你要看重度污染时间北京比广州上海高得多,并且有很严重季度特色,北京很明显冬季PM2.5重度污染天数是特别多,你要按一二三四季度去看,北京PM2.5重度污染是弧线,冬季时间是特别多。但是广州和上海是比较平均的,没有特别明显季度的特色,并且他们的重度污染时间比我们短得多。也有一位嘉宾说了伦敦,伦敦目前的成因确定由于煤的燃烧和排放造成的。那个年头没有机动车,机动车的因素到现在有多少?是一个大的问号,因为我还做过一个时间分析,以北京为例,这个数据不太桥说准确度如何。你会发现北京PM2.5重度污染集中在半夜比天多得多,这是个很奇怪的事情,晚上应该是车辆各种东西很少,为什么反而数量数值会高呢?我拿不到别人数据的人,我怀疑工业企业在半夜加大排放,分析的手段早就有了,有这样分析能力的人有大把,我本身并不是一个十分优秀的数据分析专家,所以说公共数据平台开放数据平台下午提过几次,城市公共数据开放帮助城市,老百姓会帮助这个城市分析让& 某一些交通污染大家一些生活方面变得更好,很多人来参与做这个分析,所以城市公共开放在美国包括在国内有一些试点出现,这方面大家了解你生活周围特别清晰的基础。&&主持人:反映出大数据它的相关分析其实很厉害。你比如可视化,您分析是一回事,展示在那就是事实,事实上到底是什么原因。晚上谁偷偷摸摸排放污染,我非得抓他不可,这事得看,让分析专家去说,我们只是告诉他这个事实,你一说我脑洞打开,污染治理不好,我能采取什么措施让大家寿命不减少反而增加,大家选择吧,怎么选择,治理污染还是说让大家寿命提高也是相关分析,说不定我污染治理不好,但是我因为提高大家抵抗力或者是医疗贡献更高,结果我污染的地方比空气好的地方活的还长,那大家真说不好是什么选择方法。李安颖:今天是单双号限行,用数据治理雾霾没有直接作用,我觉得更多的通过数据的分析,就刚刚说拿数据说话给政府部门去解决或者说去治理雾霾提供一些依据,从政府机关或者政府机构做这些事情也是挺艰难的。今天做限行,事实上我觉得空气质量其实可能没有想象中那么重,如果不去做治理的动作,大家又会觉得不作为,怎么办呢?更多从政府机构这块,能够达到或者能够相关采集到的这些数据来去做分析,给老百姓,它的决策更开放一些,给老百姓更多的一些,在决策方面依据的一个公开,我觉得大家可能更多能够去理解到,更多能支持到政府在做很多决策方面的一些支持。大家就不会盲目来去进行吐槽,现在互联网的时代,大家言论更开放更自由,更有可能会误导到大家很多的视听,这是一个。第二块,说到治理雾霾,我一直以来是参与到很多林业信息化工作当中,我曾经跟一个林业专家和领导做过沟通,我说咱们国家其实从80年代开始构造三北防护林,内蒙、宁夏构造北方一条防线挡住从内蒙、西伯利亚过来的沙尘,但是有的人又说到一点,除霾主要靠风,防护林建到这个程度是不是真的对我们近年来的雾霾的产生又造成了一些影响,我当时专门做过求证。当然了事实上是没有的,但是我当时联想到一点,到底我们的防护林建到什么程度,国家投几十亿上百亿来去做,做到什么程度。第一,在整个生态环境方面整个是有改善。第二,对大环境是没有一些其它方面的干扰,目前可能大家是拍脑袋,我们今年应该建30万亩林子,我希望下一步咱们这些相关的部门能够把这些数据,生产方面的数据和气侯以及气侯方面一些因素数据能够统计起来,然后来做一些预判和分析,让我们真正国家资金用到比较有用的地方,能够为咱们真正老百姓生活能够创造更好的条件。&&主持人:我认为这也沾边,李总刚才谈到网上政府数据开放,我发现比如说你拿纽约来说,纽约他们在数据开放式过程中有两种数据特别有用。一类是医疗数据,一类就是气侯数据。这些数据,它倒不是政府那分析,开放出来,就像可视化,我也说不出来,但是我把数据开放出来,你们大家自己建APP,反正是八仙过海各显其能,你去治理,我有招,我可以从健康角度,我可以从林业角度,他可以从汽油角度,大家不同角度嫁接在政府数据平台上,变成大家一起来治理,叫共治。先共享然后再共治。今天可以讨论,本来我随便一说,其实我这么一想真很有道理,我们说的挺综合 解决方案,从头到尾、数据采集、相关分析、可视化处理、到政府数据开放,从我做起,特别从我做起极有创意,我估计政府绝对没想到,下一次真可以做篇文章。转到第二个话题,刚才说我们拿大数据可以做什么,可以解决什么问题。那么现在从满足需求角度讲,从供给角度讲,我们从提高大数据能力这个角度讲,那大家认为自己所在的领域或者说是你看整个大数据领域,你们认为应该重点发展哪个方向,或者你自己比较看好的那个领域是在哪个方向。咱们依次来谈谈。&&李安颖:因为从目前来看,咱们政府的这些所拥有的或者说在政府工作过程中产生的数据应该是多种多样的,有一个比较麻烦的问题就在于没有达到完全的共治,在各自治理过程中所产生的数据之间相互的冲突或者说是一些重复,我们在鉴别数据过程中会达到很困难的一些情况,所以我说从大数据的下一步政府数据开放,第一个要把数据开放出来,然后能够为大家所用。第二,在于数据鉴别,虽然我们说数据可能不确定性能够导致它的确定性,但毕竟还是要保证一定数据的准确性,可能会是下一步从政府机构或政府机关去推动大数据的一个方向之一。主持人:我补充一点,关于这个问题我了解一些情况给大家透露一下,政府数据本身共享很成问题,恐怕将来中国路子是由易到难,先是在2018年前后开放公共数据,跟公共服务而不是政府关着门那个,那个比较复杂,先把可以公开的为公共服务跟大家福利比较近的这些数据先开放,这样先用起来。李安颖:一定是有一个节奏,本身政府内部处理过程中会有一些困难,但是面向老百姓首先要拿出来,为社会所用,社会在这个基础之上做出更多的服务来去进行进一步的发展。邢志峰:我跟北京科委就大数据做过交流,当时很多朋友有共识,很多公司都有这样一个前提,包括很多创业者他们会有一个创业者,如果我有大数据,我能干什么什么事,如果我能把京东、阿里的数据收集在一起,我能搞出什么样的名堂。那其实我自己作为大数据的从业者我一直把大数据如果从宏观上来说实际上分两个层次,第一个层次是属于数据产生层次,然后产生完之后,你的大数据技术也好、你后面的收集包括分析、挖掘、存储安全等等都是大数据技术领域,我觉得大块看这也划分成大数据产生跟大数据技术。我觉得现在的大数据的社会的风气包括引导,我有一点点感觉是在往后者,在强调大数据数据包括数据分享、聚合、交易包括挖掘分析。但是我自己有另外一个看法在于说,大数据如果没有产生,那你后面那些东西都没有任何意义,所以说这也是为什么我觉得,虽然阿里是我们的友商,但我认为阿里、京东这样的公司其实通过自己的服务给社会带来价值打败了或者说至少我们领先于像亚马逊包括ebay,才使中国零售大数据掌握在至少中国企业手里。如果我们今天没有在我们服务上打败亚马逊或者领先亚马逊打败ebay,中国今天消费者一定会去使用更好的& 服务的公司,这些数据其实已经不在我们手里。我觉得大数据根本在于说,应该是怎么想方设法提供优质服务,然后你有了优质服务之后,数据的价值创造实际上你后续盈利,优化盈利效率等等,首先怎么带来价值,怎么改变人们生活,让我们的世界更美好。主持人:这一个观点非常深刻而独特。&&丁磊:我也说说大数据价值的看法,我想把观点分成两部分,一个是B端企业端第二个在C端,消费者端。我之前听到在我们这个论坛上说的大数据还是从B端视角来说跟业内大趋势是比较吻合,大数据都是一些企业甚至是大企业玩那些东西,他们有足够体量数据,有团队来分析,B端先接受大数据的价值。B端分成很多行业,我自己在金融行业,我刚才说营销、风控等等大数据有很大的价值为客户创造出新价值,这块不多说。用得相对少的行业,在传统的房地产行业用知识支持决策比较少,我也看到一些趋势,即使相对传统行业也有挖掘大数据价值,比如房地产公司选址在哪个地方楼盘,或者房地产联系到潜在购买者怎么定下购买人群,怎么把大数据跟营销运营结合在一起,这是我个人看到趋势,总结一下相对比较传统的行业,金融以外包括房地产甚至包括医疗甚至包括教育行业,现在越来越多用大数据支持决策,我觉得在B端的挖掘大数据价值趋势,各个行业通过自己一些客户的理解,自己行业现状结合大数据分析提供价值。我还想比较一下国外和国内的一些区别,我之前在美国Tableau工作了很长一段时间,包括我在国外生活经历,我觉得大数据好比在美国大家也提大数据,在广度甚至深度上在某些方面可能不及在国内提的这么多,我想原因可能是这样的,我有过一个思考,这个思考是这么一个逻辑。美国环境下一些传统企业大量运用了分析师,我举个例子,好比在美国金融行业就不用说了,本身数据密集型行业,房地产行业包括相对传统行业,分析师这个职业在美国是大量存在,绝对不仅仅在银行里,在很多很传统行业里都有既有以数据支持决策或者报表的过程,他们在过去十年在二十年没有叫大数据,数据体量也没有那么大,这种流程或者思维在历史某种程度存在,我是这样认为,在这样的环境内好比在国外,已经有这么一个既成分析体制或者体系,所以大数据在现阶段并没有给人们带来那么大的冲击。看看国内这个情况稍微有点区别,传统上包括在各个传统行业上可能用这个数据支持分析,在过去一个阶段相对比较少,包括在我刚才说的那些相对传统行业,医疗或者说房地产行业,他们并没有很多用数据来支持自己的决策。形成这个现状在国内大数据非常火,我想这是有原因。相当于基本上没有数据支持的维度一下跳跃到大数据支持的行业,包括对行业服务消费者说也是有爆炸的需求,尤其美国和中国大数据或者说传统分析业务的思考。我说这个B端,我关于大数据价值的思考。过渡到C端,从我个人这边看来,现在也好在国内也好在国外也好,大数据还都是企业级玩的事,C端作为消费者如何用大数据改善我们生活,就像我刚才举的小例子,我知道我屋里哪里雾霾大,我就不往那个地方待,我作为个人如何用大数据支持我的决策,好比我考大学,我要选专业,在信息匮乏环境下我想某些人对自己未来预判不是那么准确,未必符合自己真正价值体现,通过数据支撑下,好比对我们即将高考学生来说应该填报什么样的专业,需要做出金融决策上的上班族,什么样的理财产品对他最好,这些是C端通过大数据支持自己决策的应用场景。很自然的问题,这些数据在哪儿?C端并没有收集自己数据的意识,这还回归到数据治理还是数据所有权问题,数据肯定在那里,数据跟你交易过的记录里面,如何让每一个普通消费者每一个普通市民通过简单方法从各个你跟他打过交道的企业里面拿到自己的数据,那些数据归根结底是他自己的,有没有通过某种渠道拿到C端的渠道,大数据部分的所有权是归于消费者,消费者如何容易拿到数据,创造价值提高他的体验,这是在C端数据价值的问题。主持人:关于你第二点,我补充一点,我一直在思考这个问题,在用户掌握自己所有权基础之上如何拿出来,我请教过KK,这个事你不用担心,这个事情他一定是达到利和弊均衡点,均衡点的规律是什么?我过去没想到,他是说用户你把钥匙交给他,克林顿时期确定的原则,他实际上是以什么为轴来想这个问题,实际是个性化和开放之间成反比关系,这是一个规律。也就说他越想让对方提供个性化的服务,他就要越披露更多的信息,比如你去医院,我有隐私不告诉大夫,我得什么病,你害你自己,见了大夫无保留。这个时候,接下来这个问题就是,如果他对个性化的服务评价机遇的价值评价高,他就倾向于开放,评价低就倾向于封闭,完全取决于自己。什么决定评价高还是评价低?经济学研究有明确数据表现,跟收入呈正相关。越是低收入的人他越觉得喜欢大陆货而对个性化的评价偏低,收入水平高了以后,开始对个性化服务给予估值越高,最后结论,社会越发达大家心里越开放,而且这个事情有这个想法和大家心理有错位,隐私带有色彩,个人信息是中性的,这个时候我们可以看到我们老想象是说,我的个人& 信息被全天下人都看到,不是,真正服务的时候都是一对一服务,跟你去医院门一关就是你们俩人,你的大夫根本看不着你,你就是一个号码,大家不用担心,唯一的问题,你无法解决,个人收入一下提高,这是社会发展,你说的问题是特别重要的问题,但是将来是有方法解决。中美基本是这样一个路子,开关在消费者决定的,对于他关还是开,取决于社会发展水平、商业模式和技术进步,我觉得还是可以解决的。刘琳珂:我想讲大数据搭建和使用方面,比较大型的企业有需求有数据,搭建大数据平台资金都是OK,有大量中小型的企业也有规模不小的数据,自己专门去搭建大数据平台是不合算的,大数据按照性价比来讲并不高,你有一个更便宜更廉价方式把它存储和利用起来,对企业才有价值,所以我目前看到的一个趋势,基于云端更容易被使用和搭建更廉价的大数据平台,目前在欧美是已经走入了很多中小型企业。我有一个客户本身专门做电子游戏一家公司,对它来讲,公司200、300人,主要是游戏开发师。他的特别多游戏玩家的数据,这个东西有没有价值?有,你让他长期保存,又没价值,买游戏道具越来越多,一段时间就销毁掉,有廉价大数据平台上,可以把它放上去,我看到放到云端亚马逊的数据平台上面,它只要买一个服务就可以放在谷歌上,包括阿里云。对中小企业以更廉价,有的情况下成本几乎跟零差不多,维护使用大数据平台,我相信对于很多有大数据中小型企业会是一个更大的促进,因为这个不需要自己有专业的IT维护团队和大规模的资金投入,而有相关绩效回报就拿出来。主持人:你说的非常深刻这是一个重大信息,咱们中国发展这么大,数据开放平台这件事是很薄弱,它是对内不是对外,反过来给在座各位留下机会,从刘总的话来说有一个世界级的机会在里边被控住了,是通过云的方式,用开放共享方式,用API结合大家来使用,这个是下一步我认为发展的重点。今天咱们对话非常精彩,大家对四位精彩发言表示感谢。我最后来做一个小结。今天我听来听去是这样,大数据这个事讲不完,但是我觉得今天其实有重要信息,抓住什么重心?大数据和我们每一个人成功的关系,今天总结出点眉目来,你可以看出中国人国大数据和美国人国大数据那不同点在什么地方。我最近一直在国际上转,欧洲那边转完了以后,不足虑,关键是美国,美国人发展大数据和中国人发展大数据是一回事吗?这个问题我觉得是未来十年的时候要取得大成功必须考虑,你要跟随是做小。这个差异在哪儿呢?如果用过去古代成语讲,屠龙之术,我发现美国对屠龙之术特别感兴趣,技术感兴趣,中国是用,这是典型中国人的成功风格,偏离了成功的地方不容易成功,你可以看出,咱回过头来看,每个人一谈都是应用,大数据第一个丁磊是说应用在金融,李安颖一提网上政府用在这儿,李旭阳也是具体安全应用场景,邢志峰谈的也是场景化应用,刘琳珂也是谈场景,反复大家都在用场景这上。我说这话不是虚的话,我对这个问题做非常细致的研究,我跟美国人比较,其实我在会议之前我还在说出我这个疑惑,发现美国人、中国人重点不一样,我觉得这个不一样是对了,各自发挥比较优势。你比如说我看到了基础设施这一层没中国人了,华为排到第17位,现在进到最底下架构嵌入进去也就是阿里,阿里我去跟IBM一谈,用嘲笑口气,你这是属于1.2万工程师才能搞定,意思说你没提炼出来。我一想,中国为什么非得美国人一起做,应用牌大数据未必不成,人家瞄向应用。我不是说屠龙之术,龙不知道,美国市场条件让他不关心这个事,但是中国人必须自己关心这个事,我到底抓住什么应用。第二,大家头脑是具体化的,有一个具体情景,今天有一个主题词是反复情景,将来大数据,可视化只是情景化的一个阶段,情景定价,意思说一物一价这个时代,我价值的确定要一对一确定,要根据上下文来确定,大数据在这里边起到关键作用,我相信中国在这方面会有所擅长。我说今天大家来了一趟,绝对没有白来,管你十年,你不听这话,你瞎转转,走十年弯路,但是如果我们事先就能看出这个重要东西,你下边十年是什么?要扬长避短发挥中国人最擅长的地方,在这个地方取得成功,所以紧扣应用抓住情景化这个东西,我估计这儿会比美国更有自己的优势。这是我觉得对我来说都是很好的收益,可以说是找到了一个答案。
相关频道:
您对本文或本站有任何意见,请在下方提交,谢谢!
投稿信箱:
Copyright © 2000-- 硅谷动力公司版权所有 京ICP证000088号 京公网安备77号

我要回帖

更多关于 大数据时代可以做什么 的文章

 

随机推荐