kafka消息kafka发送消息失败不出去

天极传媒:天极网全国分站
您现在的位置:
& >&解析运营商挖掘大数据价值的七大模式
解析运营商挖掘大数据价值的七大模式中国信息产业网 15:31
  移动互联网时代,数据爆炸式增长后带来巨大的流量,运营商在收入上却没有得到相应的提升,还面临着数据流的附加值被互联网公司“吸”走的挑战,面临沦为管道的尴尬。在接下来的移动互联网的竞争中,运营商要怎么办?对于电信运营商而言,大流量、大数据带来更加严峻的考验,但是同时机遇往往与挑战并存,运营商手中所掌握的海量数据,也是产业链上其他环节望尘莫及的。另外,高效的信息分析能力,将帮助运营商在日益激烈的市场竞争中准确决策,深度挖掘流量和数据价值,从而摆脱 “管道化”风险。
  随着互联网、移动互联网、物联网、云计算的兴起以及移动智能终端的快速普及,运营商的网络获得了更完整的用户数据。例如在用户层面,除了常见的年龄、品牌、资费、入网渠道等基本信息外,数据还包括上网时间、上网地点、浏览内容偏好、各种的使用时间等;在终端层面,包括IMEI、MAC、终端品牌、终端类型、终端预装了哪些应用、终端的、终端的尺寸等。此外,还有诸如Web浏览记录、传感器信号、跟踪和社交网络信息等数据。按《爆发》一书中的说法―― “爆发展示的是一种思维方式,而不是预测方法。从物理学到人类社会大数据时代我们的行为确实可以预测,我们在享受一些免费服务的同时,出卖自己的喜好。”从这些庞大的用户数据中,可以分析出不同用户的行为习惯和消费喜好,并最终提高经营效率。
  运营商已深刻认识到大数据的重要性,在企业内部已经利用大数据实现精确化营销和精细化运营。中国移动就通过对用户数据的MOU(平均用户通话时长)、业务收入等数据分析后,提供比较精准的模块支撑,极大地方便了营销人员的日常营销。如针对漫游费比较多的用户,就推荐漫游套餐;对经常用上网的用户,就推荐流量包。通过对用户行为的分析,提供IM服务,如、飞聊等。 在经营分析系统中,深度挖掘融合市场、集团、客户、客服、网络、财务数据,为业务和决策部门提供较完备的用户数据分析,使公司决策由 “经验型”转为“分析型”,实现了精细化运营。
  然而,这些是远远不够的。运营商虽然开始尝试对外提供数据服务,却停留在提供原始数据层面,这对于大数据是严重浪费。就海量数据,提供高附加值的数据分析服务,将数据封装为服务,形成可对外开放、可商业化的核心能力,实现商业模式的创新,才能使运营商真正挖掘到大数据这一金矿。笔者认为,至少有以下7种模式是运营商可以实践的。
  模式1:数据存储空间出租
  企业和个人有着海量信息存储的需求,只有将数据妥善存储,才有可能进一步挖掘其潜在价值。具体而言,这块业务模式又可以细分为针对个人文件存储和针对企业用户两大类。主要是通过易于使用的API,用户可以方便地将各种数据对象放在云端,然后再像使用水、电一样按用量收费。目前已有多个公司推出相应服务,如亚马逊、网易、诺基亚等。运营商也推出了相应的服务,如中国移动的业务。
  要提升差异化的竞争能力,运营商应该在数据分析上下工夫。对于个人文
  件存储应在提升关系链管理、提升个人效率上下工夫;而在企业服务上,将其从简单的文件存储、分项逐步扩展到数据聚合平台,未来的盈利模式将有无限可能。
  模式2:客户关系管理
  客户管理应用的目的是根据客户的属性(包括自然属性和行为属性),从不同角度深层次分析客户、了解客户,以此增加新的客户、提高客户的忠诚度、降低客户流失率、提高客户消费等。
  对中小客户来说,专门的CRM 显然大而贵。不少中小商家将飞信作为初级CRM来使用。比如把老客户加到飞信群里,在群朋友圈里发布新产品预告、特价销售通知,完成售前售后服务等。中国移动不妨在此基础上,推出基于数据分析后的客户关系管理平台,按行业分类,针对不同的客户采取不同的促销活动和服务方式,提供更有针对性的服务,然后将提供线上支付的通道打通,形成闭环,打造一个实用的客户关系管理系统。
  模式3:企业经营决策指导
  运营商可以利用用户数据,加以运用成熟的运营分析技术,有效提升企业的数据资源利用能力,让企业的决策更为准确,从而提高整体运营效率。简而言之,将运营商内部数据分析技术商用化,为企业提供决策依据。举个简单的例子,某商店卖牛奶,通过数据分析,知道在本店买了牛奶的顾客以后常常会再去另一店买包子,人数还不少,那么这家店就可以考虑与包子店合作,或直接在店里出售包子。
  模式4:个性化精准推荐
  在运营商内部,根据用户喜好推荐各类业务或应用是常见的,比如应用商店软件推荐、IPTV视频节目推荐等,而通过关联算法、文本摘要抽取、情感分析等智能分析算法后,可以将之延伸到商用化服务,利用数据挖掘技术帮助客户进行精准营销,今后盈利可以来自于客户增值部分的分成。
  以日常的“垃圾短信”为例,信息并不都是“垃圾”,因为收到的人并不需要而被视为垃圾。通过用户行为数据进行分析后,可以给需要的人发送需要的信息,这样“垃圾短信”就成了有价值的信息。在日本的麦当劳,用户在手机上下载优惠券,再去餐厅用运营商DoCoMo的手机钱包优惠支付。运营商和麦当劳搜集相关消费信息,例如经常买什么汉堡,去哪个店消费,消费频次多少,然后精准推送优惠券给用户。
  模式5:建设本地化数据集市
  我们都知道,数据是非常有价值的东西。因此,能够下载或者访问数据平台,自然而然也就成了商业需求。运营商可以通过建设数据集市,数据提供者可以将数据上传至平台供人免费下载,或者以一定的价格销售,让每个人都能找到自己需要的数据集。
  运营商具有的全程全网、本地化优势,会使运营商所提供的平台,可以最大限度地覆盖本地服务、娱乐、教育和医疗等数据。典型的应用是中国移动“无线城市”,以“二维码+账号体系+LBS+支付+关系链”的闭环体系推动,带给本地化数据集市平台多元化的盈利模式。
  模式6:数据搜索
  数据搜索是一个并不新鲜的应用,随着大数据时代的到来,实时性、全范围搜索的需求也就变得越来越强烈。我们需要能搜索各种社交网络、用户行为等数据。其商业应用价值是将实时的数据处理与分析和广告联系起来,即实时广告业务和应用内移动广告的社交服务。
  运营商掌握的用户网上行为信息,使得所获取的数据“具备更全面维度”,更具商业价值。典型应用如中国移动的“盘古搜索”。
  模式7:创新社会管理
  对运营商来说,数据分析在政府服务市场上前景巨大。比如在大数据的帮助下,什么时间段、哪条路拥堵等问题,都可以通过分析得知。通过同一条路上多个用户手机位移的速度便可以判断当时的路况,为拥堵作出准确预警。美国已经使用大数据技术对历史性逮捕模式、发薪日、体育项目、降雨天气和假日等变量进行分析,从而优化警力配置。
  在国内,运营商也可以在交通、应对突发灾害、维稳等工作中使大数据技术发挥更大的作用。
  运营商处在一个数据交换中心的地位,在掌握用户行为方面具有先天的优势。作为信息技术的又一次变革,大数据的出现正在给技术进步和社会发展带来全新的方向,而谁掌握了这一方向,谁就可能成功。对于运营商来说,在数据处理分析上,需要转型的不仅是技巧和法律问题,更需要转变思维方式,以商业化角度思考大数据营销。
(作者:佚名责任编辑:Sunny)
天极新媒体&最酷科技资讯扫码赢大奖
* 网友发言均非本站立场,本站不在评论栏推荐任何网店、经销商,谨防上当受骗!
办公软件IT新闻整机&&>&&&&>&&
电信运营商如何玩转大数据?  来源:中国信息产业网-人民邮电报  作者:战培志 倪晓炜
大数据对外应用探索不足:电信运营商目前开展的大数据应用内部多于外部,Informa Telecoms & Media抽样调查发现,只有不足30%的运营商在开展大数据对内应用的同时开展了对外应用,大数据技术作为企业新的盈利增长点作用未充分发掘。需进一步加强创新,挖掘大数据对外新应用。
大数据建设人才管理配套机制不完备:建设大数据需要企业拥有大数据技术运用能力、业务理解能力、具有数据洞察能力的综合型人才(数据科学家),而互联网公司对该类人才的需求量也非常大,且吸引力远超电信运营商。电信运营商必须对现有的人才引进机制进行改革,才能保证大数据建设人才需求。
大数据系统建设应按需开展
在大数据建设方面,大数据涉及的技术体系种类繁多。常使用的大数据技术主要包含NoSQl系列技术、并行数据库技术、流式计算技术和基于大数据计算平台的分布式数据挖掘技术四大类技术。运营商需针对不同的应用场景选取合适的技术进行大数据建设。对于NoSQl系列技术,可用于处理非结构化和半结构化数据,如使用Hadoop系列的HBase、Hive技术对DPI数据进行处理分析。可使用并行数据库技术代替传统的数据仓库进行经营分析,或代替传统的关系型数据库进行OLTP等,以获得更高的处理速度和性能。使用流式计算处理一些计算实时性要求较高的应用场景,如实时异常话单检测,场景营销及对外提供的一些信息化服务产品如基于手机的实时人口密度统计等。基于大数据计算平台的分布式数据挖掘技术常用的有RHadoop、Mahout等,可用于预测分析一些数据挖掘应用。电信运营商也可综合使用上述四类技术,建立大数据基础服务平台,为各种大数据应用提供统一的服务基础。此外为确保已有投资的有效利用,传统的数据仓库往往也在该平台中存在,如作为数据量较少的数据集市的存储载体,存储其他大数据技术计算的结果。
电信运营商深度拥抱大数据
大数据时代已经全面来临,面向未来的大数据建设,电信运营商应强化规划引导、实现大数据建设全面统筹。电信运营商建设大数据,应在集团和省公司层面分别指定部门统一组织开展整个集团和省公司层面的大数据规划,在规划的指引下,实现大数据建设与应用的全面统筹,包括:清理分散在各部门中的数据资产,开展应用规划,明确应用建设与运营分工,建设运营商集团和省公司层面统一的大数据基础平台,加强大数据安全管控等。
夯实基础,提升大数据基础数据质量。针对大数据应用中存在的基础来源数据缺、重、散、慢、差等问题,开展运营商IT域、业务平台及其他相关系统的清理,优化系统架构,完善企业数据模型,加强数据的统一管理。从源头确保大数据分析所需的数据质量,提升大数据分析及应用效果。
持续优化机制,为大数据建设提供有力保障。优化机制包括两方面的内容,一方面为优化创新机制,加强在统一统筹管控下的大数据应用创新激励,尤其是大数据对外应用的创新激励。另一方面为优化人才管理机制等,为大数据建设应用提供人才保障。
总工点评:
利用自身海量的数据资源优势,探索基于大数据的新产品与应用,是电信运营商推动产业升级、提升企业核心竞争力、应对激烈市场竞争的重要手段。综合全球来看,虽然大数据的建设与应用取得了很大进展。但在电信运营领域,大数据的研究和应用很多工作还都处于试点阶段。中国三大电信运营商无论是在大数据的应用还是建设方面仍有许多工作待探索。江苏省邮电规划设计院近年来一直进行大数据建设应用研究,拥有江苏省智慧城市大数据工程实验室等省级大数据工程试验室,承担了中国电信集团DMP原型系统建设等一系列大数据建设、研究项目。希望能同国内运营商一道,共同推动大数据在电信及其他行业建设与应用。
——江苏省邮电规划设计院总工程师袁源关键词:电信运营商 精准营销 半结构化数据 大数据后使用快捷导航没有帐号?
何鸿凌:电信行业大数据应用案例的实践及思考
查看: 25207|
摘要: 【大数据100分】何鸿凌:电信行业大数据应用案例的实践及思考
& 何鸿凌,中国移动集团公司业务支撑系统部项目经理,高级工程师。1978年生人,2001年获得重庆邮电大学计算机应用学士学位,2014年获得重庆大学软件工程硕士学位。工信部和人社部认证的高级程序员、系统分析师、网络分析师。CCF大数据专委会成员、TDWI会员。2001年进入重庆移动负责经营分析系统建设、维护、运营和应用。2006年进入中国移动集团公司,负责全网经营分析系统的规划、规范和技术架构。现在负责中国移动大数据平台的规划和大数据技术应用。在DW/BI和大数据领域有十余年的工作经验,曾主持欠费风险预警、用户离网预警等多个分析项目。曾担任DB2数据仓库系统DBA,熟悉Oracle、Teradata等其他传统数据仓库系统和BIEE、Tableau、SPSS、MicroStrategy等数据可视化工具。在数据仓库的构建、维护、运营方面有丰富的实践经验,对数据分析方法和数据挖掘方法有深刻的理解。08年以后主要精力放在大数据技术以及大数据应用方面,主导引入Greenplum、Vertica、Gbase8a等MPP技术,以及、流处理和Spark等技术来搭建运营商的大数据平台,并探索大数据对内和对外的商业应用。
  以下为分享实景全文:
  一、中国移动的数据情况
  可以说,除了CRM和计费系统产生的用户资料和话单数据之外,中国移动还有很多其他的数据源,比如应用市场、手机阅读、手机游戏等平台产生的数据,还有更多的是网络设备上产生的海量数据。
  我们现在大数据平台还在演进的过程中。目前形成的是集团一级和各省公司的1+31套系统。总的数据容量大约在10+PB。
  但是其实这还很不够,一是数据不全面,光Gn接口的网络访问数据粗加工以后就有400多个TB/每日,4G全面铺开以后更大;二是数据存储周期过段,一般的数据为6个月,日志信令等更短,基本不存;三是分析挖掘不够,很多有价值的信息没有转换为智慧。所以我们现在正在做更优化的技术架构演进和组织架构演进。
  贴一张简要的图说明一下中国移动的数据构成和增长情况。
  这张图展示了两个信息,那就是挑战和机遇并存。超过摩尔定律的增长要求技术架构必须做出革新,必须高效低成本。另一方面能,数据是资产,我们的资产在快速的增值,当然前提是能将其转为会盈利。
  二、中国移动大数据的指导原则
  由此,我们最近几年在大数据方面的指导原则就是:
  1、利用大数据技术,竭尽可能收集整理数据,竭尽可能关联数据,竭尽可能保存数据,将数据视作企业核心资产
  2、充分发挥大数据价值,竭尽可能使得现有商业模式更加具有竞争力;竭尽可能发掘新的商务模式,直接将数据变成价值
  我认为应用大数据的关键是一个思维模式的改变,一定要Thinking
inBigData,否则还是传统BI和报表。要将循数管理的思想贯穿到企业上下,要有无数据毋宁死的想法才可以。《大数据时代》中那句话我觉得特别好:除了上帝,任何人都必须用数据说话。
  三、中国移动大数据应用情况
  接下来的时间分享大数据在运营商中的应用。下面我分享的一些案例有的是中国移动已经实现的,有的是正在上马的,另外还有一些是其他国际运营商的,他们在大数据应用方面走得较快。
  应用方面我分三方面介绍:一是让运营商现有商业模式更加有竞争力;二是发掘新的商业模式,让别的行业运转更顺畅;三是承担社会责任发挥大数据社会价值。
  对内的大数据应用方面,运营商已经比较成熟了,我们的DW/BI系统运转已经有十多年的时间,大数据主要应用在客户洞察,市场营销、客户服务和运营管理四个方面。每个方面我举一个案例来说明吧。
  客户洞察就是根据各种各样的数据(例如消费、通话、位置、浏览、使用)通过各种各样的(比如分类、聚类、标签、RFM、Pagerank)形成的客户360度视图。比如客户的交往圈,就是利用各种联系记录形成社交网络来丰富对用户的洞察。我们用图挖掘的方法来发现各种圈子、分析影响力,分析关键人员,然后用来进行家庭、政企客户的识别,用来发现重入网客户,用来发现关键客户的异动情况。
  接着说市场营销吧。这个就太多了,随便举一个终端营销的例子。大家知道吗?去年中国移动卖出的终端有1.5亿部。一下子就把世界上T制式的智能终端和W以及C制式智能终端的稳固比例打破了。现在TD-SCDMA芯片已经是主流了。今年的计划销售是2.3亿部,所以各个公司压力都很大。一般来说有几种方法,最霸道的就是贴营销成本了,这个无往而不利。但是大家知道移动的利润去年就开始下降了,所以这个路越来越窄,一些公司就开始用大数据来做终端销售。其实这个很早就开始做,但是不是太被重视而已。
  方法是分析用户的终端偏好和消费能力,比如有的喜欢三星,有的喜欢苹果,看看他历史使用过的终端和交往圈中人用的终端就知道了。然后看换机时机,一般终端有一个生命周期,合约机也有到期时间。最后就是捕捉最近的特征事件然后通过短信、外呼、营业厅等渠道推送到用户手中。我们最好的分公司能做到几乎不消耗营销成本就完成了全部定制机的任务,而且全部通过电子渠道进行销售,这对中国移动来说很难得,因为终端价格拿得很高的。
  客户服务方面举一个语义分析的吧。大家知道我们购买了科大讯飞一部分股份。现在我们的10086热线可以自动分析来话内容,进行归类,并识别其中的热点问题,如果是网络、资费等可能造成批量投诉的情况,还要及时地预警。这里面涉及到语音转文字、文本分析等多种技术。目前做得还不够好,至少我觉得需要做到智能呼叫路由,根据客户最可能咨询的问题优化自动语音的流程。另外也应该测量一下用户的情绪及其改变。
  最后是运营管理方面,我说说我们利用数据分析来实现4G基站和WLAN热点的精确选址吧。我们分析话单和信令中用户的流量在时间周期和位置特征方面的分布。然后对于2G、3G的高流量区域提出布设4G基站和WLAN热点,这就是我们通常说的精确建站。另外我们还建立评估模型对已有基站的效率和成本进行评估,发现了一些建设上存在的问题,例如为了完成指标将基站建设在人际罕至的地方等。当前我们的基站资源还不能像云计算那样动态调度,有一些已经实现RAN的运营商,比如德电,做到了根据时间预测基站的容量,可以给CBD白天配备多一些无线资源,三里屯晚上配置多一些,这样让无线网络的运行效率而不只是建设效率更高。
  以上谈到的是大数据在电信行业对内应用的四个方面。这也是国内电信运营商主要的应用方向。虽然大数据的外部性应用更加有趣,能发展新的商业模式,但是有数据所有权、隐私、体制等诸多因素,所以国内似乎目前只有看到电信在将固网的一些数据用来做RTB的互联网广告,除此之外看到的所有对外的商业应用基本都来自国际运营商。这里我想讲几个我们做的发挥社会价值方面的尝试。
  第一个是利用大数据帮助旅游景区了解游客来源、分布等信息。比如大家在北京市旅游局的网站上可以看到景点的舒适指数,这个就是我们根据位置信令来分析景区用户数量得出的。在江苏,这个做成了一个行业应用,帮助一些景点进行精确的游客分析。要实现精确,就必须在网路上做一些改动,在关键位置安装几个不承担话务,只记录信令的微蜂窝基站,大约10米的范围。这些行业应用是由我们和合作伙伴共同完成的。
  第二个就是在交通方面。帮助一些高速公路公司和交通厅估算通过率,发现拥塞和事故。比如在成渝高速,以及南京的智慧城市项目。这需要一些模型来进行评估,比如识别同行的人等等。在定位方面,无线定位准确度不高,所以只是作为一些辅助的数据。交通管理部门还有线圈数据、出租车的采集数据等,哪些数据精确度更高,是GPS级别,我们的数据覆盖更广。
  第三是零售。帮助一些大的零售商分析顾客来源和各商铺、展位的人流情况。有点类似西班牙电信的Smart
Steps。这个我们还没有真正实现,因为商务模式,定位精度等问题。我倒是知道现在有一些做WLAN运营的公司做这个,比如在万达广场。因为WLAN的覆盖范围更小一些,精度更高,同时也提供了营销和服务的渠道。
  其余的就包括安全和反恐,当然这个不是我们做,我们只是提供数据,某些部门基于这些数据来分析人群驻留等,这个不多说。
  我想举几个国外运营商大数据商业化的案例,比如AT&T的Adworks,用大数据来实现精确的广告推送,覆盖电视、邮件、手机和电脑,当然是在AT&T自己的渠道上。还有Verizon辅助第三方做精确营销,比如帮助NBA球队找到球迷所在等。Sprint利用大数据为行业客户提供消费者和市场洞察(人口、行为等分析)、季节性分析等。
  四、中国移动大数据技术实施情况
  应用方面介绍完毕,接下来介绍中国移动在大数据技术方面的实践。目前我们的大数据参考架构是MPP和Hadoop混搭,加上原有利旧的数据仓库系统,如下图。
  传统DW做高价值数据的加工,MPP做长期结构化数据的存储和自助分析,Hadoop做数据处理、挖掘和历史存储。
  先说MPP。MPP是将传统分布式数据库的理论运行在X86上的实践,用列存、内存和副本等进行了优化。MPP基本可以替代传统DW,但在大数据时代,还是有挑战。那就是由于它精确地进行数据分布的原因,可扩展性和高可用比较难以达到。大家都知道CAP理论,一种系统不可能什么都追求。我们现在看到国内较大的MPP集群也就几十个节点,国际上可以看到100、200的。但是这离我们的目标还有差距,我们经过估算,最起码也需要300到400个节点,而且还要满足未来的扩展性。
  之前也讲了,大数据主要是要应用,而现在很多的应用都不是由IT开发的,是自助的,这就需要MPP中要提供沙盒,让业务部门或第三方能自助地分析和开发。我们当然不希望每个沙盒都是物理的MPP集群,这样不仅安装维护复杂,而且会造成数据重复。所以我们希望的是让MPP的能力像云计算那样对外提供按需服务,实现虚拟化,其实DBaaS或者DWaaS的概念已经有人提,AWS的RedShift就是类似的产品。因此我们的MPP要求很大,这就对他的可扩展性和高可用带来了挑战,当然同样的挑战还有负载管理、计费、监控和安全等等。
  Hadoop的扩展性会很好,而MPP就很难,这主要是由于两者存储机制上的差异造成的,我之前有一篇文章中有详细分析。详细的可以参考这个。/mblog/。
  关于MPP的高可用的挑战和应对,可以见这个。/mblog/。
  我觉得MPP未来的方向,是:多Master设计、虚拟化、软定义分布。
  接着说说Hadoop,可以说和Hdfs都是很好的东西,但是MapReduce真心很差劲。社区也看到这一点,在2.0中MapReduce已经不再是唯一的执行框架,而缩减为Yarn框架下的一个应用了。当然再差也比我们原来在数据仓库内进行数据处理廉价,不过效率也比不上的(同等计算能力下)。这主要不是计算,而是刚刚说的数据分布的策略造成的,这也是我们要选择MPP作为混搭的原因。简单的说一个策略,一次写一次读的,应该用MapR一次写多次读的结构化数据,那就应该用MPP,非结构化用Hbase。
  刚刚说的Hadoop的技术难点主要是在MapReduce的作业中间和各个作业之间都需要落地到HDFS上,这个效率会很差,而且没有全局优化。我们很高兴地看到Spark解决了所有的问题,包括用内存做缓存、流水线和全局优化,所以我们现在正在试点将MapReduce替换为Spark作为处理引擎。
  对于Hadoop还有一点,那就是现在在“计算”方面,Hadoop和MPP已经很像了,各种Over
Hadoop的方案借鉴了数据库的理论和方法,MPP数据库上也可以执行MapReduce,这是因为代码的迁移总是很容易的。但是数据不一样。Hadoop和MPP数据分布的不一样决定了两者的适用范围。因此,我们下一步准备将长期的数据放到Hadoop上做自助查询,这样既能缩小MPP的规模,也能降低成本,当然这样的查询效率就不如在MPP上了。
  为了实现大数据的第三个V,速度。我们正在试点流处理来实现实时数据加工和服务,这个目前还没有太多的经验可以分享。
  总结一下,在大数据技术方面,我觉得发展路径是这样的。
  计算资源已经发展得很完善了,但是由于存储资源还不能软件定义,还不能统一管理,所以我们还需要混搭,也许过几年,这个问题也解决了,比如内存的革命。
  五、这几年探索大数据的感受。
  大数据很重要,但不能停留在商业炒作的层面,其实现在谈的大数据的应用,与以往DW/BI并无本质不同,我们当然可以借由此来申请资源,重新设计架构,但是自己要保持清醒的头脑,让大数据为我所用。
  我理解大数据中数据是基础,如果双方互相沟通交流大数据,必定要先问有什么数据,怎么来的,数据质量,数据所有权是如何的,这个数据是否是有竞争力的。这里就衍生一个概念,数据是企业的核心资产,要将这个思路观测到企业的商业过程中,竭尽可能收集数据,竭尽可能保存数据,我觉得这是大数据给我们带来的一个改变。因为数据的应用很多是设想不到的,是外部性的,传统DW/BI采用的需求驱动的数据采集和获取方法就不合适了。
  第二点感受就是大数据中,应用是关键。说得好不如做得好,所以最近看到一个说法真正的大数据公司从来不说自己是大数据公司。这里又衍生一个概念,就是数据驱动,一切管理循数而行,一切运营依数决策。这是大数据带给我们的第二个改变。必须把这个思想观察到一切生产经营活动中,这才能充分发挥数据的价值。eBay有一个提法是Measure
Everything,所有的决策必须给出对比数据。我觉得这点很关键,这才能证明数据的价值。我看过很多说大数据应用的,都没有给出A/B测试来说明价值到底有多大,无法量化的结果可能淹没在多种因素之中。长期来看伤害了企业对大数据的信心和作用。
  最后一点,谈谈在大数据方面的难点。毫无疑问,这肯定不是指技术,而是指隐私和数据所有权。这也是国内运营商长期停留在大数据应用对内产生价值阶段的原因,有数据不敢用,因为不能证明这个数据可以用。这也不是运营商的独有问题,几乎所有运用大数据的公司都有这问题。腾讯也在分析用户的交谈、分享,但是腾讯有权用它们来做内部营销嘛?可以做广告吗?可以做信用征信?这是一个通常的问题。我觉得这个问题要政府、企业、社会多方合作才能得出,当然,现在国际运营商和其他行业可以提供给我们很好的参考。从企业的角度,我觉得至少要做到下面几件事情:首先要解决数据所有权,这个或许要通过不同的商业模式,比如免费或让利(Kindel的广告版那样)和用户签订契约,一些国际运营商已经开始这样做了。第二要明确告知数据收集的内容和用途,特别主要有一些用途,比如征信,是需要用户授权才可以做的。第三要通过技术手段保证数据的隐私(至少不能像携程这回这样明文存储),我们在数据去隐私方面做了很多努力,也申请了一些专利技术和算法。
  互动内容:
  Q1武新:你们现在扔掉多少数据?
  何鸿凌:扔掉的数据无法估计数量的,只有采集了的数据,才能估计量。
  Q2张存勇:中国移动我们的首要客户,真想听下集团的想法
  何鸿凌:@张存勇 我是做技术的底层人员。
  张存勇:@何鸿凌-中国移动中国移动人也有发展压力啊
  何鸿凌:@张存勇 压力很大,去年利润下滑5点多。今年上马4G,大投资。
  Q3张涵诚:@何鸿凌 400Tb 和苹果的app—log 差不多!
  何鸿凌:涵诚,400T只是Gn口粗加工后的数据,还不包括4G
  张涵诚:可以做全客户生命周期管理啊。
  何鸿凌:@涵诚,客户生命周期管理我们是在做的
  Q4袁昕:但我是移动超过10年的用户了,我好象很少收到移动这类主动营销的信息
  何鸿凌:@袁昕 你是不是设置了免打扰,有这个标致就不会外呼了
  袁昕:哪有啊,什么也没设置,而且我两年前也开始用双卡了,上了联通的号
  Q5颜苑:@何鸿凌-中国移动 在移动医疗的应用有例子吗?
  何鸿凌:医疗的目前没有,中国电信去年和一个法国的医疗公司合作,不知道近况如何。另外,我们研究院搞过穿戴式计算,但是也没有商用。
  Q6董健:国家旅游局和运营商在基于位置的大数据上合作过不少,故宫、长城都利用运营商额外的探针基站获取用户信息,从而调整门票销售策略,并且调整营销策略,不知道是不是移动。
  何鸿凌:是的,就是移动。北京移动。因为移动用户基数大,所以估算起来,更加准确。所以我们希望的是让MPP的能力像云计算那样对外提供按需服务,实现虚拟化,其实DBaaS或者DWaaS的概念已经有人提,AWS的RedShift就是类似的产品。
  董健:室内部分基于wifi的效果更好,比较经典的例子就是银泰百货,后来万达全部上马,那些都是非运营商的企业和商家做的,效果较好,基于LBS的大数据业务这些企业走在了运营商的前面。
  何鸿凌:因此我们的MPP要求很大,这就对他的可扩展性和高可用带来了挑战,当然同样的挑战还有负载管理、计费、监控和安全等等。是的,我见过一些做WIFI定位和应用很好的公司。就像我刚说的,WIFI好处在于同时提供了接触用户的渠道。而且数据可以和商家自己的会员卡数据关联,这数据一关联,价值就海了去了。
  武新:@何鸿凌 建议MPP用fat server,这样可大大减少节点数量。
  何鸿凌:武总,我们现在节点已经256G,24块盘啦。我觉得MPP未来的方向,是:多Master设计、虚拟化、软定义分布。这个之前和武总讨论过,呵呵。
  武新:@何鸿凌 最近我们给一个金融客户规划,2PB用50台fat server 就可搞定。当然列存储的压缩比很高是关键。
  Q7董健:@何鸿凌您刚才说的自助式应用完全同意。大数据的一个重要特点就是价值是未知的,因此通过固定的数据模型来分析得出结果的办法有太多局限性,不说数据挖掘,光数据分析就可能得出太多之前根本想不到的数据价值。所以我们的数据分析系统就强调一切数据分析的方法完全灵活定制,而且是由业务人员来定制,甚至是在线的,跟你说的沙箱意思很像。我们一直认为DaaS,DAaaS(A是Analytics),把数据和数据分析的原语变成乐高模块,完全虚拟化,让业务人员随意折腾。我们通过对社会化媒体中的数据分析后才惊人的发现,明星的影响力和事件的影响力相比起来是那么的脆弱,后来通过数据分析结合心理学,发现很有道理。但在数据分析之前很难想到这点。这也是大数据时代数据中的价值会慢慢凌驾在专家经验之上的案例吧。
  何鸿凌:@董健
是的。去年我在CCF上做的报告的主题就是分析即服务。AaaS哈哈。未知的才是有价值的,除非想要证明自己。为了实现大数据的第三个V,速度。我们正在试点试点流处理来实现实时数据加工和服务,这个目前还没有太多的经验可以分享。你说这个,我似乎在哪儿见过。就是微博中的影响力分析,结果发现影响力并不是想想中那样分布。不是你写的吧!我看了深有感触啊!很多事情并不像原来所想的那样。所以我们要用数据而不是直觉做决策。
  董健:我给政府做过几次培训,应该不是我写的,不过道理是类似的。我曾经提过背板+刀片的软件架构来解决虚拟化,解决数据分析和具体业务,就是期望把数据分析和具体的业务能够完全和硬件解耦,并充分利用计算和存储资源,也根据这个理念实现了产品,曾经被某个国内知名厂商剽窃后在云计算大会上大肆宣扬。
  董健:@张涵诚 没关系,理念可以剽窃,具体做出来太难了,所以很多人期待他们的产品后,下一届的云计算大会上人家就哑火了,就当他们替免费宣传了。
  Q8 innovate511:@何鸿凌数据驱动,我一直觉得这个提法有待商榷,因为数据发现问题或者帮助决策解决问题,都得基于商业价值的分析和判断
  何鸿凌:@吴君,不是说数据直接驱动商业,而是说,要以数据辅助来驱动决策,每个决策都要用数据做出。但是创意不是。就像AB测试那样,也许客户喜欢的,并不是设计大师设计的那些。
  innovate511:@何鸿凌 作为分析师的角色,必须有自己的创意,稍微有所不同,哈哈
  何鸿凌:@吴君 现在的确有两种路线。比如纸牌屋。另外一些大牌导演就觉得还是直觉更加重要。
  innovate511:@何鸿凌
创意领域,很难说大数据能有多大绝对价值,但是在标准化商业模式下,大数据价值就是决定性作用了,但是应用还很难说清楚价值。例如推荐,在每天10万单的业务里增加几百单,如何证明是推荐的价值?就因为用户经过推荐去下单的么?太难说清楚!
  何鸿凌:@吴君 你说这个可以通过独立变量测试得出。
  皇上:@innovate511
我们主要还是依据A/B测试,这样对于其他不理解数据的业务人员来说,更容易理解,因为同等数据级别,确实我们优化的效果销售效果比例更高。
  innovate511:@皇上
这个太难说,如果有人质疑,可以说客人如果本来有意愿买,不通过推荐也能下单。ABtest很难说得清楚微量订单带来的变化的原因,唯一的办法就是大家都认同的逻辑来推测。但是这种对业务没本质改变的大数据项目,我认为不是大数据应用的未来
  皇上:@innovate511那只能说预测模型做的还不成熟了。因果关系的解释是没有办法去衡量的,我们也可以解释这个客户的购买就是因为我们判断他的时间点、消费或频次等变量达到一个适宜节点上,这也是一种因果
  innovate511:@皇上 所以我说推荐主要功能是讲故事,我认为价值被夸大了。
  何鸿凌:@innovate511 不用太纠结于细节,只要数据对经营有改善,哪怕1%,都很好。刚刚那位专家说的,一步一步优化嘛。
  innovate511:@皇上
我一直提倡大数据分析专家应着眼最接近核心竞争力的,例如,如何划算的价格战?如何提升供应链效率?如何降低客户费力度提升客人决策效率?我认为那么多人扎堆推荐,唯一解释是这个项目是最不需要业务功底的应用!
  Q9董健:@何鸿凌 “必须把这个思想观察到一切生产经营活动中,这才能充分发挥数据的价值。”
不能同意更多,大数据的核心就是让数据价值应用运营的所有环节,前天的分享中说的小米就是这个例子,现在大多人就是把数据用于营销。IT很早有个理念就是Mashup,比如CRM的销售数据和财务报表中的费用明细放在一起看才知道这个单子对公司的价值。大数据的应用方面,电商进展的还是更加深入一些,包括数据驱动的A/B测试,同时数据应用后的效果再作为新的数据反哺回来,才能形成闭环。
  何鸿凌:@董健,完全同意。
  Q10武新:@何鸿凌 目前信令中的Location数据可以开放给第三方吗?
  何鸿凌:@武新 这个就是我刚刚说的,没有解决所有权和告知的问题。
  Q11金耀星:@何鸿凌-中国移动:谢谢精彩分享。我有个问题:你们对原始数据作主数据的降维处理吗?
  何鸿凌:@金耀星 运营商做法类似,清洗,转换。保留稳定下来的数据。以前明细存得不长。现在要越来越长。
  董健:数据脱敏后,表面看没有隐私信息了,但是通过数据分析有的时候还是能针对到具体的一小群或者一个人,因为多个特征收窄后定位范围越来越小
  Q12张存勇:@何鸿凌-中国移动你刚才谈到的LBS结合流量数据辅助做营销对策,这对移动利用GB口信令数据很容易做,技术链不长,但对社会化ICT大数据应用似乎就不太给力了
  何鸿凌:@张存勇 你说的是M2M的吧?
  Q13张涵诚:@何鸿凌
移动的打电话功能能否做成开放平台,第三方插件到其中,我们天天用这个,那个,烦,我只想一个通信工具,如:微信做为交友插件在我电话功能内,微博做为展示等等,我就问这个问题。
  何鸿凌:@涵诚,你说这个就是能力开放平台。三家都在做的。比如沃+,电信的叫什么忘记了,我们也有。不但电话了,以后短信、计费、认证等能力都能调用。英国的O2早就是这样的了。
  张涵诚:@何鸿凌 做为用户,我们期望移动 把ux做好,我们期待电话本,沟通记录,在线服务,缴费更多的,更好的升级。移动让生活更美好。
  Q14皇上:@何鸿凌我们也存在去隐私化的问题,但是这个隐私很多时候是个双刃剑,明确很多隐私实际上对丰富数据有着很好的支持和帮助,但是很多又不敢随便用,直接用,太过隐私还需要去隐私处理,确实两难。
  何鸿凌:@皇上 AB测试是个好东西,现在中国移动在这方面还属于起步,我们倡导要依据数据做决策。可是这有点挑战领导的权威啊,哈哈哈。
  皇上:@何鸿凌
是的,我们也在按照这个方向努力,但是在一线业务层,有时候沟通确实比较辛苦,确实大家还习惯业务专家决策的方式,挑战领导权威的时候,他更多会质疑数据,而且现在很多使用方法还是我们常提到的已给定一个思路,然后希望用数据来辅证观点,我对这种尤其头疼。
  Q15回到北京-Brian Lai:@何鸿凌如果外部使用数据,CDR没有电话号码,还涉及隐私吗?
  皇上:@回到北京-Brian Lai 用户隐私不止有号码这一项的,涉及到用户个体方面的变量其实都涉及隐私。
  Q16张存勇:@何鸿凌-中国移动听说移动评估过,政府要移动先自建覆盖全省移动本身能耗平台,政府全租用机房、服务器、线路及整个平台,补贴数百万,但移动自己要搭起整个平台要耗资数千万,移动在犹豫
  何鸿凌:@张存勇 这个有可能,现在我们要投点资,难啊。全给4G了。
  Q17武新:@何鸿凌 问个具体问题:目前省份公司用SMP或TD做的最大的经分系统数据量是多大?
  何鸿凌:@武新
哪里有SMP的?这玩儿除了事务处理系统用,似乎没有在我们这里见到。TD最大的200到300T。传统数据仓库中最大的是广东移动,10台595的DB2,裸数据量上PB。我们现在做的集中化经分,数据量是5到6个PB,非裸数据哦。这个就要用MPP和HADOOP
  Q18 Dowson Liu (刘睿民):@何鸿凌 300TB TD的升级费用非常的高,移动今后如何规划呢?
  何鸿凌:@刘睿民。刚刚不是说了么。我们以后大数据参考架构是MPP+Hadoop,山西已经在做了。
  Q18赵清:这些数据分析都是移动自己在做么?有开放一部分么?上次去一家公司调研,他们说在和中移动合作,做手机上网数据分析。
  何鸿凌:@赵清 应该说不上是合作,是委托开发。因为无法解决应用合法性的问题,所以无法对外。
  Q19皇上:我举一个简单的例子,我们的电销中心规模500人,实际上是一个比较大的成本中心了,只要能优化1%的销售,对电销来说就是非常大的支持,对用户来说也确实可以减少一些“骚扰”,有形价值可以计算,但无形价值也并不低廉。所以我才觉得,这样的也是值得一做的,我跟其他有的朋友也这样说过:在一个企业中,数据思维很难推行的时候,就用这样简单易行,但在一线业务中见效快的方式处理,顶在最一线的业务人员发现真好用,无法离开你的时候,就可以继续向上一级渗透,直到刚才您所提到的:可以让大数据,发挥大价值。
  何鸿凌:@皇上
你这个思路,有点和我们在客服系统上做的大数据应用异曲同工。我们也是提供了很多便利给客服人员,这样他们再换到其他家去,就会觉得系统很不懂他们。
  皇上:@何鸿凌
我也和我们客服的负责人谈过这样的数据应用,除去优化销售数据外,还可以增加客服人员的数据应用体系,从入职筛选、到离职预警,全方位通过数据提升成本中心的效率,提升利润,听后负责人双眼直放光。
  何鸿凌:@皇上 离职预警更多是有趣,还要解决根本嘛。
  皇上:离职其实和消费一样,也是一个综合问题,人员为什么离职,原因有很多,实际上有几个关键变量,比如收入、工作内容的变化或沟通的负面情绪等等,我们可以从中总结出一些关联关系,在达到一些阀值时,可以通过某种提前干预,来达到降低人员流动的目的;在这种人员流动超大的部门,多一个月工作经验,能够提供的平均产出就完全不同。
  C陈新河,联盟副秘书长;《软件定义世界,数据驱动未来》@何鸿凌
  再次感谢何总的精彩分享!
刚表态过的朋友 ()

我要回帖

更多关于 kafka批量发送消息 的文章

 

随机推荐