寻MM·SHI频 AI ai 大J·不...

{"debug":false,"apiRoot":"","paySDK":"/api/js","wechatConfigAPI":"/api/wechat/jssdkconfig","name":"production","instance":"column","tokens":{"X-XSRF-TOKEN":null,"X-UDID":null,"Authorization":"oauth c3cef7c66aa9e6a1e3160e20"}}
{"database":{"Post":{"":{"title":"深入分析 BI 数据可视化市场 SaaS 模式","author":"tianshanlvpin","content":"作者 :吕品,天善智能联合创始人&运营总监;11年 IT 行业工作经验,7年商业智能 BI 工作经验;微软
MVP。(微信号:tianshanlvpin)开篇介绍最近碰到很多社区朋友都在关心 BI 领域有关 SaaS 应用的话题,这是一个很好的现象,因为 SaaS 尽管在 BI 领域起步的不算非常早,但它是一个趋势,很值得大家关注。我最近也参加了一些厂商举办的关于大数据行业、产品类的话题交流,对于 BI 数据可视化分析领域的 SaaS 发展情况简单总结了一些个人看法,在这里与大家分享和交流。以下几个话题针对一些不太了解 SaaS 服务的朋友1. 什么是 SaaS 服务?2. 和云计算有什么样的关系?3. SaaS 的应用场景?以下几个话题针对关注数据可视化市场 SaaS 应用的朋友4. 大数据时代下商业智能 BI 的发展现状与特点5. 数据可视化市场 SaaS 发展会遇到的问题6. 数据可视化市场 SaaS 发展要解决好的几个问题1. 什么是 SaaS 服务?Software as a service 软件即服务,通过互联网提供软件的模式。服务商/供应商把应用软件统一的部署在自己的服务器上,用户可以根据自己的需求向服务商订购或者租赁所需要的应用服务。所有的服务器、相关硬件、网络设施、软件的维护与升级都是由服务商提供,用户只需要通过互联网就可以享受到非常便利的硬件、软件和维护服务。比如针对个人的百度的云盘、有道云笔记、印象笔记,或者针对企业的 QQ 企业邮箱、网上会议系统、协同工具、多领域服务的 CRM 软件 Saleforce 等都是 SaaS 的典型应用模式。有免费也有收费的,收费模式大多是按租用费、用户数量、存储空间或者流量等收费。由于用户不承担软硬件维护成本,所以这种服务方式极大的降低了用户的开销成本。比如说像我们天善团队在创立之初为了节省成本就是使用的 QQ 企业邮箱、Tower、Gotomeeting 等工具在北京、上海、长沙三地工作和协作办公。除了办公资源和人力资源的投入,在其它 IT 软硬件和设备维护上几乎没有投入,极大的降低了团队运营成本。弊端就是数据安全和稳定性,所有的数据存放在 SaaS 服务提供商那里,所有的服务都必须完全依赖服务商(通常情况下不会有太大问题)。2. 和云计算有什么样的关系?云计算 Cloud Computing,是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。Saas 只是云计算的一种应用模式。粗略来讲云计算可以分为三层(IaaS、PaaS、SaaS)IaaS (Infrastructure as a Service 基础设施即服务),主要是涉及到一些 IT 应用基础架构,比如虚拟机、网络资源、防火墙、IP 地址等。比如国内的阿里云、青云,国外的亚马逊的 EC2、Microsoft Azure 等。通过 IaaS 服务我们不用购置服务器和存储设备,也不用考虑服务器机房环境等维护就可以享受计算机基础设施服务。比如我们目前购置的就是阿里云服务,通常按年按项目进行付费,我们只需要在虚拟服务器上部署我们的网站、数据库等软件等,其它所有的网站服务器的维护和存储资源管理都由阿里云来提供,包括一般的网络攻击防护(最近天善受到了一些内部的来自阿里云上其它租户的攻击,有的攻击还是需要我们运维人员来解决)。PaaS ( Platform-as-a- Service 平台即服务) ,PaaS 实际上是指将软件研发的平台作为一种服务,以 SaaS 的模式提交给用户,PaaS 介于 IaaS 和 SaaS 之间的一种服务。简单理解 IaaS 构建的是虚机、存储等 IT 基础设施环境,PaaS 则是面向开发人员提供了运行应用程序的开发环境。比如将操作系统、应用开发环境等平台级产品通过 WEB 以服务的方式提供给用户,用户写好应用程序上传即可完成编译、调试、发布整个流程。 这个环境就类似于 PHP 开发程序所需要的 Apache 引擎,Java 运行所需要的 JRE、Tomcat 等环境的支持。国外的 PaaS 产品例如 GAE(Google App Engine)、Windows Azure (提供了 Microsoft SQL 数据库服务、.NET 服务等),国内的类似于百度应用引擎 BAE,腾讯云平台 QCloud、阿里云 ACE - Aliyun Cloud Enginee 等。SaaS 略,参考之前的介绍。3. SaaS 的应用场景?1). 需要较低的投入成本,较高的工作效率。特别是创业型公司、初创团队往往都会采用这种服务外包的形式来降低人力和资源投入,集中精力专注本身的业务发展。比如我们不仅仅是一些邮箱、协同办公方面我们使用了 SaaS 服务,甚至像社保、公积金的缴纳我们也使用了 SaaS 服务,降低成本和提高工作效率。2).
异地、协同办公与合作、快速增长的业务线。比如团队跨地域、工作跨地域、可以通过协同办公软件,比如在线的 OA、Office、CRM、协同办公的项目管理等,所有内容都保存在云端,也不需要额外的维护,在家和在办公室都可以完成工作的同步。特别在一些高速成长的团队中,当 IT 的支撑力度跟不上业务的快速发展,也没有精力来维护各条业务线上庞大的软件服务,那么各种细分领域的 SaaS 服务就可以解决这些问题、比如人力资源、供应链管理、财务服务等。3).
侧重细分领域的信息和行业标准化的应用。细分领域和标准化是 SaaS 服务的两个非常重要的因素,比如提供标准化的信息录入、流程管理、内容管理,并且这种标准化通常是基于某一个特定细分领域,比如上面所提到的人力资源、供应链管理、财务方面;或者基于某一个行业,比如零售行业、O2O 行业、互联网行业等 SaaS 应用服务。4).
需要大数据计算和高存储能力支撑的应用。比如通过各个渠道的海量数据采集、大数据分布式计算、海量存储等技术才能提供的一些市场数据分析与市场预测,这些作为一般的公司通常是没有这种能力支撑这么大的应用规模,无论是从技术能力或人力成本上都无法跟上,最好的方式就是购买 SaaS 服务,专业的事情交给专业的组织结构去做。4. 大数据时代下商业智能 BI 的发展现状与特点总的来说就是市场空间巨大,“大数据”这一词唤醒了更多的人愿意关注数据、了解数据。当然“大数据”在很多应用场景下也是被人们滥用了,言必谈“大数据”,但是其实很多企业还是需要从基础的数据治理做起,从小数据做起。1) 传统的 IT 应用系统已经非常普及,数据多年的沉淀需要被挖掘利用。目前基本上没有哪一个传统行业没有 ERP、OA、CRM等业务系统,从北上广深一线城市到二线甚至三线城市,IT 应用的普及与发展已经非常成熟,没有业务系统的支撑是无法生存下去的。经过多年的数据积累和发展,已经具备商业智能BI和分析所需要的数据基础。2) 商业智能 BI 和分析的门槛逐步降低,商业智能 BI已经成为企业 IT 部门的标配。在2010年、2011年以前,我们在招聘网站上搜索 ETL 相关的职位不过几页,可见企业多 BI 的需求并不是非常多。一方面是数据的积累没有到一定的量,第二方面是商业智能 BI 的成本,无论是软件成本还是人力成本都非常高。当时能够有能力采购商业智能BI 系统的基本上是以金融银行、保险以及大型医疗制造行业为主。涉及到软件也基本上是比如 Oracle、SAP、IBM 等旗下的 BI 产品,这些对于一般中小型企业成本太高。而人力成本则是传统的 BI 实施周期长、相关人才招聘困难导致。而目前虽然也需要采购商业 BI 产品,但是总体来说产品的选择性更加丰富,人才的储备比当时也容易很多。所以,在现在商业智能 BI 慢慢不再是奢侈品,已经逐渐成为企业整个 IT 架构的功能模块和标配环节。3)市场竞争和经济环境的影响促使企业更加重视精细化运营和管理的投入。比起以前开放式的粗放型的管理,在遇到经济环境整体不利和更多的市场竞争情况下,势必会更加注重梳理和控制企业的各个环节,而用来找到“症结”和应对市场快速反应的唯一方式就是管理和利用好数据,用数据说话。4) 以 IT 主导的商业智能 BI 和分析逐步演变为向以业务为主导的自助式分析过程。在过去的传统的商业智能 BI 系统开发和报表系统基本上都是以 IT 部门为主导的,从需求的提出到数据展现报表的分发通常需要很长时间,严重的阻碍了业务部门的日常运作需要。所以如何解放 IT 部门,让 IT 部门只负责 BI 系统的管理与维护,让业务部门自主进行数据报表的制作和展现分析就变得尤为重要。我曾参加过大众金融的 BI 项目,通过 IT 部门部署和维护的 BI 系统,业务人员通过 BI 部门的培训可以自主制作报表用来支持日常的业务分析。据日志系统记录,200多个用户总共创建了近3000张自定义的数据分析报表,日常常用报表占报表总数 50%以上。如果这些数据分析报表全部由 IT 部门来承担,仅靠几个 BI 开发人员是无力支撑这么庞大的工作量的。好处显而易见,既减少了 BI 团队的投入,又提高了工作效率。所以总结来说,目前在国内市场上商业智能 BI 和分析平台的空间仍然很大。商业智能BI和分析门槛降低,解放 IT 以业务驱动和导向的数据分析平台这是一个必然趋势。5. 数据可视化市场 SaaS 发展会遇到的问题为什么只谈 BI 领域的数据可视化市场 SaaS 产品发展存在的问题,而不谈 BI 市场 SaaS 产品的问题。因为 BI 领域涉及到的不仅仅是可视化数据分析,还包括了传统的 BI 报表,数据仓库建模、ETL 等流程。可视化数据分析是位于整个 BI 的最顶端,最能够体现将数据变成信息、信息产生价值的一个环节,是数据最终呈现的载体,通过分析挖掘价值并产生落地的决策。可视化分析领域也是最容易发展成 SaaS 服务模式的,因为它避免了底层复杂的数据清洗的过程,而数据清洗、数仓的建设恰恰是需要高度的定制化服务的。最近在和一些国内可视化分析领域的 SaaS 产品服务商交流,有的已经在行业内树立了不少的标杆客户,也有正在努力打磨产品准备推出到市场上的潜在供应商,从产品的角度综合起来看我觉得有几个共性的问题是需要 SaaS 产品服务商考虑的 (假设读者了解 Domo 的情况下):1)在单纯的数据分析方面,包括数据的接入、工作表管理、可视化分析和仪表盘等功能方面,SaaS 分析应用和市面上大部分可视化工具差别不大,用户缺乏使用的动力。比如在可视化领域有很多免费的桌面版工具,QlikSense Desktop、微软 Power BI Desktop 等产品都是可以作为个人免费使用,并且可以完成非常不错的可视化效果和基本的数据分析工作。2)数据的安全性、使用的稳定性该如何更好的保证。很多公司的信息保护意识是比较强的,信息安全的条例都是明确写入员工手册中的,包括最基本的邮件、文件、还有各种业务系统中的数据都是属于安全保护的重点。将数据上传云端来做一些其它工具可以完成的分析,这种挑战所付出的代价还是太大。除非是公司层面上允许员工的这种做法,或者公司已经是某 SaaS 可视化分析厂商的客户。3)缺乏社交分享的动力,工作的数据很难进行对外公开分享,仅适用对内分享。在可视化分析的 SaaS 工具中,社交和分享是很大的两个亮点。但是这里的社交分享我的看法还是属于工作范围之内的,团队或部分之间的关于某些数据分析的结果、报表进行分享、批注、反馈的一个过程。其实在国内某些产品已经做到了这种批注回写、审阅的功能,但是并没有 SaaS 化。4)对数据的质量要求也相对来说比较高,规范的数据格式,可分析的数据格式。对于数据格式的依赖会非常的高,对于可视化产品而言,工具的使用、图表的制作是一个标准化的使用过程。我们很难要求每一个业务人员都能独立的完成数据处理和清洗的过程,将规范化不可分析的或者不规范化也不可分析的数据变成一个规范化且可分析的结果,很多业务人员是没有这个能力的。SaaS 可视化分析产品和用户教育目前总体都不是非常成熟,但是相信在未来的几年间会变得成熟,通常情况下也就 2-3 年的时间。就如同我们在2013年到现在2016年不过三年的时间,从传统 BI 到敏捷 BI、传统定制化报表到可视化数据分析的用户教育一样,大家都是从不成熟变得成熟,到如今可视化数据分析已经深入人心。例如像 Tableau、Qlik (QlikView、QlikSense) 这些位居 2016年商业智能和分析平台的领导者象限的两大产品(另外一个是微软的 Power BI)最早也是在 2013年左右进入中国市场,像国内的永洪 BI 也是从数据可视化分析领域切入,时间点也正好是在 2013年。除此之外,帆软软件、Smartbi、奥威 Power-BI、国云科技等也都是从这个时间点重点推进了可视化分析的产品,并且也拥有了各自领域的标杆客户。老牌 BI 巨头 Oracle、IBM、Microsoft 也在逐步转身跟进,直接跨过可视化分析的市场教育阶段,走向 SaaS 服务,目前比如 Microsoft Power BI,Desktop 免费,比如每个月每用户 9.9 美金直接使用(目前的 Power BI 部署是国外的云,在2016年的11月份国内云将正式上线)。所以,从2015年可视化分析 SaaS 服务逐步在国内市场发出声音到 2018也是一个三年的时间(有的可视化数据分析厂商早在 2013年就已经在布局 SaaS 市场,例如 BDP),那么在这个三年的时间里也一定会出现一批比较成熟和很成熟的可视化分析 SaaS 模式的产品。6. 数据可视化市场 SaaS 发展要解决好的几个问题尽管上面提了这么多的问题,但是作为我个人我还是比较看好 SaaS 可视化数据分析在国内的发展,它是未来 BI SaaS 模式的入口和切入点,同时从产品形态上来讲丰富了用户的选择。当然也可能结合 On Premise 本地化部署和 Mixed 混合模式来推进这个巨大的市场。我觉得数据可视化市场 SaaS 的发展需要解决好以下几个用户会比较关心的问题:1)安全、稳定、混合云部署需要多方面考虑。使用成本低,付费模式的多样化是
SaaS 服务的天然优势,但是从数据安全性上来如何保证用户的数据隐私不受侵犯,特别是在国内比较和谐的环境下会不会出现给某些机构留后台接口,还有公司的财务数据的特殊问题如何解决? 服务稳定性上如何,灾备切换、网络攻防也是一大挑战。在这种比较特殊的环境下,一种能够比较能接受的方式是一部分比较敏感和核心的数据需要进行私有化部署,采取混合部署模式。当然,目前也有多数据进行加密的措施,在安全性上是比较有保障的。但这个就比如把自己的钱放在别人的保险箱里,多多少少会存在这样的顾虑。2)云端的分析功能在用户体验,功能实现上要比桌面端至少一致或者要求更高。有别于 Desktop 版本的开发都在本地,并且这些桌面版工具相对来说也已经非常成熟。那么如果将数据放在云端开发和分析,至少在数据分析、图表制作等基本的操作流程上,云端的分析和展现能力至少要能够与一些比较普及的桌面版的展现能力持平,包括最基本的 UI 设计、报表美观程度等。3)一定是结合行业特点,在行业细分领域提供很好的分析接口,标准化的分析模板。就像我之前所提到的,可视化数据分析的 SaaS 产品对比于普通的 Desktop 数据可视化分析产品 PK 上并没有太多的优势,但是它可以深入行业,在行业细分领域进行深耕。比如对于零售细分行业提供标准化的分析模板,提供标准化的数据分析接口,用户只需要按照相应的接口提供数据就可以得到全套的分析模型。同时,在细分领域的标准化分析模板同时,也有针对性的定制化分析组件提供。深入行业或细分领域也是 SaaS 的一大特点,并且这种方式也解决了标准化的问题。4)可提供大量的辅助的第三方数据来源配合使用,辅助现有接口数据分析。在 SaaS 服务平台上可以和租户交换数据资源,租户获得相对应的数据分析与行业统计报告,即你对我开放,我则对你开放,公平且合理。SaaS 服务商可以拿到更多的数据(不排除私自采集用户数据的可能),数据即价值,这部分价值随着租户的增长而无限放大。另外,由于大家都在使用同一套 SaaS 服务,则平台本身变成了一个统一的入口,在这个平台入口上可以提供很多的增值服务,比如提供行业相关的数据借口、用户数据(脱敏的)接口,和平台本身相结合,可能本身就能完成一站式用户画像、产品的舆情分析、竞品分析等。解决的是什么问题? 解决的是各个企业,在他们解决了内部数据之后寻求外部数据资源的需求。5)性能问题上有保障,上传下载、大量的聚合操作。性能上的问题一定是大问题,在很多场景下数据可视化 SaaS 服务在现有互联网环境下是满足不了的,比如上传几个 GB 的数据到云端,下载几个 GB 的数据到本地。所以需要定义使用场景,云端分析服务在目前这个阶段一定是基于两种方式:第一,汇总数据的上传分析,或者轻度汇总数据的上传分析。第二,通过实施将用户数据接口打通,大部分数据预先聚合汇总,前端在展现分析。6)快速有效的开发和部署、发布和访问模式,降低人力和时间成本。这一点相对来说是比较容易做到的,也是 SaaS 服务的优势所在。7)分享与互动,比如批注、注解、团队互动的模式,可以增加用户使用黏性。需要考虑到最终用户使用可视化分析产品的场景,以及他/她之后的动作。我们说将数据变为信息,信息产生决策,决策产生价值整个才是一个 BI 完整的逻辑生命线。可视化分析解决的是将数据变为信息的过程,这个信息的载体可以是一张纸、一份报表,最终这些内容都是需要经过展现、交流、博弈、确认等过程才能产生一个决策落地。那么我们的分享和互动就需要围绕着这些流程来思考,如何处理这样的场景。比如分享给团队一张报表,指派给某一个人审核、产生批注、提出质疑、提出意见、最后大家形成一个决策来指导某些行为的落地等等。比如通过分析发现某些产品销售量越大、亏损越大,并且有一组相关的报表分析明确的指出了一系列原因:成本增加、库龄长等等,最后的讨论结果就是砍掉这个产品。所以,这是真正把数据分析的场景延长了,延长到信息产生决策,而且决策可以落地的一个阶段。场景的延长,就意味着产品的生命线在延长,自身的价值在延长。8)BI 的深入发展,BI SaaS 化。这个不是没有可能,BI 是随着业务系统的演变而发生演变的,当所有的基础环境,比如数据库环境、业务环境(其它的 SaaS 服务)全都云端化以后,数据在哪里,数据治理和分析的目标就在哪里。并且目前已经是从可视化分析领域切入,随之而来的就应该是可视化之下的各个层次切入。所以到时可能还不是简单的 SaaS 服务模式,是不是可能发展成为一个 PaaS 模式,我觉得很值得探讨。但是目前来说,我觉得上面提到的第三点 \"一定是结合行业特点,在行业细分领域提供很好的分析接口,标准化的分析模板” 是完全可以用心做好的。","updated":"T16:50:22.000Z","canComment":false,"commentPermission":"anyone","commentCount":2,"likeCount":25,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T00:50:22+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-a24bcf628a6_r.jpg","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":2,"likesCount":25},"":{"title":"Gartner 2016年商业智能与分析平台魔力象限","author":"tianshanlvpin","content":"作者 :吕品,天善智能联合创始人&运营总监;11年 IT 行业工作经验,7年商业智能 BI 工作经验;微软
MVP。(微信号:tianshanlvpin)博客园曾用 ID:BIWORK。如何看懂魔力象限Magic Quadrant 魔力象限以二维模型来阐述各个厂商、供应商的实力与差异,基于两个分析指标方向。横轴:前瞻性(Completeness of Vision),包括厂商或供应商提供的产品底层技术基础的能力、市场领导能力、创新能力和外部投资等等。纵轴:执行能力(Ability to Execute),包括产品的使用难度、市场服务的完善程度和技术支持能力、管理团队的经验和能力等。最后将这些分析指标综合起来定位在四个不同的区域:Niche Players 利基者、投机者执行能力(Ability to Execute)和前瞻性(Completeness of Vision)都不足,但是可能在特定的某个市场做的不错,同时也不会超过那些特别大型的成熟厂商或者供应商。通常是集中在某些特定领域、专业领域,或者是一些比较新的企业。Challengers 挑战者执行能力(Ability to Execute)很强,但是前瞻性(Completeness of Vision)不足。通常情况下是指比较大型的成熟厂商,由于其本身特定市场比较成熟、市场执行能力很强,但是在新领域新市场的拓展上目前还没有做出太多的发展计划改变。作为挑战者,在继续保持强有力的执行能力的同时,如果在市场前瞻性上能够调整和突破,是非常有希望进入领导者(Leaders)区域的。Visionaries 有远见者、愿景者Visionaries 本身这个词的词义是指空想主义者、愿景者,但是放在这里还是用远见者描述更加合适。通常描述前瞻性(Completeness of Vision)很不错、了解未来的市场发展动态和前景,有潜力进行创新。在执行能力(Ability to Execute)上分为有远见但是短期内无法实现的早期创业者,和一些有远见但是执行反应能力调整不及时的比较成熟的大型厂商、供应商们。所以对于在这个区域的厂商或者供应商,一般要么就是早期市场中刚成长起来的中小企业,有创新能力有远见,一旦在市场执行得到提升也是非常有希望进入到领导者(Leaders)区域。以 2016 Gartner 发布的有关数据仓库及数据管理解决方案市场的魔力象限(Magic Quadrant for Data Warehouse and Data Management Solutions for Analytics)为例。在对全球21家厂商进行对比分析后,Gartner 分析报告首次出现了来自中国的公司星环科技 Transwarp,唯一一家出现在该领域的中国公司,也是魔力象限远见者 (Visionaries) 领域中全球最具有前瞻性(横轴最远)的公司。在 Hadoop 发行版厂商中,在前瞻性(Completeness of Vision)上已经超过了 Hadoop 领域的知名初创公司 Hortonworks、Cloudera 和 MapR。 星环科技在执行能力(Ability to Execute)上来看,目前也与以上提到的三大 Hadoop 厂商差距不大,如果能够在执行能力上继续得到提升的话,相信在不久的将来在数据仓库及数据管理解决方案(Data Warehouse and Data Management Solutions )的领导者区域应该可以看到中国厂商的身影。Leaders 领导者、行业领袖执行能力(Ability to Execute)和前瞻性(Completeness of Vision)得分均比较高的大型成熟公司、行业领袖。他们拥有大量的客户群体,在全球市场上都有极高的知名度。这些行业领袖在市场中有很大的影响力,有能力有实力影响和引领整个行业的发展。以上图为例,在数据仓库及数据管理解决方案(Data Warehouse and Data Management Solutions )的领导者区域还是以 Oracle、Teradata、IBM、SAP、Microsoft 这些传统巨头为主。同时也可以看到 Oracle 在执行能力上要远远高于其它厂商,在前瞻性上要稍微落后于 Teradata 和 IBM。但这幅图最可怕之处是这五大厂商在领导者区域的位置已经深入领导者象限腹地,与挑战者或是远见者的平均得分的差距还是非常大的,可以说是行业的绝对领袖。Gartner 2016 年商业智能与分析平台魔力象限背景介绍Gartner 在2016年发布了商业智能和分析平台的魔力象限 (Magic Quadrant for Business Intelligence and Analytics Platforms)报告。每一个魔力象限报告都会附带相关领域的分析场景和核心指标,通过对这些核心指标对 BI 商业智能和分析平台厂商或供应商进行评测,结合执行能力和远瞻性最后划分各大厂商在魔力象限中的位置。以下对商业智能和分析平台的核心用例场景和指标做出说明。五个核心用例场景敏捷和集中的 BI 准备平台:自带数据管理平台,能够支持敏捷化的 IT 工作流程,从数据到集中交付实现以及内容管理。分散化的数据分析:支持从数据到自助分析的工作流程,即数据可分发控制交由例如业务人员,以进行自主化的数据分析。数据治理与发现:实现对数据的自助分析、系统记录、IT 管理的控制性、可重用性和促进能力。嵌入式 BI:能够在其它流程或者应用中嵌入此 BI 平台分析结果或者内容。外部部署与访问:能够控制和支持外部用户、公共部分甚至市民对于分析内容的访问,即良好的权限和安全控制以及访问能力。通过对这五个核心用例场景分解又具体形成了以下具体的四大类共计 14 项分析指标,分别是:基础架构 (Infrastructure):侧重商业智能部分的基础应用组成,平台的管理、云服务、用户和安全性以及数据源支持等。数据管理 (Data Management):侧重商业智能的数据集成与管理部分。分析和内容创建 (Analysis and Content Creation):侧重分析部分,分析功能、报表组件与展现和交互能力、移动支持能力。发现与共享 (Sharing of Findings):侧重分析部分,部署与发布、与其它应用集成以及平台协作与社交等。可以看得出,这个魔力象限的分析一是侧重商业智能的定义域组成,二是突出和强调分析能力。下面对这四大类和14项分析指标做出具体描述和分析。基础架构 InfrastructureBI 平台的管理(BI Platform Administration):支持对 BI 平台的检测、性能调优、高可用性和灾难恢复。云 BI (Cloud BI):平台即服务、分析即服务,用户可以在云端创建、部署和管理分析内容和分析应用,数据可以部署在云端或者本地。安全性和用户管理 (Security and User Administration ): 平台安全性管理、用户管理方面的控制能力。数据源连接的支持 (Data Source Connectivity):有能力支持用户连接结构化或者非结构化的数据,以及支持各种数据源的访问能力,无论是本地还是云端的数据存储平台。数据管理(Data Management)元数据管理和治理 ( Governance and Metadata Management): 支持用户能够共享一些相同的记录系统语义模型或者元数据。能够提供强健的和集中化的方式供管理员查询、捕获、存储、重用和发布元数据结构,比如维度、层次结构、度量值、KPI 以及各种报表对象包括参数等等。管理员有能力提供业务人员所需要的数据模型以及一些元数据模型。 齐全的 ETL 功能和数据存储 ( Self-ETL and Data Storage): ETL 功能的支持,平台有能力访问、集成、清洗转换和加载数据到自带的数据存储层,有能力建立索引数据、管理数据加载和定时刷新加载数据功能。 自助服务数据的准备(Self-Service Data Preparation):
可拖放的、用户驱动的可链接多个数据源的数据获取能力,创建多种分析模型包括用户自定义的度量、集合、组和维度层级结构。高级的支持应该包括语义自动发现和转换、数据智能关联和识别、维度层次自动创建、基于多数据源甚至不同数据结构间的数据源中的数据关联。分析和内容创建 ( Analysis and Content Creation )自带的高级分析功能(Embedded Advanced Analytic):用户很容易的就可以访问平台自带的分析内容,或者很方便的访问导入的或者外部部署的分析内容。 分析仪表盘 (Analytic Dashboards): 有能力创建高可用的交互性的仪表盘或者其它内容,可视化的数据探索,支持高级的地理分析等内容。 可交互的可视化数据探索( Interactive Visual Exploration):提供丰富的图表、自定义的颜色、亮度、大小、形状以及各种基于数据集的可视化数据分析方式。远远不仅仅是普通的饼状图、柱状图、线状图,应该包括热点图、树状图、地理空间图表、散点图以及其它各种特别目的的图形。上面的一切图形图表能够支持用户的各种分析目的,通过可视化的方式直接在报表上交互并做出分析。 移动支持能力 (Mobile Exploration and Authoring):有能力支持公司组织对于移动端的开发和部署,能够和移动端设备自身的本地功能例如触摸屏、照相机、地理位置识别包括本地语言查询等。 发现与共享 Sharing of Findings可嵌入的内容分析( Embedding Analytic Content):有标准的 API 接口可供访问来创建或者编辑分析内容、可视化效果和应用程序。可将分析结果嵌入其它商业流程、商业应用或者发布至报表中心,这些分析结果是可被其它外部应用重复使用,能够很容易的无缝集成,并且不需要用户在不同的系统中切换。 发布和部署( Publishing Analytic Content):支持用户能够发布、部署和操控分析内容,有多种导出和分发方式,支持内容搜索、讲故事 Storytelling 以及定时和提醒等功能。 平台协作与社交(Collaboration and Social BI):允许用户分享和讨论、在线分析、分析决策、聊天、备注与协作等。 通过以上的五个核心用例场景的边界划分,四大类14个核心指标的分解,Gartner 在2016年2月发布了这样的一副魔力象限图。Gartner 2016 年商业智能与分析平台魔力象限解析我们再来回顾一下 日发布的 Business Intelligence and Analytics Platforms 商业智能与分析平台这幅魔力象限图。商业智能和分析平台魔力象限的特点在这幅图中,入选魔力象限的20多个厂商整体的表现特点大致总结如下:整体执行能力(Ability to Execute)不高。即产品的使用难度、市场服务的完善、技术支持能力和团队管理的经验和能力在某些方面或者环节不高。即使是入选领导者(Leaders)象限的 Tableau、Qlik 和 Microsoft 并没有真正深入领导者(Leaders)的腹地。具备前瞻性(Completeness of Vision)的产品很多。即产品底层技术基础的能力,市场的领导能力,创新能力等各个厂商的投入还是比较大,Microsoft 的表现尤为突出。业务驱动分析的自助式分析厂商更受市场青睐。领导者象限(Leaders)在商业智能和分析领域只有三家,以 Tableau 和 Qlik 为例,两者都具备很强的可视化交互、探索和展现能力,而 Microsoft 具备完整的 BI 架构应用体系以及 Office Excel,Power BI 产品也在可视化领域有很大突破。
如果对比 2015年和2016年商业智能和分析平台对比会更强烈。魔力象限 2015年对比2016年发生的变化在 2015年的商业智能和分析平台中,位于领导者(Leaders)象限中挤进了 9 家厂商,挑战者(Challengers)2家,远见者(Visionaries)只有3家。而在 2016年,挑战者直接被清空了,更多的厂商挤进了远见者(Visionaries)象限,几个特点:位于领导者(Leaders)象限的 Tableau 在过去的一年中,在执行力指标上面急剧下滑,Qlik 稍微下滑,最后落在去年同期与 Microsoft 几乎平行的位置。Microsoft 在前瞻性(Completeness of Vision)方面进步很快,已经处于领导者象限前瞻性的第一集团位置,说明 Microsoft 已经对现有的商业智能和分析平台的工具做出了大量的补充和创新,投入了较大的精力。从2015年收购了 Datazen 移动端产品(可参考我的另外一篇文章 - )并且加快了 Power BI 产品的推进。总体上在位于领导者(Leaders)象限中仍然没有一个深入腹地在执行力还是前瞻性上同时取得居中的位置,说明这一部分的市场还会有更多的发展机会。传统的重型数据库服务商 BI 产品的代表 Oracle、IBM、SAP 统统移出领导者(Leaders)象限,他们的商业智能平台本身的基础架构和数据管理这两类指标还是具备很强大的实力,但是由于在分析和内容创建、发现与共享这两类指标上没有很好的提升而掉入远见者(Visionaries ) 象限,甚至 Oracle 已经被移除 2016年的魔力象限。这说明了在对于商业智能平台和分析两个方向的发展,市场的需求越来越多的是倾向于可视化分析这个主题。集成的 BI 平台固然重要,但是不能够提供敏捷的数据分析与自助式的分析服务以及各种移动端的分析支持能力,也最终会影响市场对于商业智能平台和分析工具的选择。Tableau 和 Qlik 就是一个很好的例子,都倾向于可视化分析的能力,Microsoft 对可视化分析的应用进行了补充配合强大的商业智能平台留在了领导者(Leaders)象限。市场的变化必然会导致 BI 的实施流程和方法论的变化,由重型 BI 方法实施必然走向轻型 BI实施。领导者象限三个产品的简单介绍Tableau定位为个人友好和部门级的报表展现和分析工具,业务驱动类型,业务人员驱动和主导的自助分析产品。拥有非常丰富的可视化组件和展现分析能力,使用者也通常是业务分析人员和管理层。但产品没有专门的 ETL 清洗能力和数据集成以及治理平台,对于数据格式的要求还是比较高的,通常为清洗之后干净的结构化的数据。Qlik包括 QlikView 和 QlikSense 两大产品,其中 QlikSense 可以理解为 Tableau 的直接竞争产品。Qlik 是一个半 IT 半业务主导的报表分析工具,后端可以通过脚本实现比较复杂的 ETL 功能,包括数据的抽取转换清洗等工作,但没有可视化的 ETL 操作能力。在前端分析上也可以交由业务人员自主开发报表和实现交互性分析,可以认为由 IT 主导数据的抽取与准备,由业务主导数据分析工作。Microsoft这次魔力象限实际上调研的是针对于微软的 Power BI。但是我要说的是微软的产品线还是非常丰富的,不仅具备完整的 BI 集成平台(从 SQL SERVER 数据库到 SSIS ETL, SSAS 多维分析 到 SSRS 报表展现),同时增强了 Office Excel , Power BI 等可视化产品的功能,包括对于移动端的支持。既能支持传统的 BI 实施,数据仓库建模,也能提供类似于 Tableau,Qlik 的业务主导型的自助式可视化分析能力。但在可视化分析、用户体验、交互性、移动端、实施能力和支持方面还是比 Tableau、Qlik 仍然有一定的差距,但正在投入和追赶。在过去的 Power BI 使用上是基于 Office Excel 的插件支持(Power Pivot、Power View、Power Map),这些已经集成在新的 Office 2016 中,重点是 Power BI Desktop 的发布,直接竞争对手就是 Tableau,要抢占部门级的个人级的自主分析市场。国内市场的商业智能和分析平台的特点和机会国内市场空间仍然非常巨大,个人总结有以下几个特点和变化:1. 传统的 IT 应用系统已经非常普及,数据多年的沉淀需要被挖掘利用。目前基本上没有哪一个传统行业没有 ERP、OA、CRM等业务系统,从北上广深一线城市到二线甚至三线城市,IT 应用的普及与发展已经非常成熟,没有业务系统的支撑是无法生存下去的。经过多年的数据积累和发展,已经具备商业智能BI和分析所需要的数据基础。2. 商业智能 BI 和分析的门槛逐步降低,商业智能 BI已经成为企业 IT 部门的标配。在2010年、2011年以前,我们在招聘网站上搜索 ETL 相关的职位不过几页,可见企业多 BI 的需求并不是非常多。一方面是数据的积累没有到一定的量,第二方面是商业智能 BI 的成本,无论是软件成本还是人力成本都非常高。当时能够有能力采购商业智能BI 系统的基本上是以金融银行、保险以及大型医疗制造行业为主。涉及到软件也基本上是比如 Oracle、SAP、IBM 等旗下的 BI 产品,这些对于一般中小型企业成本太高。而人力成本则是传统的 BI 实施周期长、相关人才招聘困难导致。而目前虽然也需要采购商业 BI 产品,但是总体来说产品的选择性更加丰富,人才的储备比当时也容易很多。所以,在现在商业智能 BI 慢慢不再是奢侈品,已经逐渐成为企业整个 IT 架构的功能模块和标配环节。3. 市场竞争和经济环境的影响促使企业更加重视精细化运营和管理的投入。比起以前开放式的粗放型的管理,在遇到经济环境整体不利和更多的市场竞争情况下,势必会更加注重梳理和控制企业的各个环节,而用来找到“症结”和应对市场快速反应的唯一方式就是管理和利用好数据,用数据说话。4. 以 IT 主导的商业智能 BI 和分析逐步演变为向以业务为主导的自助式分析过程。在过去的传统的商业智能 BI 系统开发和报表系统基本上都是以 IT 部门为主导的,从需求的提出到数据展现报表的分发通常需要很长时间,严重的阻碍了业务部门的日常运作需要。所以如何解放 IT 部门,让 IT 部门只负责 BI 系统的管理与维护,让业务部门自主进行数据报表的制作和展现分析就变得尤为重要。我曾参加过大众金融的 BI 项目,通过 IT 部门部署和维护的 BI 系统,业务人员通过 BI 部门的培训可以自主制作报表用来支持日常的业务分析。据日志系统记录,200多个用户总共创建了近3000张自定义的数据分析报表,日常常用报表占报表总数 50%以上。如果这些数据分析报表全部由 IT 部门来承担,仅靠几个 BI 开发人员是无力支撑这么庞大的工作量的。好处显而易见,既减少了 BI 团队的投入,又提高了工作效率。所以总结来说,目前在国内市场上商业智能BI和分析平台的空间仍然很大。商业智能BI和分析门槛降低,解放 IT 以业务驱动和导向的数据分析平台这是一个必然趋势。国内商业智能和分析平台厂商的机会国内商业智能和分析平台的厂商的机会主要体现在行业、本地化和服务技术体系、用户体验和市场响应速度上。第一,国内厂商与传统行业结合程度比较高。与领导者象限的三巨头 Tableau、Qlik、Microsoft 不同,国内的一些商业智能和分析平台厂商大多起家于前端报表系统。像国产报表系统中出现比较早的像帆软、Smartbi、润乾、奥威 Power-BI 等,由于进入各个行业比较早,随着产品的不断迭代更新和完善,在某些行业已经打下了比较深厚的市场基础。特别是在金融、银行、制造等传统行业,大都拥有着自己的一批忠实的客户基础和市场渠道。而随着大数据时代的到来和自助分析的需要,国内也出现了像永洪科技这样的一些基于大数据可视化数据分析的优秀厂商,目前这些厂商也深入到一些互联网、金融、电信、物流等行业。第二,国内厂商本地化程度更高、服务技术支持体系以国内客户为主,响应更快更直接。与国外厂商不同的是,国内厂商的产品本地化比较容易实现,比如像一些中国式的报表、数据补录与填报等这些特殊要求国外厂商基本是无法实现的。另外,国外厂商的服务与技术支持大多还是停留在官方的社区论坛(面向全球),对于国内本地的一些客户来说更愿意选择直接的电话与专门的售后服务技术群来进行沟通。第三,市场反应更快,把握客户需求的响应速度更快,产品更新迭代效率更高。对于产品的迭代更新,国内很多厂商有充分的一手市场调研和客户接触机会,对于产品功能的调整与完善是完全随着市场的变化而变化的。而对于国外厂商来说,在中国市场的投入更多的是市场和销售方面的资源,产品和技术研发都在国外,基本上对于一些产品的改进建议至少在国内还是缺少非常直接的沟通渠道的。在我从事微软 BI 开发的那几年中,对于微软 BI 部分产品的吐槽几乎是得不到有效回应的,曾经也提交过产品的有关 BUG,即使被微软官方确认但是基本上也是经过多个版本才得到妥善解决的。第四,国内技术的追赶和超越。其实时到今日,我们不得不承认在整个行业,从底层商业数据库、企业级商业智能 BI 产品、大数据商业产品、数据挖掘到数据分析工具基本上是被国外厂商所垄断。但是我们也欣喜的发现在某些领域已经有所改变,在我接触的一些客户项目案例中,国内永洪科技的大数据可视化分析工具在TB级以上PB级数据处理分析能力的表现要远远高于国外某同类产品。包括在本文开始前提到的星环科技 Transwarp 也已经进入了远见者象限,并且在前瞻性上领先于 Hortonworks、Cloudera、MapR,这些都是一些非常积极的变化,好的变化。所以,我个人认为国内厂商的发展空间和市场潜力仍然非常巨大,结合产品本地化、技术支持与服务、用户体验和技术的进步与提升,用心面对客户,相信还是能取得不错的成绩。","updated":"T16:57:24.000Z","canComment":false,"commentPermission":"anyone","commentCount":0,"likeCount":13,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T00:57:24+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-2b383bdf5e179b6b955b58d_r.png","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":0,"likesCount":13},"":{"title":"政府大数据是不是一个伪命题?面临的问题和阻力在哪里?","author":"tianshanlvpin","content":"作者 :吕品,天善智能联合创始人&运营总监;11年 IT 行业工作经验,7年商业智能 BI 工作经验;微软
MVP。(微信号:tianshanlvpin)背景 2015年经李克强总理签批,国务院印发《促进大数据发展行动纲要》,中国政府已经开始系统部署大数据发展工作。《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态...政府大数据从狭义的角度理解就是政府所拥有和管理的数据,如典型的公安、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、环境、金融、统计、气象等数据。大数据项目中很多问题出现在数据源头笔者在前段时间受邀参加了某省会公安部门的大数据项目规划调研,在阅读完《纲要》和了解完相关政府对大数据项目的规划和设计背景后,认为从项目的规划和设计完整且严谨,看似无可挑剔。但在实际的调研过程中发现了很多与大数据项目规划和执行不相符合的情况,这些问题切实存在不可避免,执行过程又困难重重。大数据项目落地的第一步核心在数据源头,所有的数据项目从数据最终的出口来看,本质上来讲都是要将不规范、非格式化的的或者规范的不可分析的数据变成规范的、格式化的可分析的数据。还有一点特别要注意的是,大数据并不是片面追求数据越多越好、越全越好,最重要的是数据质量,业务场景。大数据的业务场景在哪些地方,需要补充到哪些数据,质量如何都是需要特别考虑的。我们在国内看到的几乎所有大数据公司从来不会声称自己的大数据业务能够跨全行业,大数据有大数据落地的业务场景,这是它的特殊性。每个大数据公司都有自己的行业重心,在某一个细分或者多个细分领域里面深耕细作比如金融、电信、政务、公安、制造业等等。摘选笔者所撰写的有关数据采集体系和可行性方案分析部分内容,分享给读者朋友们,仅供参考和探讨。(原内容有删减,以下涉及到相关的政府单位或部门略作处理)关于某部大数据采集体系调研与可行性方案分析项目背景简介 某市公安局作为公安部数据建设的试点单位,推进市局与社会化数据资源整合的标准化建设,和实现数据资源共享推进市局和相关单位的信息共享为目标,对数据化项目建设进行立项。 项目需求 项目旨在解决以下两个方面的问题: 1. 实现社会化数据资源整合 1) 某市公安局以及下属分局、各支队的各个应用系统数据作为市局的基础核心数据资源,例如基础的人口管理、信访、犯罪信息、情报等,以及作为数据监控所涉及到的铁路、网吧、民航购票、民航进出港、ETC 卡口、住宿等基本数据信息。 2) 在此基础上,为了纳入更多的社会化数据资源,实现全行业的数据覆盖,拟接入交通、服务、科技信息化、教育、社保、民政、户政、工商、网络通讯等各个行业的 数据。 2. 数据统一接口和规范化建设 1) 公安部下发了有关公安数据标准化建设的数据规范格式,各级部门需要按照标准化格式规范建设数据资产。对数据字段的描述、格式和录入规范定义都有一定的详细描述和定义。 在相关可以直接管控的领域和下属单位,数据资产需要按照这些数据格式进行管理, 需要建设统一的数据接口以确保各下属单位数据上传质量。 2) 在涉及到第三方的社会化数据资源,需要制定标准的可执行的数据标准,包括:数据接口的定义、格式的约束、数据交换的方式和渠道等。 3) 以上所有的数据接口定义都有据可行,能够形成统一和清晰的数据管理规范。 在未来旨在规划以下两个方面的数据建设方向 1. 数据资产整合、数据分发和应用平台建设 1) 打通市局内部数据和社会化数据资源,形成统一的可管理、可追溯的数据资产管理中心。 2) 基于市局的数据资产中心,对平台上的数据使用者提供统一的数据接口,形成数据分发,各数据用户可以基于自己的业务需求对数据进行使用,包括:数据分析与挖掘、业务系统和应用平台建设等。 2. 大数据 1) 基于大量的内部数据和社会化数据资源,推进大数据项目的建设和发展,增强数据标签属性、用户画像,可广泛的应用于人口管理、犯罪管理、社会化信息管理等。项目现状调研与存在的问题 1. 业务系统现状 1) 业务系统数量多、系统复杂。目前市局各个单位以及下属的分局、支队等各个业务系统、数据源系统共计近 200 多个,覆盖范围广,业务系统复杂。 2) 业务系统管理和维护缺失。大多数业务系统由不同的第三方 IT 公司开发和维护, 历史周期长、服务更迭和系统维护断档,造成业务系统数据字典信息缺失和不全。 3) 旧的业务系统对同样的数据信息描述不一致。不同的业务系统对同样的数据描述、 定义、数据录入规范不一致,造成在数据抽取和基本清洗阶段无法追溯实际数据字段的业务含义。长期以来的无人维护,部分数据的理解无法从业务系统管理方得到有力的支持。 2. 业务系统管理方 IT 支持力量不够 1) 大多数业务系统由第三方 IT 公司建设,分局和支队 IT 人员缺失,在整个数据项目建设的推进过程中沟通成本比较高。 2) 对由分局、支队提供的数据,由于缺乏专业的 IT 经验,在数据的录入和采集过程中无法做到高质量的数据录入,数据规范意识不强。 3) 前端数据采集质量不高也对现有的数据管理体系建设增加了很大的数据处理负担, 目前很多的数据基础验证工作都是在数据处理后方完成。 3. 部分上报渠道缺失、数据来源和数据质量参差不齐
1) 数据采集和上报渠道缺失。特别是对于一些基层单位,由于在工作中缺乏相应的数据收集上报终端,造成数据收集困难、数据收集质量不高。比如在派出所级别,一 方面比较缺乏对数据建设意识,另外一方面缺乏配套的数据采集终端,不能够很好 的完成采集相应的业务数据的任务和工作。 2) 数据来源格式繁多,数据渠道不规范不统一。 在已有的数据来源中,涉及到了 FTP、 EXCEL、DMP 文件、Oracle 数据库、XML 文件、CSV 文件、SQL SERVER 数据库等,需要不同的处理方案和接入方式处理。目前已经逐步在推进数据接口和上报渠道规范化建设,但是仍然需要比较长的周期。 3) 上报的数据质量参次不齐。有大量未经验证和规范化处理的数据上报到数据处理中 心,包括大量需要手工检查和处理的数据,极大的降低了数据中心对数据处理的效 率。 4. 社会化数据资源采集方式不合理、难度大 。 1) 部分数据资源采集分配方式重复和单一。例如各个辖区采集辖区内的教育单位的数据,这些数据实质上会进入市级的数据系统。市级单位和下属单位的数据采集形成 重复,各单位数据上报方式和途径各异,增加各级辖区下属单位数据采集的成本, 同时也增加数据处理团队的数据处理成本。 2) 社会化数据资产单位的配合程度不积极。对社会化数据资产管理方,例如教育、银行、金融等单位对于与市公安局的数据上报标准、数据定义、传送方式理解不一, 配合程度不一,也造成了对社会化数据抽取和管理的难度比较高。 需解决的问题和方案 数据采集是一个庞大的项目工程,涉及到已有和以后规划的业务系统的方方面面,需要站在整个数据体系建设的高度去考虑这个问题。同时,数据质量的保证也为以后的数据采集、 数据治理、数据中心建设、数据分析与挖掘、大数据平台的建设起到非常重要的作用。根据上述的问题,我们需要从以下这些方面入手来考虑。 1. 内部已有业务系统的字段梳理 1) 由于历史原因,内部已有业务系统的字段梳理目前已经没有非常合适的可行方案。 这是由于旧系统的相关维护人员缺失,没有规范的数据文档管理造成的,因此特别 需要注意在新系统的建设上加强交付标准建设,和形成项目报备机制避免类似问题 出现。 2) 唯一可尝试的方式就是熟悉业务系统,通过试用业务系统观察数据流向来理解数据 含义。但缺点是投入大、产出小,建议考虑只抓业务系统的核心业务流程和核心数 据。 2. 新的业务系统建设遵循现有数据规范和标准 1) 已有业务系统保持现状,在遵守已制定的数据接口定义规范通过技术手段完善数据 字段的转换与定义。 2) 在市局领导范围内的业务系统,对于新规划和新建设的项目应该主动向市局数据中 心建设部门进行项目报备。对业务系统中所涉及到的数据库设计、字段设计规范应 该遵循市局数据中心所提供的标准数据定义和规范进行开发。 3) 新规划和新建设的项目应该包括:WEB 端应用开发、移动端应用开发、CS 应用开 发等一切需要录入数据的项目。 3. 梳理和明确数据采集的范围、数据边界、对象和目标 1) 数据采集的范围包括内部数据和外部数据。 2) 内部数据涵盖市局以及市局领导下的所有事业单位的各个大小业务系统和子系统, 需要对这些业务系统进行梳理。确定业务系统中所涉及到的数据构成,例如:人口 基本信息、户政信息、犯罪管理等,对以上信息进行分类,明确在内部系统中拥有 哪些或者哪一类的数据资源。 3) 外部数据包括两个方面:第一,市局因当前工作需要所要监控的社会化数据资源, 例如:住宿、出入境记录、网吧、交通管理等。第二,市局所需要打通的非重点当 前需要和非监控管理的社会化数据资源,例如:教育行业、金融行业、通讯行业、 工商等。这些数据需要有一个明确的采集范围定义,不能片面求全求大,而应该先 明确所需要采集的行业范围,采集边界。同时,对主管这些数据资源的事业单位进行梳理和明确,以及需要明确数据采集的目标,例如数据字段的构成。 4) 对于外部数据中涉及到的社会化资源需要从上往下推进。在目前的社会化数据收集的过程中,部分行业的子事业单位向他们的上级主管单位进行数据上报。数据采集的对象应该集中在这些上级主管单位,而不应该由市局所领导的辖区单位与这些行业的子事业单位进行数据采集再集中上报给市局。这样可以避免市局所领导的辖区单位重复采集数据,同时可以避免各子事业单位采集的数据不规范而导致的重复数据清洗工作。 4. 确定数据上报的渠道、数据接口定义和数据交换方式。 1) 对于目前已有的市局范围内各业务系统继续保留已有的数据采集方式。通过源数据库向标准数据库的数据验证、审核和加载,确保标准数据库的数据接口定义。 2) 对于市局目前所要求的各辖区分局、支队等数据采集,需要明确数据采集的范围、 数据采集的渠道、数据采集的方式和数据接口定义。通过对数据采集范围和数据采集渠道分析,可以针对性提供数据采集的方案。例如移动端数据采集所需要的移动设备、相关的硬件和软件设施。如果没有明确的数据采集范围和采集渠道定义,将无法明确数据采集的方案和相关采集软硬件设施的构成。 3) 对于社会化数据采集资源,在梳理和明确数据采集的范围、数据边界、对象和目标之后,应该对相关数据的主管单位进行洽谈合作: i. 合作中需要明确双方对于数据资源合作的数据接口定义,需要对方确定可以提供的数据资源。 ii. 数据上报的渠道建议使用 FTP 文件传送形式,在明确的数据接口定义下确定数据文件传输的网络目标地址,传送周期。例如在央行与各个银行、美国保险行业与相关协会组织、某汽车金融公司与国外总部的数据传统都是通过这种文件传输形式进行数据上报。 iii. 在前期需要对上报的数据进行数据准确性、数据传达邮件通知等验证,验证测试通过后可正式形成数据上报机制。 iv. 考虑对等的、互惠互利的数据共享合作。由于涉及到数据合作双方的利益,需要双方建立数据共享机制来形成数据开放的互惠互利。对于合作不积极的数据主管的单位建议由市局上一级单位协助推进和协调。 5. 内部数据采集所涉及到的工具和技术应建立培训体系 1) 内部数据采集所涉及到的数据验证、工具使用和相应的技术使用应该建立培训体系, 定期召集相应的各市局和属下信息中心数据维护人员进行培训,培训的方向不仅仅要包括上述的技术相关的内容,还应该包括对数据质量的认知、数据思维方面来提升对数据管理控制的重视程度。 2) 可以从一个单位的应用系统来切入,待整个流程成熟和成型之后再扩大到整个市局体系。同时可以考虑完善相关文档、视频课程的方式来节约人力和时间成本。 以上所提到的一些方案需要与市局共同探讨,明确可行的思路和方案,问题处理的优先 级。可以由点及面,找出最容易实现和推进的方案点进行验证,如果验证成果则证明以上方案具备一定的可行性,再推进其它相关方案的执行和验证。 在相关资源协调上,市局需要牵头切入与协调,供应商作为数据建设方配合方案的执行、与数据标准规范的定义和推进。 (调研分析报告完)政府大数据面临的问题和阻力除了在案例中提到的基础数据治理之外,还有以下几个问题直接或者间接的形成了无形的阻力。1. 政府部门、特别是一些职权部门的数据意识、数据开放的意识。意识这个词可能会比较虚、看不见抓不着,但是实际上在很多项目规划和落地、协作和推进的过程中,具备数据意识的职权部门会积极引导大数据项目的规划和推进是朝着一个合理的、正确的方向上前进。该开放的开放,该听取专家建议的就听取专家建议。相反,不具备良好数据意识的决策者和推进者,也有可能好心办坏事,拍脑袋决策,将大数据项目引入歧途,最终以失败而告终。
2. 政府部门应该看重长期利益、长期规划,避免为做大数据而做大数据。政府大数据有别于企业大数据项目,政府大数据的数据种类繁多、跨行业、跨部门。业务数据质量层次不齐,很多数据是需要从源头重塑,涉及到很多旧业务系统的数据治理、新业务系统的规范化,这个注定是需要很长的一段时间通过制度来健全信息化建设。为了短期上大数据项目,只能是根基不稳,数据质量无法验证和参考,也就无法产生真正有价值的结果。同时,决策部门决策者的变化不应该影响大数据项目的规划,只要经过验证的方案,就应该继续持续的坚持下去。临时换方向、换技术方案、换想法,大数据项目经不起折腾。3. 政府大数据应该遵循大数据发展的规律,不应片面求全求大,可以整体规划,但要阶段性的划分项目边界,阶段性的出成果。在笔者上面提到的这个案例中,决策者的想法和意识都是非常正确的,但是基层部门在执行上就违背了这种规律,片面的求全求大,导致数据量上有增,但是数据质量上却无法保证。同时,政府大数据涉及到的行业方方面面,应该明确确定阶段性的目标,在哪个阶段追求哪些社会资源数据,解决什么问题,业务场景是什么需要确定下来。4. 政府大数据应该认真对待各个服务商和合作伙伴。第一,政府大数据涉及到政府多部门配合、跨行业配合,作为政府外包出去的项目服务商和合作伙伴,他们是没有这种资源能力在各个部门和行业之间协调和沟通,这种跨行业跨部门的合作需要相关决策部门进行引导和协调。第二,按市场规则和合作流程该结算就结算。大数据项目周期长,投入大,这对各个服务商和合作伙伴的人力、物力的投入也是很大的压力。与政府部门的合作有别于传统市场合作,本质上不管我们承认还是不承认,政府与第三方合作伙伴双方地位是不对等的。这些情况在如今已经有了很大的改善,但是实际上在很多地方依然存在,最终导致项目交付进度和质量无法保障、项目交接上给下家留坑埋雷都会导致项目越做越差麻烦不断。诸如此类的问题很多,不在此一一总结。政府大数据是不是一个伪命题? 最后再来谈这个问题,政府大数据是不是一个伪命题? 坦率来讲,从文章最开始的《纲要》内容和上面的案例中可以看出一些政府是完全具备数据开放思维意识的,从实际的项目规划和实际的落地过程中也做出了很多的努力。但是大数据项目的落地不是一蹴而就的,由于历史原因数据源头的梳理困难重重,政府各部门之间的数据打通需要政府高层站在大的格局下来积极引导和推进,新业务新数据的规范化运作尚需时间和很强的执行力,知易行难。从长远来看,政府大数据不应该是一个伪命题。但是在实际的操作过程中如果只是流于形式、各部门数据各自为政、协同合作效率低下、过于追求部门利益个人利益而忽略公共利益,所谓的政府大数据就是一个伪命题。政府作为施政的决策者和领导者,无论从财力、人力、物力、资源协调能力、政策执行和推动能力上来说,在大数据项目的规划和落地过程中本应该拥有得天独厚的优势,也可以很强势。但关键在于怎么利用好这种优势和强势,利用的好,对大数据项目是一种保障。利用的不好,对大数据项目也会起到非常负面的作用,多走弯路或者彻底失败。总之,政府大数据不会一蹴而就,也一定会总结很多经验和教训。但无论如何,只要开始就好,现在就是最好的时机。","updated":"T17:11:20.000Z","canComment":false,"commentPermission":"anyone","commentCount":4,"likeCount":10,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T01:11:20+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-cd76b873df3ff41408e1de_r.jpg","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":4,"likesCount":10},"":{"title":"蓝色巨人IBM的变革与复兴,大数据时代的人工智能 IBM Watson","author":"tianshanlvpin","content":"2016年是人工智能走向大众的元年大数据的火热还未退去,人工智能在2016年和2017年交替之际就被刷爆了。从 日到日,一位标注为韩国九段的神秘棋手 Master 在一周之内完胜包括中日韩朴廷桓、古力、井山裕太、柯洁、聂卫平、常昊等世界高手。在以60胜0负1平不败成绩横扫人类之后,谷歌 DeepMind 发布公告,正式承认网络账号 Master 就是一直被中国群众亲切称为阿法狗的 AlphaGo。如果说 2016年3月的那场 AlphaGo 与李世石的对战掀起了全世界人们对 AlphaGo 和 DeepMind 讨论的热潮之外,那么这次 AlphaGo 和人类的对战也可以算是人工智能领域一次里程碑式的创举,它的成功标志着人工智能领域又进入了一个新高度。 什么是人工智能人工智能简称 AI (Artificial Intelligence)。通常情况下我们对于人工智能的定义是:人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人与电脑的较量 - 《危险边缘 Jeopardy》早在20年前,蓝色巨人 IBM 就开始在研究人工智能,而研究的成果 —— 超级计算机深蓝击败世界象棋冠军卡斯巴罗夫一时震惊全世界。2011年2月,IBM花费四年时间、耗资3000万美元研发出的 IBM Watson 登陆《危险边缘》(Jeopardy)。面对节目中用充满双关的英语提出的费解问题,IBM Watson 能做出分析并在巨大的自然语言数据库中寻找线索,将这些线索合成答案,再用语音的方式回答。最终,IBM Watson 在当晚压倒性的击败了美国竞猜节目中最聪明的人脑,也同时创下了这个难度适中的问答系列节目27年历史上的最好成绩。注:《危险边缘》(Jeopardy) 是美国著名的智力问答竞赛节目。该节目的比赛以一种独特的问答形式进行,问题设置的涵盖面非常广泛,涉及到历史、文学、艺术、流行文化、科技、体育、地理、文字游戏等等各个领域。根据以答案形式提供的各种线索,参赛者必须以问题的形式做出简短正确的回答。与一般问答节目相反,《危险边缘》以答案形式提问、提问形式作答。参赛者需具备历史、文学、政治、科学和通俗文化等知识,还得会解析隐晦含义、反讽与谜语等,而电脑并不擅长进行这类复杂思考。这次对决也开启了大数据分析背后的知识和洞察,把人工智能的应用推向各个领域。如果你的回答错误,会受到惩罚,这与我们在商业当中的决策和判断一样,如果你的信息不全,商业决策也有可能不准确而导致失败。相对于20年前人机大战中的深蓝 Deep Blue 险胜国际象棋世界冠军加里o卡斯帕罗夫(Garry Kasparov)来说 ,这次对抗看似还没有达到当时人机大战引起的新闻轰动。但是有一点特别要注意的是,从国际象棋的纯数学领域跨越到更缺乏条理的语言和流行文化领域,这次 IBM Watson 在《危险边缘》中的表现是人类在人工智能领域的一次非常大的突破。IBM Watson 本质上是 IBM 制造的电脑问答(Q&A)系统,它是一个集高级自然语言处理、信息检索、知识表示、自动推理、机器学习等开放式问答技术的应用,并且基于为假设认知和大规模的证据搜集、分析、评价而开发的DeepQA技术。虽然采用了深度学习中一些技术如迁移学习 (Transfer Learning) 来解决一些问题,但与 AlphaGo不同,它并不是完全采用深度学习技术的人工智能。它的主体思路并非深度学习,而是更接近心智社会(Society of Mind)。取得这样的突破固然可喜可贺,但要知道的是 IBM 在人工智能领域的突破和变革也不是一步到位的。IBM 的转型和变革蓝色巨人 IBM 在100年的历史长河中创造过的辉煌不胜枚举。同时在大家眼中,IBM 也是大家公认的全球最大的 IT和管理咨询公司,主要竞争对手为埃森哲、毕博、德勤咨询等。在 IBM 2014 中国论坛上,IBM 公司大中华区董事长钱大群表示:大数据、云计算、社交和移动正成为当今互联网时代的特征,也给企业带来了巨大机会,IBM 正在进行一场重塑自身的变革。IBM 确定了三大转型方向:借助数据协助行业转型、面向云计算,重塑企业 IT 基础架构、通过移动社交构建互动参与体系。2015年底据 IBM 内部透漏,在 IBM 未来的规划中,IBM 将形成 IBM 新的三大部门 —— 全球行业事业集团、整合认知解决方案集团以及云计算集团。IBM CEO 罗睿兰 (Ginni Rometty)2016年,IBM CEO 罗睿兰 (Ginni Rometty) 在 CES (International Consumer Electronics Show)上发表演讲时明确表示:IBM不再只是一家硬件公司或软件公司,而已经转型为一家认知解决方案云平台公司。而这个能够支撑云平台认知解决方案的就是 IBM Watson 超级计算机。托马斯·沃森(Thomas·J·Watson)或许从来没有想过,自己一手创办的 IBM 公司,会在自己去世的五十多年后,让自己的名字以人工智能的方式重回这个世界。Thomas·J·WatsonIBM 转型期间的人工智能市场布局除了大家所了解到的 20 年前的人机大战到《危险边缘》IBM Watson 的大放光彩。其实 IBM 在人工智能和认知计算领域有着多年的研究和积累。人工智能这个学科最早建立在1956年的达特茅斯会议上,而 IBM 就是这个会议主要的参与者。在随后60年中,IBM 一直在这个领域投入人才和资源进行研究探索。而在最近的这几年,对人工智能领域投入的步伐越来越快。从公开的网络中查证得知,在从2010年至今,IBM 至少已经花费了超过120亿美元完成了对 40多家公司的并购。并购的业务主要涵盖了云计算、智慧地球、商业智能和数据分析、服务器和网络存储优化、企业治理合规与安全、人工智能这六大方向。2014年1月,IBM成立了以 Watson 命名的业务集团,这样的业务集团在IBM之前历史上只有三次,都设立于转型的关键时期。其中,人工智能是 IBM 公司在2014年之后才重点关注的领域。我们重点整理了一下 IBM 在云计算和人工智能这两个紧密相关领域的并购信息。云计算领域2010年5月宣布花费1.9亿美元并购云计算集成商 CastIron Systems。2012年1月宣布并购基于云计算的软件测试公司 GreenHat。同年,以及花费7000万美元并购云计算软件开发商 Worklight。人工智能领域Silverpop - 2014年4月,IBM 收购私人控股软件公司 Silverpop。Silverpop 可以为营销者提供基于云的在高可扩展环境中交付个性化客户参与的能力,这次收购可提高 IBM 在营销自动化上的领先地位。Cognea - 2014年5月,IBM 通过官方的博客确认了 Watson Group 对于人工智能初创企业 Cognea 的收购。该公司能够增强 Watson 系统对话的能力,让机器能够像人一样对话,并了解用户的性格。AlchemyAPI - 2015年3月,IBM 收购了初创公司 AlchemyAPI。旨在利用其工具加强 Watson人工智能与计算服务能力,扩大发展机遇,包括医疗健康、法律和保险、以及其它拥有大量非结构化数据需要进行分析的领域。具备深度学习自然语言处理和图片识别技术的 AlchemyAPI,以增强 Watson 挖掘及关联非结构化数据的能力。Blekko - 同月,IBM 收购了搜索引擎初创企业 Blekko 的技术,后者的团队已经加盟 IBM Watson。对 Blekko 的技术收购是 IBM 为其人工智能引擎 Watson 增强能力努力的一部分。Blekko 的 Web 抓取、分类及智能过滤技术可为 Watson 提供更多的源源不断的有用知识源,从而丰富和深化 Watson 认知计算的能力。Weather Co - 2015年10月 IBM 斥资20亿美元收购天气频道 (Weather Channel) 母公司。Weather Co.的天气数据和预测信息同 IBM Watson 联姻或将产生非凡的效果。据悉,双方的构想是把 Weather Co.的天气数据和预测信息同IBM的云计算技术和分析结合在一起,然后向各个产业出售天气数据和业务解决方案,而 Watson 则是这一构想的核心所在。拥有准确预测天气变化的能力可以对许多商业领域企业产生重要影响。举例来说,通过掌握暴风雪可能影响销售的数据,零售商能够更好的管理供应链。IBM 能够向保险公司销售数据,让后者通过智能手机提醒投保人即将出现冰雹,提醒投保人把汽车停放到安全的地方,而此类服务能够让保险公司省下数百万美元的保费。IBM Watson 让人工智能与行业深度结合从上面的收购案例中可以看出,IBM 在人工智能认知计算领域做了大量的布局,而 IBM Watson 则成为 IBM 全新商业价值新的触点,云平台则是 IBM 新业务领域的基石。作为一个百年科技行业的 IT 巨头,IBM 在人工智能领域的业务推进,这也代表了未来 IT 行业发展的一个很值得注意的方向。作为 IBM 认知计算的代表,IBM Watson 的理念是寻找答案、探索未知 —— 在各行各业寻找答案,协助分析人员探索更多的未知。而很多想法的落地是在以前不敢想象的,但如今很多想法已经成为了现实。医疗助理 - 每秒阅读八亿页和数据洞察在医疗行业,IBM Watson 正在成为医生的助理,帮助医生进行病患的辅助诊断治疗。据统计,Watson 每秒能够读八亿页的资料,帮助生命科学家把斩获一些重要发现的时间从数年甚至缩短到了数周。同时,IBM Watson 还可以从来自于电子病历、放射影像报告和病理报告、化验结果、医生病程记录、医学文献、临床医护指南及公开的结论性报告等方面的数据中提取洞察,帮助医生针对具体病患做出个性化治疗决策。医疗零售 - 通过预测分析改善慢性病患者的护理2014年 IBM Watson 与美国拥有 7800 多家药店的药品零售商 CVS 合作,利用预测分析和Watson 的认知计算,来改善对慢性病患者的护理管理。CVS 向 IBM Watson开放海量患者行为信息、临床数据、购药数据和保险数据等。通过对用户医疗健康记录、药店数据等信息的分析,可以预测用户患有疾病的风险,并向用户提供执业护士、医生以及相关的医疗保险等信息,为用户制定一个最佳的健康问题解决方案。CVS 和 IBM 希望共同解决患者在病历和过往诊疗数据缺失的状况。时尚领域 - 中国第一套人工智能认知礼服在《VOGUE服饰与美容》十一周年庆祝派对上,李宇春以一身白色蓬蓬裙搭黑色小外套惊艳全场,在帅气中尽显小女人的柔美。这虽然不是李宇春第一次穿裙装,但却是她第一次尝试“认知礼服”。这也是中国第一套由人工智能、设计师和李宇春本人共同合作完成的礼服。IBM Watson 先是阅读了上百万条来源于社交媒体的图片及文字,帮助设计师 360 度了解李宇春,从而准确把握李宇春的时尚特质。然后,IBM Watson 根据设计师的构思,从50万张时尚经典图片里识别出礼服的时尚元素,包括廓形、面料、颜色。最后,IBM Watson 推荐了 2500 张图片供设计师参考。如果没有 Watson 的帮忙,设计师可能需要大量的时间手动完成这个过程,而 IBM Watson 将这个过程缩减到一周,这在过去是难以想象的。娱乐领域 - 史上第一支 AI 制作的电影预告片IBM Watson 帮20世纪福克斯剪辑出了科幻惊悚电影《Morgan》的预告片,用了不到24小时,这比常规的预告片剪辑速度快了至少10倍。为制作这部 6 分钟的 \"认知电影预告片\",IBM Watson 迅速挑出了10个最适合制作预告片的电影场景交由制作人员,使得通常10天到一个月才能完成的预告片制作现在只需要24小时。汽车领域 - 认知计算平台的自动驾驶车辆2016年6月,IBM 与亚利桑那一家名为 Local Motors 的制造商合作,打造了第一款使用 Watson 认知计算平台的自动驾驶车辆 Olli。Olli可以搭载12名乘客,它融合了4款 IBM Watson 的 API (应用程序接口),能提供包括语音转文字、自然语言分类器、实体提取和文字转语音等功能。Olli 可以称得上是第一款使用 IBM Watson 物联网技术的自动驾驶汽车。IBM 表示,6月23日起,Olli 就将正式在华盛顿投入运营,在年末它还将进入迈阿密-戴德县和拉斯维加斯。服务行业 - 构建全渠道营销平台和市场洞察在服装行业,认知技术不仅可以帮助到服装设计师把握流行趋势,实现高效的设计,还可以帮助服装企业构建全渠道的营销平台,实现智慧管理和精准营销。Lily 商务时装引入了IBM Watson 认知商务全渠道解决方案中的电子商务平台 WebSphere Commerce (WCS) 和订单管理系统 (Sterling Order Management System),Lily 不仅打造了最适合自己的自有全渠道营销平台,还整合了PC、手机、Pad等平台的所有数据。IBM大中华区认知商务事业部总经理钟淑燕(Patricia Cheong)与上海丝绸集团品牌发展有限公司总经理陈川数据链打通的另一个受益点,是将服装的研发时间大大缩短。以往一套服装从研发到订货再到上架需要10个月,而这期间市场发生怎样的变化,研发人员无从知晓,订货量也只能凭经验和运气,一旦上架后卖不出只能变成库存。而现在通过全渠道的数据管理,企业将及时掌握各地市场动向。Lily 现在从设计到上架已缩短到一个半月,从生产到交货也能达到最快的七天。少批量生产,再根据现市场趋势再追加订单将帮助 Lily 更好地完成市场洞察、精准销售。在国内医疗科研的合作 - IBM Watson 肿瘤解决方案中国是一个癌症大国,在2015年有430万新发癌症病例,并有280万人因癌症去世,这也让癌症成了中国人最常见的死因。据估计,中国每天有12000人被诊断患有癌症,这意味着时间每过去7.2秒,就有一名新的癌症患者诞生。日,在中关村软件园的 IBM 中国客户中心,IBM 携手杭州认知关怀,启动IBM Watson for Oncology 落地中国仪式。这意味着 IBM Watson for Oncology正式进入中国,这也是沃森健康在中国的首个合作项目。根据协议,认知关怀将为全国21家医院引入沃森肿瘤解决方案(Watson for Oncology),帮助中国患者获得个体化的循证癌症治疗方案。IBM Watson 肿瘤解决方案至少能在三个不同的层面帮助到中国患者。第一,它能通过对医学文献进行打分评级,迅速整理病患的医疗记录,提高医生的诊断效率;第二,通过分析海量数据,它能助力医生快速为患者提供高质量、个体化的循证癌症治疗方案;第三,它能为患者和医生们带来世界顶级的癌症治疗专业知识。可以想象,这一平台在中国将释放出无穷的潜力。人工智能将无处不在,未来值得期待科技的创新带来人类生活的改变无处不在,而有关 \"人工智能是否将代替人类统治地球?”,\"人工智能如何颠覆未来的商业模式\",\"人工智能的到来未来 5-10 年哪些职业将消失\" 等话题也让大家开始开始重视和审视人工智能在未来的发展。近几年,IBM、谷歌、亚马逊、Facebook 等在人工智能领域投入巨大的人力和财力,这些科技巨头们为我们谋划了一个关于人工智能的完美愿景。相信就在不远的未来,人工智能将会成为新的基础资源,它也将和互联网一样融入我们日常生活影响着我们生活的方方面面。当你到超市购物的时候、当你开车出行的时候、当你要为自己设计一件衣服的时候、当你去医院检查身体的时候、当你的小孩子坐在教室里接受教育的时候、当你一个人坐在家里需要人陪伴的时候....我叫安德鲁,我已经活了200多岁,我希望我能成为人类...在未来的某一天,人工智能将无处不在。(全文完,作者:吕品,天善智能联合创始人&运营总监,微信号:tianshanlvpin)了解 IBM Watson 下的 Watson 分析
","updated":"T03:44:34.000Z","canComment":false,"commentPermission":"anyone","commentCount":2,"likeCount":30,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T11:44:34+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-df1ca6b1d7c_r.jpg","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":2,"likesCount":30},"":{"title":"数据分析与认知计算产品 IBM Watson Analytics 试用体验","author":"tianshanlvpin","content":"在这篇文章中 《
》我介绍到了 IBM Watson 在人工智能领域的布局和变革。那么本篇文章就带大家走进 IBM Watson 旗下认知计算、预测分析的云端数据分析产品 IBM Watson Analytics,也算是对上一篇文章的延续。在本文中我将完整的介绍 IBM Watson Analytics 的试用过程,以及从产品设计的角度、从业务分析的场景中总结出来的关于 Watson Analytics 的一些亮点。这些亮点我个人认为也符合未来数据分析产品发展的整体趋势,相关背景文章请参考:IBM Watson Analytics
上对 Watson Analytics 的介绍是这样的:专业的数据可视化分析工具。基于云平台的智慧的、自动化的数据发现服务和自动预测性分析功能,帮助用户轻松理解数据中的奥秘,并自动创建仪表板和信息图。IBM Watson Analytics 能解决什么问题 Watson Analytics 数据可视化分析软件官方介绍 —— 可为您提供高级分析的诸多优势,但同时不增加复杂性。这种云端智慧数据发现服务可以引导数据探索,自动化实现预测分析,并支持轻松的仪表盘和信息图表创建。您可以迅速获得答案和新的洞察,在几分钟内迅速作出自信的决策 - 所有这一切全部由您自己完成,无需专业统计分析背景。从这些描述中总结出来三个简单的特点:人人可用的数据可视化分析、云平台、自动化预测分析和数据洞察。 IBM Watson Analytics 的注册试用 IBM Watson Analytics 需要注册一个 IBM ID 账号,根据一些提示填写一些基本的信息。注册成功后,会收到邮件相应的邮件验证和 IBMid。在主页面中有三个版块:Data 数据版块:用来上传和准备数据。Discover 发现版块:数据洞察与分析,通过后续的试用,我发现期中有几个亮点很值得注意。Display 展现版块:数据发现结果呈现与分享。IBM Watson Analytics 数据准备点击 New Data 可以发现 IBM Watson Analytics 预置了很多第三方应用和服务、IBM Cognos 、社交相关的数据接口(国外的为主),例如共享云存储 Dropbox、在线活动服务平台 Eventbrite、数字营销产品 Hubspot、很多外企都在用的笔试与问卷调查类 SurveyMonkey、Twitter 社交数据。先简单使用 Local File 上传数据,实验数据来自 IBM Sample Data一个有关人力资源培训相关的数据,可在本文的附件中下载。上传成功后在这个页面可以看到文件,可以重命名。60% Quality 说明数据的质量在 60% 左右,这是因为 Watson Analytics 在上传这个数据的时候对数据做了一些内部的转换和分析。通过分析之后对数据给出评分,数据质量越好高评分就越高。如果分数很低,远远低于 60%,那么就意味着这个数据质量可能存在很大的问题,这种数据也不适合做进一步的分析。在微软 BI 的 ETL 工具 SSIS 中也有一款类似的组件叫
也能够用来检查数据的质量。但目前有关数据准备的做法,这种趋势会更加明显 —— 数据在上传和加载的过程中就把数据质量的评估给反馈出来。导致数据质量低的原因有的可能是空格、有的可能是空值、出现了与整列其它数据不匹配的数据类型的值等等,这个时候可以点击 Refine 对数据重新做出调整和优化。Refine 页面下可以看到不同列的数据质量情况,包括缺失值、甚至可以看到数据之间的层次关系等等。也可以在 Refine 页面创建计算列、数据组(比如 Age 1-12 岁定义为少年等 )、增加层级关系等。Refine 的作用就类似于一个数据质量检查工具和一个轻量的 ETL 数据准备和清洗工具。数据准备阶段的几点总结和思考 1. 这款产品的面向的用户群体可以是无需专业统计分析背景的业务人员,因此在数据准备环节对源数据的要求还是存在的。数据尽量通过 IT 部门做过专业的清洗和规范,这样会更大程度的节省业务人员在数据准备上的时间和精力。2. 在保证大部分数据规范和质量的前提下,业务人员可以根据自己的理解对数据做一些初步加工。这一点在以后的数据分析工具发展上是一个趋势,让业务人员自己可以处理一些基本的数据清洗,而不用事事都需要 IT 的支持。3.
IBM Watson Analytics 数据上传即反馈数据质量评估,数据质量评估得分低则表明该数据不适合在接下来的分析场景中使用。因此,这就尽最大可能的避免了因低质量的数据而造成了分析结果不准确的情况。4. 在数据准备的沟通和环节上,IT 部门和业务部门可以有效的进行职责划分。IT 部门对数据质量结果负责,业务部分对分析结果负责。IT 部门数据提供的质量低,则返回重做、重新准备,直到达到双方共识的一个标准比如 80% 或者 90%,达到这个标准后业务部门再进行后续的数据分析和探索工作。IBM Watson Analytics 的数据质量评估为我们提供了一个很好的关于数据质量的参考,我们可以利用好这个特点对团队的协作过程进行有效的考核和流程把控。在快速完成了数据上传和加载动作后,我们开始在 IBM Watson Analytics 中进行数据探索和分析的工作。IBM Watson Analytics 数据分析与探索在正式的数据探索和分析之前,先来简单的了解一下要分析的数据(只展示了部分数据)。很显然,在这份数据中可以分析的是有关培训课程的消费或支出成本等问题。先简单的理解和观察一下这些数据,这对后面理解 IBM Watson Analytics 是如何设计这种自动化化数据分析和自然语言探索很有帮助。点击文件的标题 - WA_HR_Training-,我们对数据的分析就已经开始了,并且这是一种全新的体验。在以前我们是要向自己提问,通过工具来帮助实现。而现在 Watson Anlytics 向你提问或是你也可以向它提问,而提问之后的分析都会自动实现。在 Discovery 分析和探索页面,Watson “猜”出了你可能想要分析的问题。例如:1. What is the trend of Course cost over Year by Department? 不同部门每年培训课程成本的趋势如何?2. What drives Position Count ? 什么因素驱动了/影响了职位数量?3. How are the values of Course days and Expense total associated ? 课程天数和费用总额之间有什么样的关系 ?而每一项“猜”出来的问题,点击进去就会自动呈现一个分析结果,例如这个问题可能正是业务人员所需要的 What is the trend of Course cost over Year by Department? 一个分析就这么结束了,没有任何的拖拉拽操作,图形化的分析结果就已经呈现了。这种产品理念的过人之处就是 —— 它为你提供想法,但是把选择权留给你:1. 对于很多没有从事过专业分析的业务人员 IBM Watson Analytics 给出了很多提示和线索,或者说分析问题的思路。有了这些提示和思路,普通业务人员可以通过这些问题很快速的得到分析结果。2. 对于一些初级的从业务岗位转向业务分析的人员,也面临过这些问题:BI 开发人员在需求沟通的时候通常也会发现部分业务人员不知道要分析什么,可能知道要分析什么但又不知道分析的结果要如何呈现。通过 Watson Analytics,可以不需要 BI 开发人员的任何参与,业务人员可以自行挑选出所需要的分析结果。3. 对于大部分数据分析人员,往往凭自己的经验可以很快的想出一些分析的场景,但是人无完人总有遗漏的分析角度。对于 IBM Watson Analytics 来说,分析的角度我提供给你,非常的全面,可以随时放在身边提醒你,是对你想法的一个补充,它并不会干涉你。就如同员工跟老板汇报工作方案的时候,老板并没有考虑好要怎么来做,但员工准备了很多套方案。最终方案员工来提,老板来拍板,既不伤害老板的面子,又让老板获得权威感,Watson 的这种细腻的设计思维很人性化。同时,上面反应出来的几个问题对应是日常 BI 开发和数据分析、呈现阶段的几个痛点场景,IBM Watson Analytics 产品在这些方面的考虑还是比较周到的。这是我们看到的 IBM Watson Analytics 通过我们上传的数据就 “猜” 出来的问题,同样,我们也可以向 Watson 提问我们自己的问题。How to ask a question 返回到这个页面,我们再来关注一下 How to ask a question ?如果你不知道要问什么问题,IBM Watson Analytics 提供了一些问题分类导向,每一个分类对应着不同角度的问题。Variety pack - 一些基本的问题Compare data - 数据比较相关的问题Understand relationships and identify patterns - 理解数据之间的关系Aggregate data - 有关数据聚合的问题Sort and filter data - 排序和筛选Predict data - 数据预测相关的问题All available examples - 所有问题比如说 Aggregate data 每一个问题都可以调整分析的维度和事实,每一个问题只要点击一下 ASK,整个的分析也就自动完成了。IBM Watson Analytics 分析问题的逻辑通过上面的简单介绍,大家基本上能够发现我们在对这份测试数据分析的时候,大部分的我们所想要的分析已经由 IBM Watson Analytics 已经帮我们完成了,每一个问题就对应这一个分析结果,如何做到的?回到我之前列出来的数据,很显然 IBM Watson Analytics 在数据上载的阶段就已经完成了对数据的分析。IBM Watson 通过数据列的值对分析数据的角度(即维度)和分析的目标数据(即度量值或事实)进行了解析和自动建模处理。Year 年份Organization 组织Department 部门Position 职位Position Count 职位数量Planned Position Count 计划职位数量Expense Total 总支出Course Cost 课程成本Course Days 课程天数Terminations 终止标记Internal Hires 内部招聘External Hires 外部招聘自动对维度和事实进行分组 - 数值型的自动变为分析的事实。自动对维度和事实进行分组 - 字符或字符串类型的数据自动解析为维度。很多数据分析工具能够自动的区分维度和事实,但是 Watson Analytics 在这个层面上更进了一步。Watson Analytics 不仅自动的对维度和事实进行划分,同时“猜想”了人们可能要用到的所有分析角度和事实组合,而这些组合可以直接的通过 Question 呈现给用户选择。维度和事实建模分析三个发展阶段 1. 先设计好分析模型再分析和呈现。2013年以前使用传统的 BI 分析或报表工具(IBM Cogno

我要回帖

更多关于 ai cs6 视频教程 的文章

 

随机推荐