企业搭建大数据分析平台如何搭建呢?如何起步呢?

Trueland珍岛的解决方案,涵盖各行业解决方案,包括信息化应用、行业信息化、企业信息化各领域...
> 中小企业的大数据分析之道——内部构建
中小企业的大数据分析之道——内部构建
&&|&&&&|&&http://www.trueland.net/&&|&&浏览次数:
  近两年大家惯常听到一个词“大数据”,什么是大数据?顾名思义,大数据指数据总量巨大,其中包含各个类型的数据库体系。IBM曾经做过一个统计,世界上90%的可用数据,是在过去两年内所产生的。数据之所以庞大主要来自于机器的介入,从流水线上某一台中控设备的每一个传感信息到智能终端上每一次用户点击,时时刻刻都在产生数据。
  对于数据的有效利用已经成为各个公司首要关心的事情,他们借助于整合公司多样化的数据子集来帮助企业实现项目推进与业务开展。珍岛电商将与各位分享如何有效利用大数据。
  企业要修炼成大数据企业,要从两大方向着手:内部的构建和外部的互动。那么如何实现内部的数据构建:
  如何实现企业数据化?
  不同的企业对数据的关注点不一样,要首先明确我们需要什么样的数据,以人为中心还是以产品为中心。明确了这一点后,在经营过程中把数据采集下来,哪怕是当前没什么用的数据也要保存,说不定某一天会有价值。以产品为中心主要靠技术手段采集,以人为中心有时还要靠人来采集。例如,某餐厅的客人来就餐时,发生的一切行为都要记录。比如来了几个人,性别,年龄,有老人或小孩吗?排队用了多久?是慕名而来还是偶然路过?点了什么菜,看了什么菜,点菜时长?用餐时长,对菜品的满意度。大数据的第一步就是企业数据化。
  企业要如何建立自己的数据管理平台?
  对于中小型企业,数据的存储可以考虑使用外部的云端数据中心,目前外部数据中心的成本已经非常低了。在企业内部还是要建立自己的数据分析架构,其中要用到一些常用的数据工具。很多中小公司对数据管理和数据应用只是简单地输入日报表,周报表,然后是月报表。然后根据这些报表由公司领导给出下一阶段的决策。这些报表通常都是固定格式,只是数据不同。决策层长期以往,思维将会被禁锢在这些一成不变的表格中。很多决策层已经认识到这一点,于是他们说“给我新的东西看”甚至明确要求我要什么形式,什么维度的报表。于是我们的DBA们开始敲代码,跑数据,后面是领导不停的催,折腾个一两天是很正常的事,终于跑出一张报表了。有时刚交上去,报表需求又变了,我还要XX的报表,于是又是一次循环,又是一两天。好了,一周就这么过去了。市场在这一周里又发生了很多变化。这就是传统的数据分析,甚至还谈不上数据挖掘,感觉永远是慢一拍。类似这种公司的数据量不大不小,来源固定,比如百货行业,自建的网上商场,垂直类电商。对于这种首先要改善的是速度和敏捷。在明确了那些固定报表,和常用分析维度后,通过大数据技术手段我们完全可以把报表分析做到,实时查询,主动提醒,对于临时提出的分析要求也可以做到快速输出报表。
  那么如何实现,我们大致介绍下所要用到的实现方案。目前流行的大数据的解决方案大部分都是以Hadoop为基础架构。什么是Hadoop?简单来说Hadoop是一个分布式计算的解决方案,分布式通俗来说就是把一件事分布到几台计算机上运行。由多台计算机同时运行和存储数据,比一台计算机运行速度快,而且如果数据量大了,或者报表复杂导致运算速度慢,只要再加计算机就解决了。当每台计算机运算完毕后,会把中间结果集中到一台计算机上,再把这些中间结果汇总起来得出最终结果。这就是经典map/reduce模式。一句话总结就是:拆分任务,分布运算,汇总出结果。
  每次的报表分析工作只要能按这套模式拆分成能分布运算的任务,并且任务结果可以合并成一个结果,就可以支持Hadoop的分布式运算,从而解决了分析速度的问题。
  中小企业是否需要有一支具有大数据理念的“小数据”挖掘团队?
  目前中小企业对于大数据普遍存在的观点:
  我的数据量每月就那么多,或者网站的流量不多。从“量”上来说不多,从“样”上来说也不广,来源也很单一。所以我们没有搞大数据的必要,离我们太遥远了。
  在大数据的浪潮下,做为中小公司对大数据的认识要有所求有所舍。中小公司关键要形成大数据的理念。作为一个合格的“数据科学家”不是一定要非常擅长互联网,营销之类,只要是熟悉就可以,重要是要有武器,什么样的问题来了,我用什么武器应对,解决方案是什么,可行性是多少。  除了结构化数据以外还有文本,音频,图像,网络,行为轨迹,时间维等非结构化数据,这些数据如果处理?解决方案是什么?
  要懂预测,大数据最终就是用于预测,预测中会用到很多方法是基于机器学习的,其中比较热门的是集群学习。
  懂分布式计算,前面提到了一点分布式计算的皮毛,如Hadoop,但不是说知道这点术语和概念就可以了,关键是要会灵活使用这些工具和技术。面对一堆数据,要用什么算法来实现map/reduce,哪些分析我只要hive就可以解决。要用开放的眼光,要知道公司里哪些数据对外部有重大价值,外部有什么数据能对公司产生重大价值,借他山之石以攻玉,实现内部数据与外部数据的整合。
  随着互联网进程的深入推进,数据产生的时速和规模要远远超过现在,对于中小企业来说,越早培育起数据意识,才能应对这场互联网的浪潮。
扫描微信二维码,信息随身查欢迎关注:
添加微信公共帐号: 珍岛营销欢迎关注:
领先的整合网络营销服务提供商!
10年经验 & 1200人团队 & 上万家客户
全国免费服务热线:AM:8:30~PM:18:00
售前服务:400-011-2158 售后服务:400-880-0762B2B2C多用户商城方案大数据如何起步?_HiMall
行业解决方案
整体解决方案
重点系统推荐
B2B2C多用户商城方案大数据如何起步?
|HiShop|阅读量:
导读:古语曾说:故不积跬步无以至千里,不积小流无以成江海。欲言学习、做事需自小而起。这在B2B2C多用户商城方案中也是行的通的。尤其是对于它大数据的起步与发展。...
  古语曾说:故不积跬步无以至千里,不积小流无以成江海。欲言学习、做事需自小而起。这在中也是行的通的。尤其是对于它大数据的起步与发展。
  目前国内外关于大数据的谈论很多,大多是谈运营级别的,或者说从服务端、服务方提得较多一些。笔者要跟大家交流的问题是作为各类企业尤其是客户方的企业来说,大数据跟他们有什么关系,或者说作为企业方怎样去参与,这是企业方现在面临的最大问题。
  这个问题的答案重点在于大数据应该从小数据开始。因为现在很多企业面临的最大问题不是怎么用大数据,而是内部的一些小数据整合出现问题,或者小数据都没用好的情况下怎么用大数据。大数据应该是从小数据逐渐演变上去的,是一个正常的生态,而不是瞬间变化的。大数据这个概念跟自媒体的概念类似,需要企业自己去建设,而不是从一开始就想着依靠别人。很多企业在谈自媒体的时候,像谈别人的事情一样。比如一谈自媒体,就觉得那是第三方提供的一个平台,大家在那儿发发牢骚。自媒体是自己的媒体,企业自己也要参与进去。同样大数据不是别人的大数据,我们假设有一个第三方提供了大量的数据,有很多很多信息,CI、BI之类的很多模块化东西供我们来用。如果这样的话,你有,竞争对手也有,你能得到的东西,竞争对手也能得到的情况下,就不能称之为核心竞争力。大数据作为企业来说要变成自身的一个竞争力,企业必须得建立自己的企业级的数据。
  要做大数据,首先要了解自己的企业,或者自己所在的行业的核心是什么。我们现在经常发现,有很多企业在竞争的过程中,最终不是被现在的竞争对手打败,而是被很多不是你的竞争对手所打败。很简单的一个例子,大家都认为亚马逊是做电商的,但这是错的,它现在最主要的收入来自于云(云服务)。也就是说企业需要找到自己的核心数据(价值),这个是最关键的。只有在这个基础上,建立自己的大数据才有可能,才能做一些延伸。其次,要找到内部的一些外围相关数据,去慢慢地成长它。有点像滚雪球,第一层是核心,第二层是外围相关的数据。第三层是什么?就是外部机构的一些结构化数据。第四层是社会化的,以及各种现在所谓的非结构化的数据。这几层要一层一层地找到它,而且要找到与自己相关的有价值的东西。这样你的大数据才能建立起来。
  第一步,找到核心数据。核心数据现在对很多企业来说实际上就是CRM,自己的用户系统,这是最重要的。第二步,外围数据。比如企业经常会在线上线下举办一些活动,在做活动的时候,消费者的信息只是简单地提供在表单里面,还是进入了CRM的系统里? 第三步,常规渠道的数据。举例来说一个销售快销品的企业,能不能够得到沃尔玛的数据,家乐福的数据?很多国外大数据的案例,说消费者买啤酒的时候也会购买剃须刀之类,或者一个母婴产品的消费者她今天在买这个产品,预示着她后面必然会买另一个产品。这就有一个前期的挖掘。这些价值怎么来的,这就需要企业去找常规渠道里面的数据,跟自己的CRM结合起来,才能为自己下一步做市场营销、做推广、产品创新等建立基础。第四步,外部的社会化的或者非结构化的数据,即现在所谓的社会化媒体数据。这方面信息的主要特征是非结构化,而且非常庞大。这对企业来说最大的价值是什么?当你的用户在社会化媒体上发言的时候,你有没有跟他建立联系?这里有个概念叫做DC(digital connection)。所谓的互联网实际就是一种DC,但是通常互联网上的那种DC是在娱乐层面。用到商业里面的话,就是企业必须得跟消费者建立这种DC关系,它的价值才能发挥出来。否则,你的数据以及很多的CRM数据都是死的。
  有了这个数据库去进行数据挖掘,或者在建立数据的过程中,企业需要从什么方向去探索,也不是漫无目的的。首先应该跟着你的业务,业务现在有哪些问题,或者说这个行业里面主要的竞争点在哪里,这是很关键的。有了这个业务关系以后,再形成假设,也就是说未来的竞争点可能在哪里,大到未来的战略竞争,小到哪些方面。然后下一步要怎么做,这些形成一个假设,其次做一些小样本的测试。很多企业一看大数据就很恐怖,说我也买不起那些大数据,也雇不起那么专业的团队,怎么办?自己做一些小样本的测试,甚至通过电子表格Excel都可以做数据挖掘。不一定非要那么庞大、那么贵的数据。然后再做大样本的验证,验证出来的结果就可以应用到现实中去。
  在大数据尤其是互联网时代还有一个最重要的点,就是失效预警。即你发现一个规律,在现实中应用了,但是你一定要设立一些预警指标。就是当指标达到什么程度的时候,之前发现的规律失效,那你就必须发现新的、相关的,否则也会造成一种浪费。笔者看到一篇文章,其中有一个重要结论。大家都在说大数据的价值很有用的时候,很多企业说我积累了多少TB,多少PB,但是你基于老的数据得出的很多结论实际是在浪费你的资源。你挖掘出来很多数据、很多规律,如果错了,明天按这个去做,就是浪费。因此需要有一个失效预警。在这样的过程中,最终你需要对应建立起内部团队,他们对数据的敏感度也才能培养起来。这时候你再去买大数据服务的时候才是有价值的。
  对于数据的收集与利用都是不可能一蹴即成的。尤其是基于互联网的这个特性,庞大的互联网网络构建的不是一成不变的数据图,而是瞬息莫辩的动态图。及时的数据变更是企业内部必须要了解的!
文章分享到:
构筑京东,天猫同等级多用户商城系统,首个打通全网pc+微信+app+触屏的B2B2C多用户商城系统。为用户带来互联网最便捷的盈利模式,精细化运营,精准化推广,充分挖掘互联网市场潜力,点击详情,马上申请免费体验。
关注HiShop
软件企业编号:湘R-高新技术企业编号:GR
软件产品编号:湘DGY- 软件著作权登记号:
湖南省职业经理人协会理事 长沙市电子商务协会理事 长沙市软件协会会员 长沙服务外包行业协会会员
Copyright (C)2003 - 2016 Hishop 网店系统 商城系统 微信商城系统 分销系统 All Rights Reserved. 湘ICP备号
官方微信>>>
咨询电话:
O2O多用户商城系统 多款套餐任您挑选!数据即金钱,中小企业如何搭建数据平台分得一杯羹?
战学超,数据架构师,曾任职于青岛航空股份有限公司、海尔B2B平台巨商汇、NEC软件。曾负责企业数据平台构建、B2B电商平台数据管理与搭建、证券公司BI(SAP BO/BW)等。擅长数据库、DW、自动化运维、数据平台搭建等。
数据量日益增长的今天,尤其是由IT信息时代向DT数据时代的转型期中,数据越来越凸显重要,数据的价值越来越高,也愈加被重视。很多公司都将数据作为企业的核心竞争力,企业的DNA。那么什么是数据呢?
IT时代的IT主要是信息技术,即企业的一切信息例如:企业员工信息,客户信息,产品信息等。信息主要用于描述企业员工、描述客户、产品等,通过信息可以大致了解员工,客户,产品等的基本情况。
DT时代的DT主要是指数据技术。数据是用来准确衡量信息的,例如公司有多少员工,本科以上占比,客户总量,区域客户量等。某种程度上可以这样理解:信息是一种概括的描述,通过信息可以描绘出企业的大概情况,而数据可以精准的描述信息,将信息量化以展示。
当然了,信息和数据的区别上述只是我个人的理解,在我看来,单纯区分二者的区别可能没太大的意义,将二者结合起来,迎合时代浪潮,做好向DT数据时代的过渡才是关键。
数据平台作为企业数据化的一个重要组成因素,必不可少。现在有很多互联网包括传统企业等都在搭建自己的企业数据平台,通过数据平台量化企业各项经营指标,深度剖析企业经营状况,为企业的科学经营提供帮助,进而实现持续盈利的目的。可以说,企业不管是做信息化还是做数据化,都是为了帮助企业科学管理,科学经营决策,都是以实现持续盈利,最大化盈利的目的。
什么是数据平台
我个人的理解是:数据平台是指将公司的所有数据以及关联数据(例如行业数据,竞争对手数据等)进行收集,按照规则处理,并根据特定的主题进行分析,展示,以便准确地剖析企业经营情况,达到指导公司科学经营和决策,并以实现企业持续盈利,最大盈利为目的。一句话,数据平台就是将企业的数据转化为盈利。数据就是金钱,已经越来越成为各个行业各企业的共识。
在信息时代,其实也有一些数据平台的影子,并且一直持续到现在,例如报表;BI;数据仓库;ETL等这些技术很多企业或多或少的都接触过一些,现在一些比较流行的词汇如数据挖掘,Hadoop,Spark,大数据等,也都是围绕数据相关的。所有这些技术有效组合,共同为数据平台建设提供技术支持。
如何建立数据平台
首先这里要与大家分享的是中小企业的数据平台搭建之路,定位于中小企业,数据远达不到海量,甚至企业都还未有历史数据的积淀。在互联网企业可能更多描述的大数据平台,数据挖掘等;而在银行,电信等大型传统企业更多的是数据仓库,BI等,这些都是与中小企业有区别的。大数据、数据挖掘等对于技术人员的技术要求比较高,大型数据仓库,专业BI软件等往往需要大量的IT资金投入。
而中小型企业的IT技术人员和IT投入都是短板,加之数据量本身不大,故如何搭建针对中小企业的数据平台,还需平衡好企业自身技术实力,企业数据量,企业IT投入三个主要方面。平衡好三者的关系是搭建起适合自身的数据平台的关键之一。
定义数据源
个人认为数据平台搭建的一个前提是要有原始数据的积累。正所谓巧妇难为无米炊,没有数据,数据平台何来?所以企业一定要重视数据,并积累数据。数据的来源可能是已有企业的IT系统数据库中数据,例如ERP系统中的数据、通过各种渠道收集的竞争对手数据、手动录入的数据等等,这些作为数据源,需要做到统一的整理存放。
定义数据分析主题
数据源有了,做饭的米有了,接下来我们要明确自己是要烧米饭还是米汤了。即我们要定义自己的分析主题,中小企业按照内部部门划分分析主题就好,一般为人力主题,财务主题,销售或市场主题,客户主题等,另外需要规划一个特别的主题,即企业驾驶舱,作为各个主题的入口,企业驾驶舱负责展示各个主题中总括的数据以及各个主题中最核心,企业领导最关心的数据等。
有了数据源,有了数据主题,接下来就是要将数据源中的数据,在数据主题中进行有效的处理,这包括:抽取-&转换清洗-&装载(ETL的过程)。通过ETL工具抽取源数据,清洗掉无效数据,转化数据主题需要的数据,然后在装载到数据主题中,这样就可以实现有效数据从数据源到数据主题的转变。
经过上述三步的处理后,数据已经存储在数据主题中,接下来就需要通过report报表工具,将主题中的数据进行展示。当然有一些报表是直接查询数据源中的数据(需求方迫切需要的),而未经过数据集市,这也是允许的,尤其是平台建设前期。
经过以上四步,可以基本搭建起数据平台的雏形,此时的数据平台更多的只是报表平台,未包含数据预测,数据监控预警,数据挖掘等深层次功能。其实在作者看来,数据平台的第一步一定是报表平台,汇总公司已有或是各部门需求的报表,进行统一整理,分类展示,然后在此基础上进行一些深层次分析的数据挖掘、预测分析等。
当然,上述四步并不是串行进行的,可以在定义数据源的时候一并确定好数据分析主题,在理解抽取数逻辑的时候,并行进行ETL的开发工作等。搭建数据平台,尤其是在数据平台初期,一定要有一个原则,即:快速迭代。
接下来我要说的数据平台搭建方法论相关,主要三点:
自下而上与自上而下结合
技术储备与业务规划要前瞻
首先快速迭代。数据平台搭建初期需要快速迭代,不断实现各个业务部门的报表需求,分析需求,通过IT技术解放各个业务部门手动出报表的重复作业,将各个业务部门吸引到数据平台上来。
这个阶段甚至可以牺牲报表的性能,数据的规划等(极端情况)。只有各个业务部门参与进来才能共同推动数据平台搭建,要采用自下而上与自上而下相结合的方法:&下&指数据平台建设人员,各个部门的业务同事等。&上&指IT领导,各个部门的总监领导,公司的中高层领导等。
数据平台的搭建一定是公司全体人员共同努力的成果,只有上下一心,共同参与,才能搭建起最符合企业自身业务实际、最有效、准确的数据平台。总的来说,数据平台的搭建需要遵循一个前提:历史数据积累;一个原则:快速迭代;贯彻一个方法:自下而上与自上而下相结合,全员参与。
数据平台的技术架构
接下来要介绍的是根据中小企业的特点,平衡了技术、投入、数据量三要素后总结出来的搭建数据平台的IT技术架构。
纵观该技术架构,可以看出以下特点:
层次性:从数据源到最后的展示分了多层,数据经过了多次转化,看似复杂,其实是将数据进行了&瘦身&,最终展示的数据可能只有几条,几十条,而这几条数据来源于多数据源,可以有效地提高最终的展示效率,全量DB的引入汇集了公司不同的数据源中数据,也统一了数据源类型;数据仓库的建立是一个循序渐进的过程,建立数据平台不能没有数据仓库,但在数据平台初期不能太过关注,否则会违反快速迭代的原则。
开源:数据库采用MySQL数据库,etl采用kettle,都是开源免费而且有广大用户群的技术,方便快速入手,且无经济负担。
时效:数据展示平台中的报表大多是非实时的展示,即从数据集市而来的,也有一部分需要实时展示的报表,这个时候采用的是直接查询数据源的方法,即图中白虚线。但当数据量增多的情况,直接查询比较缓慢,或是跨多数据源比较复杂的情况下,可以考虑一些新的实时计算的技术,例如Spark等,这在数据平台搭建的前期一般不会出现。
数据平台的搭建不能一蹴而就,不能作为一个短期项目,而应该作为一个长远规划、战略规划,不断迭代,不断优化等。同时也要注意时间的控制和里程碑的建立,不能三年下来还是没有数据仓库的雏形,还是没有完善的数据分析主题等。
随着时间的推移和数据的积累,会逐渐考虑大数据Hadoop,Spark实时计算的技术,这需要在数据平台建立的过程中循序渐进,并做好技术储备。
数据平台团队组建
明白了数据平台,懂得数据平台的建立方法,又清楚数据平台的技术架构,那么最后的执行者即数据团队如何组建呢?
首先数据团队的组建方式两种:一种是真实团队式,即为数据平台项目而组建的团队,从各个IT,业务部门抽取,专人专职,这种成本比较高;另一种是虚拟团队,即各个业务部门加IT团队出人,时间自由支配,给定工作量与时间节点。
虚拟团队成本比较低,不影响各自的正常工作,但是对员工的积极性要求比较高,所以前面讲过数据平台要全员参与,上下一心,上面跟进督促,下面环环相扣,充分把握时间与进度,完成数据平台的初期建设。数据平台经过了初期建设后,一定要有专门的团队的专业维护,这样便于以后数据分析,挖据,预测等的工作开展,也利于快速支持业务部门的需求。数据团队的演变大致如下:
刚开始的时候,只有开发跟业务人员采用,开发帮助业务人员出报表,解放业务人员的手动出报表,随着发展,后续会逐渐进入ETL工程师,数据分析师,架构师,产品经理等角色,而是数据平台的功能也由一开始的出报表逐渐转换为指导业务人员管理规划业务,慢慢成为公司或是行业的专业数据产品,进而包装成商业产品为公司实通过数据产品盈利。这是一个循序渐进的过程,不能一下子就企图招全各方面人才,否则会造成极大的人力浪费,大幅增加数据平台的成本。
平台搭建误区
数据平台的搭建其实是有一些误区的,作者结合自身经历真是企业案例,分享一下数据平台搭建的一些误区,希望能够起到警示提醒作用。
挖个大数据牛人
很多企业跟风搭建数据平台往往会选择从BAT等一线互联网公司高薪聘请技术人员来帮助建立数据平台,而高薪请来的人员有可能会根据以往大数据平台的经验和技术架构,建立起不符合企业现状的技术架构。
直接交给专业公司
直接交给专业公司,或是将整个外包出去,这也是一个常见的误区,外包公司等往往都是分期收费,按需收费,前期规划不明确,变动频繁,成本也会直线上升,更重要的是外包团队不了解企业自身的实际情况,往往做出来的数据平台不符合企业自身特点。不过专业公司,外包团队的行业经验,建设经验是很值得学习采取的。
A公司做的很好,直接COPY
合作单位或是其他公司做的很好,往往采用直接COPY的做法,这也是不可取的。
购买专业数据产品
购买专业的数据产品会提高工作效率,但是绝不会买到适合自己的数据平台,直接使用就可以。
综上4个误区,全是为说明一点,数据平台的搭建一定要切合企业自身的实际情况,量体裁衣,牛人的技术,专业公司的行业经验,合作单位的建设经验等都是可取,但是不能完全复制,要考量自身特点,有取有舍,循序渐进,条件允许的话利用专业的报表软件、数据产品等提高工作效率,实现数据平台的快速搭建。
中小企业数据平台搭建之路漫漫,但易起步开始,初期搭建(报表平台)一般3月足够,在此基础上不断完善,将企业的数据提炼成金,为公司带来持久的最大化盈利,希望本篇文章能够为正在数据平台搭建之路上的同仁们提供帮助。
数据连接未来
DBAplus社群:数据连接未来!围绕数据库、大数据、PaaS云,顶级大咖、技术干货,每天精品原创文章推送、每周线上技术分享、每月线下技术沙龙,场场爆满、受众过十万,成为运维圈最专注围绕“数据”的学习交流和专业社群!
原创投稿 | 推广合作 | 媒体合作 | 资源对接 联系人:林禹廷 电话: QQ:
扫码关注加入各城市微群大数据企业都在干些什么?_网易新闻
大数据企业都在干些什么?
用微信扫码二维码
分享至好友和朋友圈
(原标题:大数据企业都在干些什么?)
  杨文强(中)介绍智能设备。大数据产业基地。(黄智义 摄)任爱敏讲解大数据。编者按  在2017年山东省重点建设项目名单中,济南大数据产业基地是项目之一。该项目将高新区铭盛大厦确定为大数据产业基地起步区,目前已有28家大数据企业签约入驻。  大数据企业到底是干什么的?济南高新区的大数据企业的市场前景如何?他们有什么心得和困惑?本报记者为此走访了三家在市场上各有侧重点和突破点的大数据企业。大数据可让精准农业  不再“蒜你狠”  2014年,山东麦港数据系统有限公司在高新区齐鲁软件园成立,自此开始了农业大数据和铁路大数据的征程,目前已获得数十项专利和著作权,平台软件拥有自主知识产权。  “未来的大数据通过精准分析,有望解决‘蒜你狠’等农产品价格坐过山车的问题。”山东麦港数据系统有限公司总经理张保国对大数据的未来很有信心。  铁路大数据一个工务段故障发生率下降40%  大数据可谓浩若星辰,而铁路大数据只是星空中的一条“银河”。在这条“银河”中,山东麦港数据系统有限公司只负责研究其中一颗“星星”——火车运行线路的故障预判。“我们不负责火车头,也不负责火车的运行,更不负责火车车辆的检修,我们只负责路基,也就是枕木啊、地基啊。”  张保国告诉记者,大数据是一个巨大无比的市场,可以“养活”无数个大数据企业,只要这些企业在某一个细分领域里有自己的“绝活”。  “现在很多铁轨已经不用枕木,而是水泥浇灌的钢枕。一条线路上,所有钢枕的(损情况到底是什么样的?哪里有安全隐患?这些就需要应用大数据来分析。(损程度,一和过载量有关,二和火车运行频次有关。”  目前,山东麦港数据系统有限公司已和临沂、淄博、青岛等地的一些工务段有合作。“效果初显,铁路大数据让线路的维修费用下降了30%,故障发生率也下降了40%。”  农业大数据一个老农的“大数据”经验  早在2014年,山东麦港数据系统有限公司即在农业大数据领域进行布局。“我们和很多农业部门合作,建立了价格数据库,希望通过大数据分析,能够对价格进行精确预判。”张保国表示,价格预判是一个复杂的过程,任何一个额外因素都可能改变真实的价格走向。  “一个有经验的老农民种地,为什么能够大差不差地预测出一亩地的大体产量来?这是因为他有一个几十年种地经验的大数据分析,这其中包括每年的种子品种、播种数量、病虫害、化肥、天气等。我们要做的是,不只是预测一亩地,而是预判一个区域内的产量及价格,这要复杂得多,目前的数据还不够多,还不够丰富。”张保国告诉记者,目前来说,通过大数据精准防范“蒜你狠”问题的出现还不现实,但在未来,精准预判和防范是可以做到的,这也是农业大数据未来努力的方向。  大数据分类被“清洗”过的大数据才有用  现在是信息爆炸时代,大数据也正处于野蛮生长中。将来,经过“清洗”的大数据以及经过脱敏的大数据,都可以拿到数据交易所进行交易,届时,任何企业和个人都将能够便捷地获得自己想要的大数据。  “目前的大数据主要分为三类。第一类是互联网大数据,主要掌握在BAT手中,是对搜索习惯、消费习惯、社交习惯的一种大数据掌控。第二类是政府大数据,主要为政策服务。第三类大数据属于行业大数据,很多企业都是在某一个行业里进行深耕,寻找自身价值。”  在行业大数据领域,有些企业提供大数据来源,有些企业则负责对大数据进行分析。很多行业的数据专业性很强,大数据分析公司往往需要和行业专家进行合作,一起做数据分析。  张保国认为,没有实际价值的大数据都是无用的,大数据必须经过“清洗”才有用。大数据的应用不仅包括数据的收集,还包括数据的“清洗”、数据的存储和数据的建模。全球最小智能传感器是“济南造”  山东和兑智能科技有限公司既对大数据进行分析,同时也生产高科技设备,对大数据进行收集。  公司总经理杨文强形象地说:“我们的大数据主要服务于电力系统,专门对供电设备进行检修和病害预防,我们可以称之为电力系统的‘大数据医院’,三甲级别的。”专门给电进行体检的“大数据医院”  电力系统的大数据企业很多,杨文强用“雨后春笋”来形容这一行业的大数据企业的快速发展。“不过,对电力系统进行智能运营维护的公司多,生产专门用来收集大数据的智能装备的公司少。”  杨文强告诉记者,和兑公司主要对变电站的变电设备进行检测,收集大数据,对变电设备的“身体健康状况”进行评估,预判。“有些零部件,只是感冒而已,不用打针、吃药,只需要保持观察即可;还有一些零部件貌似得了肺炎,这个就需要停下来,大检修或者彻底更换。”  在和兑公司的一项“给电力设备体检”的主业当中,绝缘缺陷的体检是一门技术活儿。“变电设备的放电现象是很危险的,不能掉以轻心。冬天人脱毛衣会发出电火花,这种人体静电一次可以释放出1000个单位的电量,这在变电设备当中是绝对不允许的,我们制造出的设备能够检测出0.1个单位的放电量。”设备不比德国的差,价格便宜很多  在杨文强的办公室里,摆放着各种各样的“体检仪器”,这些都是和兑公司自行研发制造的智能设备。  “这是一款高频定向天线,德国造的同款产品曾经卖到40万元,如今我们造出来以后,将价格拉低到4万元,真是物美价廉。”  “这是一种宽频电流智能传感器,一个售价好几万元,属于高附加值的智能产品,一个变电站要使用上千万元的这种设备。国外的这种传感器体积很大,而我们已经成功地实现了小型化。我们自行研制的这款智能传感器,可以说是同等功能下全国最小的,当然也是全球最小的。”  为了方便巡检人员,和兑公司还造出了“单兵作战”的手持巡检仪。另外,还有一款肩背巡检仪不仅体积小,而且体重轻,长约20厘米,高和宽均为15厘米左右,只有2.5公斤重。  杨文强透露,生产这些设备需要移动互联的发射技术和大数据采集技术。由于设备内部不使用任何线路,不怕线头断裂,所以不怕摔。“光一个传感器的研发制造,我们就进行了上万次的试验,付出了上千万元的代价,不断试错,不断小型化……”大数据越精准,预判越有效  和兑公司的业务如今已遍布山东、湖北、湖南、山西、浙江、安徽、广东、上海等地。不过,现在的大数据采集还需要人工到达变电站附近。  “目前,我们已经拥有了手机端的采集技术,一个地级市的数据采集一个人就能够胜任。等到我们服务的各个变电站完成组网后,我们可以在变电设备上安装上我们的小型化数据采集设备和数据发射装置,变电设备会定时将自身的‘体检报告’发送到我们的检修人员的手机里,然后传输到后台进行大数据存储和分析。”  有了大数据采集设备和大数据分析技术,和兑下一步还将提供设备全生命周期管理的服务。“变电设备上将会有电子标签,一扫二维码,设备的历史数据就出来了;技术再先进一些的话,一靠近设备,历史数据就自动显示;如果更进一步,这些设备的大数据被联网到云平台,通过云计算和机器的深度学习,设备‘身体素质’的预判直接显现。在未来,大数据越精准,预判越有效。”济南将建设大数据公共服务平台  记者自齐鲁软件园发展中心获悉,作为济南大数据产业基地的起步区,高新区铭盛大厦整合周围地块进行整体规划,将建设不少于60万平方米的产业载体。  截至2017年3月底,铭盛大厦共签约入驻大数据企业28家,签约面积42000平方米。其中包括国内知名互联网大数据企业国云大数据等,园区重点骨干企业山东华软金盾软件股份有限公司、山东确信信息产业股份有限公司、山东麦港数据系统有限公司等。  目前,济南大数据企业在医疗领域、社保领域、铁路领域、电力领域、公安领域和教育领域等均有研究和突破,市场前景也很不错。  下一步,济南市还将成立大数据联盟,建设大数据公共服务平台。济南高新区、浪潮集团、山东大学有望联合建设分行业的大数据研究院,构建大数据人才平台。济南还将推动大数据流通和交易技术国家工程实验室建设,打造大数据流通交易平台。  一个做硬件的在软件业杀出血路  “我们本来是做硬件的,由于市场变化不得不做软件,并最终在大数据软件行业杀出一条血路。”提起大数据,山东亿海兰特通信科技有限公司总经理任爱敏感慨很多。  自2013年进入大数据行业,亿海兰特公司目前已在公安大数据领域颇有建树。大数据让绑架案4小时告破  任爱敏告诉记者,亿海兰特公司成立于2006年,最初做信息集成方面的硬件设备生意。“2013年,当我们决定转行做软件时,我们问自己凭什么与老牌软件企业竞争?我们认为,找准方向和搭建一个好的技术架构很重要,于是决定做大数据平台。”  “‘翻译’大数据是所有大数据企业必须干的一件事。”任爱敏表示,元数据有很多种,包括视频数据、音频数据、文字数据、图片数据等,这些数据还有各种各样的格式。要想让大数据真正有价值,必须对多样化的数据进行“翻译”,进行数据转换、字符集转换、格式转换、代码转换、值转换,从而形成统一的数据语言。  经过一年半的技术积淀,亿海兰特公司拥有了在最快时间内将各个系统信息高度集成、高度共享的技术手段,并与多个地级市的公安部门(包括交警部门)建立了合作关系。  “2016年,外地发生了一个绑架案。我们通过大数据平台采集到一辆嫌疑车辆在过卡口时的异常情况:车后座上坐着一个人,双手背在后面,很反常。我们初步判断,此人很可能是被反绑着双手。案发之后4小时,嫌疑车辆被成功拦截,案件告破。”大数据让人成了“透明人”  任爱敏拿外地一公安部门的大数据平台为例,向记者展示了亿海兰特公司庞大的数据库和多元化的数据分析能力。  在这个公安大数据平台上,一共要采集18个业务系统、25个部门和37类社会资源的数据,共计90亿条数据。  除了数据,大数据平台还有58项分析工具,包括手机采集分析系统、车辆多维分析系统等,类别包括综合查询类、地图应用类、轨迹分析类、人员分析类、研判分析类、话单分析类、车辆应用类等。
  “我们已经打造了一人一档、一车一档、一个手机号码一档的三大应用体系,三档信息实现无限关联。我们还通过多轨迹复合分析技术来掌握手机轨迹、车辆轨迹和网吧轨迹等,这项技术能够实现以人找人、以车找人、以房找人、以手机找人。”  大数据平台还建有云数据中心,包括三个渐进式的阶段。在感知阶段,需要有各类基础数据、各种决策指标、各种查询功能;在知识阶段,需要有知识库、车辆轨迹分析模型、嫌疑人话单分析模型、通讯录分析模型等;在智能阶段,大数据分析方法可以实现自动化分析、自动执行、智能分析。 (本报记者 黄智义)
(原标题:大数据企业都在干些什么?)
本文来源:舜网-济南日报
责任编辑:王晓易_NE0011
用微信扫码二维码
分享至好友和朋友圈
加载更多新闻
热门产品:   
:        
:         
热门影院:
阅读下一篇
用微信扫描二维码
分享至好友和朋友圈

我要回帖

更多关于 大数据搭建 的文章

 

随机推荐