创业公司怎么搞大数据创业公司

苹果/安卓/wp
积分 11170, 距离下一级还需 7130 积分
权限: 自定义头衔, 签名中使用图片, 设置帖子权限, 隐身, 设置回复可见, 签名中使用代码
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡, 抢沙发, 提升卡, 沉默卡, 千斤顶, 变色卡下一级可获得
道具: 置顶卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
尴尬签到天数: 4 天连续签到: 1 天[LV.2]偶尔看看I
本帖最后由 widen我的世界 于
10:14 编辑
北京_创业公司如何利用形成优势
北京,创业公司如何利用形成优势,现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,就是这个高科技时代的产物,随着云时代的来临,也吸引了越来越多的关注。的价值体现在以下几个方面:1对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;2 做小而美模式的中长尾企业可以利用大数据做服务转型;3面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。对于创业公司而言,利用大数据形成自己的独特竞争优势对公司的发展十分有利。首先,确定你的数据客户,客户数据的来源可能是多方面的,不用局限于某个行业或领域中;找出用户所需的数据,哪些见解会对用户的日常行为有直接的影响,以及如何将这些信息收集?它是否可以成为结构化,是否需要立即分析这些信息,或者是否需要让内容变得更加清晰?数据是没有任何背景也没有上下文可依靠,因此创业者必须把它变成对客户有意义的内容;当确定了数据客户和所需数据之后就可以建立基础设施来收集数据或者支付第三方工具,利用它提炼出数据。&&在今后公司的发展中愈发重要,猿团创业云提醒,即使创业公司对将数据转化成产品不感兴趣,他们也需要利用这些数据作为自己独特的竞争优势,如果他们不这样,那么他们就会落后于竞争对手,失去竞争力。
支持楼主:、
购买后,论坛将把您花费的资金全部奖励给楼主,以表示您对TA发好贴的支持
载入中......
无限扩大经管职场人脉圈!每天抽选10位免费名额,现在就扫& 论坛VIP& 贵宾会员& 可免费加入
加入我们,立即就学扫码下载「就学」app& Join us!& JoinLearn&
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
京ICP证090565号
京公网安备号
论坛法律顾问:王进律师这是一个不说自己搞大数据就不好意思和人打招呼的时代。阿里巴巴用大数据贷款,百度用大数据推广告。那么,没有巨头的天然优势,创业公司具体怎么搞大数据?开搞之前,先明确一下目前大数据主要是用来预判,挖掘用户的需求(也有用过去的大数据判断现在的需求,如大数据种菜判断菜目前的长势情况)。那么,预判的依据是什么?就是所谓样本,例如我通过前几年的平均气温判断今年的温度是高是低。这里还可以分为三种情况:一种是我的大数据软件自带了很多样本可以作为分析依据,一种是我把之前的交易数据作为样本。第二种较先进,要求系统有自我学习建立样本模型的能力,也就是边干边学。第三种最牛,不光能做出预判,还能告诉你下一步怎么做,例如一家卖拖拉机的公司,为用户提供何时在哪里种植何种作物,犁地的最佳路线。首先说一下数据来源问题,可以是平时经营过程中积攒下来的也可以向别的公司购买(像京东那样买腾讯的数据,目前国内贵州大数据交易中心和DATACOMB很出名,后面细说),技术关键:积攒数据同时要根据自己的需求为用户和产品贴标签,例如我希望了解和用户年龄段有关的规律,那么年龄就是必须采集的一个标签。积攒数据的方式大致分两类,一类是围绕用户,一类是围绕产品,将两者每次交易的数据都采集下来,可用人力,例如饭店服务员每次交易记录下菜品,性别,满意度之类,这一步又叫企业数据化。然后是数据的初步处理:租服务器,建立自己的数据分析架构,例如日报表月报表这些都OUT了,应该明确适合公司的格式,如果需要这些定制需求的报表,目前流行的大数据的解决方案大部分都是以Hadoop为基础架构。什么是Hadoop?简单来说Hadoop是一个分布式计算的解决方案,分布式通俗来说就是把一件事分布到几台计算机上运行。由多台计算机同时运行和存储数据,比一台计算机运行速度快,而且如果数据量大了,或者报表复杂导致运算速度慢,只要再加计算机就解决了。当每台计算机运算完毕后,会把中间结果集中到一台计算机上,再把这些中间结果汇总起来得出最终结果。把手头的数据进行预处理,包括将不同数据库的数据导入到一个数据库中,数据的粗选,分析,分类,会用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。先别头大,如果你不是淘宝京东这样的巨头没有那么大数据量可以不这么麻烦,剔除那些和其他数据差别很大的就行接下来,就是最核心的,数据挖掘。这一步可以挖掘出你意想不到的信息,比如,买啤酒的顾客通常会买尿布,持续买无香精面霜的顾客通常接下来会买母婴用品。这些数据怎么挖?需要用到以下工具:1.决策树,各种可能性的展示图,主要用来精确分类。例如,树的根部是杂货铺里所有商品,往上走就是第一个分叉,分叉处有一个判断标准-吃的还是用的,于是所有商品被分开为两个树枝,吃的再往上走又出现分叉,于是被分成甜的和咸的…2.神经网络,例如,计算机预判迎面走来的这个软妹子会买奶茶,因为根据神经网络显示,上次买咖啡,上上次买酸奶的,这次99.99%的概率会买奶茶。什么?这货买的啤酒?那计算机就会根据这次的结果修改神经网络。没错,神经网络是具有学习能力的模拟人脑总结教训的分析模式,他会自己得到一个稳定准确的结果。3.关联规则,例如上文说的买啤酒的一定买尿布。先看一个简单的例子,假如有下面数据集,每一组数据ti表示不同的顾客一次在商场购买的商品的集合:t1: 牛肉、鸡肉、牛奶t2: 牛肉、奶酪t3: 奶酪、靴子t4: 牛肉、鸡肉、奶酪t5: 牛肉、鸡肉、衣服、奶酪、牛奶t6: 鸡肉、衣服、牛奶t7: 鸡肉、牛奶、衣服假如有一条规则:牛肉—&鸡肉,那么同时购买牛肉和鸡肉的顾客比例是3/7,而购买牛肉的顾客过一段时间也购买了鸡肉的顾客比例是3/4。这两个比例参数是很重要的衡量指标,它们在关联规则中称作支持度(support)和置信度(confidence)。前者反映了牛肉鸡肉组合的吸引力,后者可用来预判消费行为。好了,现指定你想要的支持度和置信度是多少,然后把牛奶鸡肉,衣服奶酪等各种组合用程序算一遍,找出支持度和置信度满足你要求的组合。其中,假如一条关联规则的支持度和置信度很高时,不代表这个规则之间就一定存在某种关联。举个最简单的例子,假如X和Y是最近的两个比较热门的商品,大家去商场都要买,比如某款手机和某款衣服,都是最新款的,深受大家的喜爱,那么这条关联规则的支持度和置信度都很高,但是它们之间没有必然的联系。所以,搞大数据既要对专业精通又要对你公司的业务精通,这也是现在公司经常碰到的难题,此事古难全啊。除了这些,大数据还经常用到一些数学工具如,线性回归,支持向量机等来帮助进行比对和分类。不要小看这些辅助工具,有时候他们是主力。美国警察用电力公司的数据与培养大麻的LED灯用电曲线进行比对,数学工具就是线性回归,只要发现哪家用电曲线和样本相符(相符的程度用方差表示,标准老警自己定),直接踹门抓人一抓一个准。这些数学工具很多都是用来分类的,分类在大数据中是个大事,例如国外有的门户网站首页分类用大数据直接筛选出详细页使用频率较高的词汇作为各个大类的标题。工具列完了,下面数据挖掘正式开幕:大数据对于什么时候用人力什么时候用计算机也能看出来功力,中小公司更应该注意巧妙利用人力,可避免在技术上过多拼财力。比如以上的例子中大家可以看到,相似不相似,是不是关联,这些标准都是人定的。计算机常负责一些同一个算法算大批量数据的活。美国大数据公司的老大Palantir就因精于此道而著称。中小公司在这方面也有做的不错的,最近开始流行的图片新闻APP 网新闻的策略就很值得借鉴:网新闻主要是用关系图,时间轴各种图片展示更丰富信息,一条新闻,用户希望在哪一点上获取更深入的信息是网新闻最想分析的,明确了这个目的又积累了一定用户行为的数据后,网新闻做了如下工作:把一个新闻,举个栗子,如释永信事件,让小编写完这条新闻就分析用户关注这条新闻的点在哪,并且把各种可能性列出来。列出的结果是:1、用时间轴展示少林寺背后的利益纷争事件,用关系图展示各利益相关方的关系,这两条可以满足求知欲,用户也可以说出去秀知识。2、说明佛门中的禅宗一派特点就是不避世俗。古代就在寺庙做小买卖。进而拓展到律宗,密宗是怎么回事。3、传闻释永信嫖娼,有情妇,桃色因素是一个。4、中国法律目前对寺庙住持是怎么定性的,有哪些法律来约束,触犯了这些法律会受到什么样的惩罚,对事件目前形势未来预判也是一个吸引人的因素…这样列出来后,进行关联性分析,点击量高的新闻,一定是具备因素2和因素3?还是因素1和因素3?…网新闻用这种方法得出很多有价值的信息,如用户对用图片解释“经理人采购指数”感兴趣还是对展示某经济指标对自己生活的影响更感兴趣,然后用这些数据指导小编摆图写稿。另外,不要觉得分析数据预判用户需求很屌,其实路边卖手抓饼的也经常能猜出你这次要不要放辣椒,就是调用的他脑中的大数据。可以让用户刷打折卡或者是通过QQ定外卖时显示他平时的偏好。这个方法需要对数据预处理去掉那些和其他数据偏离较大的数据可获得基本的“用户画像”。另外还可以结合其他因素数据丰富“用户画像”,例如天气炎热或寒冷的情况下用户的喜好,每到周末是不是多买一些等。还有一个很重要的使用人力的节点就是先想好你想了解什么。例如,买啤酒的顾客会买尿布这个例子中,数据挖掘工程师其实提前就想到有必要查看一下啤酒和其他商品的关联,才有了这个发现,而不是计算机自己去找这两者关系。这需要洞察力!福布斯网站发文称“首先制定好策略,然后奔着结果找出答案”,并由此得出“问题比答案重要”的结论。使用大数据的流程就这些了。总结一下哪些地方使用人力:收集什么样的数据需要人来做决定,想好要弄清楚哪些规律需要人来做决定。电脑主要用来存储,以及用数学工具来进行具体计算。哈哈,原来大数据不是巨头们买一个塞满房子的超级计算机把海量数据统统输进去然后“度昂”一下就出来结果了!我们小公司一样可以搞啊!由于“问题比答案重要”,再说一下大数据领域提出的几个有代表性的“问题”。既然除了利用之前积累的数据了解用户偏好向用户推销这次的产品,还可以用大数据让用户方便的消费来提高用户体验:快餐业的视频分析。该公司通过视频分析等候队列的长度,然后自动变化电子菜单显示的内容。如果队列较长,则显示可以快速供给的食物;如果队列较短,则显示那些利润较高但准备时间相对长的食品。这个案例门槛极低,只要人为设定队伍多长算长,做食物的速度多块算快即可,也可以人工标定一下哪些是快食哪些是慢食。不仅可以预判需求予以满足,营销时还可以定点营销。此类打法常常是从别的机构购得数据或者连钱都不花从政府开放的数据中拿,一家领先的专业时装零售商,通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务,如何定位公司的差异化,他们通过从Twitter 和Facebook 上收集社交信息,更深入的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。然后通过免费化妆服务,对这两类消费者进行精准的宣传。这个案例中,需要用到的工具有用于归类的线性回归,聚类分析等。数据的来源问题:由于没有巨头那样的数据积累,中小企业经常想到购买数据,或使用政府公开的免费数据。目前国内掌握大数据的巨头不够开放,形成了让仁人志士头大的“数据堰塞湖”。虽然也有开放数据的,例如中国首个大数据开放平台DataComb,对于掌握一些数据的公司来说也多了一些数据变现的渠道,然而对疏通“堰塞湖”并没有太大作用。也有好消息,8月19日,国务院常务会议审议通过《关于促进大数据发展的行动纲要》,全面公开应该就在眼前了。在美国最重要的数据开放平台就是奥巴马政府在2009年推出的Data.gov,奥巴马同学对搞大数据一向蛮拼的。另外,创业公司切记,巨头们整天嚷嚷的“大数据不必追求精确,牺牲精确性可以换取效率和更多规律的发现”,可问题是那是在数据量异常大的情况下,对中小企业数据量不太大时务必要精确。总的来说,大数据分析可谓是兵无常势,水无常形,真正厉害的数据挖掘大师是碰到什么样的形势知道用什么样的工具来解决的人。中小企业玩大数据切记:1.不炒概念。2.不烧钱。切实用大数据提升企业竞争力才是王道。End.来自:36大数据链接:/archives/32408版权声明:本公众号的内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请联系我们。官方微信:数据分析精选(sjfxjx),覆盖大数据与互联网科技行业8.1万人群。官方网站:,数据分析师的网址大全。商务合作:请联系QQ↓↓更多精彩内容,请点击阅读原文关注数据哥数据分析精选(sjfxjx) 
 文章为作者独立观点,不代表大不六文章网立场
的最新文章
点击阅读原文下载《数据科学家》月刊点击阅读原文即可报名!点击阅读原文下载《数据科学家》月刊点击阅读原文下载《数据科学家》月刊点击阅读原文下载《数据科学家》月刊点击阅读原文下载《数据科学家》月刊阿里电商平台用户增长持续放缓,这种下滑将是不可逆的点击阅读原文下载《数据科学家》月刊点击阅读原文下载《数据科学家》月刊点击阅读原文下载《数据科学家》月刊点击阅读原文下载《数据科学家》月刊最近,频繁遇到各类公司找我交流“用户画像该怎么做”这个问题。俗话说,画龙画虎难画骨,知人知面不知心。为什么知人心这么难呢,道理很简单:猜对了也好,猜错了也罢,都是一头雾水,没有可靠的正确答案。用户画像,跟这个也有点类似。数据科学进阶之路~~~python数据分析网()-大数据资讯、观点、技术研究中心数据分析网()-大数据资讯、观点、技术研究中心数据分析网()-大数据资讯、观点、技术研究中心如果你有一个多年的邻居老王,虽然你们可能只是在小区见面打个招呼,但是你们的关系真的仅限于此吗?数据分析网()-大数据资讯、观点、技术研究中心教你如何在电影院避开烂片!数据分析网()-大数据资讯、观点、技术研究中心数据分析网()-大数据资讯、观点、技术研究中心问答系统的前世今生常见的机器学习算法数据分析网()-大数据资讯、观点、技术研究中心距离您的礼物到期还有x天!!本文详细介绍了字符编码相关的知识进而介绍了python中的编码以及编码问题发生的原因和解决方法。数据分析网()-大数据资讯、观点、技术研究中心数据分析网()-大数据资讯、观点、技术研究中心给力的书单!!数据分析网()-大数据资讯、观点、技术研究中心数据分析网()-大数据资讯、观点、技术研究中心数据分析网()-大数据资讯、观点、技术研究中心年薪50万!他是怎么做到的?数据分析网()-大数据资讯、观点、技术研究中心数据分析网()-大数据资讯、观点、技术研究中心最近几年一直参与大数据产品的研发,同时大数据产品在海量数据场景下其处理性能又是其主要的卖点,所以个人在这几年经常忙于如何对大数据产品进行性能上面的优化,并且想通过本文和大家聊聊具体的几种比较常见大数据性能优化技术。数据分析网()-大数据资讯、观点、技术研究中心数据分析网()-大数据资讯、观点、技术研究中心数据分析网()-大数据资讯、观点、技术研究中心数据分析网()-大数据资讯、观点、技术研究中心数据分析网()-大数据资讯、观点、技术研究中心///数据分析网()-大数据资讯、观点、技术研究中心你的Excel水平,在哪个层次呢?数据分析网()-大数据资讯、观点、技术研究中心数据分析网()-大数据资讯、观点、技术研究中心数据分析网()-大数据资讯、观点、技术研究中心sjfxjx数据分析精选【人称“数据哥”】:分享大数据分析、电子商务、互联网、移动互联网行业的新闻、观点、八卦、文章和干货。商务合作QQ:热门文章最新文章sjfxjx数据分析精选【人称“数据哥”】:分享大数据分析、电子商务、互联网、移动互联网行业的新闻、观点、八卦、文章和干货。商务合作QQ:如何成为一名大数据创业者―中国经济网
当前位置:&&&&&&正文
如何成为一名大数据创业者
来源:中国科学报
  图片来源:百度图片
  作为创业者,如何利用大数据的机会进行创业?大数据如此庞大,传统产业能够和大数据结合吗?大数据的商业价值如何变现?这些才是其真正关注的话题。
  5月25日~29日,中国大数据产业峰会暨中国电子商务创新发展峰会(下称数博会)在贵阳召开,3000位海内外嘉宾出席峰会。国务院总理李克强现场发言表示,大数据等新一代互联网技术深刻改变了世界,也让各国站在科技革命的同一起跑线上。中国曾屡次与世界科技革命失之交臂,今天要把握这一历史机遇,抢占大数据发展的先机。
  毫无疑问,大数据已经成为社会各界关注的热点。但是作为创业者,如何利用大数据的机会进行创业?大数据如此庞大,传统产业能够和大数据结合吗?大数据的商业价值如何变现?这些才是其真正关注的话题。
  在数博会期间举行的2016中国国际电子信息创客大赛暨“云上贵州”大数据商业模式大赛总决赛,或许能给大数据创业者们提供一些参考。
  促传统产业升级
  与一般创业领域不同的是,大数据领域的创业者需要考虑如何把海量数据变现。在一些人看来,大数据和健康、医疗、存储等传统产业的结合,可能是不错的方向。
  对于大数据企业来说,海量的数据需要存储在硬盘、服务器上,并且需要巨大的机房作为数据中心。那么,可否从数据存储业务本身开始创业?
  答案是肯定的,曾经在美国硅谷工作多年的沈杰等人做到了这一点,他们发明了新型高容量快速企业级数据储存系统。这个项目通过综合固态硬盘及闪存技术优势,将磁盘储存性能提升10倍,延时缩短到原来的1/10,可用容量提升4倍,大大降低了磁盘功耗及成本。目前,沈杰团队已与浪潮集团等企业达成合作。
  “20世纪的美国西部淘金热中,淡水的供给者成为比淘金者更大的赢家。在21世纪的大数据淘金潮中,数据存储产业或许也会成为行业的最大赢家。这样的创业,值得鼓励。”贵州省政协副主席谢晓尧对《中国科学报》记者说。
  大数据在医疗领域,尤其是可穿戴医疗设备领域,也已经获得了发展的机会,并有产品问世。
  来自清华大学的博士生辛勤选择了将微型电子腕式设备与健康医学跨界融合,进行大数据创业。他率领的方舟万宝团队,发明了全球首款实时、无扰、连续的人体健康智能检测可穿戴设备,获得了32项国内外专利,其脉搏波形分析、光电式血压测量与反射式血氧测量均属独有技术。
  “戴上这款腕式设备,它就能将你的四大生理体征参数及血糖、血氧饱和度等数据上传到你的手机和云平台,同时对你的身体健康状况进行预警。”辛勤的创业密码是:大数据并不是冰冷的数字,它也可以传递亲情与爱心。
  “大数据时代的智能硬件,不能只停留在数据整合的阶段,而是要将专业领域和数据资源深度融合,从讨巧的外形转向核心的专业,才能持续‘掘金’。”北京航空航天大学软件学院创始院长孙伟强调。
  推动前沿科技走向应用
  当前,脑科学是科学界的研究热点。美国、欧盟都出台了相应的脑科学研究计划。在我国,中科院自动化所等单位也启动了计算机模拟人脑的研究。如此前沿的科技,大数据创业者能有所作为吗?
  来自西井科技的CEO谭黎敏认为,完全可以在前沿科技领域进行大数据创业。
  人们每天的每个行为都来自大脑皮层的控制和反应。平均而言,大脑皮层约由1000亿个神经细胞组成,这些神经细胞被称为“神经元”。基于大数据,谭黎敏和他的团队开发了“神经元”人脑模拟器。
  具体来说,西井科技使用FPGA模拟人类“神经元”。该硬件平台内含有80个“神经引擎”,每个“神经引擎”含有512K个“神经核”,每个“神经核”含有256个“神经元”。整个模拟器就拥有了超过100亿个“神经元”。
  他们用电路直接模拟人类的“神经元”形态,并建立起神经网络中“神经元”与“神经元”之间的连接,通过脉冲spike来传递信息,用拥有100亿神经元的神经网格来模拟人类大脑的运行方式。
  英国萨里大学计算科学系计算智能首席教授、长江学者讲座教授金耀初告诉《中国科学报》记者,百亿神经元大脑实时仿真模拟器摆脱了冯?诺依曼计算机结构,未来可基于此研究寻找医治脑部神经元疾病的方法。
  让民众生活更加便利
  对于普通人来说,让日常生活变得更加便利无疑是一个永恒的追求。在大数据创业者们看来,大数据就能帮人们实现这一梦想。
  “当你看到别人穿了一件好看的衣服想购买怎么办?你喜欢牡丹花,想购买和牡丹花有关的衣服怎么办?现在,你只需要拍照上传,马上就能在网络上搜索到相关的衣服,还能立即下单买到。”来自深圳的创业者黄鼎隆告诉《中国科学报》记者。
  这一切是如何实现的呢?
  黄鼎隆介绍说,他们团队研发的基于人工智能的视觉决策引擎,以深度学习与计算机视觉技术为基础,可以识别出图片和视频中的商品,并能够在互联网上跨平台挖掘出该商品的信息。该技术实现了对商品的高可靠性识别,不仅让计算机看到世界,更让计算机“看懂”这个世界,从而帮助人们更加快速地获取这个世界的更多信息。
  该项目获得了“云上贵州”大数据商业模式大赛一等奖。
  “树精英大数据择校平台”项目是一个致力于通过大数据,让更多的孩子正确填报志愿,考上心目中的大学的创业项目。项目负责人余月清告诉《中国科学报》记者,“报考指导”原本是传统的商业运作模式――平台聘请众多择校专家,通过提供专家一对一指导学生填报志愿,一次收费数千元,每年可获得数百万元利润。
  既然大家都这么关注,为什么不直接做出一个预测器,让更多的人受益?“我们利用海量大数据资源和多年行为科学分析的成果,将经验性细节和理论性大局完整地结合起来,提供简单、方便、精确的智能择校服务。”余月清说。
  “全国每年约760万高考生需要通过报考进入大学,若有30%的学生人均消费50元,一年的收益就有1亿多。”以色列英菲尼迪投资集团事业合伙人韦佳认为,这个项目不仅利用大数据实现了企业利润的最大化,而且对千万个参加高考的家庭有着更积极的意义,社会效益良好。
  “数据无处不在,大数据创业也不再停留在想象和策划层面,而是被踏踏实实的创业者们变成了现实。”赛伯乐创新研究院副院长陈佳告诉《中国科学报》记者,从贵阳数博会举办期间的情况来看,大数据正从服务大型企业或机构,逐渐渗透到了日常生活:“未来,我们的购物习惯、用餐习惯甚至为孩子选择学校的方式,都将因为大数据而产生巨大的改变。”(责任编辑:王蔚)
数字媒体在当今社会可能很普遍,但有时电子显示屏...
据物理学家组织网日前报道,美国爱荷华州立大学的...
“大数据”最初是IT行业术语,指大到难以用单一计...
“杂交水稻同时实现高产和优质,难度很大,但产量和...
在中国航天事业创建60年之际,长征五号运载火箭首...
此时此刻,神十一航天员景海鹏、陈冬正在中国自己...
据美国太空网近日报道,因美国联邦航空管理局(FAA...中国领先的IT技术网站
51CTO旗下网站
创业公司怎么搞大数据?
这是一个不说自己搞大数据就不好意思和人打招呼的时代。阿里巴巴用大数据贷款,百度用大数据推广告。那么,没有巨头的天然优势,创业公司具体怎么搞大数据?
作者:佚名来源:36大数据| 09:50
这是一个不说自己搞大数据就不好意思和人打招呼的时代。阿里巴巴用大数据贷款,百度用大数据推广告。那么,没有巨头的天然优势,创业公司具体怎么搞大数据?
开搞之前,先明确一下目前大数据主要是用来预判,挖掘用户的需求(也有用过去的大数据判断现在的需求,如大数据种菜判断菜目前的长势情况)。那么,预判的依据是什么?就是所谓样本,例如我通过前几年的平均气温判断今年的温度是高是低。
这里还可以分为三种情况:一种是我的大数据软件自带了很多样本可以作为分析依据,一种是我把之前的交易数据作为样本。第二种较先进,要求系统有自我学习建立样本模型的能力,也就是边干边学。第三种最牛,不光能做出预判,还能告诉你下一步怎么做,例如一家卖拖拉机的公司,为用户提供何时在哪里种植何种作物,犁地的最佳路线。
首先说一下数据来源问题,可以是平时经营过程中积攒下来的也可以向别的公司购买(像京东那样买腾讯的数据,目前国内贵州大数据交易中心和DATACOMB很出名,后面细说),技术关键:积攒数据同时要根据自己的需求为用户和产品贴标签,例如我希望了解和用户年龄段有关的规律,那么年龄就是必须采集的一个标签。积攒数据的方式大致分两类,一类是围绕用户,一类是围绕产品,将两者每次交易的数据都采集下来,可用人力,例如饭店服务员每次交易记录下菜品,性别,满意度之类,这一步又叫企业数据化。
然后是数据的初步处理:租服务器,建立自己的数据分析架构,例如日报表月报表这些都OUT了,应该明确适合公司的格式,如果需要这些定制需求的报表,目前流行的大数据的解决方案大部分都是以Hadoop为基础架构。什么是Hadoop?简单来说Hadoop是一个分布式计算的解决方案,分布式通俗来说就是把一件事分布到几台计算机上运行。由多台计算机同时运行和存储数据,比一台计算机运行速度快,而且如果数据量大了,或者报表复杂导致运算速度慢,只要再加计算机就解决了。
当每台计算机运算完毕后,会把中间结果集中到一台计算机上,再把这些中间结果汇总起来得出最终结果。把手头的数据进行预处理,包括将不同数据库的数据导入到一个数据库中,数据的粗选,分析,分类,会用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。先别头大,如果你不是淘宝京东这样的巨头没有那么大数据量可以不这么麻烦,剔除那些和其他数据差别很大的就行
接下来,就是最核心的,数据挖掘。这一步可以挖掘出你意想不到的信息,比如,买啤酒的顾客通常会买尿布,持续买无香精面霜的顾客通常接下来会买母婴用品。这些数据怎么挖?需要用到以下工具:
1.决策树,各种可能性的展示图,主要用来精确分类。例如,树的根部是杂货铺里所有商品,往上走就是第一个分叉,分叉处有一个判断标准-吃的还是用的,于是所有商品被分开为两个树枝,吃的再往上走又出现分叉,于是被分成甜的和咸的&
2.神经网络,例如,计算机预判迎面走来的这个软妹子会买奶茶,因为根据神经网络显示,上次买咖啡,上上次买酸奶的,这次99.99%的概率会买奶茶。什么?这货买的啤酒?那计算机就会根据这次的结果修改神经网络。没错,神经网络是具有学习能力的模拟人脑总结教训的分析模式,他会自己得到一个稳定准确的结果。
3.关联规则,例如上文说的买啤酒的一定买尿布。
先看一个简单的例子,假如有下面数据集,每一组数据ti表示不同的顾客一次在商场购买的商品的集合:
t1: 牛肉、鸡肉、牛奶
t2: 牛肉、奶酪
t3: 奶酪、靴子
t4: 牛肉、鸡肉、奶酪
t5: 牛肉、鸡肉、衣服、奶酪、牛奶
t6: 鸡肉、衣服、牛奶
t7: 鸡肉、牛奶、衣服
假如有一条规则:牛肉&&鸡肉,那么同时购买牛肉和鸡肉的顾客比例是3/7,而购买牛肉的顾客过一段时间也购买了鸡肉的顾客比例是3/4。这两个比例参数是很重要的衡量指标,它们在关联规则中称作支持度(support)和置信度(confidence)。前者反映了牛肉鸡肉组合的吸引力,后者可用来预判消费行为。好了,现指定你想要的支持度和置信度是多少,然后把牛奶鸡肉,衣服奶酪等各种组合用程序算一遍,找出支持度和置信度满足你要求的组合。
其中,假如一条关联规则的支持度和置信度很高时,不代表这个规则之间就一定存在某种关联。举个最简单的例子,假如X和Y是最近的两个比较热门的商品,大家去商场都要买,比如某款手机和某款衣服,都是最新款的,深受大家的喜爱,那么这条关联规则的支持度和置信度都很高,但是它们之间没有必然的联系。所以,搞大数据既要对专业精通又要对你公司的业务精通,这也是现在公司经常碰到的难题,此事古难全啊。
除了这些,大数据还经常用到一些数学工具如,线性回归,支持向量机等来帮助进行比对和分类。不要小看这些辅助工具,有时候他们是主力。美国警察用电力公司的数据与培养大麻的LED灯用电曲线进行比对,数学工具就是线性回归,只要发现哪家用电曲线和样本相符(相符的程度用方差表示,标准老警自己定),直接踹门抓人一抓一个准。这些数学工具很多都是用来分类的,分类在大数据中是个大事,例如国外有的门户网站首页分类用大数据直接筛选出详细页使用频率较高的词汇作为各个大类的标题。
工具列完了,下面数据挖掘正式开幕:
大数据对于什么时候用人力什么时候用计算机也能看出来功力,中小公司更应该注意巧妙利用人力,可避免在技术上过多拼财力。比如以上的例子中大家可以看到,相似不相似,是不是关联,这些标准都是人定的。计算机常负责一些同一个算法算大批量数据的活。美国大数据公司的老大Palantir就因精于此道而著称。中小公司在这方面也有做的不错的,最近开始流行的图片新闻APP 网新闻的策略就很值得借鉴:
网新闻主要是用关系图,时间轴各种图片展示更丰富信息,一条新闻,用户希望在哪一点上获取更深入的信息是网新闻最想分析的,明确了这个目的又积累了一定用户行为的数据后,网新闻做了如下工作:把一个新闻,举个栗子,如释永信事件,让小编写完这条新闻就分析用户关注这条新闻的点在哪,并且把各种可能性列出来。列出的结果是:
1、用时间轴展示少林寺背后的利益纷争事件,用关系图展示各利益相关方的关系,这两条可以满足求知欲,用户也可以说出去秀知识。
2、说明佛门中的禅宗一派特点就是不避世俗。古代就在寺庙做小买卖。进而拓展到律宗,密宗是怎么回事。
3、传闻释永信嫖娼,有情妇,桃色因素是一个。
4、中国法律目前对寺庙住持是怎么定性的,有哪些法律来约束,触犯了这些法律会受到什么样的惩罚,对事件目前形势未来预判也是一个吸引人的因素&
这样列出来后,进行关联性分析,点击量高的新闻,一定是具备因素2和因素3?还是因素1和因素3?&网新闻用这种方法得出很多有价值的信息,如用户对用图片解释&经理人采购指数&感兴趣还是对展示某经济指标对自己生活的影响更感兴趣,然后用这些数据指导小编摆图写稿。
另外,不要觉得分析数据预判用户需求很牛涫德繁呗羰肿ケ囊簿D懿鲁瞿阏獯我灰爬苯罚褪堑饔玫乃灾械拇笫荨?梢匀糜没⒋蛘劭蛘呤峭üQQ定外卖时显示他平时的偏好。这个方法需要对数据预处理去掉那些和其他数据偏离较大的数据可获得基本的&用户画像&。另外还可以结合其他因素数据丰富&用户画像&,例如天气炎热或寒冷的情况下用户的喜好,每到周末是不是多买一些等。
还有一个很重要的使用人力的节点就是先想好你想了解什么。例如,买啤酒的顾客会买尿布这个例子中,数据挖掘工程师其实提前就想到有必要查看一下啤酒和其他商品的关联,才有了这个发现,而不是计算机自己去找这两者关系。这需要洞察力!福布斯网站发文称&首先制定好策略,然后奔着结果找出答案&,并由此得出&问题比答案重要&的结论。
使用大数据的流程就这些了。总结一下哪些地方使用人力:收集什么样的数据需要人来做决定,想好要弄清楚哪些规律需要人来做决定。电脑主要用来存储,以及用数学工具来进行具体计算。哈哈,原来大数据不是巨头们买一个塞满房子的超级计算机把海量数据统统输进去然后&度昂&一下就出来结果了!我们小公司一样可以搞啊!
由于&问题比答案重要&,再说一下大数据领域提出的几个有代表性的&问题&。既然除了利用之前积累的数据了解用户偏好向用户推销这次的产品,还可以用大数据让用户方便的消费来提高用户体验:快餐业的视频分析。该公司通过视频分析等候队列的长度,然后自动变化电子菜单显示的内容。如果队列较长,则显示可以快速供给的食物;如果队列较短,则显示那些利润较高但准备时间相对长的食品。这个案例门槛极低,只要人为设定队伍多长算长,做食物的速度多块算快即可,也可以人工标定一下哪些是快食哪些是慢食。
不仅可以预判需求予以满足,营销时还可以定点营销。此类打法常常是从别的机构购得数据或者连钱都不花从政府开放的数据中拿,一家领先的专业时装零售商,通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务,如何定位公司的差异化,他们通过从Twitter 和Facebook 上收集社交信息,更深入的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。然后通过免费化妆服务,对这两类消费者进行精准的宣传。这个案例中,需要用到的工具有用于归类的线性回归,聚类分析等。
数据的来源问题:由于没有巨头那样的数据积累,中小企业经常想到购买数据,或使用政府公开的免费数据。目前国内掌握大数据的巨头不够开放,形成了让仁人志士头大的&数据堰塞湖&。虽然也有开放数据的,例如中国首个大数据开放平台DataComb,对于掌握一些数据的公司来说也多了一些数据变现的渠道,然而对疏通&堰塞湖&并没有太大作用。也有好消息,8月19日,国务院常务会议审议通过《关于促进大数据发展的行动纲要》,全面公开应该就在眼前了。在美国最重要的数据开放平台就是奥巴马政府在2009年推出的Data.gov,奥巴马同学对搞大数据一向蛮拼的。
另外,创业公司切记,巨头们整天嚷嚷的&大数据不必追求精确,牺牲精确性可以换取效率和更多规律的发现&,可问题是那是在数据量异常大的情况下,对中小企业数据量不太大时务必要精确。
总的来说,大数据分析可谓是兵无常势,水无常形,真正厉害的数据挖掘大师是碰到什么样的形势知道用什么样的工具来解决的人。中小企业玩大数据切记:1.不炒概念。2.不烧钱。切实用大数据提升企业竞争力才是王道。【编辑推荐】【责任编辑: TEL:(010)】
大家都在看猜你喜欢
头条头条热点热点热点
24H热文一周话题本月最赞
讲师:5人学习过
讲师:30人学习过
讲师:5人学习过
精选博文论坛热帖下载排行
本书介绍如何将最流行的J2EE应用服务器WebLogic Server和最好的Java集成开发工具JBuilder结合起来开发J2EE应用,主要内容包括:WebLogic Se...
订阅51CTO邮刊

我要回帖

更多关于 大数据创业公司 的文章

 

随机推荐