大数据的数据结构主要有有哪些结构类型

> 问题详情
大数据的主要特征不包括()。A.类型多B.存取速度快C.容量大D.大多是结构化数据
悬赏:0&答案豆
提问人:匿名网友
发布时间:
大数据的主要特征不包括()。A.类型多B.存取速度快C.容量大D.大多是结构化数据
您可能感兴趣的试题
1大数据发展行动纲要非常明确地提出了我们大数据发展的目标体系,这个目标体系是分3个时段。第三时段是到( )。A.2020B.2016C.2018D.20172信息化时代的分界线是( )年。A.1885B.1995C.2005D.19153信息时代使得( )成为各国近年来激烈争夺的新的焦点。A.领土主权B.制网权C.制空权4中共执政最大软肋就是到现在还没有找到一个对( )有效约束的制度设计。A.司法权力B.分配权力C.财产权力D.公共权力
我有更好的答案
请先输入下方的验证码查看最佳答案
图形验证:
验证码提交中……
每天只需0.4元
选择支付方式
支付宝付款
郑重提醒:支付后,系统自动为您完成注册
请使用微信扫码支付(元)
支付后,系统自动为您完成注册
遇到问题请联系在线客服QQ:
恭喜你被选中为
扫一扫-免费查看答案!
请您不要关闭此页面,支付完成后点击支付完成按钮
遇到问题请联系在线客服QQ:
恭喜您!升级VIP会员成功
提示:请截图保存您的账号信息,以方便日后登录使用。
常用邮箱:
用于找回密码
确认密码:拒绝访问 | www.199it.com | 百度云加速
请打开cookies.
此网站 (www.199it.com) 的管理员禁止了您的访问。原因是您的访问包含了非浏览器特征(3fac5-ua98).
重新安装浏览器,或使用别的浏览器分布式数据库_百度百科
清除历史记录关闭
声明:百科词条人人可编辑,词条创建和修改均免费,绝不存在官方及代理商付费代编,请勿上当受骗。
分布式数据库
分布式系统通常使用较小的系统,每台计算机可单独放在一个地方,每台计算机中都可能有DBMS的一份完整拷贝副本,或者部分拷贝副本,并具有自己局部的数据库,位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。
分布式数据库简介
分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库。分布式数据库的基本思想是将原来集中式数据库中的数据分散存储到多个通过网络连接的数据存储节点上,以获取更大的存储容量和更高的并发访问量。近年来,随着数据量的高速增长,分布式数据库技术也得到了快速的发展,传统的关系型数据库开始从集中式模型向分布式架构发展,基于关系型的分布式数据库在保留了传统数据库的数据模型和基本特征下,从集中式存储走向分布式存储,从集中式计算走向分布式计算。
另一方面,随着数据量越来越大,关系型数据库开始暴露出一些难以克服的缺点,以NoSQL 为代表的非关系型数据库,其高可扩展性、高并发性等优势出现了快速发展,一时间市场上出现了大量的key-value 存储系统、文档型数据库等NoSQL 数据库产品。NoSQL 类型数据库正日渐成为大数据时代下分布式数据库领域的主力。
这种组织的方法克服了物理中心数据库组织的弱点。
首先,降低了代价,因为大多数的对的访问操作都是针对局部数据库的,而不是对其他位置的数据库访问;
其次,提高了很多,因为当网络出现故障时,仍然允许对局部数据库的操作,而且一个位置的故障不影响其他位置的处理工作,只有当访问出现故障位置的数据时,在某种程度上才受影响;
第三,便于系统的扩充,增加一个新的局部数据库,或在某个位置扩充一台适当的小型,都很容易实现。然而有些功能要付出更高的代价。例如,为了调配在几个位置上的活动,事务管理的性能比在中心时花费更高,而且甚至抵消许多其他的优点。
分布式(Distributed Software Systems)是支持的软件系统,是在由通信网络互联的上执行任务的系统。它包括分布式、分布式设计语言及其编译(解释)系统、和分布式等。
分布式负责管理分布式处理系统资源和控制分布式运行。它和集中式的区别在于资源管理、和等方面。 分布式用于编写运行于上的分布式程序。一个分布式由若干个可以独立执行的组成,它们分布于一个分布式处理系统的多台上被同时执行。它与集中式的相比有三个特点:分布性、通信性和稳健性。 具有执行远程文件存取的能力,并以透明方式对分布在网络上的文件进行管理和存取。 由分布于多个结点上的若干个数据库系统组成,它提供有效的存取手段来操纵这些结点上的子数据库。分布式在使用上可视为一个完整的数据库,而实际上它是分布在地理分散的各个结点上。当然,分布在各个结点上的子在逻辑上是相关的。
的分布式文件系统,作为开源的分布式平台,为目前流行的很多分布式数据库提供了支持,譬如HBase等。Yonghong的分布式文件系统ZFS,为分布式数据集市Z-DataMart提供了底层平台。
分布式数据库主要特点
大数据时代,面对海量数据量的井喷式增长和不断增长的用户需求,分布式数据库必须具有如下特征,才能应对不断增长的海量数据。
● 高可扩展性:分布式数据库必须具有高可扩展性,能够动态地增添存储节点以实现存储容量的线性扩展。
● 高并发性:分布式数据库必须及时响应大规模用户的读/写请求,能对海量数据进行随机读/写。
● 高可用性:分布式数据库必须提供容错机制,能够实现对数据的冗余备份,保证数据和服务的高度可靠性。
分布式数据库分布式数据库相对传统集中式数据库的优点
大数据时代,面对日益增长的海量数据,传统的集中式数据库的弊端日益显现,分布式数据库相对传统的集中式数据库有如下优点。
● 更高的数据访问速度:分布式数据库为了保证数据的高可靠性,往往采用备份的策略实现容错,所以,在读取数据的时候,客户端可以并发地从多个
备份服务器同时读取,从而提高了数据访问速度。
● 更强的可扩展性:分布式数据库可以通过增添存储节点来实现存储容量的线性扩展,而集中式数据库的可扩展性十分有限。
● 更高的并发访问量:分布式数据库由于采用多台主机组成存储集群,所以相对集中式数据库,它可以提供更高的用户并发访问量。
分布式数据库体系结构
分布式数据库结构模式图
根据我国制定的《标准》,分布式数据库系统抽象为4层的结构模式。这种结构模式得到了国内外的支持和认同。
4层模式划分为全局外层、全局概念层、局部概念层和局部内层,在各层间还有相应的层间映射。这种4层模式适用于同构型,也适用于异构型分布式数据库系统。
分布式数据库数据分片类型
(1)水平分片:按一定的条件把全局关系的所有划分成若干不相交的子集,每个子集为关系的一个片段。
(2)垂直分片:把一个全局关系的属性集分成若干子集,并在这些子集上作,每个投影称为垂直分片。
(3)导出分片:又称为导出水平分片,即水平分片的条件不是本关系属性的条件,而是其他关系属性的条件。
(4)混合分片:以上三种方法的混合。可以先水平分片再垂直分片,或先垂直分片再水平分片,或其他形式,但他们的结果是不相同的。
(1)完备性条件:必须把全局关系的所有数据映射到片段中,决不允许有属于全局关系的数据却不属于它的某一个片段。
(2)可重构条件:必须保证能够由同一个全局关系的各个片段来重建该全局关系。对于水平分片可用并操作重构全局关系;对于垂直分片可用联接操作重构全局关系。
(3)不相交条件:要求一个全局关系被分割后所得的各个数据片段互不重叠(对垂直分片的主键除外)。
分布式数据库数据分配方式
(1)集中式:所有数据片段都安排在同一个场地上。
(2)分割式:所有数据只有一份,它被分割成若干逻辑片段,每个逻辑片段被指派在一个特定的场地上。
(3)全复制式:数据在每个场地重复。也就是每个场地上都有一个完整的数据副本。
(4)混合式:这是一种介乎于分割式和全复制式之间的分配方式。
目前分布式数据库分配的设计,越来越多的采用寻找最优解的算法,比如遗传算法、退火机制等
分布式数据库查询优化
指在执行分布式查询时选择查询执行计划的方法和关系运算符的实现算法。根据系统环境的不同,查询优化所使用的算法也有所不同,通常分为远程环境和环境,其区别主要在网络的带宽。对于可以采用集中式中的查询优化方法。而对于二元运算符,由于涉及场地间的数据传输,因此必须考虑通信代价。中常见的连接运算执行策略包括:
(1)半连接方法:利用半连接运算的转换方法R∞S=(R&S)∞S。假设场地1和场地2上分别有关系R和关系S,首先在S上执行连接属性上的投影并将结果传输至场地1,在场地1上执行关系R与投影的连接操作,再将结果传输至场地2与关系S执行连接操作。这种方法能够降低执行连接运算时的代价,主要适用于带宽较低的远程广域网络。
(2)枚举法方法:指枚举的物理执行计划,通过对比执行计划的代价选择执行算法的方法。其中,连接运算符的物理执行计划包括嵌套循环方法、哈希连接法和归并连接法。枚举法主要适用于以IO代价为主的环境。
分布式数据库典型应用
最典型应用的银行领域为例:
将分散的数据库从逻辑上联系在一起,可以大大提高数据的管理效率。这就是总行和支行之间的关系:总行与全国各地的支行之间既有各自需要处理的数据,又有需要交换的数据。
将数据分散存储在各地的数据库中,可提高故障发生时的数据安全性。一旦上海支行的数据库出现故障,比如停机、损坏,也是仅仅限于上海支行,总行、广州等其他地区的支行数据库的数据都不会受到影响。
分布式架构具备良好的扩展性。比如建立一个新的海外支行时,只要将新建的数据库加入到原有的分布式数据库架构中就可以,以最小的代价在不影响原有支行、总行的情况下完成数据库的扩展。
以冗余方式进行数据的备份,以备在系统崩溃、数据丢失的情况下仍有备份数据可以进行恢复。
本词条认证专家为
副理事长兼秘书长
中国通信学会
中国通信学会
原武汉邮电科学研究院
中国联通网络技术研究院
工业和信息化部电信研究院互联网中心
副院长兼总工程师
中国移动设计院
首席架构师业务总工程师
中兴通讯股份有限公司
百度公司发展研究中心
中国通信学会科普中国百科科学词条评审专家委员会
中国通信学会是全国通信...
提供资源类型:内容
清除历史记录关闭查看: 173163|回复: 21
大数据入门:各种大数据技术介绍
主题帖子积分
本帖最后由 pig2 于
17:33 编辑
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。
我们可以带着下面问题来阅读本文章:
1.hadoop都包含什么技术
2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性
3.Spark与hadoop的关联是什么?
4.Storm与hadoop的关联是什么?
hadoop家族
创始人:Doug Cutting
整个Hadoop家族由以下几个子项目组成:
Hadoop Common:
Hadoop体系最底层的一个模块,为Hadoop各子项目提供各 种工具,如:配置文件和日志操作等。详细可查看
是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。HDFS针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,HDFS优化的则是对小批量大型文件的访问和存储。下面为详细资料:
MapReduce:
是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点(商用硬件)。
详细可查看:
Apache Hive是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言,同时当使用这个语言表达一个逻辑变得低效和繁琐时,HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。hive类似CloudBase,基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据 的汇总,即席查询简单化。
详细可查看:
Apache Pig是一个用于大型数据集分析的平台,它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行,也就是说让它们支撑起非常大的数据集。Pig的基础设施层包含了产生Map-Reduce任务的编译器。Pig的语言层当前包含了一个原生语言——Pig Latin,开发的初衷是易于编程和保证可扩展性。
Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。
详细可查看:
Apache HBase是Hadoop数据库,一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。其核心是Google Bigtable论文的开源实现,分布式列式存储。就像Bigtable利用GFS(Google File System)提供的分布式数据存储一样,它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。
详细可查看:
ZooKeeper:
Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
详细可查看:
Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。
详细可查看:
Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用例:
推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。
聚集:收集文件并进行相关文件分组。
分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确的归类。
频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。
Cassandra:
Apache Cassandra是一个高性能、可线性扩展、高有效性数据库,可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。在横跨数据中心的复制中,Cassandra同类最佳,为用户提供更低的延时以及更可靠的灾难备份。通过log-structured update、反规范化和物化视图的强支持以及强大的内置缓存,Cassandra的数据模型提供了方便的二级索引(column indexe)。
Apache Chukwa是个开源的数据收集系统,用以监视大型分布系统。建立于HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和稳定性。Chukwa同样包含了一个灵活和强大的工具包,用以显示、监视和分析结果,以保证数据的使用达到最佳效果。
Apache Ambari是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。
Apache HCatalog是Hadoop建立数据的映射表和存储管理服务,它包括:
提供一个共享模式和数据类型机制。
提供一个抽象表,这样用户就不需要关注数据存储的方式和地址。
为类似Pig、MapReduce及Hive这些数据处理工具提供互操作性。
------------------------------------------------------------------------------------------------------------------------------------------------
Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。
------------------------------------------------------------------------------------------------------------------------------------------------
Cloudera系列产品:
创始组织:Cloudera公司
1.Cloudera Manager:
有四大功能
2.Cloudera CDH:英文名称:CDH (Cloudera's Distribution, including Apache Hadoop)
Cloudera对hadoop做了相应的改变。
Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution Hadoop)。
详细可以查看
3.Cloudera Flume
Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等数据源上收集数据的能力。
Flume采用了多Master的方式。为了保证配置数据的一致性,Flume[1]引入了ZooKeeper,用于保存配置数据,ZooKeeper本身可保证配置数据的一致性和高可用,另外,在配置数据发生变化时,ZooKeeper可以通知Flume Master节点。Flume Master间使用gossip协议同步数据。
详细可查看:
4.Cloudera
Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。详细可查看:
5.Cloudera &&hue
Hue是cdh专门的一套web管理器,它包括3个部分hue ui,hue server,hue db。hue提供所有的cdh组件的shell界面的接口。你可以在hue编写mr,查看修改hdfs的文件,管理hive的元数据,运行Sqoop,编写Oozie工作流等大量工作。
详细可查看:
------------------------------------------------------------------------------------------------------------------------------------------------
创始组织:加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。
可以详细了解
-----------------------------------------------------------------------------------------------------------------------------------------------
创始人:Twitter
Twitter将Storm正式开源了,这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure写的。
详细可以了解:
欢迎加入about云群 、 ,云计算爱好者群,关注
主题帖子积分
金牌会员, 积分 6962, 距离下一级还需 3038 积分
金牌会员, 积分 6962, 距离下一级还需 3038 积分
不错,当初级或菜鸟的我们,面对世界上这么多大数据技术或产品,脑壳很容易搞混,不知所云。很需要这方面清楚的思路。
希望楼主,继续提供这方面的讲解,理清这些东西
欢迎加入about云群 、 ,云计算爱好者群,关注
主题帖子积分
中级会员, 积分 409, 距离下一级还需 591 积分
中级会员, 积分 409, 距离下一级还需 591 积分
mark ,学习了
主题帖子积分
高级会员, 积分 1152, 距离下一级还需 3848 积分
高级会员, 积分 1152, 距离下一级还需 3848 积分
紧跟楼主的小菜鸟,不断学习中。。。顶
主题帖子积分
新手上路, 积分 23, 距离下一级还需 27 积分
新手上路, 积分 23, 距离下一级还需 27 积分
写的很好,学习了!!
主题帖子积分
注册会员, 积分 80, 距离下一级还需 120 积分
注册会员, 积分 80, 距离下一级还需 120 积分
还是没明白Spark相对Hadoop的优势在哪里?
主题帖子积分
注册会员, 积分 80, 距离下一级还需 120 积分
注册会员, 积分 80, 距离下一级还需 120 积分
我是菜鸟,刚接触大数据技术。 我感觉hadoop被国内神话了吧,热的发烫。还是看具体需求吧。另外感觉Hadoop版本太多,各工具组合使用,版本兼容就够人折腾一阵子了。
主题帖子积分
新手上路, 积分 32, 距离下一级还需 18 积分
新手上路, 积分 32, 距离下一级还需 18 积分
还是没明白Spark相对Hadoop的优势在哪里?
Hadoop每次计算都要写入磁盘,下一步计算还要从硬盘中读出来。 Spark每次计算先写入内存的,计算完成后写入磁盘!Spark比Hadoop速度快
主题帖子积分
高级会员, 积分 2100, 距离下一级还需 2900 积分
高级会员, 积分 2100, 距离下一级还需 2900 积分
主题帖子积分
注册会员, 积分 119, 距离下一级还需 81 积分
注册会员, 积分 119, 距离下一级还需 81 积分
感觉有些东西还是不太明白。
经常参与各类话题的讨论,发帖内容较有主见
经常帮助其他会员答疑
活跃且尽责职守的版主
为论坛做出突出贡献的会员
积极上进,爱好学习
长期对论坛的繁荣而不断努力,或多次提出建设性意见
站长推荐 /3
会员注册不成功的原因
新手获取积分方法
hadoop3.0学习:零基础安装部署hadoop集群
Powered by大“数据”分类不简单,不止有结构、非结构之分,大数据更广一些大“数据”分类不简单,不止有结构、非结构之分,大数据更广一些科技事务百家号之前关注大数据,包括圈内的朋友都总是说结构化数据、半结构化数据和非结构化数据,其实大数据从类型上还有很多。今天我们对大数据进行不深入,但稍广泛一些的讨论。我们平时所说的结构化数据,往往都是与业务相关的,多产生于交易系统,存储在传统关系型数据库中,如机构中大多使用的是Oracle。在谈到非结构化数据的时候,却往往没有细分,而且经常归由hadoop管理,然而非结构化数据的世界也很精彩。大数据知识,不仅有深度还有广度重复型非结构化数据和非重复型非结构化数据我们想一下,在非结构化数据的世界中,总是有很多数据它们总是以同样的结构甚至同样的形态多次出现,这类数据就被称作重复型非结构化数据;而非重复型非结构化数据却正与此不同,非重复型数据记录与其他记录有显著的不同。重复型非结构化数据的代表,比较容易理解,如天气数据、电话数据这一类;而非重复型非结构化数据,则以邮件、保险记录等等为代表。天气数据多以重复型为主重复型与非重复型非结构化数据的不同治理方式前面说了非结构化数据的区别,这两类数据的业务相关性也不同,非重复型非结构化数据往往业务相关性会高些。当然,结构化数据由于与交易强相关,设计之初就与业务强相关。这两种数据管理和认知上也有明显的区别。对于重复型非结构化数据主要用Hadoop周边生态来管理,焦点在海量数据的存储;而非重复型非结构化数据关注的则更多的是文本消歧。电子邮件是典型的非重复型非结构化数据两类非结构化数据在行业中的分布做大数据的人很多,有的人专注于某一个行业,不了解其他行业数据特点是什么;还有些人,由于主做大数据平台,而忽视了行业数据的特点。保险业总是非重复型非结构化数据多些重复型数据到非重复型数据分布由多到少的行业应用排序:天气预报--制造业---电信业---服务业---零售业----银行/金融业---保险业。想一想气象数据主要由传感器采集,结构和内容总是多有重复;而保险业的保单和出险情况,往往每次都是不同的。以上是对今天看数据架构的书和知识的一些总结,开阔了视野,想起了很多快要忘记的东西。本文仅代表作者观点,不代表百度立场。系作者授权百家号发表,未经许可不得转载。科技事务百家号最近更新:简介:最新和最有趣的科技信息作者最新文章相关文章

我要回帖

更多关于 大数据的数据结构主要有 的文章

 

随机推荐