odps大odps数据库计算模型是基于什么模型

在大学-数据分析(4)
提取特征之所以难,是因为我们写出的sql语句往往只能提取一个特征。
而在ODPS上却不一样,一条语句可以提取很多特征。
如提取最近1、2、3、4天四种行为的数量
重点是decode函数,具体用法详见ODPS-sql文档
&span style=&white-space:pre&&
&/span&int days[]={0,-1,-2,-3};
String sql=&create table if not exists
user_set1 as select user_id&;
featurenum=0;
for(int i=1;i&5;i++){
for(int j:days){
String date2=processdate(date, j);
sql+=&,\t sum(decode(behavior_type=&+i+& and mydate=\&&+date2+&\&,true,1,0)) as feature&+featurenum++ +&\t&;
sql+=&,\t sum(decode(behavior_type=&+i+& and mydate&=\&&+date+&\& and mydate&\&&+processdate(date, -4)+&\&,true,1,0)) as feature&+featurenum++ +&\t&;
sql+=&,\t sum(decode(behavior_type=&+i+& and mydate&=\&&+date+&\& and mydate&\&&+processdate(date, -7)+&\&,true,1,0)) as feature&+featurenum++ +&\t&;
sql+=&,\t sum(decode(behavior_type=&+i+& and mydate&=\&&+date+&\& and mydate&\&&+processdate(date, -14)+&\&,true,1,0)) as feature&+featurenum++ +&\t&;
sql+=&,\t sum(decode(behavior_type=&+i+& and mydate&=\&&+date+&\&,true,1,0)) as feature&+featurenum++ +&\t&;
sql+=&from &+table+& where mydate&= \&&+date+&\& group by user_&;
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:74702次
积分:2556
积分:2556
排名:第10295名
原创:183篇
转载:36篇
(3)(3)(16)(5)(3)(11)(22)(6)(25)(10)(11)(6)(5)(54)(11)(9)(11)(5)TB前卫网店铺大全为您精选最好的精品店铺导航,欢迎您。上一篇:当前位置:>>栏目:数码科技&&&发布时间:&&&来源:数据挖掘与数据分析&&&编辑:datakong以前尝试使用过1些国内外的云产品,尤其是大数据分析型产品,例如:亚马逊的EMR、Redshift,Google的Bigquery和阿里云的ODPS。相信大多数人对于亚马逊的EMR、Redshift,Google的Bigquery都比较了解。但在尝试使用ODPS后,--ODPS感觉也是1款不错的大数据分析产品。本文主要为大家介绍关于ODPS的使用体验,同时也会与Redshift及Bigquery做对照,让大家对于各款云产品有初步的认识。 鉴于良多人对于ODPS不是很熟识,在这里有必要简单介绍下。ODPS 是阿里云旗下1款功能较为齐全,使用便捷,完整托管的TB级别数据仓库产品,用于解决用户在分析大数据进程中遇到的问题。ODPS提供多种数据导入/导出手腕,使用户数据轻松上云。且完整屏蔽底层算法的实现,即使没有散布式编程经验的开发人员,也能快速完成份析工作。同时ODPS提供的多种计算框架,在使用习气上与开源Hadoop基本1致,用户不需要过量的额外学习就能够基本掌握ODPS的使用法子。另外,阿里云数加产品还为ODPS提供了友好的图形化界面,利便用户开发、配置功课,完成多用户协同工作。阿里云下的另外一款产品CDP能够提供ODPS与阿里云旗下其他产品的数据互通。下面,我将从筹备工作、数据导入、BI分析和机器学习、流式分析等场景介绍ODPS。筹备工作在正式使用以前,细心浏览了ODPS的文档,这个仍是颇有必要的,对于产品的基本概念、安全策略、售卖方式要有足够的了解。在此以后再进行创立Project,Table等操作(各家的组织结构不尽相同,RedShift有Cluster、Database,Bigquery有Project、Dataset,ODPS是Project)。在这方面ODPS以及Bigquery显明好过Redshift,前二者真正做到了开箱即用,在创立Project后,便可进行数据开发工作,无需额外的启动服务及系统配置工作。用户没必要关切硬件配置、系统范围等繁琐的配置。作为1款完整托管的大数据分析产品,ODPS可以依据业务情况做到计算资源自动弹性伸缩。但亚马逊要先启动Cluster,再创立Project,且在此进程中还需要诸多配置工作(这也难怪,AWS几近都是基于ECS的)。在付费方面,ODPS以及Bigquery完整是依照云的理念按量付费,每一运行1个功课发生1笔账单。这个不能不要吐槽亚马逊,超级贵啊有无,几近是国内ODPS的数倍!而且是按月出账单,略不留神几千大洋就被扣掉了。本人就是1时忽略损失了二000人民币,这也是我告诫大家细心看文档的缘由。可是,亚马逊以及google的文档都是英文的,这是为神马?亚马逊不是要进中国嘛?可为啥到现在连中文文档都没有,为啥没中文文档,为啥没中文文档,为啥没中文文档?首要的事情…说到文档,Bigquery的文档也仍是较为简单,感觉也无非是Google放出来摆摆模样。Google强大的云计算技术并无真的想恩赐给中小企业。ODPS的文档仍是比较全面的,描写准确、细致。尽管使用起来仍是感觉有点小贵,但听说会很快推出降价策略。ODPS在本钱节制方面也很居心,SQLCost这个命令可以估算每一条SQL损耗的费用,很好用。数据上云如何使数据上云是大数据处理中遇到的第1个困难。通常情况下,在起始阶段会花费大量时间将数据导入云产品中。ODPS是1款将存储与计算集成的产品,数据在导入ODPS后便可介入计算。ODPS提供多种操作简便的数据导入工具,通过简单的几项配置操作后,便可以通过数据导入工具将数据上传至ODPS。用户也能够通过ODPS提供的Restful API及Java/Python SDK完成多种多样的定制化场景需求。另外,ODPS可同现有生态对于接,已经经实现与OGG,Fluentd,Sqoop的对于接,通过这些工具用户可以完成Oracle,Mysql,Hadoop的数据论述。阿里云的CDP能够匡助用户完成云产品见的数据同步工作,例如:RDS、OTS、OSS的数据导入导出。Redshift支撑将S三、EMR、DynamoDB等产品的数据导入其中。固然最基本的,Redshift也支撑Remote Host数据,惋惜我历来没胜利过。这也暴露了国外云厂商的缺陷:距离有了,美没了。Bigquery支撑导入BigTable的数据。BI开发有了数据,就能够进行数据查询。ODPS提供了友好的UI界面能够让用户定义数据查询。并且可以通过简单的控件拖拽方式抉择多个任务间的依赖瓜葛,不在需要编写繁杂的任务调度工具。这的确节省了我大量的时间。1旦任务失败,会有报警短信发给我,不用耽心白日因为报表没产出,老板给我脸色看。如果想尽快获取SQL查询结果,可以通过简单的配置取得ODPS提供的准实时查询能力。这个是ODPS内置的,不需要将数据迁移到其他产品中。固然,如果不知足于ODPS提供的数据实时处理能力,想借助RDS或者者ADS完成更快速的交互式查询及多维分析,可以通过CDP,将ODPS中的数据导入到RDS中。我当时使用的是ADS,更为便捷,可以直接加载ODPS的数据。这些产品可以为企业决策提供提供更快速的数据支撑。在这方面,Redshift及Bigquery真的显得乏善可陈。尽管Redshift支撑jdbc协定,可以对于接多种BI分析工具。但中提供了无比多的BI工具及分析套件。以前有见过阿里巴巴内部的BI分析师使用这套产品。数据发掘及机器学习跟着业务的不断发展,良多用户已经经不知足于简单的BI分析,想通过数据发掘及机器学习算法完成更位繁杂的数据业务,例如:广告,个性化举荐,用户分类等。但其实不是每一家企业都具备开发散布式算法的能力,ODPS上面的PAI算法平台有不少经常使用算法,例如分类,聚类,预测,乃至还有深度学习算法。比较尤其的是,这些算法通过简单的拖拽动作就能够弄定,无需使用者参与枯燥的编程工作,降低操作使用门坎。我以前通过阿里云发布的沟通邮箱申请了试用:更加首要的是,用户可以通过ODPS提供的MapReduce、扩大的MRR及Graph模型提供定制算法的能力,并可以将这些算法分享给其别人。 这方面我没深刻了解过AWS及Google。以前据说过AWS的Amazon Machine Learning,只惋惜看到售价就差点把我吓跑了,依照条数收费。第1次尝试处理四MB数据,收了二五美金....然后,就没有然后了。尽管AmazonMachine Learning一样提供可视化的工具以及向导,但看看定价,仍是算了。流式分析除了大家熟知的离线分析能力,ODPS新推出的流式数据处理解决了施行数据处理的困难。不同于Storm,ODPS Stream为提供的是SQL查询接口。普通的BI分析师也可完成流式开发工作。对于于我这类懒人,是无比有吸引力的。只要1个SQL就弄定了:结语总的来讲,目前把云计算当成重点发展业务的恐怕只有亚马逊以及阿里云。Google怎样看起来都像是玩票的感觉。尽管也有良多小厂商投入到云计算的市场,但斟酌到这个行业的特殊性(业务请求严苛,技术投入高),我仍是会选择亚马逊、阿里云这样的大公司。从国内的服务现状来看,亚马逊尽管出道早,产品深刻人心,但从定价、服务、使用习气上,国内企业则更占优势。况且,阿里云ODPS这半年来更新很快,例如:加入了对于Flume、Fluentd、OGG等数据导入插件的支撑,定价也在筹备下调。【公众号】:数据挖掘与数据分析【微信号】:datakong【微宣言】:以分析的视角为切入点,蕴含以互联网、移动互联、IT等科技领域为主的一体化综合型信息服务平台。商务合作:qq:下一篇:随意看看本平台免费发布二手车信息、成心者 加微信
kadui618 或者1...不离婚,老公就不给抚养费   我跟老公吵架之后,他离家出走。已经快半...其实每一个人都会有心烦、心累的时候,千万不要在过错的时间,对过错的对...说到林鹏大家确定不目生,在她大三的时候就被张艺谋选中介入北京奥运会开...如何把会销发扬光大,做精做细,笔者认为要在团队管理、营销技能、服务理...本文为车早茶原创稿件,作者朱海养,转载请注明出处及作者昨日,早高峰约...厨房选哪类油烟机,才能完全告别炒菜时的“云山雾罩”?今天邻居金大叔说...钛媒体 TMT|创新|创业钛度要点最近,正在上...瓷砖空鼓是泥木工验收时重点检测项目,施工规范里对墙砖以及地砖的空鼓率...——记“中国百城建筑新地标研究”成果新鲜出炉   ...推荐文章戳上面的关于房间装修,如何很大程度上节省空间,或者许这20个奇妙的空...Part1. 试验人员找来100位正值青春年华的大学生。男女各半。然...Just love me▲夏日过去了,有人黑了,有人更黑了……前几日...《晨曲》作者:天智星 《喧嚣与宁静》作者:喧嚣与宁静《曝光》作者:红...大家好:我是甘志凌老师今天,告知你:工资应当怎样发?首先,我向大家介...每一天有你最关切的星座密语,心理测试你必定听过或者看过很多的恋情格言...最近在看各个女明星的流动照以及私服的时候,发现皮衣、皮裙、皮裤(我了...花上300元的价格,就可以在外滩左近的餐厅吃上一顿米其林三星级别主厨...1、约会成心迟到。不知从啥时候开始,女孩就喜爱这么一条“约会迟到的艺...亲高手带你玩装修!小编卢莹莹童鞋的个人微信不日开放!如果您想看到更焦...声明:TB前卫()所有信息来源于网络,转载的文章、图片、数据等内容版权均属于原网站、原店铺、原作者等拥有,如有举报、反馈或投诉等情况请联系站长:TB前卫汇集精品店、旗舰店网址/店铺信息/商品展示,并不售卖任何商品,展示信息仅供参考,购买商品均在点击链接后到淘宝/天猫商铺成交,故安全可靠。.Copyright &
&&/&& 珠海博爱心理咨询有限公司旗下All Rights Reserved&& 云主机支持:&&|&&|&&|&&|&&|&&|&&|&&&&&Processed in 0.0116 second(s)数据引擎-阿里的ODPS大规模计算引擎
ODPS开发数据处理服务是阿里的大规模分布式数据处理服务,注意这个是目前不开源的产品。
RDS(Relational Database
Service)是云平台的商业关系型数据库,适合小规模的常规OLTP应用,主要是迁移MySQL,SQL
Server等传统数据库,重点是SQL兼容性。
OTS(Open Table
Service)开放结构化存储是对大量结构化和半结构化数据存储和时实查询服务。主要是大规模、低延迟和强一致的结构化数据。
ODPS(Open Data Processing
Service)开放数据处理服务是对海量且实时要求不高的OLAP应用。主要是构建数据仓库,数据挖掘和商业智能应用。
用户可以通过在云端等UI界面提交SQL或者MR等任务,也可以用命令行工具ODPS Client进行操作,底层都是通过ODPS
SDK和ODPS REST API服务通信。数据通道则是通过命令行工具dship等,底层是通过ODPS Tunnel SDK和ODPS
Protocal buffer API服务通信。
支持的计算包括:SQL基于SQL92支持Python和Java的自定义函数UDF等,MR,DAG编程模型,Graph编程模型用于大数据量的图计算,举个栗子:PageRank;XLib提供SVD分解,逻辑回归、随机深林等分布式算法,用于机器学和数据挖掘。
伏羲计算平台负责任务调度和资源管理,每个Service启动先运行一个ServiceMaster,负责向FuxiMaster申请资源和调度ServiceWorker到资源机器,伏羲支持DAG模型的任务调度。这个也就是最近阿里云在sortbenchmark获得冠军的核心,主要设计是Network
Shuffer的过程:在Shuffle阶段,Map在确定了Partition后,不进行Buffer内排序,而是直接通过网络发给对应的Reduce端,这样Reduce接收的数据是无序的,就要先Buffer内排序也会Dump到本地文件中,最后进行一次归并Merge生成一个大有序文件提供Reduce读入,这样的设计大大减小了数据落盘的IO。
盘古是分布式文件系统,主要是保障极高可用性。数据采用3副本存储方式;元数据采用多Master(1主2备)的机制,Master元数据也采用内存存储,通过快照和日志保证断电恢复。元数据的一致性通过Paxos算法来保证。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。ODPS技术架构及应用实践
发表于 16:13|
来源《程序员》|
作者张云远,李妹芳
摘要:ODPS是分布式的海量数据处理平台,提供了丰富的数据处理功能和灵活的编程框架。本文从ODPS面临的挑战、技术架构、Hadoop迁移到ODPS、应用实践注意点等方面带领我们初步了解了ODPS的现状与前景。
初识ODPSODPS是分布式的海量数据处理平台,提供了丰富的数据处理功能和灵活的编程框架,主要的功能组件有如下几个。Tunnel服务:数据进出ODPS的唯一通道,提供高并发、高吞吐量的数据上传和下载服务。SQL:基于SQL92并进行了本地化扩展,可用于构建大规模数据仓库和企业BI系统,是应用最为广泛的一类服务。DAG编程模型:类似Hadoop MapReduce,相对SQL更加灵活,但需要一定的开发工作量,适用于特定的业务场景或者自主开发新算法等。Graph编程模型:用于大数据量的图计算功能开发,如计算PageRank。XLIB:提供诸如SVD分解、逻辑回归、随机森林等分布式算法,可用于机器学习、数据挖掘等场景。安全:管控ODPS中的所有数据对象,所有的访问都必须经过鉴权,提供了ACL、Policy等灵活强大的管理方式。ODPS采用抽象的作业处理框架将不同场景的各种计算任务统一在同一个平台之上,共享安全、存储、数据管理和资源调度,为来自不同用户需求的各种数据处理任务提供统一的编程接口和界面。和阿里云的其他云计算服务一样,ODPS也是采用HTTP RESTful服务,并提供Java SDK、命令行工具(Command Line Tool,CLT)和上传下载工具dship,以及阿里云官网提供统一的管理控制台界面。在阿里内部,有多个团队基于ODPS构建交互界面的Web集成开发环境,提供数据采集、加工、处理分析、运营和维护的一条龙服务。基于ODPS进行应用开发,最直接的是使用CLT以及dship等工具。如果不能满足需要,也可以进一步考虑使用ODPS SDK或RESTful API等进行定制开发,如图1所示。图1& ODPS应用开发模式如果你的业务发展需要一个足够强大、能开箱即用的大数据处理平台,并且不想花费太多精力去关注这一切如何实现与运维,那么ODPS是一个非常理想的选择。规模的挑战在DT时代,数据是宝贵的生产资料,但不断扩大的数据规模给ODPS带来了极大的挑战。在阿里内部就曾直面这种情况:在可以预见的时间内,单个集群的规模无法再容纳所有的数据。解决方案是扩大单集群的规模,同时让应用系统可以管理多个集群。在这个背景下,ODPS作为一个海量数据的处理平台,结合5K项目开发了多集群管理的功能,使得数据处理的规模跨上了一个新的台阶。当单个计算集群的存储或计算容量不足时,将数据重新分布到新的集群上。更重要的一点是,这种跨多个集群的能力,对上层应用是透明的,用户在运行SQL或者Graph模型时,不必了解数据是分布在哪个物理集群上,如图2所示。图2& ODPS的跨集群能力网站日志分析这里,我们将基于最常见的网站日志分析这一应用场景,实践如何通过ODPS来构建企业数据仓库,包括数据的导入导出以及清洗转换。其ETL过程与基于传统数据库的解决方法并不完全一致,在数据传输环节并没有太多的清洗转换,这项工作是在数据加载到ODPS后,用SQL来完成的。在数据加载到ODPS后,可以充分利用平台的水平扩展能力,处理的数据量可以轻松地扩展到PB级别,而且作为一个统一的平台,除构建数据仓库外,在ODPS中利用内置的功能即可进行数据挖掘和建模等工作。在实际工作中,数据采集、数仓构建和数据挖掘等都是由不同的团队来完成的,针对这一情况,ODPS中提供了完善的安全管理功能,可以精确地控制每个人可以访问到的数据内容(下例中为突出主要的过程,忽略了用户的授权管理)。数据来源于网站酷壳()上的HTTP访问日志数据(access.log),格式如下:一个典型的企业数据仓库通常包含数据采集、数据加工和存储、数据展现等几个过程,如图3所示。图3& 数据仓库主要过程数据采集真实的网站日志数据中不可避免地会存在很多脏数据,可以先通过脚本对源数据做简单的处理解析,去掉无意义的信息,例如第二个字段“-”。在数据量比较大的情况下,单机处理可能成为瓶颈。这时可以将原始的数据先上传到ODPS,充分利用分布式处理的优势,通过ODPS SQL对数据进行转换。在ODPS中,大部分的数据都是以结构化的表形式存在的,因此第一步要创建ODS层源数据表。由于数据是每天导入ODPS中,所以采取分区表,以日期字符串作为分区,在ODPS CLT中执行SQL如下:假设当前数据是这一天的,添加分区如下:解析后的数据文件在/home/admin/data//output.log下,通过dship命令导入ODPS中,如下:数据加工和存储在ods_log_tracker表中,request字段包含三个信息:HTTP方法、请求路径和HTTP协议版本,如“GET /articles/4914.html HTTP/1.1”。在后续处理中,会统计方法为GET的请求总数,并对请求路径进行分析,因而可以把原始表的request字段拆解成三个字段method、url和protocol。这里使用的是ODPS SQL内置的正则函数解析的字符串并生成表dw_log_parser:与传统的RDBMS相比,ODPS SQL面向大数据OLAP应用,没有事务,也没有提供update和delete功能。在写结果表时,尽量采用INSERT OVERWRITE到某个分区来保证数据一致性(如果用户写错数据,只需要重写该分区,不会污染整张表)。如果采用INSERT INTO某张表的方式,那么在作业因各种原因出现中断时,不方便确定断点并重新调度运行。ODPS SQL提供了丰富的内置函数,极大方便了应用开发者。对于某些功能,如果SQL无法完成的话,那么可以通过实现UDF(用户自定义函数)来解决。例如希望将ip字段转化成数字形式,从而和另一张表关联查询,可以实现UDF,如下:编译生成JAR包udf_ip2num.jar,将它作为资源上传到ODPS,然后创建函数并测试,如下:表dual(需要用户自己创建)类似于Oracle中的dual表,包含一列和一行,经常用于查询一些伪列值(pseudo column),是SQL开发调试的利器。对于较复杂的数据分析需求,还可以通过ODPS DAG(类似MapReduce)编程模型来实现。篇幅限制,这里不一一介绍。图4& PV/UV展示结果数据展现应用数据集市往往是面向业务需求对数据仓库表进行查询分析,例如统计基于终端设备信息的PV和UV,生成结果表adm_user_measures。R是一款开源的、功能强大的数据分析工具。通过R来绘图,展示结果报表可以有两种方式:一是通过dship命令将数据导出到本地,再通过R展现结果;二是在R环境中安装RODPS Package,直接在R中读取表中的数据并展现。在RStudio中,基于小样本数据统计的展现结果如图4所示。迁移到ODPSHadoop作为开源的大数据处理平台,已得到了广泛应用。在使用Hadoop集群的用户,可以比较轻松地迁移到ODPS中,因为ODPS&SQL与Hive&SQL语法基本一致,而MapReduce作业可以迁移到更加灵活的DAG的执行模型。对于数据的迁移,可以通过ODPS&Tunnel来完成。数据通道服务ODPS Tunnel是ODPS与外部交互的统一数据通道,能提供高吞吐量的服务并且能够水平进行服务能力的扩展。Tunnel服务的SDK集成于ODPS SDK中。实际上,dship也是调用SDK实现的客户端工具,支持本地文件的导入导出。我们鼓励用户根据自己的场景需求,开发自己的工具,例如基于SDK开发对接其他数据源(如RDBMS)的工具。把海量数据从Hadoop集群迁移到ODPS的基本思路是:实现一个Map Only程序,在Hadoop的Mapper中读取Hadoop源数据,调用ODPS SDK写到ODPS中。执行逻辑大致如图5所示。Hadoop MapReduce程序的执行逻辑主要包含两阶段:一是在客户端本地执行,如参数解析和设置、预处理等,这在main函数完成;二是在集群上执行Mapper,多台Worker分布式执行map代码。在Mapper执行完成后,客户端有时还会做一些收尾工作,如执行状态汇总。图5& Hadoop到ODPS的数据迁移这里,我们在客户端本地的main函数中解析参数,创建UploadSession,把SessionID传给Mapper,Mapper通过SessionID获取UploadSession,实现写数据到ODPS。当Mapper执行完成后,客户端判断执行结果状态,执行Session的commit操作,把成功上传的数据Move到结果表中。默认情况下,Hadoop会自动根据文件数划分Mapper个数。在文件大小比较均匀时,这种方式没什么问题。然而存在大文件时,整个大文件只在一个Mapper中执行可能会很慢,造成性能瓶颈。这种情况下,应用程序可自己对文件进行切分。下面实现一个类Hdfs2ODPS来完成这个功能。其中run函数完成了前面提到的主要逻辑,主要代码如下(其中包括了对ODPS Tunnel的使用):在这个函数中,首先调用函数parseArguments对参数进行解析(后面会给出),然后初始化DataTunnel和UploadSession。创建UploadSession后,获取SessionID,并设置到conf中,在集群上运行的Mapper类会通过该conf获取各个参数。然后,调用runJob函数,其代码如下:runJob函数设置Hadoop conf,然后通过JobClient.runJob(conf);启动Mapper类在集群上运行,最后调用conf.getNumMapTasks() 获取Task数,Task数即上传到ODPS的并发数。在Mapper中,可以通过conf.getLong("mapred.task.partition")获取Task编号,其值范围为[0, NumMapTasks)。因此,在Mapper中可以把Task编号作为上传的blockid。客户端在Mapper成功返回时,就完成commit所有的Session。应用实践注意点与单机环境相比,在ODPS这样的分布式环境中进行开发,思维模式上需要有很大转变。下面分享一些实践中的注意点。在分布式环境下,数据传输需要涉及不同机器的通信协作,可以说它是使用ODPS整个过程中最不稳定的环节,因为它是一个开放性问题,由于数据源的不确定,如文件格式、数据类型、中文字符编码格式、分隔符、不同系统(如Windows和Linux)下换行符不同,double类型的精度损失等,存在各种未知的情况。脏数据也是不可避免的,在解析处理时,往往是把脏数据写到另一个文件中,便于后续人工介入查看,而不是直接丢弃。在上传数据时,Tunnel是Append模式写入数据,因而如果多次写入同一份数据,就会存在数据重复。为了保证数据上传的“幂等性”,可以先删除要导入的分区,再上传,这样重复上传也不会存在数据重复。收集数据是一切数据处理的开始,所以必须非常严谨可靠,保证数据的正确性,否则在该环节引入的正确性问题会导致后续处理全部出错,且很难发现。对于数据处理流程设计,要特别注意以下几点。数据模型:好的数据模型事半功倍。数据表的分区管理:如数据每天流入,按日期加工处理,则可以采取时间作为分区,在后续处理时可以避免全表扫描,同时也避免由于误操作污染全表数据。数据倾斜:这是作业运行慢的一个主要原因,数据倾斜导致某台机器成为瓶颈,无法利用分布式系统的优势,主要可以从业务角度解决。数据的产出时间:在数据处理Pipeline中,数据源往往是依赖上游业务生成的,上游业务的数据产出延迟很可能会影响到整个Pipeline结果的产出。数据质量和监控:要有适当的监控措施,如某天发生数据抖动,要找出原因,及时发现潜在问题。作业性能优化:优化可以给整个Pipeline的基线留出更多时间,而且往往消耗资源更少,节约成本。数据生命周期管理:设置表的生命周期,可以及时删除临时中间表,否则随着业务规模扩大,数据会膨胀很快。此外,数据比对、A/B测试、开发测试和生产尽可能采用两个独立的Project。简言之,在应用开发实践中,要理解计费规则,尽可能优化存储计算开销。ODPS现状和前景阿里巴巴提出了“数据分享第一平台”的愿景,其多年来坚持投资开发ODPS平台的初心就是希望有一天能够以安全和市场的模式,让中小互联网企业能够使用阿里巴巴最宝贵的数据。阿里内部提出了所有数据“存、通和用”,将不同业务数据关联起来,发挥整体作用。ODPS目前正在发展中,它在规模上,支持淘宝核心数据仓库,每天有PB级的数据流入和加工;在正确性上,支持阿里金融的小额无担保贷款业务,其对数据计算的准确性要求非常苛刻;在安全上,支持支付宝数据全部运行在ODPS平台上,由于支付宝要符合银行监管需要,对安全性要求非常高,除了支持各种授权和鉴权审查,ODPS平台还支持“最小访问权限”原则:作业不但要检查是否有权限访问数据,而且在整个执行过程中,只允许访问自己的数据,不能访问其他数据。前面的示例只是展现了ODPS的冰山一角。作为阿里巴巴云计算大数据平台,ODPS采用内聚式平台系统架构,各个组件紧凑内聚,除了结构化数据处理SQL、分布式编程模型MapReduce外,还包含图计算模型、实时流处理和机器学习平台,如图6所示。图6& ODPS功能模块随着ODPS对外开放的不断推进和第三方数据的流入,相信会有各种创新在ODPS上生根发芽、开花结果。尽管如此,云计算和大数据是两个新兴的领域,技术和产品发展日新月异。作为一个平台,虽然ODPS已在阿里内部被广泛使用,但在产品和技术上还有很多方面需要进一步完善和加强,希望ODPS能够和云计算大数据应用共同成长,成为业界最安全、最可靠和最方便易用的平台。本文主要内容节选自作者即将出版的新书《ODPS权威指南》。本文作者:张云远,长期工作于数据仓库及BI领域,先后任职于建设银行、TCS及惠普,2011年加入阿里云,担任ODPS产品经理,主要负责SQL模块的产品功能。经历了阿里金融等数据仓库在ODPS上的建设过程,作为登月一号项目的PM负责将小微金服离线数据平台迁移到ODPS。李妹芳,阿里数据平台事业部工程师,曾译有《Linux系统编程》、《数据之美》、《数据可视化之美》等书,其新书《ODPS权威指南》即将上市。
推荐阅读相关主题:
为了更好帮助企业深入了解国内外最新大数据技术,掌握更多行业大数据实践经验,进一步推进大数据技术创新、行业应用和人才培养,-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司及CSDN共同协办的2015中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2015)将在北京新云南皇冠假日酒店隆重举办。
相关热门文章

我要回帖

更多关于 odps 删除数据 的文章

 

随机推荐