hive创建hive 是否临时表表电脑不知道什么原因

风水堪舆学 | 网络营销 | 住宅风水 | 英文歌曲 | Adobe After Effects | 电脑配置 | 书籍改编电影 | 下载 | Legion | 网络推广 | 动画制作 | 赛事 | PLC | 小说创作 | 虚拟专用服务器 | 成语 | 家庭 | 单反相机 | 电视节目 | 投影机 | 面相 | 香港购物 | 配音 | 文具 | 二次元 | 影视 | 固态硬盘ssd | 虚拟机 | 跆拳道 | r（编程语言） | 秦时明月之天行九歌 | 使命召唤 | 网盘 | 地图 | 琅琊榜（电视剧） | 手机内存 | 角色扮演 | 华硕 | 百度输入法 | 盗墓笔记（小说） | 营销策划 | 化妆品 | Windows | ip地址 | 装修设计 | 齐内丁·齐达内 | 动画电影 | 中国中央电视台 | 罗兰 | 网站优化 | 斗鱼直播 | 冷知识 | 张帅 | 任天堂 | 摄影师 | 三菱商事 | 迅雷（软件） | 计算机病毒 | amd | 屏幕 | 微单相机 | 电学 | qq浏览器 | MacOS | 联赛 | snh48 | 芯片（集成电路） | 后宫·甄嬛传（书籍） | 植物辨识 | 运动 | 大一 | 美容 | 双色球 | 蓝牙音箱 | 楼盘 | 电脑电源 | 采暖 | 显卡驱动 | 体育赛事 | thinkpad | 离婚 | 武侠小说 | 索尼笔记本 | 中国足球协会超级联赛（csl） | youtube | 王力宏（人物） | 外星人 | 努比亚（手机品牌） | 海贼王 | 移动电源 | 完美世界（游戏） | 摩托车 | 编辑器 | 低音炮 | 收益 | 海关 | 徐波 | akb48 | 互联网创业 | 张璐 | 男性 | 性价比 | MacBook Air | 新疆维吾尔自治区 | 插座 | 外汇平台 | 华为Mate30 | 羽毛球技术 | 腾讯 QQ | 蓝屏 | 字幕 | 免费软件 | 电脑故障 | 女生 | 周星驰（人物） | 足球欧洲杯 | pdf | macbook | 直播 | 生活经历 | 骁龙处理器 | 主题曲 | 户外运动 | CPU | 娱乐圈 | 初恋 | 家居 | 流氓软件 | 名言 | 中国足球 | 近视眼 | acg | 一级方程式赛车（f1） | 小品 | 网站运营 | 英格兰足球超级联赛 | 一体机 | 人肉搜索 | 日本电影 | 系统软件 | 人生 | 流星花园 | 电钢琴 | 分辨率 | 迅雷 | 机械设计 | 古典音乐 | 液晶电视 | 睡眠 | 大片 | 资产 | Html/Css | ansys | 天蝎座 | 对联 | 大二 | 吉他学习 | 实习 | uc浏览器 | 计算机科学 | 新华社 | 脱毛 | 视力 | 乐视超级电视 | 大学生活 | 开关电源 | 平面设计 | 音乐版权 | iPhone 11 Pro | 面膜 | 鞠婧祎 | 胡歌（演员） | 郭富城 | 语言 | 赵丽颖（演员） | 意大利 | 电路设计 | 情侣 | NBA篮球 | 蔡徐坤 | 豆瓣电影 | 社交软件 | 微信开发 | 足球彩票 | 电工 | 手机摄像头 | 用户界面设计师 | 华语流行音乐 | 网卡 | 易烊千玺 | 笛子 | 日语学习 | 日语歌曲 | 歌手 | 张子枫 | 搏击项目 | 谭松韵 | 快捷键 | O2O | 移民 |

你的位置：网站首页 >> 频道首页 >>电脑 >>hive创建hive 是否临时表表电脑不知道什么原因

hive创建hive 是否临时表表电脑不知道什么原因

来源：蜘蛛抓取(WebSpider) 时间：2018-07-25 17:54 标签： hive确认临时表

spark 内存里的临时表数据，写入Hive库时，极慢，有快方法吗? - 知乎有问题，上知乎。知乎作为中文互联网最大的知识分享平台，以「知识连接一切」为愿景，致力于构建一个人人都可以便捷接入的知识分享网络，让人们便捷地与世界分享知识、经验和见解，发现更大的世界。4被浏览611分享邀请回答赞同添加评论分享收藏感谢收起1、从db2 中导出数据到txt中
2、修改文件中的分隔符为&：&
3、在hive中新建表（建表时需要制定分隔符）
4、导入数据
1、从db2 中导出数据到txt中
db2 -x "select col1,col2,col3& from tbl_name where xxx with ur"&filename.txt
2、修改文件中的分隔符为&：&
cat filename.txt | awk '{print $1":"$2":"$3}'&filename1.txt
3、在hive中新建表（建表时需要制定分隔符）
ROW FORMAT DELIMITED 分隔符设置开始语句
FIELDS TERMINATED BY：设置字段与字段之间的分隔符
COLLECTION ITEMS TERMINATED BY：设置一个复杂类型（array,struct)字段的各个item之间的分隔符
KEYS TERMINATED BY：设置一个复杂类型(Map)字段的key value之间的分隔符
create table t(id struct&id1:int,id2:int,id3:int&,name array&string&,xx map&int,string&)
& & & row format delimited
& & & fields terminated by '\t'
& & & collection items terminated by ','
& & & map keys terminated by ':'
& & & lines terminated by '\n';
Time taken: 0.287 seconds
ROW FORMAT DELIMITED 必须在其它分隔设置之前，也就是分隔符设置语句的最前
LINES TERMINATED BY必须在其它分隔设置之后，也就是分隔符设置语句的最后，否则会报错
hive& create table t (id struct&id1:int,id2:int,id3:int&,name array&string&,xx map&int,string&)&
& & & row format delimited
& & & fields terminated by '\t'
& & & lines terminated by '\n'
& & & collection items terminated by ','
& & & map keys terminated by ':';
FAILED: ParseException line 5:0 missing EOF at 'collection' near ''\n''
4、导入数据至hive中
load data local inpath 'filename1.txt' into table tbl_cdhd_usr_id_xxt_tmp&
阅读(...) 评论()hive优化总结
优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。
理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。
长期观察hadoop处理数据的过程，有几个显著的特征:
1.不怕数据多，就怕数据倾斜。
2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小时是跑不完的。map reduce作业初始化的时间是比较长的。
3.对sum，count来说，不存在数据倾斜问题。
4.对count(distinct ),效率较低，数据量一多，准出问题，如果是多count(distinct )效率更低。
优化可以从几个方面着手：
1. 好的模型设计事半功倍。
2. 解决数据倾斜问题。
3. 减少job数。
4. 设置合理的map reduce的task数，能有效提升性能。(比如，10w+级别的计算，用160个reduce，那是相当的浪费，1个足够)。
5. 自己动手写sql解决数据倾斜问题是个不错的选择。set hive.groupby.skewindata=这是通用的算法优化，但算法优化总是漠视业务，习惯性提供通用的解决方法。 Etl开发人员更了解业务，更了解数据，所以通过业务逻辑解决倾斜的方法往往更精确，更有效。
6. 对count(distinct)采取漠视的方法，尤其数据大的时候很容易产生倾斜问题，不抱侥幸心理。自己动手，丰衣足食。
7. 对小文件进行合并，是行至有效的提高调度效率的方法，假如我们的作业设置合理的文件数，对云梯的整体调度效率也会产生积极的影响。
8. 优化时把握整体，单个作业最优不如整体最优。
迁移和优化过程中的案例：
问题1：如日志中，常会有信息丢失的问题，比如全网日志中的user_id，如果取其中的user_id和bmw_users关联，就会碰到数据倾斜的问题。
方法：解决数据倾斜问题
解决方法1. User_id为空的不参与关联，例如：
From log a
bmw_users b
On a.user_id is not null
And a.user_id = b.user_id
from log a
where a.user_id is null.
解决方法2 ：
from log a
left outer join bmw_users b
on case when a.user_id is null then concat(‘dp_hive’,rand() ) else a.user_id end = b.user_
总结：2比1效率更好，不但io少了，而且作业数也少了。1方法log读取两次，jobs是2。2方法job数是1 。这个优化适合无效id(比如-99,’’,null等)产生的倾斜问题。把空值的key变成一个字符串加上随机数，就能把倾斜的数据分到不同的reduce上 ,解决数据倾斜问题。因为空值不参与关联，即使分到不同的reduce上，也不影响最终的结果。附上hadoop通用关联的实现方法（关联通过二次排序实现的，关联的列为parition key,关联的列c1和表的tag组成排序的group
key,根据parition key分配reduce。同一reduce内根据group key排序）。
问题2：不同数据类型id的关联会产生数据倾斜问题。
一张表s8的日志，每个商品一条记录，要和商品表关联。但关联却碰到倾斜的问题。s8的日志中有字符串商品id,也有数字的商品id,类型是string的，但商品中的数字id是bigint的。猜测问题的原因是把s8的商品id转成数字id做hash来分配reduce，所以字符串id的s8日志，都到一个reduce上了，解决的方法验证了这个猜测。
方法：把数字类型转换成字符串类型
Select * from s8_log a
Left outer join r_auction_auctions b
On a.auction_id = cast(b.auction_id as string);
问题3：利用hive 对UNION ALL的优化的特性
hive对union all优化只局限于非嵌套查询。
比如以下的例子：
select * from
(select * from t1
Group by c1,c2,c3
Select * from t2
Group by c1,c2,c3) t3
Group by c1,c2,c3;
从业务逻辑上说，子查询内的group by 怎么都看显得多余（功能上的多余,除非有count(distinct)），如果不是因为hive bug或者性能上的考量(曾经出现如果不子查询group by ，数据得不到正确的结果的hive bug)。所以这个hive按经验转换成
select * from
(select * from t1
Select * from t2
Group by c1,c2,c3;
经过测试，并未出现union all的hive bug,数据是一致的。mr的作业数有3减少到1。
t1相当于一个目录，t2相当于一个目录，那么对map reduce程序来说，t1,t2可以做为map reduce 作业的mutli inputs。那么，这可以通过一个map reduce 来解决这个问题。Hadoop的计算框架，不怕数据多，就怕作业数多。
但如果换成是其他计算平台如oracle，那就不一定了，因为把大的输入拆成两个输入，分别排序汇总后merge(假如两个子排序是并行的话)，是有可能性能更优的（比如希尔排序比冒泡排序的性能更优）。
问题4：比如推广效果表要和商品表关联，效果表中的auction id列既有商品id,也有数字id,和商品表关联得到商品的信息。那么以下的hive sql性能会比较好
Select * from effect a
Join (select auction_id as auction_id from auctions
Select auction_string_id as auction_id from auctions
On a.auction_id = b.auction_id。
比分别过滤数字id,字符串id然后分别和商品表关联性能要好。
这样写的好处,1个MR作业,商品表只读取一次，推广效果表只读取一次。把这个sql换成MR代码的话，map的时候，把a表的记录打上标签a,商品表记录每读取一条，打上标签b，变成两个&key ,value&对，&b,数字id&，&b,字符串id&。所以商品表的hdfs读只会是一次。
问题5：先join生成临时表，在union all还是写嵌套查询，这是个问题。比如以下例子：
From (select *
On t2.id = t3.id
Group by c1,c2;
这个会有4个jobs。假如先join生成临时表的话t5,然后union all，会变成2个jobs。
Insert overwrite table t5
On t2.id = t3.id
Select * from (t1 union all t4 union all t5) ;
hive在union all优化上可以做得更智能（把子查询当做临时表），这样可以减少开发人员的负担。出现这个问题的原因应该是union all目前的优化只局限于非嵌套查询。如果写MR程序这一点也不是问题，就是multi inputs。
问题6：使用map join解决数据倾斜的常景下小表关联大表的问题，但如果小表很大，怎么解决。这个使用的频率非常高，但如果小表很大，大到map join会出现bug或异常，这时就需要特别的处理。云瑞和玉玑提供了非常给力的解决方案。以下例子：
Select * from log a
Left outer join members b
On a.memberid = b.memberid.
Members有600w+的记录，把members分发到所有的map上也是个不小的开销，而且map join不支持这么大的小表。如果用普通的join，又会碰到数据倾斜的问题。
解决方法：
Select /*+mapjoin(x)*/* from log a
Left outer join (select
/*+mapjoin(c)*/d.*
From (select
distinct memberid from log ) c
Join members d
On c.memberid = d.memberid
On a.memberid = b.memberid。
先根据log取所有的memberid，然后mapjoin 关联members取今天有日志的members的信息，然后在和log做mapjoin。
假如，log里memberid有上百万个，这就又回到原来map join问题。所幸，每日的会员uv不会太多，有交易的会员不会太多，有点击的会员不会太多，有佣金的会员不会太多等等。所以这个方法能解决很多场景下的数据倾斜问题。
问题7：HIVE下通用的数据倾斜解决方法,double被关联的相对较小的表，这个方法在mr的程序里常用。还是刚才的那个问题：
* from log a
Left outer join (select
/*+mapjoin(e)*/
memberid, number
From members d
Join num e
On a.memberid=
b.memberid
And mod(a.pvtime,30)+1=b.number。
Num表只有一列number，有30行，是1,30的自然数序列。就是把member表膨胀成30份，然后把log数据根据memberid和pvtime分到不同的reduce里去，这样可以保证每个reduce分配到的数据可以相对均匀。就目前测试来看，使用mapjoin的方案性能稍好。后面的方案适合在map join无法解决问题的情况下。
长远设想，把如下的优化方案做成通用的hive优化方法
1. 采样log表，哪些memberid比较倾斜，得到一个结果表tmp1。由于对计算框架来说，所有的数据过来，他都是不知道数据分布情况的，所以采样是并不可少的。Stage1
2. 数据的分布符合社会学统计规则，贫富不均。倾斜的key不会太多，就像一个社会的富人不多，奇特的人不多一样。所以tmp1记录数会很少。把tmp1和members做map join生成tmp2,把tmp2读到distribute file cache。这是一个map过程。Stage2
map读入members和log，假如记录来自log,则检查memberid是否在tmp2里，如果是，输出到本地文件a,否则生成&memberid,value&的key,value对，假如记录来自member,生成&memberid,value&的key,value对，进入reduce阶段。Stage3.
4. 最终把a文件，把Stage3 reduce阶段输出的文件合并起写到hdfs。
这个方法在hadoop里应该是能实现的。Stage2是一个map过程，可以和stage3的map过程可以合并成一个map过程。
这个方案目标就是：倾斜的数据用mapjoin,不倾斜的数据用普通的join，最终合并得到完整的结果。用hive sql写的话，sql会变得很多段，而且log表会有多次读。倾斜的key始终是很少的，这个在绝大部分的业务背景下适用。那是否可以作为hive针对数据倾斜join时候的通用算法呢？
问题8：多粒度(平级的)uv的计算优化，比如要计算店铺的uv。还有要计算页面的uv,pvip.
Select shopid,count(distinct uid)
Select pageid, count(distinct uid),
由于存在数据倾斜问题，这个结果的运行时间是非常长的。
Insert overwrite table t1 (type=’1’)
Select shopid
Group by shopid ,acookie
Insert overwrite table t1 (type=’2’)
Group by pageid,
Select shopid,sum(1)
Where type =’1’
Select pageid,sum(1)
Where type =’1’
这里使用了multi insert的方法，有效减少了hdfs读，但multi insert会增加hdfs写，多一次额外的map阶段的hdfs写。使用这个方法，可以顺利的产出结果。
Insert into t1
Select type,type_name,’’ as uid
‘page’ as type,
Pageid as type_name,
‘shop’ as type,
Shopid as type_name,
From log ) y
Group by type,type_name,
Insert into t2
Select type,type_name,sum(1)
Group by type,type_
Insert into t3
Select type,type_name,uv
Where type=’page’
Select type,type_name,uv
Where type=’shop’ ;
最终得到两个结果表t3,页面uv表，t4,店铺结果表。从io上来说，log一次读。但比方案2少次hdfs写（multi insert有时会增加额外的map阶段hdfs写）。作业数减少1个到3，有reduce的作业数由4减少到2，第三步是一个小表的map过程，分下表，计算资源消耗少。但方案2每个都是大规模的去重汇总计算。
这个优化的主要思路是，map reduce作业初始化话的时间是比较长，既然起来了，让他多干点活，顺便把页面按uid去重的活也干了，省下log的一次读和作业的初始化时间，省下网络shuffle的io，但增加了本地磁盘读写。效率提升较多。
这个方案适合平级的不需要逐级向上汇总的多粒度uv计算，粒度越多，节省资源越多，比较通用。
问题9：多粒度，逐层向上汇总的uv结算。比如4个维度，a,b,c,d，分别计算a,b,c,d,uv；
a,b,c,a,b,a;uv,total uv4个结果表。这可以用问题8的方案二，这里由于uv场景的特殊性，多粒度，逐层向上汇总，就可以使用一次排序，所有uv计算受益的计算方法。
案例：目前mm_log日志一天有25亿+的pv数，要从mm日志中计算uv，与ipuv,一共计算
三个粒度的结果表
（memberid,siteid,adzoneid,province,uv,ipuv）
（memberid,siteid,adzoneid,uv,ipuv） R_TABLE_3
(memberid,siteid,uv,ipuv) R_TABLE_2
第一步：按memberid,siteid,adzoneid,province,使用group去重,产生临时表，对cookie,ip
打上标签放一起，一起去重，临时表叫T_4;
Select memberid,siteid,adzoneid,province,type,user
Select memberid,siteid,adzoneid,province,‘a’ type ,cookie as user from mm_log where ds=
Select memberid,siteid,adzoneid,province,‘i’ type ,ip as user from mm_log where ds=
) x group by memberid,siteid,adzoneid,province,type,
第二步：排名,产生表T_4_NUM.Hadoop最强大和核心能力就是parition 和 sort.按type，acookie分组，
Type，acookie，memberid,siteid,adzoneid,province排名。
Select * ,
row_number(type,user,memberid,siteid,adzoneid ) as adzone_num ,
row_number(type,user,memberid,siteid ) as site_num,
row_number(type,user,memberid ) as member_num,
row_number(type,user ) as total_num
from (select
* from T_4 distribute by type,user sort by type,user, memberid,siteid,adzoneid )
这样就可以得到不同层次粒度上user的排名，相同的user id在不同的粒度层次上，排名等于1的记录只有1条。取排名等于1的做sum，效果相当于Group by user去重后做sum操作。
第三步：不同粒度uv统计，先从最细粒度的开始统计，产生结果表R_TABLE_4,这时，结果集只有10w的级别。
如统计memberid,siteid,adzoneid,provinceid粒度的uv使用的方法就是
Select memberid,siteid,adzoneid, provinceid,
sum(case when
type =’a’ then cast(1) as bigint end ) as province_uv ,
sum(case when
type =’i’ then cast(1) as bigint end ) as province_ip ,
sum(case when adzone_num =1 and type =’a’ then cast(1) as bigint end ) as adzone_uv ,
sum(case when adzone_num =1 and type =’i’ then cast(1) as bigint end ) as adzone_ip ,
sum(case when site_num =1 and type =’a’ then cast(1) as bigint end ) as site_uv ,
sum(case when site_num =1 and type =’i’ then cast(1) as bigint end ) as site_ip ,
sum(case when member_num =1 and type =’a’ then cast(1) as bigint end ) as member_uv ,
sum(case when member_num =1 and type =’i’ then cast(1) as bigint end ) as member_ip ,
sum(case when total_num =1 and type =’a’ then cast(1) as bigint end ) as total_uv ,
sum(case when total_num =1 and type =’i’ then cast(1) as bigint end ) as total_ip ,
from T_4_NUM
group by memberid,siteid,adzoneid,
广告位粒度的uv的话，从R_TABLE_4统计，这是源表做10w级别的统计
Select memberid,siteid,adzoneid,sum(adzone_uv),sum(adzone_ip)
From R_TABLE_4
Group by memberid,siteid,adzoneid；
memberid,siteid的uv计算，
memberid的uv计算,
total uv 的计算也都从R_TABLE_4汇总。
HIVE调优总结
[Hive]Hive调优：让任务并行执行
Hive常用优化方法
关于Hive优化的四种方法总结
hive入门学习：浅谈hive的常见优化策略
Hive性能调优
hive中sql优化解决策略
Hive性能优化
【性能优化】Hive优化
Hive优化策略
没有更多推荐了，关注Hadoop, Hive, HBase, YARN, Shark, Spark, 大规模数据处理相关的开源项目，数据挖掘，个性化推荐，反作弊诚信...
Hive 常见问题(持续更新。。。)
Q: 是否有像类似于phpmyadmin一样的hive查询客户端，能以界面的方式查询hive语句和导出数据
A: 有的，客户端的话可以使用squirrel来连接hive，squirrel是一个通用的数据库查询客户端，还有有一个开源项目phphiveadmin也不错，
web方式访问hive，我自己也写了一个hive web client()
Q: 执行语句时候，能否控制reducer的个数
A: 可以在执行hive语句之前先 set mapred.reduce.tasks=&number&
Q: 是否可能在输出的时候在结果第一行打印列名
A: 可以在执行hive语句之前先 set hive.cli.print.header=
Q: Hive是否支持跨数据库查询，比如database arch的table1和database algo的table2 进行join
A: 可以，只要有用户有这两张表的select权限即可，用户需要用“database.table”的方式来指定数据库下的表
Q: Hive是否有内置的函数，可以对输出的数据进行处理
A: Hive提供了丰富的内置函数，参见，
用户也可以自己实现自定义的UDF方法来满足更复杂的查询需求
Q: Hive支持exist in么？
A: 不支持，但是可以通过改写语句达到相同的效果，比如对于查询语句：
SELECT a.key, a.value FROM a WHERE a.key in (SELECT b.key FROM B);
可以改写成：
SELECT a.key, a.val
FROM a LEFT SEMI JOIN b on (a.key = b.key)
Q:Hive是否支持本地执行模式
A:Hive支持本地执行模式，当数据量小的时候，本地执行比提交到集群上执行效率提升很大
set hive.exec.mode.local.auto=true(默认false)
当一个job满足如下条件才能真正使用本地模式：
1.job的输入数据大小必须小于参数hive.exec.mode.local.auto.inputbytes.max(默认值128MB)
2.job的map处理的文件数大于参数hive.exec.mode.local.auto.input.files.max(默认值4)
3.job的reduce数必须为0或者1，不管是用户设置的还是系统推测出来的
用参数hive.mapred.local.mem(默认0)来设置local mode下mapper和reducer task jvm heap size
Q: 关键词UNION ALL的用法
A：The number and names of columns returned by each select_statement has to be the same. Otherwise, a schema error is thrown.
UNION ALL两边的字段名，和字段数都必须一致，可以用as xxx来统一字段名，并且目前UNION ALL只能作为子查询
本文链接，转载请注明
Hive常见问题汇总
hadoop、hive常见问题及解决方式
hive常见问题解决。
Hive常见问题及处理方法
Hive遇到的问题（详细总结）
没有更多推荐了，扫一扫体验手机阅读
hive的指令操作及内外临时表的创建
<span type="1" blog_id="1832904" userid='
20篇文章，1W+人气，0粉丝
MySQL全通晓
￥51.00111人订阅
高并发架构之路
￥51.00144人订阅
<span type="1" blog_id="1832904" userid='

hive创建hive 是否临时表表电脑不知道什么原因

我要回帖

更多关于 hive确认临时表的文章

随机推荐

hive创建hive 是否临时表表 电脑不知道什么原因

我要回帖

更多关于 hive确认临时表 的文章

随机推荐

hive创建hive 是否临时表表电脑不知道什么原因

更多关于 hive确认临时表的文章