怎样统计被linux cat 创建文件的cat

博客分类:
本文转自http://www.taobaotesting.com/blogs/2468,原文分层抽样的逻辑不是很清楚,按照自己的想法重新实现个
算法中可能会需要做抽样。用hive实现了随机抽样中简单随机、系统和分层抽样的方式,记得抽样的概念还是初中数据接触的
其实很多时候不需要理论,想也是可以想到的,不过还是总结一下
&& 0.测试表:
&&
drop table songpo_
create table if not exists songpo_test
refund_id string,
user_id string,
gmt_create string
partitioned by(pt string)
row format delimited
fields terminated by ','
lines terminated by '\n' STORED AS SEQUENCEFILE;
&& 1. 简单随机抽样 (rand()) 从表中,随机打标,排序,随机抽取100个用户数据
&&&&&&& 步骤 1). 给每行记录一个相同的标记
&&&&&&&&&&&& 2). 排序,取前100
&&&&&&&
select user_id,flag from (select user_id,'1' as flag from songpo_test) x
distribute by user_id sort by user_id,flag desc
where row_number(user_id)&=100;
&& 2.系统抽样 mod,rand() 依照userrid取模,分5组,每组随机抽取100个用户,实现如:
&&&&&&&&&&&&&&& 1). 依据user_id,取模,获取 mod_numd
&&&&&&&&&&&&&&& 2). 在mod_num组内然后随机排序,
&&&&&&&&&&&&&&& 3). 从各组取出20条
select refund_id,user_id,mod_num,rank_num from (select refund_id,user_id,cast(10+rand()*100 as double) rank_num,user_id%5 as mod_num from songpo_test)
distribute by mod_num sort by mod_num,rank_num desc
where row_number(mod_num)&=20;
&
& 3.分层抽样&& 按照每个组的记录数来分层抽样。假设需要抽取EXTRA_NUM条记录
&&&&&&&&&&&&&&& 1). 计算每个分区需要抽记录条数
&&&&&&&&&&&&&&& 2). 在mod_num组内然后随机排序,
&&&&&&&&&&&&&&& 3). 从各组取出cat_extra_num条&
&&&&&&&&&&
drop table test_data_extra_
create table test_data_extra_indexs as
select a.cat_id,cat_num,all_num,cat_num/all_num as extra_lv,(cat_num/all_num)*'EXTRA_NUM'
as cat_extra_num,c.refund_id,c.user_id,c.org_id from
(select cat_id,count(1) as cat_num,'1' as key from songpo_test group by cat_id) a
(select '1' as key,count(1) as all_num from songpo_test) b
on a.key=b.key
(select * from songpo_test) c
on a.cat_id=c.cat_
select refund_id,user_id,cat_id,mod_num,rank_num from
select refund_id,user_id,cat_id,cast(10+rand()*100 as double) rank_num,user_id%5 as mod_num,cat_extra_num from(
(select refund_id,user_id,cat_id,cast(10+rand()*100 as double) rank_num,user_id%5 as mod_num from test_data_extra_indexs)
distribute by mod_num sort by mod_num,rank_num desc
where row_number(mod_num)&=20;
浏览: 176213 次
来自: 杭州
学习了。http://surenpi.com
String[] tools = StringUtils. ...
请问这种情况下python脚本里面怎么打counter呢?通常 ...
print '\t'.join([foo, strmap])+ ...
(window.slotbydup=window.slotbydup || []).push({
id: '4773203',
container: s,
size: '200,200',
display: 'inlay-fix'概率论与数理统计笔记 第一章 概率论的基本概念概率论与数理统计笔记(计算机专业) 作者: 新浪微博:@catpub课程:中国大学MOOC浙江大学概率论与数理统计部分平台可能无法显示公式,若公式显示不正常可以前往CSDN或作业部落进行查看第0讲 绪论
第1讲 样本空间,随机事件
只有一个元素
不可能事件
第2讲 事件的相互关系及运算
事件的关系
不相容事件,互斥事件
事件关系满足交换律,结合律,德摩根率
基本的运算规律
第3讲 频率
第4讲 概率
直观定义:随机事件发生的稳定值,记为
概率的性质(前三条为概率的公理化定义)
可列可加性
概率的加法公式
第5讲 等可能概型(古典概型)
先抽后抽概率相等
第6讲 条件概率
第7讲 全概率公式与贝叶斯公式
全概率公式
若是的划分(离散数学中的概念),则
关键在于能否构造一个合适的划分
原理是分情况讨论
贝叶斯公式
A是后验概率,B是先验概率。贝叶斯公式描述了先验概率已知的情况下,后验概率对先验概率的修正。
直观理解:癌症检查中,已知一个人有患癌症的可能,那么后验概率(检查结果)对先验概率(检查前患癌症的可能)的修正,可以增加或减少这个人患癌症的概率。也即医院检查可以(一定概率上)确诊。
作者拓展:贝叶斯公式在推荐算法上(如搜索引擎排序)具有重要应用,它可以通过用户的点击修正推荐排序结果
第8讲 事件的独立性
事件的独立性常常通过实际情况来判断
公理化定义
对事件组 ,若他们相互独立,则必有
注意,若三个事件两两独立,不能推出三个事件相互独立
相互独立,则 ,, 也相互独立
小概率事件
小概率事件在一次实验中几乎不发生
但在大规模重复实验中,至少有一次发生的概率非常高
作者拓展:三门问题
三门问题(Monty Hall problem)亦称为蒙提霍尔问题、蒙特霍问题或蒙提霍尔悖论,大致出自美国的电视游戏节目Let's Make a Deal。问题名字来自该节目的主持人蒙提·霍尔(Monty Hall)。参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门可赢得该汽车,另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,节目主持人开启剩下两扇门的其中一扇,露出其中一只山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。问题是:换另一扇门会否增加参赛者赢得汽车的机率?如果严格按照上述的条件,即主持人清楚地知道,哪扇门后是羊,那么答案是会。不换门的话,赢得汽车的几率是1/3。换门的话,赢得汽车的几率是2/3。
这个问题亦被叫做蒙提霍尔悖论:虽然该问题的答案在逻辑上并不自相矛盾,但十分违反直觉。这问题曾引起一阵热烈的讨论。
问题的关键在于主持人已知哪个门后有羊,他的行为(排除一个错误答案)改变了赢得汽车的概率。
添加新批注
在作者公开此批注前,只有你和作者可见。
查看更早的 5 条回复&nbsp>&nbsp
&nbsp>&nbsp
&nbsp>&nbsp
8 文本查看、处理与统计分析
摘要:文本查看catcat[OPTION]...[FILE]...该命令用于正向查看文本文件,但不可分页,一次性显示完成参数说明参数说明-E显示行结束符$-n对显示出的每一行进行编号-A显示所有控制符-b非空行编号-s压缩连续的空行成一行-T显示tab为^I示例tactac[OPTION]...[FILE]...该命令用于将文件已行为单位的反序输出,即第一行最后显示,最后一行先显示,不可分页,一次性显示完成(行内顺序不变)示例参考rev[tes
文本查看 cat cat [OPTION]... [FILE]...该命令用于正向查看文本文件,但不可分页,一次性显示完成
参数说明 参数 说明 -E 显示行结束符$ -n 对显示出的每一行进行编号 -A 显示所有控制符 -b 非空行编号 -s 压缩连续的空行成一行 -T 显示tab为^I
tac tac [OPTION]... [FILE]...该命令用于将文件已行为单位的反序输出,即第一行最后显示,最后一行先显示,不可分页,一次性显示完成(行内顺序不变)
testdir]# cat f2abcdefabcdef[1..10]1 2 3 4 5 6 7 8 9 10[
testdir]# rev f2fedcbafedcba]01..1[01 9 8 7 6 5 4 3 2 1 more more [OPTIONS...] FILE... 1)-d: 显示翻页及退出提示 2)分页查看文件,不支持向上翻页,空格想下翻页 less 该命令用于一页一页地查看文件或STDIN输出。less 命令是man命令使用的分页器。
翻屏快捷键 向后翻一屏 :space向前翻一屏 :b向后翻半屏 :d向前翻半屏 :u向后翻一行 :enter向前翻一行 :k / y退出 :q跳转到第?行:#回到文件首部:1G回到文件尾部:G
查找 /KEYWORD:向后搜索?KEYWORD:向前搜索n :下一个N :前一个退出 :q head head [OPTION]... [FILE]... #-------------------------------------------------------------------# 1) -c #: 指定获取前#字节#-------------------------------------------------------------------[
testdir]# head -c 10 passwd root:x:0:0#-------------------------------------------------------------------# 2) -n #: 指定获取前#行#-------------------------------------------------------------------[
testdir]# head -n 2 passwd root:x:0:0:root:/root:/bin/bashbin:x:1:1:bin:/bin:/sbin/nologin#-------------------------------------------------------------------# 2) -# :指定行数#-------------------------------------------------------------------[
testdir]# head -2 passwd root:x:0:0:root:/root:/bin/bashbin:x:1:1:bin:/bin:/sbin/nologin#-------------------------------------------------------------------# 3) -q :结果不打印文件名(默认)#-------------------------------------------------------------------[
testdir]# head -2 -q passwd root:x:0:0:root:/root:/bin/bashbin:x:1:1:bin:/bin:/sbin/nologin#-------------------------------------------------------------------# 4) -v :结果打印文件名#-------------------------------------------------------------------[
testdir]# head -2 -v passwd ==& passwd &==root:x:0:0:root:/root:/bin/bashbin:x:1:1:bin:/bin:/sbin/nologin tail tail [OPTION]... [FILE]... #-------------------------------------------------------------------# 1) -c #: 指定获取前#字节#-------------------------------------------------------------------[
testdir]# tail -c 14 passwdgod is a girl#-------------------------------------------------------------------# 2) -n #: 指定获取前#行#-------------------------------------------------------------------[
testdir]# tail -n 1 passwd god is a girl#-------------------------------------------------------------------# 3) -# :指定行数#-------------------------------------------------------------------[
testdir]# tail -1 passwd god is a girl#-------------------------------------------------------------------# 4) -f : 跟踪显示文件新追加的内容,常用日志监控#-------------------------------------------------------------------[
testdir]# tail -f passwdliang:x::liang:/home/liang:/bin/bashwangcai:x::wangcai,tiantang,110,120:/home/wangcai:/bin/cshgod is a girl#-------------------------------------------------------------------# 5) 监控日志信息,并将其放到后台,不影响前台执行命令#-------------------------------------------------------------------[
testdir]# tail -n 0 -f /var/log/messages &; ### 监控并扔到后台[2] 4497[
testdir]# Aug 5 10:21:29 centos7 root: this is 4test ### 日志变化后,立刻显示[
testdir]# jobs ### 查看任务???[1]- Running tail -f /var/log/messages &;[2]+ Running tail -n 0 -f /var/log/messages &;[
testdir]# fg 1 ### ???tail -f /var/log/messages^C 文本抽取与合并 cut cut [OPTION]... [FILE]... #-------------------------------------------------------------------# 1) -d DELIMITER: 指明分隔符,默认tab# 2) -f FILEDS:# #: 第#个字段# #,#[,#]:离散的多个字段,例如1,3,6# #-#:连续的多个字段, 例如1-6# 混合使用:1-3,7# 3) -c 按字符切割# 4) --output-delimiter=STRING指定输出分隔符#-------------------------------------------------------------------[
testdir]# tail -1 passwd god is a girl[
testdir]# tail -1 passwd |cut -d& & -f1-3 --output-delimiter=%god%is%a[
testdir]# tail -1 passwd | cut -c10-13 girl paste paste [OPTION]... [FILE]... #-------------------------------------------------------------------# -d 分隔符 : 指定分隔符,默认用TAB# -s : 所有行合成一行显示#-------------------------------------------------------------------[
testdir]# echo &life is & & f3[
testdir]# echo &good& & f4[
testdir]# paste -d&*& f3 f4life is *good[
testdir]# paste -d&*& -s f3 f4life is good[
testdir]# paste f3 f4life is good[
testdir]# paste -s f3 f4life is good 文本统计与分析 wc 用于统计输入的单词总数、行总数、字节总数和字符总数,可对文件或STDIN中的数据运行。 参数 说明 -l 只计数行数 -w 只计数单词总数 -c 只计数字节总数 -m 只计数字符总数 $ wc story.txt 39 237 1901 story.txt行数 单词数 字符数 文件名 sort sort [options] file(s)把整理过的文本显示在STDOUT,不改变原始文件 参数 说明 -r 执行反方向(由上至下)整理 -n 执行按数字大小整理 -f 选项忽略(fold)字符串中的字符大小写 -u 选项(独特,unique)删除输出中的重复行 -t c 选项使用c做为字段界定符 -k X 选项按照使用c字符分隔的X列来整理能够使用多次 #-------------------------------------------------------------------# 将passwd用:分隔,将第三列按照数字进行排序#-------------------------------------------------------------------[
testdir]# cat passwd | sort -n -t: -k3root:x:0:0:root:/root:/bin/bashbin:x:1:1:bin:/bin:/sbin/nologindaemon:x:2:2:daemon:/sbin:/sbin/nologinadm:x:3:4:adm:/var/adm:/sbin/nologin
uniq uniq [OPTION]... [FILE]...uniq命令:从输入中删除重复的前后相接的行,常和sort 命令一起配合使用:sort userlist.txt | uniq -c 参数 说明 -c 显示每行重复出现的次数; -d 仅显示重复过的行; -u 仅显示不曾重复的行;连续且完全相同方为重复 [
testdir]# cat /etc/init.d/functions |tr -cs &[:alpha:]& '/n'|sort|uniq -c|sort -nr 67 pid 55 if 54 file 51 echo[
testdir]# df|tr -s & & |sort -nr -t& & -k5|cut -d& & -f%1%1%Use%0%[
testdir]# cat passwd |sort -nr -t: -k3|head -1|cut -d: -f1,3,7nfsnobody:/sbin/nologin diff &; patch diff用于比较两个文件的差异,patch则可以用于通过差异和一个文件恢复另一个文件。这两个命令与git的命令很类似,可用于版本管理。 [
testdir]# echo &god is a girl.& & f1[
testdir]# echo &got is A garl.& & f2[
testdir]# diff f1 f2 |tee diff ### 比较f1与f2的差异1c1& god is a girl.---& got is A garl.[
testdir]# diff -u f1 f2 & diff ### 比较f1,f2,并将差异导出为patch文件[
testdir]# cat diff --- f 16:22:35. +0800 ### -代表f1+++ f 16:22:52. +0800 ### +代表
@ -1 +1 @@ ### 第一行有不同-god is a girl. ### f1的第一行内容+got is A garl. ### f2的第一行内容[
testdir]# rm -f f2 ### 删除f2[
testdir]# cp f1 f1.bak ### 将f1备份[
testdir]# patch -b f1 diff ### 通过f1、diff恢复f2,恢复后名为f1,覆盖原f1,故要备份bash: patch: command not found... ### CentOS7可以man出patch命令,但不可执行,CentOS6可以[
~]# patch -b f1 diff ### CentOS6执行patch恢复的结果patching file f1[
~]# cat f1got is A garl.
以上是的内容,更多
的内容,请您使用右上方搜索功能获取相关信息。
若你要投稿、删除文章请联系邮箱:zixun-group@service.aliyun.com,工作人员会在五个工作日内给你回复。
云服务器 ECS
可弹性伸缩、安全稳定、简单易用
&40.8元/月起
预测未发生的攻击
&24元/月起
为您提供0门槛上云实践机会
你可能还喜欢
你可能感兴趣
阿里云教程中心为您免费提供
8 文本查看、处理与统计分析相关信息,包括
的信息,所有8 文本查看、处理与统计分析相关内容均不代表阿里云的意见!投稿删除文章请联系邮箱:zixun-group@service.aliyun.com,工作人员会在五个工作日内答复
售前咨询热线
支持与服务
资源和社区
关注阿里云
International豆丁微信公众号
君,已阅读到文档的结尾了呢~~
基于LINUX的操作系统实验教程帮助,操作系统,操作 系统,Linux,反馈意见
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
基于LINUX的操作系统实验教程
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='http://www.docin.com/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口在 SegmentFault,学习技能、解决问题
每个月,我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。
问题对人有帮助,内容完整,我也想知道答案
问题没有实际价值,缺少关键内容,没有改进余地
做搜索的时候。filed有type。标记数据的分类。比如cate1、cate2、cate3。
搜索时sphinx如何只返回 cate1: 122, cate2: 111, cate3: 333
即,cate1有数据122条,cate3有数据111条,cate3有333条数据。
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
貌似是没有的,必须先执行search才能查找到匹配的数量。如果你确实不想返回相应记录,可以limit(1),然后读取结果的totol_count。如果想同时返回cate1、cate2、cate3的匹配数量,sphinx的客户端都封装有batch query方式,同时执行多个查询。
同步到新浪微博
分享到微博?
关闭理由:
删除理由:
忽略理由:
推广(招聘、广告、SEO 等)方面的内容
与已有问题重复(请编辑该提问指向已有相同问题)
答非所问,不符合答题要求
宜作评论而非答案
带有人身攻击、辱骂、仇恨等违反条款的内容
无法获得确切结果的问题
非开发直接相关的问题
非技术提问的讨论型问题
其他原因(请补充说明)
我要该,理由是:
在 SegmentFault,学习技能、解决问题
每个月,我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。

我要回帖

更多关于 创建百度词条toolcat 的文章

 

随机推荐