R语言 统计网格内点数统计表

(window.slotbydup=window.slotbydup || []).push({
id: '2014386',
container: s,
size: '234,60',
display: 'inlay-fix'
&&|&&0次下载&&|&&总47页&&|
您的计算机尚未安装Flash,点击安装&
阅读已结束,如需下载到电脑,请使用积分()
下载:20积分
0人评价47页
0人评价1页
0人评价2页
0人评价47页
0人评价11页
所需积分:(友情提示:大部分文档均可免费预览!下载之前请务必先预览阅读,以免误下载造成积分浪费!)
(多个标签用逗号分隔)
文不对题,内容与标题介绍不符
广告内容或内容过于简单
文档乱码或无法正常显示
文档内容侵权
已存在相同文档
不属于经济管理类文档
源文档损坏或加密
若此文档涉嫌侵害了您的权利,请参照说明。
我要评价:
价格:20积分VIP价:16积分推荐这篇日记的豆列
&&&&&&&&&&&&后使用快捷导航没有帐号?
查看: 4201|回复: 8
R语言基础课程中的MIC指标是啥东西?
高级会员, 积分 976, 距离下一级还需 24 积分
论坛徽章:17
如题,我在上的课程,视频中黄老师提到了一个MIC指标,说是基础课程中提到过的,但是我没有上过那门课,有没有哪位兄弟姐妹指教一下是啥东西到底?谢谢了先~
注册会员, 积分 64, 距离下一级还需 136 积分
论坛徽章:15
MIC所依据的理念是,如果2个变量之间存在着一种关系,那么就应该有一种方法在那些变量的散点图上画一个网格,使得大多数的数据点集中在该网格的几个单元格中。 通过搜寻这种“最适合”的网格,计算机可以计算MIC及一族可用来发现并描绘关系的相关的统计数据。 这一族统计数据被称作“较大的基于信息的非参数性探索” 或MINE。
金牌会员, 积分 2034, 距离下一级还需 966 积分
论坛徽章:12
MIC:the Maximal Information Coefficient,是用网格分法判断数据的集中程度的一个标准。
高级会员, 积分 976, 距离下一级还需 24 积分
论坛徽章:17
jiabiao1602 发表于
MIC:the Maximal Information Coefficient,是用网格分法判断数据的集中程度的一个标准。
哦,好的,多谢老兄指教!
新手上路, 积分 29, 距离下一级还需 21 积分
论坛徽章:7
同问,MIC值的公式是什么?为何它体现一种类似相关关系的作用呢?
新手上路, 积分 28, 距离下一级还需 22 积分
论坛徽章:2
MIC所依据的理念是,如果2个变量之间存在着一种关系,那么就应该有一种方法在那些变量的散点图上画一个网格 ...
有没有这方面的资料??
注册会员, 积分 57, 距离下一级还需 143 积分
论坛徽章:2
同问,有没有这方面的资料阿
注册会员, 积分 164, 距离下一级还需 36 积分
论坛徽章:10
做作业卡住了,还没有搞明白什么是MIC
dataguru.cn All Right Reserved.如何使用R内置的数据集
R在datasets包中提供了100多个可以使用的数据集|通过data()函数加载入内存
dim(data()$results)
data()$results
data()$results[,4]
rivers #北美141条河流长度
state.abb #美国50个州的双字母缩写
state.area #美国50个州的面积
state.name #美国50个州的全称
euro #欧元汇率,长度为11,每个元素都有命名
landmasses #48个陆地的面积,每个都有命名
precip #长度为70的命名向量
state.region #美国50个州的地理分类
state.division #美国50个州的分类,9个类别
矩阵、数组
crimtab #3000个男性罪犯左手中指长度和身高关系
HairEyeColor #592人头发颜色、眼睛颜色和性别的频数
occupatimnalStatus #英国男性父子职业联系
euro.cross #11种货币的汇率矩阵
freeny.x #每个季度影响收入四个因素的记录
state.x77 #美国50个州的八个指标
USPersonalExpenditure #5个年份在5个消费方向的数据
VADeaths #1940年弗吉尼亚州死亡率(每千人)
volcano #某火山区的地理信息(10米×10米的网格)
WorldPhones #8个区域在7个年份的电话总数
iris3 #3种鸢尾花形态数据
Titanic #泰坦尼克乘员统计
UCBAdmissions #伯克利分校1973年院系、录取和性别的频数
Harman74.cor #145个儿童24个心理指标的相关系数矩阵
eurodist #欧洲12个城市的距离矩阵,只有下三角部分
Harman23.cor #305个女孩八个形态指标的相关系数矩阵
BOD #随水质的提高,生化反应对氧的需求(mg/l)随时间(天)的变化
cars #1920年代汽车速度对刹车距离的影响
chickwts #不同饮食种类对小鸡生长速度的影响
esoph #法国的一个食管癌病例对照研究
faithful #一个间歇泉的爆发时间和持续时间
Formaldehyde #两种方法测定甲醛浓度时分光光度计的读数
Freeny #每季度收入和其他四因素的记录
dating from #配对的病例对照数据,用于条件logistic回归
InsectSprays #使用不同杀虫剂时昆虫数目
iris #3种鸢尾花形态数据
LifeCycleSavings #50个国家的存款率
longley #强共线性的宏观经济数据
morley #光速测量试验数据
mtcars #32辆汽车在11个指标上的数据
OrchardSprays #使用拉丁方设计研究不同喷雾剂对蜜蜂的影响
PlantGrowth #三种处理方式对植物产量的影响
airquality #纽约月每日空气质量
anscombe #四组x-y数据,虽有相似的统计量,但实际数据差别较大
attenu #多个观测站对加利福尼亚23次地震的观测数据
attitude #30个部门在七个方面的调查结果,调查结果是同一部门35个职员赞成的百分比
beaver1 #一只海狸每10分钟的体温数据,共114条数据
beaver2 #另一只海狸每10分钟的体温数据,共100条数据
Indometh #某药物的药物动力学数据
Loblolly #火炬松的高度、年龄和种源
Orange #桔子树生长数据
Theoph #茶碱药动学数据
ChickWeight #饮食对鸡生长的影响
CO2 #耐寒植物CO2摄取的差异
DNase #若干次试验中,DNase浓度和光密度的关系
时间序列数据
freeny.y #每季度收入
JohnsonJohnson #年每季度Johnson  Johnson股票的红利
LakeHuron #年某一湖泊水位的记录
lh #黄体生成素水平,10分钟测量一次
lynx #年加拿大猞猁数据
nhtemp #年每年平均温度
Nile #尼罗河流量
nottem #每月大气温度
presidents #年每季度美国总统支持率
UKDriverDeaths #年每月英国司机死亡或严重伤害的数目
sunspot.month #每月太阳黑子数
sunspot.year #每年太阳黑子数
sunspots #每月太阳黑子数
treering #归一化的树木年轮数据
UKgas #每月英国天然气消耗
USAccDeaths #美国每月意外死亡人数
uspop #美国每十年一次的人口总数(百万为单位)
WWWusage #每分钟网络连接数
Seatbelts #多变量时间序列。和UKDriverDeaths时间段相同,反映更多因素。
EuStockMarkets #多变量时间序列。欧洲股市四个主要指标的每个工作日记录,共1860条记录。
airmiles #美国年客运里程营收(实际售出机位乘以飞行哩数)
AirPassengers #Box & Jenkins航空公司年每月国际航线乘客数
austres #澳大利亚每季度人口数(以千为单位)
BJsales #有关销售的一个时间序列
BJsales.lead #前一指标的先行指标(leading indicator)
co2 #年每月大气co2浓度(ppm)
discoveries #年每年巨大发现或发明的个数
ldeaths #年英国每月支气管炎、肺气肿和哮喘的死亡率
fdeaths #前述死亡率的女性部分
mdeaths #前述死亡率的男性部分
阅读(...) 评论() &R语言为Hadoop注入统计血脉-阿里云资讯网
R语言为Hadoop注入统计血脉
发布时间:
更新时间:
来源:网络
上传者:用户
  R是GNU的一个开源工具,具有S语言血统,擅长统计计算和统计制图。由Revolution Analytics发起的一个开源项目RHadoop将R语言与Hadoop结合在一起,很好发挥了R语言特长。广大R语言爱好者强大工具RHadoop,可以在大数据领域大展拳脚,这对R语言程序员来说无疑是个喜讯。作者从一个程序员的角度对R语言和Hadoop做了一次详细的讲解。
  以下为原文:
  写过几篇关于RHadoop的技术性文章,都是从统计的角度,介绍如何让R语言利用Hadoop处理大数据。今天决定反过来,从计算机开发人员的角度,介绍如何让Hadoop结合R语言,能做统计分析的事情。
  R语言介绍
  Hadoop介绍
  为什么要让Hadoop结合R语言?
  如何让Hadoop结合R语言?
  R和Hadoop在实际中的案例
  1. R语言介绍
  R语言,一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发(也因此称为R),现在由“R开发核心团队”负责开发。R是基于S语言的一个GNU计划项目,所以也可以当作S语言的一种实现。R的语法是来自Scheme。
  跨平台,许可证
  R的源代码可自由下载使用,GNU通用公共许可证,可在多种平台下运行,包括UNIX,Linux,Windows和MacOS。R主要是以命令行操作为主,同时支持GUI的图形用户界面。
  R的数字基因
  R内建多种统计学及数字分析功能。因为S的血缘,R比其他统计学或数学专用的编程语言有更强的物件导向功能。
  R的另一强项是绘图功能,制图具有印刷的素质,也可加入数学符号。
  虽然R主要用于统计分析或者开发统计相关的软体,但也有人用作矩阵计算。其分析速度可媲美GNU Octave甚至商业软件MATLAB。
  代码库
  CRAN为Comprehensive R Archive Network的简称。它除了收藏了R的执行档下载版、源代码和说明文件,也收录了各种用户撰写的软件包。全球有超过一百个CRAN镜像站,上万个第三方的软件包。
  R的行业应用
  统计分析,应用数学,计量经济,金融分析,财经分析,人文科学,数据挖掘,人工智能,生物信息学,,全球地理科学,数据可视化。
  商业竞争对手
  SAS:(Statistical Analysis System)是SAS公司推出的用于数据分析和和决策支持的大型集成式模块化软件系统。
  SPSS:(Statistical Product and Service Solutions)是IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称。
  Matlab:(MATrix LABoratory),是MathWorks公司出品的一款商业数学软件。MATLAB是一种用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。
  2. Hadoop介绍
  Hadoop对于计算机的人,都是耳熟能说的技术了。
  Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。
  Hadoop的家族成员:Hive, HBase, Zookeeper, Avro, Pig, Ambari, Sqoop, Mahout, Chukwa
  Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
  Pig: 是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。
  HBase: 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
  Sqoop: 是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
  Zookeeper:是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务
  Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。
  Avro: 是一个数据序列化系统,设计用于支持数据密集型,大批量数据交换的应用。Avro是新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制
  Ambari: 是一种基于Web的工具,支持Hadoop集群的供应、管理和监控。
  Chukwa: 是一个开源的用于监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。
  自2006年,Hadoop以MapReduce和HDFS独立发展开始,到今年2013年不过7年时间,Hadoop的家族已经孵化出多个Apache的顶级项目。特别是最近1-2年,发展速度越来越快,又融入了很多新技术(YARN, Hcatalog, Oozie, Cassandra),都有点让我们都学不过来了。
  3. 为什么要让Hadoop结合R语言?
  前面两章,R语言介绍和Hadoop介绍,让我们体会到了,两种技术在各自领域的强大。很多开发人员在计算机的角度,都会提出下面2个问题。
  问题1: Hadoop的家族如此之强大,为什么还要结合R语言?
  问题2: Mahout同样可以做数据挖掘和机器学习,和R语言的区别是什么?
  下面我尝试着做一个解答:
  问题1: Hadoop的家族如此之强大,为什么还要结合R语言?
  a. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。
  b. R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。
  c. 从a和b两点,我们可以看出,hadoop是全量数据分析,而R语言重点是样本数据分析。 两种技术放在一起,刚好是最长补短!
  d. 模拟场景:对1PB的新闻网站访问日志做分析,预测未来流量变化
  d1:用R语言,通过分析少量数据,对业务目标建回归建模,并定义指标
  d2:用Hadoop从海量日志数据中,提取指标数据
  d3:用R语言模型,对指标数据进行测试和调优
  d4:用Hadoop分步式算法,重写R语言的模型,部署上线
  这个场景中,R和Hadoop分别都起着非常重要的作用。以计算机开发人员的思路,所有有事情都用Hadoop去做,没有数据建模和证明,”预测的结果”一定是有问题的。以统计人员的思路,所有的事情都用R去做,以抽样方式,得到的“预测的结果”也一定是有问题的。
  所以让二者结合,是产界业的必然的导向,也是产界业和学术界的交集,同时也为交叉学科的人才提供了无限广阔的想象空间。
  问题2: Mahout同样可以做数据挖掘和机器学习,和R语言的区别是什么?
  a. Mahout是基于Hadoop的数据挖掘和机器学习的算法框架,Mahout的重点同样是解决大数据的计算的问题。
  b. Mahout目前已支持的算法包括,协同过滤,推荐算法,聚类算法,分类算法,LDA, 朴素bayes,随机森林。上面的算法中,大部分都是距离的算法,可以通过矩阵分解后,充分利用MapReduce的并行计算框架,高效地完成计算任务。
  c. Mahout的空白点,还有很多的数据挖掘算法,很难实现MapReduce并行化。Mahout的现有模型,都是通用模型,直接用到的项目中,计算结果只会比随机结果好一点点。Mahout二次开发,要求有深厚的JAVA和Hadoop的技术基础,兼有 “线性代数”,“概率统计”,“算法导论” 等的基础知识。所以想玩转Mahout真的不是一件容易的事情。
  d. R语言同样提供了Mahout支持的约大多数算法(除专有算法),并且还支持的Mahout不支持的算法,算法的增长速度比mahout快N倍。并且开发简单,参数配置灵活,对小型数据集运算速度非常快。
  虽然,Mahout同样可以做数据挖掘和机器学习,但是和R语言的擅长领域并不重合。集百家之长,在适合的领域选择的技术,才能真正地“保质保量”做软件。
  4. 如何让Hadoop结合R语言?
  从上一节我们看到,Hadoop和R语言是可以互补的,但所介绍的场景都是Hadoop和R语言的分别处理各自的数据。
  一旦市场有需求,自然会有商家填补这个空白。
  1). RHadoop
  RHadoop是一款Hadoop和R语言的结合的产品,由RevolutionAnalytics公司开发,并将代码开源到github社区上面。RHadoop包含三个R包 (rmr,rhdfs,rhbase),分别是对应Hadoop系统架构中的,MapReduce, HDFS, HBase 三个部分。
  2). RHive
  RHive是一款通过R语言直接访问Hive的工具包,是由NexR一个韩国公司研发的。
  3). 重写Mahout
  用R语言重写Mahout的实现也是一种结合的思路,我也做过相关的尝试。
  4).Hadoop调用R
  上面说的都是R如何调用Hadoop,当然我们也可以反相操作,打通JAVA和R的连接通道,让Hadoop调用R的函数。但是,这部分还没有商家做出成形的产品。
  5. R和Hadoop在实际中的案例
  R和Hadoop的结合,技术门槛还是有点高的。对于一个人来说,不仅要掌握Linux, Java, Hadoop, R的技术,还要 软件开发,算法,概率统计,线性代数,数据可视化,行业背景 的一些基本素质。
  在公司部署这套环境,同样需要多个部门,多种人才的的配合。Hadoop运维,Hadoop算法研发,R语言建模,R语言MapReduce化,软件开发,测试等等。。。
  所以,这样的案例并不太多。
  展位未来
  对于R和Hadoop的结合,在近几年,肯定会生成爆发式的增长的。但由于跨学科会造成技术壁垒,人才会远远跟不上市场的需求。
  所以,肯定会有更多的大数据工具,被发明!机会就在我们的手中,也许明天你的创新,就是我们追逐的方向!!
本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:zixun-group@service.aliyun.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。
摘要: 由中国计算机协会(CCF)主办,CCF大数据专家委员会协办,中科院计算所与CSDN共同承办的第七届中国大数据技术大会(Big Data Technology Conference 2013,BDTC 2013) 将于-6日在北京世 &   由中国计算机协会(CCF)主办,CCF大数据专家委员会协办,中科院计算所与CSDN共同承办的第七届中国大数据技术大会(...
摘要: 新浪科技讯 7月25日下午消息,大数据技术公司百分点今日宣布完成第二轮1000万美元融资,投资方为东方星空创投和IDG资本,百分点同时发布新战略,由提供大数据技术进入到大数据管   新浪科技讯 7月25日下午消息,大数据技术公司百分点今日宣布完成第二轮1000万美元融资,投资方为东方星空创投和IDG资本,百分点同时发布新战略,由提供大数据技术进入到大数据管理与应用领域。   成立4年...
摘要: 随着美国中情局前雇员斯诺登将美国的棱镜计划公之于众,全球舆论鼎沸,斯诺登是不是叛国者,美国政府是否违宪,诸如此类的讨论热火朝天。棱镜门为人们反思大数据时代的个人隐 随着美国中情局前雇员斯诺登将美国的“棱镜”计划公之于众,全球舆论鼎沸,斯诺登是不是叛国者,美国政府是否违宪,诸如此类的讨论热火朝天。“棱镜门”为人们反思大数据时代的个人隐私与公共安全提供了一个范本,斯诺登潜逃、引渡以及政治...
阿里大数据梦
摘要: 为了迎接即将到来的大数据时代,各大互联网公司都在争分夺秒。阿里巴巴在公布大数据分享平台之后的半年中,也全面启动了攻势。但即使是这个行业的先行者,离大数据时代也还有 &为了迎接即将到来的大数据时代,各大互联网公司都在争分夺秒。阿里巴巴在公布大数据分享平台之后的半年中,也全面启动了攻势。但即使是这个行业的先行者,离大数据时代也还有不小的距离。& 刚刚过去的2012年,...
投资爱站网
摘要: 最开始知道蔡文胜投资爱站网的消息,是看到老郭在微信朋友圈发布的一条信息,后面看管鹏也有发,应该消息属实。 如图:5月30日老郭微信第一时间爆料,蔡文胜投资爱站的消息 消 最开始知道蔡文胜投资爱站网的消息,是看到老郭在微信朋友圈发布的一条信息,后面看管鹏也有发,应该消息属实。 如图:5月30日老郭微信第一时间爆料,蔡文胜投资爱站的消息 & & 消息经老郭和管鹏第一时...
摘要: 去年是云计算,今年是大数据。作为时下最流行的信息化标志,如今每个行业都在为自己具备大数据能力而作出努力。一时间,似乎不说自己有大数据基因,或者正在做着大数据相关的 去年是“云计算”,今年是“大数据”。作为时下最流行的信息化“标志”,如今每个行业都在为自己具备“大数据”能力而作出努力。一时间,似乎不说自己有“大数据”基因,或者正在做着“大数据”相关的事情,都觉得自己赶不上潮流了。但是最...
若您要投稿、删除文章请联系邮箱:zixun-group@service.aliyun.com,工作人员会在5个工作日内回复。
售前咨询热线
支持与服务
资源和社区
关注阿里云
International

我要回帖

更多关于 信息点数统计表 的文章

 

随机推荐