r语言数据挖掘剔除异常值之后怎么对新数据作图

苹果/安卓/wp
积分 1177, 距离下一级还需 198 积分
权限: 自定义头衔, 签名中使用图片, 隐身
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡, 抢沙发下一级可获得
权限: 设置帖子权限道具: 提升卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
苦逼签到天数: 2 天连续签到: 1 天[LV.1]初来乍到
请教诸位大佬:
我用R的par和plot绘制出下图,如其所示,残差图中明显的点是9,105,53;而Cook‘s distance中有一个80;我是先删除的残差图中的三个点,结果按下葫芦浮起瓢,又出来了一批新异常值,然后我再想删后来这些异常值时,发现程序没有反应了,请问:
1).这是怎么回事?难道R只能删除3个异常值么?
2).删除异常值有没有批量删除的命令?我是用a=a[-105],lm2=...,plot(...)这样三行命令一个个的删除,好麻烦啊;
3).删除异常值,是先删残差图里的,再删Q-Q图和Cook‘s distance中的?还是删四个图中都出现的异常值呢?
谢谢了!!
载入中......
(45.94 KB)
10:26:39 上传
呃,依然没有大牛回答么。。。。
你的回归诊断图效果不是很好,可能所采用模型并不是最合适的,有可能不是线形的等。另外根据你的cook距离图,你可以试着删除那三个异常点重新进行模型分析。
你好,我也是出现了类似的问题,我们可以交流一下吗
你的图反映了 你目前的模型不是很适合&&残差图中残差太集中&&有明显的趋势,第二个qq图两边拟合不好&&不符合正态性&&总之问题很大
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
论坛法律顾问:王进律师实验数据异常值的剔除方法_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
实验数据异常值的剔除方法
阅读已结束,下载文档到电脑
想免费下载更多文档?
定制HR最喜欢的简历
你可能喜欢用R语言做数据分析——回归诊断之异常值观测(二)用R语言做数据分析——回归诊断之异常值观测(二)全球谈事百家号强影响点强影响点,即对模型参数估计值影响有些比例失衡的点。例如、若移除模型的一个观测点时模型会发生巨大的改变,那么你就需要检测一下数据中是否存在强影响点了。有两种方法可以检测强影响点:Cook距离,或称D统计量,以及变量添加图。一般说来,Cook's D值大于4/(n-k-1),则表明它是强影响点,其中n为样本量大小,k是预测变量数目。可通过如下代码绘制Cook's D图形:& states&-as.data.frame(state.x77[,c(&Murder&,&Population&,&Illiteracy&,&Income&,&Frost&)])& fit&-lm(Murder~Population+Illiteracy+Income+Frost,data=states)& cutoff &- 4/(nrow(states)-length(fit$coefficients)-2)& plot(fit,which=4,cook.levels=cutoff)& abline(h=cutoff,lty=2,col=&red&)通过图形可以判断Alaska、Hawaii和Nevada是强影响点。若删除这些点,将会导致回归模型截距项和斜率发生显著变化。注意,虽然该图对搜寻强影响点很有用。但是在数据分析实践中以1为分割点比4/(n-k-1)更具一般性。若设定D=1为判别标准,则数据集中没有点看起来像是强影响点。Cook's D图有助于鉴别强影响点,但是并不提供关于这些点如何影响模型的信息。变量添加图弥补了这个缺陷。对于一个响应变量和k个预测变量,可以创建k个变量添加图。所谓变量添加图,即对于每个预测变量Xk,绘制Xk在其他k-1个预测变量上回归的残差值相对于响应变量在其他k-1个预测变量上回归的残差值的关系图。car包中的avPlots()函数可提供变量添加图:图形一次生成一个,用户可以通过单击点来判断强影响点。按下Esc,或从图形菜单中选择Stop,或右击,便可移动到下一个图形。图中的直线表示相应预测变量的实际回归系数。你可以想象删除某些强影响点后直线的改变,以此估计它的影响效果。例如,左下角的图(&Murder|others& VS &Income|others&),若删除点Alaska,直线将往负向移动。事实上,删除Alaska,Income的回归系数将会从0.00006变为-0.00085。利用car包中的influencePlot()函数,还可以将离群点、杠杆值和强影响点的信息整合到一幅图中。& influencePlot(fit,id.method = &identify&,main=&Influence Plot&,sub=&circle size is proportional to Cook's distance&)其中,纵坐标超过+2或小于-2的州可被认为是离群点,水平轴超过0.2或0.3的州有高杠杆值(通常为预测值的组合)。圆圈大小与影响成比例,圆圈很大的点可能是对模型参数的估计造成的不成比例影响的强影响点。根据上述看图规则,可得出结论: Nevada和Rhode Island是离群点,New York、California、Hawaii和Washington有高高刚杆子,Nevada、Alaska和Hawaii为强影响点。本文仅代表作者观点,不代表百度立场。系作者授权百家号发表,未经许可不得转载。全球谈事百家号最近更新:简介:缤纷的时间,宠物才是最可爱作者最新文章相关文章异常值(outlier)的判别与剔除(rejection)
异常值outlier:指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值。
对于多次重复测定的数据值,异常值常用的统计识别与剔除法有:
拉依达准则法(3δ):简单,无需查表。测量次数较多或要求不高时用。是最常用的异常值判定与剔除准则。但当测量次数《=10次时,该准则失效。
μσμ3σ或小于μ3σ数据值的概率是很小的。因此,根据上式对于大于μ3σ或小于μ3σ的实验数据值作为异常值,予以剔除。具体计算方法参见
在这种情况下,异常值是指一组测定值中与的超过两倍的测定值。与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在处理时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定。在统计检验时,指定为检出异常值的显著性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显著性水平α=0.01,称为舍弃水平,又称剔除水平(reject
标准化数值(Z-score)可用来帮助识别异常值。Z分数标准化后的数据服从正态分布。因此,应用Z分数可识别异常值。我们建议将Z分数低于-3或高于3的数据看成是异常值。这些数据的准确性要复查,以决定它是否属于该数据集。
肖维勒准则法(Chauvenet):经典方法,改善了拉依达准则,过去应用较多,但它没有固定的概率意义,特别是当测量数据值n无穷大时失效。
狄克逊准则法(Dixon):对数据值中只存在一个异常值时,效果良好。担当异常值不止一个且出现在同侧时,检验效果不好。尤其同侧的异常值较接近时效果更差,易遭受到屏蔽效应。
罗马诺夫斯基(t检验)准则法:计算较为复杂。
格拉布斯准则法(Grubbs):和狄克逊法均给出了严格的结果,但存在狄克逊法同样的缺陷。朱宏等人采用数据值的中位数取代平均值,改进得到了更为稳健的处理方法。有效消除了同侧异常值的屏蔽效应。国际上常推荐采用格拉布斯准则法。
&另请阅读:如何用SPSS探测及检验异常值(待。。。)
&&&&&&&&&&
缺失数据值的弥补(待。。。)
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 r语言导入数据作图 的文章

 

随机推荐