在对经典数据集adult数据集进行分析中,如何用R语言考察收入分类跟哪些因素有关说一下分析的思路

本节书摘来自华章出版社《R语言與数据挖掘最佳实践和经典案例》一 书中的第1章第1.3节,作者:(澳)Yanchang Zhao更多章节内容可以访问云栖社区“华章计算机”公众号查看。

本節简单地介绍本书中将要使用到的数据集

在许多的科研著作中都在iris数据集上做分类操作。该数据集由3种不同类型的鸢尾花的50个样本数据構成 [Frank and Asuncion2010]。其中的一个种类与另外两个种类是线性可分离的后两个种类是非线性可分离的。这个数据集包含了5个属性:

Bodyfat数据集由mboost包[Hothorn et al.2012]提供。该数据集包含71行每一行代表一个客户的信息。数据集包含10列数值型数据
DEXfat:以DXA计算的体脂重,响应变量
anthro3a:三项人体测量的对数和。
anthro3b:三项人体测量的对数和
anthro3c:三项人体测量的对数和。
anthro4:三项人体测量的对数和
DEXfat的值可通过其他的变量预测得到。

目的:为了使结果更易解读数據分析人员通常会对数据集进行标注

形式:通常这种标注包括为变量名添加描述性标签以及为类别型变量中添加值标签

方法是将变量标签莋为变量名,然后通过 位置下标来访问这个变量

factor()可为类别型变量创建值标签

这里levels代表变量的实际值而labels表示包含了理想值标签的字符型向量

本文使用pcalg包做贝叶斯网络结构的學习

安装pcalg包时由于有些依赖包已经被CRAN撤掉所以安装起来有些技巧。

我们使用iris数据集进行学习这是┅个针对连续变量的结构学习的例子:

该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K/year该数据集类變量为年收入是否超过50k$,属性变量包含年龄工种,学历职业,人种等重要信息值得一提的是,14个属性变量中有7个类别型变量

对于離散数据,我们使用G2统计量来检验条件独立性
接来下探索一下,教育婚姻状态,职业收入的关系是怎样的:

作为分享主义者(sharism),本人所有互联网发布的图文均遵从CC版权转载请保留作者信息并注明作者a专栏:,如果涉及源代码请注明GitHub地址:商业使用请联系作者。

我要回帖

更多关于 adult数据集 的文章

 

随机推荐