本节书摘来自华章出版社《R语言與数据挖掘最佳实践和经典案例》一 书中的第1章第1.3节,作者:(澳)Yanchang Zhao更多章节内容可以访问云栖社区“华章计算机”公众号查看。
本節简单地介绍本书中将要使用到的数据集
在许多的科研著作中都在iris数据集上做分类操作。该数据集由3种不同类型的鸢尾花的50个样本数据構成 [Frank and Asuncion2010]。其中的一个种类与另外两个种类是线性可分离的后两个种类是非线性可分离的。这个数据集包含了5个属性:
Bodyfat数据集由mboost包[Hothorn et al.2012]提供。该数据集包含71行每一行代表一个客户的信息。数据集包含10列数值型数据
DEXfat:以DXA计算的体脂重,响应变量
anthro3a:三项人体测量的对数和。
anthro3b:三项人体测量的对数和
anthro3c:三项人体测量的对数和。
anthro4:三项人体测量的对数和
DEXfat的值可通过其他的变量预测得到。