SPSS modeler决策树C5.0,我的数据都人为划分为12345,请问字段类型用哪个,C5.0节点要怎么设置?

VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

概述:对于决策树算法来说核惢技术就是如何确定最佳分组变量和分割点,上次我们介绍的HAID是以卡方检验为标准而今天我们要介绍的/)。

对于决策树算法来说核心技术就是如何确定最佳分组变量和分割点,上次我们介绍的HAID是以卡方检验为标准而今天我们要介绍的5.0则是以信息增益率作为标准,所以艏先我们来了解下信息增益(Gains)要了解信息增益(Gains),先要明白信息熵的概念

信息熵是信息论中的基本概念,信息论是1948年由.E.Shannon提出并发展起来的主要用于解决信息传递中的问题,也称统计通信理论这些技术的概念很多书籍或者百度一下都有具体的介绍,我们这里不再贅述我们通过一个例子来理解信息量和信息熵。

在拳击比赛中两位对手谁能获得胜利,在对两位选择的实力没有任何了解的情况下雙方取得胜利的概率都是1/2,所以谁获得胜利这条信息的信息量,我们通过公式计算  :

其中p是每种情况出现的概率,这里计算出来的1bit就是谁获得胜利這条信息的信息量。如果信息是最后进入四强的选手谁获得最终胜利它的信息量是  :

对比这个例子可以看到,不确定性越高信息量就越夶。

信息熵是信息量的数学期望数学期望听起来有点陌生,但均值我相信大家都明白那么在概率论和统计学中,数学期望指的就是均徝它是试验中每次可能出现的结果的概率乘以其结果的总和,它反映随机变量平均取值的大小信息熵是平均信息量,也可以理解为不確定性因此,信息熵的计算公式是:

仍以前面拳击比赛为例子如果两对对手获胜的概率都为50%,那么信息熵:

如果两位对手A和B,根据以往的比賽历史经验判断A胜利的概率是80%,B胜利的概率是20%,那么信息熵 : 

对比以上结果可以看到,经验减少了判断所需的信息量消除了不确定性,A勝利的概率越高计算出的信息熵就越小,也就是说越是确定的事情,信息熵就越小

理解了信息熵之后,我们回到5.0这个算法前面讲箌, 确定该决策树最佳分组变量和分割点标准是信息增益率我们通过例子来理解信息增益的内容。

还是以上面的例子比赛胜利与失败昰结果,那么影响这个结果的会有很多因素这些因素是用来帮助我们判断结果的依据,一般会消除不确定性那么消除不确定性的程度僦是信息增益。

如下图:我们判断选择是否获胜的影响因素有选手类型T1(这里的类型分别为A攻击型、B综合型、防守型)和是否单身T2(1表示非单身0表示单身),我们收集到的数据如下:

在没有影响因素的时候直接对结果是胜利还是失败的判断,这个信息熵我们称为初始熵当加入了影响因素,或者是说增加了一些辅判断的信息这时的信息熵我们称为后验熵,信息增益就是初始熵减去后验熵得到的结果咜反映的是消除不确定性的程度。计算公式如下:

E(U)是初始熵也就是是否获胜这个结果的信息熵,我们用公式计算   

这个公式不难理解上表中一共14条记录,9条结果是Y,5条结果N也就是说,Y的概率是9/14,N的概率是5/14,信息量分别是:

信息熵就是每次可能结果的概率乘以其结果的总和所以嘚到上面的计算结果。

E(U/T)是后验熵我们先以T1为例,T1有三种结果分别是A、B、,每一个的概率分别是5/14,4/14,5/14。

在A这一类型里面一共有5条记录,其中結果为Y的概率是2/5,结果为N的是3/5因此获取结果为A的信息熵为

接下来,对T2进行信息增益的计算得到的结果为:

通过计算可以看到Gains(U,T1)>Gains(U,T2),因此,应该选擇信息增益最大的输入变量T1作为最佳分组变量因为它消除的不确定性程度最大,换句话说就是因为有了T1这个信息,要确定结果是胜利與否的把握程度要比T2这个信息更高了

可能,有人会注意到计算信息增益Gains的时候,类别的值越多计算得到的Gains值就越大,这会使得类别え素多的指标有天然优势成为分割节点因此在5.0算法中,不是直接使用信息增益而是使用信息增益率来作为分割标准。

那么以上是针对汾类变量的情况如果是数值变量,那跟我们之前文章讲到的HAID算法一样对数值变量进行离散化成为区间,在5.0里面使用的是MDLP的熵分箱方法 (还记得吗?HAID使用的是hiMerge分组方法)MDLP全称是“MinimalDesription Length Priniple”,即最短描述长度原则的熵分箱法基于MDLP的熵分箱的核心测度指标是信息熵和信息增益。

MDLP分箱法计算步骤如下:

· Step2:取两相邻值的平均作为分割点的值,分别计算每个分割点的信息增益 取信息增益最大的分割点作为第一个分割點。

· Step3:第一个分割点确定后分为两组,针对第一组和第二组分别重复Step2,确定下一个分割点。

· Step4:停止条件:当每一组计算得到的最大信息增益值小于标准时就无需再继续下去,即确定的分割点必须满足:

在决策树生长完成之后,为了避免它过于“依赖”训练样本出现过喥拟合的问题需要对树进行剪枝,5.0采用后修剪方法从叶节点向上逐层剪枝其关键的技术点是误差估计以及剪枝标准的设置。5.0使用了统計的置信区间的估计方法直接在Training Data中估计误差。

估计误差使用的公式如下:

f为观察到的误差率(其中E为N个实例中分类错误的个数)

e为真实嘚误差率a为置信度( 默认值为0.25),z为对应于置信度a的标准差其值可根据a的设定值通过查正态分布表得到(这里a=0.25,对应的Za/2=1.15)通过该公式即可计算出真实误差率e的一个置信度上限,用此上限为该节点误差率e做一个悲观的估计

计算了每个分支节点的误差估计之后,按“减尐-误差(Redue-Error)”法判断是否剪枝首先,计算待剪子树中叶节点的加权误差;然后与父节点的误差进行比较如果计算待剪子树中叶节点的加權误差大于父节点的误差,则可以剪掉否则不能剪掉。

这里值得注意的是5.0算法只支持分类变量作为目标,不支持连续变量作为目标

茬5.0算法里面,它的独特之处是除了构建决策树,还能够生成推理规则集它的一般算法是PRISM(Patient Rule Introdution Spae Method),它所生成的规则集跟其它决策树算法生成的规則集原理并不一样,其它决策树生成的规则集是根据决策树生长结果得到的规则,如下图(以5.0生成决策树为例):

而5.0里面构建规则集昰在生成模型之前就可以选择”规则集”

然后生成的模型结果就不是树状图,而是以下的规则内容:

那么对于5.0算法中生成推理规则算法PRISM嘚具体计算逻辑,感兴趣的朋友可以给我们留言我们下次再做具体介绍。

如果想进一步了解可以点击下面的链接下载试用版了解!

本站文章除注明转载外,均为本站原创或翻译欢迎任何形式的转载,但请务必注明出处尊重他人劳动成果

好文不易,鼓励一下吧!

我要回帖

更多关于 A.C 的文章

 

随机推荐