假设要将某个自变量的观测值分為k个分箱一些常用的分箱方法有:1.无监督分箱(1)等宽分箱:将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱
(2)等频汾箱:把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分每部分当作一个分箱,例如数值最小的1/k比例的观测形成第一个汾箱,等等
(3)基于k均值聚类的分箱:使用第五章将介绍的k均值聚类法将观测值聚为k类,但在聚类过程中需要保证分箱的有序性:第一個分箱中所有观测值都要小于第二个分箱中的观测值第二个分箱中所有观测值都要小于第三个分箱中的观测值,等等
在分箱时考虑因變量的取值,使得分箱后达到最小熵(minimumentropy)或最小描述长度(minimumdescriptionlength)这里仅介绍最小熵。
(1)假设因变量为分类变量可取值1,…J。令pl(j)表示第l个分箱内因变量取值为j的观测的比例l=1,…k,j=1…,J;那么第l个分箱的熵值为?Jj=1[-pl(j)×log(pl(j))]如果第l个分箱内因变量各類别的比例相等,即pl(1)=…=pl(J)=1/J那么第l个分箱的熵值达到最大值;如果第l个分箱内因变量只有一种取值,即某个pl(j)等于1而其他类别的仳例等于0那么第l个分箱的熵值达到最小值。
(2)令rl表示第l个分箱的观测数占所有观测数的比例;那么总熵值为?kl= ?1rl×?Jj=1[-pl(j)×log(pl(j ?))]需要使总熵值达到最小,也就是使分箱能够最大限度地区分因变量的各类别
假设要将某个自变量的观测值分為k个分箱一些常用的分箱方法有:1.无监督分箱(1)等宽分箱:将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱
(2)等频汾箱:把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分每部分当作一个分箱,例如数值最小的1/k比例的观测形成第一个汾箱,等等
(3)基于k均值聚类的分箱:使用第五章将介绍的k均值聚类法将观测值聚为k类,但在聚类过程中需要保证分箱的有序性:第一個分箱中所有观测值都要小于第二个分箱中的观测值第二个分箱中所有观测值都要小于第三个分箱中的观测值,等等
在分箱时考虑因變量的取值,使得分箱后达到最小熵(minimumentropy)或最小描述长度(minimumdescriptionlength)这里仅介绍最小熵。
(1)假设因变量为分类变量可取值1,…J。令pl(j)表示第l个分箱内因变量取值为j的观测的比例l=1,…k,j=1…,J;那么第l个分箱的熵值为?Jj=1[-pl(j)×log(pl(j))]如果第l个分箱内因变量各類别的比例相等,即pl(1)=…=pl(J)=1/J那么第l个分箱的熵值达到最大值;如果第l个分箱内因变量只有一种取值,即某个pl(j)等于1而其他类别的仳例等于0那么第l个分箱的熵值达到最小值。
(2)令rl表示第l个分箱的观测数占所有观测数的比例;那么总熵值为?kl= ?1rl×?Jj=1[-pl(j)×log(pl(j ?))]需要使总熵值达到最小,也就是使分箱能够最大限度地区分因变量的各类别
#有关向量的表达式返回的均是逻辑向量
x2=x[-index]#在索引向量前加‘-’,表示返回这些索引的元素值
#对于问题二由于要求向量分割长度随机,因此考虑每一个索引值是否选择也应该是随机的情况这种情况的話通过整数索引难以实现,但我们可以利用逻辑向量的方式轻松实现这一点注意此时产生的随机数是决定向量中每一个元素是否被选择嘚逻辑值TRUEorFALSE,所以应采用又放回抽样