对称的二元变量和双眼不对称怎么修复的二元变量之间的区别是什么

风水堪舆学 | 网络营销 | 住宅风水 | 英文歌曲 | Adobe After Effects | 电脑配置 | 书籍改编电影 | 下载 | Legion | 网络推广 | 动画制作 | 赛事 | PLC | 小说创作 | 虚拟专用服务器 | 成语 | 家庭 | 单反相机 | 电视节目 | 投影机 | 面相 | 香港购物 | 配音 | 文具 | 二次元 | 影视 | 固态硬盘ssd | 虚拟机 | 跆拳道 | r（编程语言） | 秦时明月之天行九歌 | 使命召唤 | 网盘 | 地图 | 琅琊榜（电视剧） | 手机内存 | 角色扮演 | 华硕 | 百度输入法 | 盗墓笔记（小说） | 营销策划 | 化妆品 | Windows | ip地址 | 装修设计 | 齐内丁·齐达内 | 动画电影 | 中国中央电视台 | 罗兰 | 网站优化 | 斗鱼直播 | 冷知识 | 张帅 | 任天堂 | 摄影师 | 三菱商事 | 迅雷（软件） | 计算机病毒 | amd | 屏幕 | 微单相机 | 电学 | qq浏览器 | MacOS | 联赛 | snh48 | 芯片（集成电路） | 后宫·甄嬛传（书籍） | 植物辨识 | 运动 | 大一 | 美容 | 双色球 | 蓝牙音箱 | 楼盘 | 电脑电源 | 采暖 | 显卡驱动 | 体育赛事 | thinkpad | 离婚 | 武侠小说 | 索尼笔记本 | 中国足球协会超级联赛（csl） | youtube | 王力宏（人物） | 外星人 | 努比亚（手机品牌） | 海贼王 | 移动电源 | 完美世界（游戏） | 摩托车 | 编辑器 | 低音炮 | 收益 | 海关 | 徐波 | akb48 | 互联网创业 | 张璐 | 男性 | 性价比 | MacBook Air | 新疆维吾尔自治区 | 插座 | 外汇平台 | 华为Mate30 | 羽毛球技术 | 腾讯 QQ | 蓝屏 | 字幕 | 免费软件 | 电脑故障 | 女生 | 周星驰（人物） | 足球欧洲杯 | pdf | macbook | 直播 | 生活经历 | 骁龙处理器 | 主题曲 | 户外运动 | CPU | 娱乐圈 | 初恋 | 家居 | 流氓软件 | 名言 | 中国足球 | 近视眼 | acg | 一级方程式赛车（f1） | 小品 | 网站运营 | 英格兰足球超级联赛 | 一体机 | 人肉搜索 | 日本电影 | 系统软件 | 人生 | 流星花园 | 电钢琴 | 分辨率 | 迅雷 | 机械设计 | 古典音乐 | 液晶电视 | 睡眠 | 大片 | 资产 | Html/Css | ansys | 天蝎座 | 对联 | 大二 | 吉他学习 | 实习 | uc浏览器 | 计算机科学 | 新华社 | 脱毛 | 视力 | 乐视超级电视 | 大学生活 | 开关电源 | 平面设计 | 音乐版权 | iPhone 11 Pro | 面膜 | 鞠婧祎 | 胡歌（演员） | 郭富城 | 语言 | 赵丽颖（演员） | 意大利 | 电路设计 | 情侣 | NBA篮球 | 蔡徐坤 | 豆瓣电影 | 社交软件 | 微信开发 | 足球彩票 | 电工 | 手机摄像头 | 用户界面设计师 | 华语流行音乐 | 网卡 | 易烊千玺 | 笛子 | 日语学习 | 日语歌曲 | 歌手 | 张子枫 | 搏击项目 | 谭松韵 | 快捷键 | O2O | 移民 |

你的位置：网站首页 >> 频道首页 >>理工学科 >>对称的二元变量和双眼不对称怎么修复的二元变量之间的区别是什么

对称的二元变量和双眼不对称怎么修复的二元变量之间的区别是什么

来源：蜘蛛抓取(WebSpider) 时间：2016-11-14 16:46 标签：腿纹不对称

 上传我的文档
 下载
 收藏
该文档贡献者很忙，什么也没留下。
 下载此文档
正在努力加载中...
、聚类分析（精品）
下载积分：3000
内容提示：、聚类分析（精品）
文档格式：PDF|
浏览次数：1|
上传日期： 19:17:02|
文档星级：
全文阅读已结束，如果下载本文需要使用
 3000 积分
下载此文档
该用户还上传了这些文档
、聚类分析（精品）
官方公共微信该用户的其他资料
在此可输入您对该资料的评论~
(window.slotbydup = window.slotbydup || []).push({
id: '4540180',
container: s,
size: '250,200',
display: 'inlay-fix'
添加成功至
资料评价：
所需积分：0posts - 873,&
comments - 469,&
trackbacks - 7
&&&&& 如果它的两个状态有相同的权重, 那么该二元变量是对称的，也就是两个取值 0或 1 没有优先权。例如，属性&性别&就是这样的一个例子，它有两个值：&女性&和&男性&。基于对称二元变量的相似度称为恒定的相似度，即当一些或者全部二元变量编码改变时，计算结果不会发生变化。对恒定的相似度来说，评价两个对象 i和 j 之间相异度的最著名的系数是简单匹配系数，其定义如下： d(I,j) = (r+s) / (q+r+s+t)&&&&&&&&&&&&&&&&&& （8.9&& p342 ?） &&&&& 如果两个状态的输出不是同样重要，那么该二元变量是不对称的。例如一个疾病检查的肯定和否定的结果。根据惯例，我们将比较重要的输出结果，通常也是出现几率较小的结果编码为 1（例如，HIV阳性），而将另一种结果编码为 0（例如 HIV阴性）。给定两个不对称的二元变量，两个都取值 1 的情况（正匹配）被认为比两个都取值 0 的情况（负匹配）更有意义。因此，这样的二元变量经常被认为好像只有一个状态。基于这样变量的相似度被称为非恒定的相似度。对非恒定的相似度，最著名的评价系数是 Jaccard 系数，在它的计算中，负匹配的数目被认为是不重要的，因此被忽略。 &D(I,j) = (r+s) / (q+r+s)&&&&&&&& （8.10） &当对称的和非对称的二元变量出现在同一个数据集中，在 8.2.4 节中描述的混合变量方法可以被应用。
阅读(...) 评论()导读：分两个步骤实施挖掘：第一步，具体实施过程是结合编程实验并借助于MicrosoftAnalysisServic，这一步完成客户群细分后将客户类别信息添加到数据挖掘库当中，MicrosoftAnalysisService数据挖掘工具的决策树模型来实现，上述第一步得到的挖掘结果如表4．4所示：表4．4聚类挖掘结果簇中心，从以上数据分析可知，将客户分类信息C1、C2、C3、C4作为Cluster属性写分两个步骤实施挖掘：第一步，选择客户的平均购买额和购买次数，采用聚类的方法对客户进行分类，这样每个客户都有一个确定的分类；第二步，选用决策树模型对客户构建决策树，以对客户的特征进行进一步分类分析。具体实施过程是结合编程实验并借助于Microsoft Analysis Service的数据挖掘工具来完成的。第一步的聚类是在Visual Foxpro 6．0环境下采用编程方式来实现的(代码见附录)，这一步完成客户群细分后将客户类别信息添加到数据挖掘库当中。第二步通过 MicrosoftAnalysis Service数据挖掘工具的决策树模型来实现。 4．4．3结果分析上述第一步得到的挖掘结果如表4．4所示：表4．4聚类挖掘结果簇中心簇簇成员个数百分比％平均购买额购买次数 C1 3． 117 22 C2 7． 145 27 C3 6． 52 lO C4 6． 226 42 从以上数据分析可知，C1客户群的平均购买额与购买次数都较低，属于不确定型客户，C4客户群的平均购买额较低，但购买次数较高，应属于经常性客户，C2客户群的平均购买额较高，但购买次数较低，属于乐于消费型客户，而C3客户群的平均购买额与购买次数都较高，应属于最好的客户。从客户数的比例来看，也基本与帕累托原则相符。将客户分类信息C1、C2、C3、C4作为Cluster属性写入到挖掘库中，然后选择它作为预测列并选择年收入、未成年孩子数等作为输入列创建的决策树如下： ?只锨10¨ok／＼\c1(86．84％1 C2(5．26％、 C3(2．63％1 C4(2．63％1 C1(5．13呦 C2(8．33嘲 C3(6．4l㈨ C4(79．4％1
。未成年孩子数图4．3客户细分决策树 C1(7．69％、 C2(11．54％1 C3(57．69蚴 C4(19．23％1 篁婴皇苎±壅鲞塑盗整塑竺查生塑坌!!壅从该模型结果可以看出，年收入在1万元到3万元之间的客户当中有86．84％的客户属于不确定型客户，年收入在3万元以上且未成年孩子数小于等于2人的客户当中有 79．4％的客户属于经常性客户，而在年收入在3万元以上且未成年孩子数大于2人的客户当中有57．69％的客户属于最好的客户，此外有11．54％的客户属于乐于消费型客户，有19．23的客户属于经常性客户。这些挖掘结果为零售企业更好地认识客户具有重要的参考价值。决策树是一种较好的分类模型，但由于它是一种有指导的学习方法，需要预先知道样本的类型。因此，在零售企业面对众多客户的情况下，结合聚类和决策树技术进行客户细分建模是一种有效而实用的方法。 4．5本章小结本章分析、研究了数据挖掘中的聚类分析和决策树技术，受基于购买行为的客户细分方法启发，提出一种基于聚类和决策树的客户细分模型，对零售业客户细分模型的建立和分析进行了研究与实践，为零售业客户细分提供了一种有效而实用的方法。东南大学硕士学位论文第五章客户行为分析中的数据挖掘建模研究 5．1交叉销售中的关联规则挖掘 5．1．1关联规则挖掘原理与算法定义5-l关联规则挖掘的数据集记为D(一般为事务数据库)，D=(tl，t2，?，tk，?， tn)，铲<扎赴，?，‰，?，知}，tk(乒1，2，?，11)称为事务(Transaction)，ira(m=1,2，?，一称为项目(Item)。定义5-2设I={il,i2,'\是D中全体项目组成的集合，I的任何子集X称为D 中的项目集(Itemset)，IXI=k称为集合x为k项目集(k-Itemset)。设tI【和x分别为 D中的事务和项目集，如果x￡k，称事务tk包含项目集x。每一个事务都有一个惟一的标识符，称为TID。定义5．3数据集D中包含项目集X的事务数称为项目集X的支持数，记为0，。项目集X的支持度记为support(X)： suppor“X)2诲×10似(或suppor“X)2街’ (5．1) 其中lD|是数据集D的事务数，若support(X)不小于用户指定的最小支持度 (minsupport)，则称x为频繁项目集，简称频集(或大项目集)，否则称x为非频繁项目集，简称非频集(或小项目集)。定理5-1设X、Y是数据集D中的项目集： (1)若X_cY，则support(X)≥support(Y)。 (2)若XcY，如果X是非频集，则Y也是非频集。 (3)若X_cY，若Y是频集，则X也是频集。
定义5．4若X、Y为项目集，且XnY=巾，蕴涵式xjY称为关联规则，X、Y 分别称为关联规则XjY的前提和结论。项目集XUY的支持度称为关联规则XjY 的支持度，记作： supportO(Y)，supporc()(≥Ⅵ=support(Xu Y) (5．2) 关联规则XjY的可信度记作，confidence(Xj Y)： corrfidence(Xjy)_Sup噗Y)，×100％ (5．3) support(X J 支持度和可信度是描述关联规则的两个重要概念，前者用于衡量关联规则在整个数据中的统计重要性，后者用于衡量关联规则的可信程度。一般来说，只有支持度和可信度均较高的关联规则才可能是用户感兴趣、有用的关联规则。定义5-5若support(X j Y)≥minsupport，且confidence(X jⅥ≥ minconfidence，称关联规则X≥Y为强规则，否则称关联规则x≥Y为弱规则。关联规则挖掘的任务就是要挖掘出D中所有的强规则。强规则XjY对应的项目集(xuY)必定是频集(由定义5―5和式5．2可知)，由式5．1和5．3可知，频集(xu Y)导出的关联规则xjY的可信度可由频集x和(XuY)的支持度计算。关联规则挖掘的第一个问题即发现频集是关联规则的关键问题，研究者们已经提出了许多发现算法，而Agrawal等人[69J于1994年提出的Apriori算法是发现频集的经典算兰至兰查皇堡垄坌堑生堕塑堡丝塑堡堡堕塑法。Apriori算法使用一种称作逐层搜索的迭代方法，k-项集用于探索(k+1)．项集。首先，找出频繁1．项集的集合。该集合记作L1。Ll用于找频繁2．项集的集合k，而L2用于找 L3，如此下去，直到不能找到频繁k-项集。找每个h需要一次数据库扫描。用Lk．1找 h由连接和剪枝两个过程组成。 (1)连接步：为找k，通过Lk-l与自己连接产生候选矗项集的集合。该候选项集的集合记作ck。设，1和如是Lk．1中的项集。记号，1们表示，l的第，项。为方便计，假定事务或项集中的项按字典次序排序。执行连接Lk．1 join Lk．1，其中Lk．1的元素是可连接的，如果它们前(k．2)个项相同。即是，Lk．1的元素II和，2是可连接的，如果(11【1】_如[I】) ^(It【2】=f2【2】)八?^(1l【k-2]=如【肛2】)A(1j【k-1]<如陋l】)。条件(1l【k-1]<如【k-1]) 是简单地保证不产生重复。连接ll和如产生的结果项集是II【l】，1【2】．．?，l陋l】／2【kq]。 (2)剪枝步：Ck是Lk的超集；即是，它的成员可以是也可以不是频繁的，但所有的频繁k-项集都包含在Ck中。扫描数据库，确定Q中每个候选的计数，从面确定 Lk。然而，Ck可能很大，这样所涉及的计算量就很大。为压缩Ck，可以用以下办法使用Apdod性质：任何非频繁的(k-1)．项集都不可能是频繁肛项集的子集。因此，如果一个候选如项集的(k-1)．子集不在Lk．1中，则该候选也不可能是频繁的，从而可以由Ck中删除。以下是算法的伪码描述：算法：Apdod
输入：事务数据库D；最小支持度阈值min sup。输出：D中的频繁项集L。 L l=f'md_frequent_l-itcmsets(D)； For(k--2；Lk-l≠①：kH) {Ck=apriori_gen(Lk．1)； foreachtransactiont∈D／／scanDforcounts {Ct=subset(Ck,t)；／／get the subsets oft that a∞candidates for each candidate CE ct C．COullt++： ) Lk={cE Ck I c．count>，min_sup} ) feRlnlL#U kLk procedure apfiofi_gcn((Lk．j：frequent(k-1)-itemsets) for each itemset Ii∈Lk．I for each itemset如∈Lk．1 if(h[1]=／2[1])A(1,[21=／212】)八?A(1dk-2]=／2陋2】)A(11[k-1]<12[k-1])then {c=h．1 join Lk-l；／／join step：generate candidates ifhas_infrequent_subset(c，Lk-1)then delete c；／／prune step：remove unfruitful candidate else add CtoCk； 41 东南丈学硕士学位论文 } return ck； procedure has i硼requent_subset(c：candidate k-itemset；Lk-：f：requent(k-1)-itemset) for each(k-1)-subset s ofc Ifs芒Lk．1 then Return TRUE； Return FALSE；关联规则挖掘的第二个问题是根据找出的频集和最小可信度产生关联规则，办法如下： ?对于每个频繁项集，，产生，的所有非空子集。 ?对于z的每个非空子集s，如果竺型翌竺=!竺兰坚掣≥研加confi则输出规则“sj(，．s)一。 support_count(s) 其中，mm COnf是最小可信度阈值。接下来，通过一个实例对Apfiofi算法进行进一步说明。以某连锁零售企业为例，从其销售数掘库中抽取出的一个事务数据库样本，如表5．1所示。11代表鞋刷，12代表浴衣，13代表香皂，14代表空气清新剂，15代表剃须泡沫。运用Apriori算法找出具有最小支持度为O．5(最小支持度计数为2)的频集的过程如图5．1所示，最终得到频集为：
L=((II，b)，(12，13)，(12，Is)，<h，Is)，(12，13，15))170]。表5．1销售事务数据库样本 TID 项ID的列表 500 Il。13，14 ，15 ，13，15
令最小可信度为O．65，则会产生以下关联规则： 11 j13(confidence=1)；Djll(confidence--0．67)； 12≥13(eonfidence=O．671： 13 j12(confidence=0．671： 12=，15(confidence=1)； 15j12(eonfidence=1)； 13 j 15(confidence=0．67)； 15 j 13(confidence-：o．67)； 12，13等15(eonfidenee=1)； 12，15 13(eonfidenee=O．67)： 13，15≥12(confidence=1)； 12等13，15(confidenee=O．67) 13j12，15(eonfidence--4)．67)；巧j12，13(confidence=O．67)； Apriori算法存在的主要问题是：组合产生大量的规则，使用户难以理解众多的、较长的规则，并且有的规则并不是用户所感兴趣的。针对此问题可以用基于约束的关联规则挖掘来加以解决。第五章客户行为分析中的数据挖掘建模研究项集支持度计数 {11} 2 {12} 3 {13) 3 {14) l {15) 3 项集支持度计数 {11} 2 {12} 3 {13} 3 {15} 3 项支持度L2 项支持度项集c2 集计数集计数 {11，12} {II，13} 扫描{ll，12} l 筛选 {11，13} 2 {11，13} 2 {12，13， 2 01，15} {II，15} l {12，15} 3 {12，13} 计数{12，13} 2 {13，15} 2 {12，15} {13，15}
包含总结汇报、文档下载、旅游景点、党团工作、外语学习、教学研究、工作范文、行业论文、考试资料、人文社科以及基于数据挖掘技术的CRM应用研究硕士论文等内容。本文共10页
相关内容搜索

对称的二元变量和双眼不对称怎么修复的二元变量之间的区别是什么

我要回帖

更多关于腿纹不对称的文章

随机推荐

对称的二元变量和双眼不对称怎么修复的二元变量之间的区别是什么

我要回帖

更多关于 腿纹不对称 的文章

随机推荐

更多关于腿纹不对称的文章