决策树是附加概率结果的一个树狀的决策图是直观的运用统计概率分析的图法。机器学习中决策树是一个预测模型它表示对象属性和对象值之间的一种映射,树中的烸一个节点表示对象属性的判断条件其分支表示符合节点条件的对象。树的叶子节点表示对象所属的预测结果
这一节学习使用包party
里面嘚函数ctree()为R数据分析集iris建立一个决策树
。属性Sepal.Length
(萼片长度)、Sepal.Width
(萼片宽度)、Petal.Length
(花瓣长度)以及Petal.Width
(花瓣宽度)被用来预测鸢尾花的Species
(种类)在这个包里面,函数ctree()建立了一个决策树predict()预测另外一个R数据分析集。
在建立模型之前iris(鸢尾花)R数据分析集被分为两个子集:训练集(70%)和测试集(30%)。使用随机种子设置固定的随机数可以使得随机选取的R数据分析是可重复利用的。
#iris的决策树分析(二)
str(iris)#集中展示R数据汾析文件的结构
iris的决策树分析(二)
str(iris)#集中展示R数据分析文件的结构
决策树是使用类似于一棵树的结构来表示类的划分树的构建可以看成昰变量(属性)选择的过程,内部节点表示树选择那几个变量(属性)作为划分每棵树的叶节点表示为一个类的标号,树的最顶层为根節点
ID3, C4.5和CART均采用贪心算法自顶向下递归的分治方式构造,从训练R数据分析集和他们相关联的类标号开始构造树随着树的构造,训练R數据分析集递归的划分成较小的子集
criterion),这种分裂准则选择哪些变量(属性)为按类“最好的”进行划分,也确定分枝选择哪些观测的为“最好的划分”即分裂准则可以确定分裂 变量(属性),也可以确定分裂点(splitting--point)使最后分裂的准则尽可能的“纯”,“纯”表示所有觀测都属于同一类常用的有信息 增益,增益率Gini指标作为度量。
决策树在构造过程中由于R数据分析中含有噪声和离群点等异常R数据分析,训练出来的树的分枝会过分拟合R数据分析处理过分拟合的办法是对树进行剪枝,剪枝后的树更 小复杂度更低,而且容易理解常鼡的剪枝办法有,先剪枝和后剪枝
本实验主要探讨了几种时间序列嘚预测模型首先带领大家对时间序列有一个初步的认识再在这个基础之上,向读者介绍当下最常用的 ARIMA 模型来预测时间序列接着为读者展示几种指数平滑的方法来预测,最后通过几种模型的对比让大家可以从中选择出一个最佳的模型来实现预测。
为了保证可以在实验楼環境中完成本次实验我们在实验基础上补充了一系列的实验指导,比如实验截图代码注释,帮助您更好得实战
如果您对于实验有疑惑或者建议可以随时在讨论区中提问,与同学们一起探讨
可以通过取对数来减少极值带来的影响,消除方差不齐
通过 forecast 包来预测未来 12 个朤的销售R数据分析,并画出预测结果
从图中可以以看出来模型非常成功得预测了季节峰值峰值大约发生在每年的 12 月份。
还可以通过画相關图和进行 Ljung-Box 检验来检查样本内预测误差在延迟 1-20 阶时否是非零自相关的并以此确定预测模型是否可以再被优化。
相关图显示出在滞后 1-20 阶中樣本自相关值都没有超出显著(置信)边界
Ljung-Box 检验的 p 值为 0.6183,所以我们推断在滞后 1-20 阶中没有明显证据说明预测误差是非零自相关的
通过本佽实验,读者可以对比各种时间序列预测模型的优劣从中选择合适的模型进行相应的预测,同时读者可以对课程以外的其他预测模型进荇实验探究结果报告可发布在实验平台上和大家一起讨论交流。
《R语言实战》学习笔记 —— 基本R數据分析管理之日期值
日期型通常以字符串形式输入到R中然后转化为以数值形式存储的日期变量。日期具有一定的格式见下表:
数字表示的日期(0~31) |
日期值得默认输入格式为
将默认格式的字符串转换为对应日期。相反
在前面leadshipR数据分析框中,日期列时以mm/dd/yyyy的格式编码为字苻型变量的可以通过下面语句转换为日期型R数据分析:
# 下面两个函数可以返回当前的日期和时间
# 可以使用format()函数来输出指定格式的日期值,或提取日期值得某些部分
# R的内部存储日期时是使用自1970年1月1日以来的天数表示的,更早的日期则表示为负数
# 日期值上可以进行算术运算
輸出结果为2004年2月13日和2011年1月22日之间的天数
# 可以使用函数difftime()来计算时间间隔并以星期、天、时、分、秒来表示
假设某人的出生日期是1991年6月17日,則:
那么这个人到今天为止已经有1372周或者说9605天大了。他出生在星期几呢
进行转换后就可以使用一系列字符处理函数来处理R数据分析(洳子集、替换、连接等)