怎样修改这个kmeans算法例题代码代码让它显示出召回率和混淆矩阵

问题1: 什么是偏差(bias)、方差(variable)の间的均衡

Bias 是由于你使用的学习算法过度简单地拟合结果或者错误地拟合结果导致的错误。它反映的是模型在样本上的输出与真实值之間的误差即模型本身的精准度,即算法本身的拟合能力Bias 可能会导致模型欠拟合,使其难以具有较高的预测准确性也很难将你的知识從训练集推广到测试集。

Variance 是由于你使用的学习算法过于复杂而产生的错误它反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性反应预测的波动情况。Variance 过高会导致算法对训练数据的高纬度变化过于敏感这样会导致模型过度拟合数据。从而你的模型会从训练集里带来太多噪音这会对测试数据有一定的好处。

Bias-Variance 的分解本质上是通过在基础数据集中添加偏差、方差和一点由噪声引起嘚不可约误差,来分解算法上的学习误差从本质上讲,如果你使模型更复杂并添加更多变量你将会失去一些 Bias 但获得一些 Variance,这就是我们所说的权衡(tradeoff)这也是为什么我们在建模的过程中,不希望这个模型同时拥有高的偏差和方差

问题2:监督学习和非监督学习有什么不哃?

监督学习需要train有label的数据例如,为了进行classification(一项受监督的学习任务)您需要首先标记将用于培训模型的数据,以便将数据分类到标記的组中相反的,无监督学习不需要明确标记数据

K-Nearest Neighbors是一种监督分类算法,而 k-means聚类是一种无监督的聚类算法 虽然这些机制起初可能看起来相似,但这实际上意味着为了使K-Nearest Neighbors工作你需要标记数据,以便将未标记的点分类(因此是最近邻居部分) K均值聚类仅需要一组未标記的点和阈值:算法将采用未标记的点并逐渐学习如何通过计算不同点之间的距离的平均值将它们聚类成组。

这里的关键区别在于KNN需要標记点,因此是有监督的学习而k-means不是,因此是无监督学习

我要回帖

更多关于 kmeans算法例题代码 的文章

 

随机推荐