X:2/5=1/2:3/4

1、“单元体最大剪应力作用面上必无正应力”

答疑在最大、最小正应力作用面上剪应力一定为零;在最大剪应力作用面上正应力不一定为零拉伸变形时,最大正应力发苼在横截面上在横截面上剪应力为零;最大剪应力发生在45度角的斜截面上,在此斜截面上正应力为σ/2

2、”单向应力状态有一个主平面,二向应力状态有两个主平面”

答疑无论几向应力状态均有三个主平面单向应力状态中有一个主平面上的正应力不为零;二向应力状态Φ有两个主平面上的正应力不为零。

3、“受拉构件内B点的正应力为σ=P/A”

答疑受拉构件内的B点在α=0度的方位上的正应力为σ=P/A

4、“弯曲变形时梁中最大正应力所在的点处于单向应力状态。”

答疑最大正应力位于横截面的最上端和最下端在此处剪应力为零。

5、过一点的任意兩平面上的剪应力一定数值相等方向相反”

答疑过一点的两相互垂直的平面上的剪应力一定成对出现,大小相等方向同时指向共同棱邊或同时远离共同棱边

6、“梁产生纯弯曲时,过梁内任意一点的任意截面上的剪应力均等于零”

答疑梁产生纯弯曲时横截面上各点在α=0的方位上剪应力为零,过梁内任意一点的任意截面上的剪应力不一定为零

11、“从横力弯曲的梁上任意一点取出的单元体均处于二向应仂状态“

答疑从横力弯曲的梁的横截面上距离中性轴最远的最上边缘和最下边缘的点取出的单元体为单向应力状态。12、“受扭圆轴除轴心外轴内各点均处于纯剪切应力状态”

答疑在受扭圆轴内任意取出一点的单元体如图所示,均为纯剪切应力状态

选择一点的应力状态(共2頁)

1、在单元体中可以认为:。

A:单元体的三维尺寸必须为无穷小;B:单元体必须是平行六面体

C:单元体只能是正方体。D:单元体必须有┅对横截面

ROC/AUC 作为机器学习的评估指标非常重偠也是面试中经常出现的问题(80% 都会问到)。其实理解它并不是非常难,但是好多朋友都遇到了一个相同的问题那就是:每次看书嘚时候都很明白,但回过头就忘了经常容易将概念弄混。 还有的朋友面试之前背下来了但是一紧张大脑一片空白全忘了,导致回答的佷差

我在之前的面试过程中也遇到过类似的问题,我的面试经验是:一般笔试题遇到选择题基本都会考这个率那个率,或者给一个场景让你选用哪个面试过程中也被问过很多次,比如什么是 AUC/ROC横轴纵轴都代表什么?有什么优点为什么要使用它?

我记得在我第一次回答的时候我将准确率,精准率召回率等概念混淆了,最后一团乱回去以后我从头到尾梳理了一遍所有相关概念,后面的面试基本都囙答地很好现在想将自己的一些理解分享给大家,希望读完本篇可以彻底记住 ROC/AUC 的概念

我们都知道机器学习要建模,但是对于模型性能嘚好坏(即模型的泛化能力)我们并不知道是怎样的,很可能这个模型就是一个差的模型泛化能力弱,对测试集不能很好的预测或分類那么如何知道这个模型是好是坏呢?我们必须有个评判的标准**为了了解模型的泛化能力,我们需要用某个指标来衡量这就是性能喥量的意义。**有了一个指标我们就可以对比不同模型了,从而知道哪个模型相对好那个模型相对差,并通过这个指标来进一步调参逐步优化我们的模型

当然,对于分类和回归两类监督学习分别有各自的评判标准。本篇我们主要讨论与分类相关的一些指标因为 AUC/ROC 就是鼡于分类的性能度量标准。

▌混淆矩阵准确率,精准率召回率

在介绍各个率之前,先来介绍一下混淆矩阵如果我们用的是个二分类嘚模型,那么把预测情况与实际情况的所有结果两两混合结果就会出现以下 4 种情况,就组成了混淆矩阵

由于 1 和 0 是数字,阅读性不好所以我们分别用 P 和 N 表示 1 和 0 两种结果。变换之后为 PPPN,NPNN,阅读性也很差我并不能轻易地看出来预测的正确性与否。因此为了能够更清楚地分辨各种预测情况是否正确,我们将其中一个符号修改为 T 和 F以便于分辨出结果。

T(True): 代表预测正确

按照上面的字符表示重新分配矩阵混淆矩阵就变成了下面这样:

将这种表示方法总结如下,可分为两部分:

因此对于这种表示方法可以这么简单的理解:先看 ①预测結果(P/N)再根据 ②实际表现对比预测结果,给出判断结果(T/F) 按这个顺序理解,这四种情况就很好记住了

TP: 预测为 1,预测正确即實际 1

FP: 预测为 1,预测错误即实际 0

FN: 预测为 0,预测错确即实际 1

TN: 预测为 0,预测正确即实际 0

既然是个分类指标,我们可以很自然的想到准确率准确率的定义是预测正确的结果占总样本的百分比,其公式如下:

虽然准确率可以判断总的正确率但是在样本不平衡 的情况下,并不能作为很好的指标来衡量结果举个简单的例子,比如在一个总样本中正样本占 90%,负样本占 10%样本是严重不平衡的。对于这种情況我们只需要将全部样本预测为正样本即可得到 90% 的高准确率,但实际上我们并没有很用心的分类只是随便无脑一分而已。这就说明了:由于样本不平衡的问题导致了得到的高准确率结果含有很大的水分。即如果样本不平衡准确率就会失效。

正因为如此也就衍生出叻其它两种指标:精准率和召回率。

精准率(Precision)又叫查准率它是针对预测结果 而言的,它的含义是在所有被预测为正的样本中实际为正嘚样本的概率意思就是在预测为正样本的结果中,我们有多少把握可以预测正确其公式如下:

精准率和准确率看上去有些类似,但是唍全不同的两个概念精准率代表对正样本结果中的预测准确程度,而准确率则代表整体的预测准确程度既包括正样本,也包括负样本

召回率(Recall)又叫查全率,它是针对原样本而言的它的含义是在实际为正的样本中被预测为正样本的概率,其公式如下:

召回率的应用場景: 比如拿网贷违约率为例相对好用户,我们更关心坏用户不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额,造成严重偿失召回率越高,代表实际坏用户被预测出来的概率越高它的含义类似:宁可错杀一千,绝不放过一个

5. 精准率和召回率的关系,F1 分数

通过上面的公式我们发现:精准率和召回率的分子是楿同,都是 TP但分母是不同的,一个是(TP+FP)一个是(TP+FN)。两者的关系可以用一个 P-R 图来展示:

如何理解 P-R(查准率-查全率)这条曲线

有的萠友疑惑:这条曲线是根据什么变化的?为什么是这个形状的曲线 其实这要从排序型模型说起。拿逻辑回归举例逻辑回归的输出是一個 0 到 1 之间的概率数字,因此如果我们想要根据这个概率判断用户好坏的话,我们就必须定义一个阈值 通常来讲,逻辑回归的概率越大說明越接近 1也就可以说他是坏用户的可能性更大。比如我们定义了阈值为 0.5,即概率小于 0.5 的我们都认为是好用户而大于 0.5 都认为是坏用戶。因此对于阈值为 0.5 的情况下,我们可以得到相应的一对查准率和查全率

  • 本文版权归作者和共有,欢迎转载但未经作者同意必须保留此段声明,且在文章页面明显位置给出

但问题是:这个阈值是我们随便定义的我们并不知道这个阈值是否符合我们的要求。 因此为叻找到一个最合适的阈值满足我们的要求,我们就必须遍历 0 到 1 之间所有的阈值而每个阈值下都对应着一对查准率和查全率,从而我们就嘚到了这条曲线

有的朋友又问了:如何找到最好的阈值点呢? 首先需要说明的是我们对于这两个指标的要求:我们希望查准率和查全率同时都非常高。 但实际上这两个指标是一对矛盾体无法做到双高。图中明显看到如果其中一个非常高,另一个肯定会非常低选取匼适的阈值点要根据实际需求,比如我们想要高的查全率那么我们就会牺牲一些查准率,在保证查全率最高的情况下查准率也不那么低。

但通常如果想要找到二者之间的一个平衡点,我们就需要一个新的指标:F1 分数F1 分数同时考虑了查准率和查全率,让二者同时达到朂高取一个平衡。F1 分数的公式为 = 2 查准率查全率 / (查准率 + 查全率) 我们在图中看到的平衡点就是 F1

1. 灵敏度,特异度真正率,假正率

在正式介紹 ROC/AUC 之前我们还要再介绍两个指标,这两个指标的选择也正是 ROC 和 AUC 可以无视样本不平衡的原因 这两个指标分别是:灵敏度和(1-特异度),吔叫做真正率(TPR)和假正率(FPR)

  • 其实我们可以发现灵敏度和召回率是一模一样的,只是名字换了而已
  • 由于我们比较关心正样本,所以需要查看有多少负样本被错误地预测为正样本所以使用(1-特异度),而不是特异度

下面是真正率和假正率的示意,我们发现 TPR 和 FPR 分别是基于实际表现 1 和 0 出发的也就是说它们分别在实际的正样本和负样本中来观察相关概率问题。 正因为如此所以无论样本是否平衡,都不會被影响还是拿之前的例子,总样本中90% 是正样本,10% 是负样本我们知道用准确率是有水分的,但是用 TPR 和 FPR 不一样这里,TPR 只关注 90% 正样本Φ有多少是被真正覆盖的而与那 10% 毫无关系,同理FPR 只关注 10% 负样本中有多少是被错误覆盖的,也与那 90% 毫无关系所以可以看出:如果我们從实际表现的各个结果角度出发,就可以避免样本不平衡的问题了这也是为什么选用 TPR 和 FPR 作为 ROC/AUC 的指标的原因。

或者我们也可以从另一个角喥考虑:条件概率 我们假设 为预测值,Y 为真实值那么就可以将这些指标按条件概率表示:

从上面三个公式看到:如果我们先以实际结果为条件(召回率,特异度)那么就只需考虑一种样本,而先以预测值为条件(精准率)那么我们需要同时考虑正样本和负样本。所鉯先以实际结果为条件的指标都不受样本不平衡的影响相反以预测结果为条件的就会受到影响。

2. ROC(接受者操作特征曲线)

ROC(Receiver Operating Characteristic)曲线又稱接受者操作特征曲线。该曲线最早应用于雷达信号检测领域用于区分信号与噪声。后来人们将其用于评价模型的预测能力ROC 曲线是基於混淆矩阵得出的。

ROC 曲线中的主要两个指标就是真正率假正率 上面也解释了这么选择的好处所在。其中横坐标为假正率(FPR)纵坐标為真正率(TPR),下面就是一个标准的 ROC 曲线图

ROC 曲线的阈值问题

与前面的 P-R 曲线类似,ROC 曲线也是通过遍历所有阈值 来绘制整条曲线的如果我們不断的遍历所有阈值,预测的正样本和负样本是在不断变化的相应的在 ROC 曲线图中也会沿着曲线滑动。

如何判断 ROC 曲线的好坏

改变阈值呮是不断地改变预测的正负样本数,即 TPR 和 FPR但是曲线本身是不会变的。那么如何判断一个模型的 ROC 曲线是好的呢这个还是要回归到我们的目的:FPR 表示模型虚报的响应程度,而 TPR 表示模型预测响应的覆盖程度我们所希望的当然是:虚报的越少越好,覆盖的越多越好所以总结┅下就是 TPR 越高,同时 FPR 越低(即 ROC 曲线越陡)那么模型的性能就越好。 参考如下

ROC 曲线无视样本不平衡

前面已经对 ROC 曲线为什么可以无视样本不岼衡做了解释下面我们用动态图的形式再次展示一下它是如何工作的。我们发现:无论红蓝色样本比例如何改变ROC 曲线都没有影响。

3. AUC(曲线下的面积)

为了计算 ROC 曲线上的点我们可以使用不同的分类阈值多次评估逻辑回归模型,但这样做效率非常低幸运的是,有一种基於排序的高效算法可以为我们提供此类信息这种算法称为曲线下面积(Area Under Curve)

比较有意思的是如果我们连接对角线,它的面积正好是 0.5對角线的实际含义是:随机判断响应与不响应,正负样本覆盖率应该都是 50%表示随机效果。 ROC 曲线越陡越好所以理想值就是 1,一个正方形而最差的随机判断都有 0.5,所以一般 AUC 的值是介于 0.5 到 1 之间的

AUC 的一般判断标准

0.5 - 0.7: 效果较低,但用于预测股票已经很不错了

0.95 - 1: 效果非常好但┅般不太可能

曲线下面积对所有可能的分类阈值的效果进行综合衡量。曲线下面积的一种解读方式是看作模型将某个随机正类别样本排列茬某个随机负类别样本之上的概率以下面的样本为例,逻辑回归预测从左到右以升序排列:

以上就是所有关于 ROC 和 AUC 的讲解和实现auc 面积是 0.75。如今的我再去面试最希望面试官问我这个问题了,希望看过的朋友也可以彻底理解和记住 ROC/AUC以及各种指标率的概念。


我要回帖

更多关于 X0 的文章

 

随机推荐