回归系数的显著性检验验可以把偏离的比较远的数据扔掉吗?

您的位置:讲稿&&&第三章 误差和分析数据处理
& 讲& &稿 &
讲& 授& 内& 容
第三章& 误差和分析数据的处理
定量分析(Quantitative Analysis)的任务是准确测定试样组分的含量,因此必须使分析结果具有一定的准确度。不准确的分析结果可以导致生产上的损失、资源的浪费、科学上的错误结论。
&&& 在定量分析中,由于受分析方法、测量仪器、所用试剂和分析工作者主观条件等方面的限制,使测得的结果不可能和真实含量完全一致;即使是技术很熟练的分析工作者,用最完善的分析方法和最精密的仪器,对同一样品进行多次测定,其结果也不会完全一样。这说明客观上存在着难于避免的误差。
因此,人们在进行定量分析时,不仅要得到被测组分的含量,而且必须对分析结果进行评价,判断分析结果的准确性(可靠程度),检查产生误差的原因,采取减小误差的有效措施,从而不断提高分析结果的准确程度。
第一节 误差及其产生的原因
分析结果与真实值之间的差值称为误差。分析结果大于真实值,误差为正;分析结果小于真实值,误差为负。
&&& 根据误差的性质与产生的原因,可将误差分为系统误差和偶然误差两类。
一、系统误差
系统误差也叫可测误差,它是定量分析误差的主要来源,对测定结果的准确度有较大影响。它是由于分析过程中某些确定的、经常的因素造成的,对分析结果的影响比较固定。系统误差的特点是具有“重现性”、“单一性”和“可测性”。即在同一条件下,重复测定时,它会重复出现;使测定结果系统偏高或系统偏低,其数值大小也有一定的规律;如果能找出产生误差的原因,并设法测出其大小,那么系统误差可以通过校正的方法予以减小或消除。系统误差产生的主要原因是:
(一)方法误差
&&& 这种误差是由于分析方法本身所造成的。例如:在重量分析中,沉淀的溶解损失或吸附某些杂质而产生的误差;在滴定分析中,反应进行不完全,干扰离子的影响,滴定终点和等当点的不符合,以及其他副反应的发生等,都会系统地影响测定结果。
(二)仪器误差&&&
&&& 主要是仪器本身不够准确或未经校准所引起的。如天平、法码和量器刻度不够准确等,在使用过程中就会使测定结果产生误差。
(三)试剂误差
&&& 由于试剂不纯或蒸馏水中含有微量杂质所引起。
(四)操作误差
&&& 主要是指在正常操作情况下,由于分析工作者掌握操作规程与正确控制条件稍有出入而引起的。例如,使用了缺乏代表性的试样;试样分解不完全或反应的某些条件控制不当等。
&&& 与上述情况不同的是,有些误差是由于分析者的主观因素造成的,称之为“个人误差” 例如,在读取滴定剂的体积时,有的人读数偏高,有的人读数偏低;在判断滴定终点颜色时,有的人对某种颜色的变化辨别不够敏锐,偏深或偏浅等所造成的误差。
二、偶然误差
&&& 偶然误差也叫不可测误差,产生的原因与系统误差不同,它是由于某些偶然的因素(如测定时环境的温度、湿度和气压的微小波动,仪器性能的微小变化等)所引起的,其影响有时大,有时小,有时正,有时负。偶然误差难以察觉,也难以控制。但是消除系统误差后,在同样条件下进行多次测定,则可发现偶然误差的分布完全服从一般的统计规律:
&&& (一) 大小相等的正、负误差出现的几率相等;
&& &(二) 小误差出现的机会多,大误差出现的机会少,特别大的正、负误差出现的几率非常小、故偶然误差出现的几率与其大小有关。
第二节& 测定值的准确度与精密度
一、准确度与误差
&&& 误差愈小,表示分析结果的准确度愈高,反之,误差愈大,准确度就越低。所以,误差的大小是衡量准确度高低的尺度。误差又分为绝对误差和相对误差。其表示方法如下:绝对误差=测定值-真实值
&&&&&&&&&&&&&&&& (3-1)
&& 相对误差% =(绝对误差/真实值) ×100%& &&&&&
&&&&&&&&&&&&& (3-2)
相对误差表示误差在测定结果中所占的百分率。分析结果的准确度常用相对误差表示。绝对误差和相对误差都有正值和负值。正值表示分析结果偏高,负值表示分析结果偏低。
二、精密度与偏差
&&& 精密度是指在相同条件下多次测定结果相互吻合的程度,表现了测定结果的重现性。精密度用“偏差”来表示。偏差越小说明分析结果的精密度越高。所以偏差的大小是衡量精密度高低的尺度。偏差也分为绝对偏差和相对偏差。
(一)绝对偏差、平均偏差和相对平均偏差
&&&&&&& &绝对偏差=个别测定值一测定平均值&&&
&&&&&&&& &&&&&&&&&&&&&&&&&&&&&(3-4)
&&& 如果对同一种试样进行了n次测定,若其测得的结果分别为:x1,x2,x3,…,xn,则它们的算术平均值( &)算术平均偏差( & )和相对平均偏差分别可由以下各式计算:
&& &&&&&&&
&&&&&&&&&&&&&
& &&&&& (3-5)
相对平均偏差% = &&&&&&&&&&&(3-6)
值得注意的是:平均偏差不计正负号,而个别测定值的偏差要记正负号。
使用平均偏差表示精密度比较简单,但这个表示方法有不足之处,因为在一系列的测定中,小偏差的测定总是占多数,而大偏差的测定总是占少数,按总的测定次数去求平均偏差所得的结果偏小,大偏差得不到充分的反映。所以,用平均偏差表示精密度方法在数理统计上一般是不采用的。 &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&(二)标准偏差和相对标准偏差
&&& 近年来,在分析化学的教学中,愈来愈广泛地采用数理统计方法来处理各种测定数据。在数理统计中,我们常把所研究对象的全体称为总体(或母体);自总体中随机抽出的一部分样品称为样本(或子样);样本中所含测量值的数目称为样本大小(或容量)。例如,我们对某一批煤中硫的含量进行分析,首先是按照有关部门的规定进行取样、粉碎、缩分,最后制备成一定数量的分析试样,这就是供分析用的总体。如果我们从中称取10份煤样进行平行测定,得到10个测定值,则这一组测定结果就是该试样总体的一个随机样本,样本容量为10。
若样本容量为n,平行测定次数分别为x1,x2,x3,…,xn,则其样本平均值为:
&&&&&&&&&&&& &&&&&&&&(3-7)
当测定次数无限增多,既n→∞时,样本平均值即为总体平均值μ:
&&&&&&&&&&& & &
&&& 若没有系统误差,且测定次数无限多(或实用上n>30次)时,则总体平均值μ就是真实值T。此时,用σ 代表总体标准偏差,其数学表示式为:
&&&&&&&&&&&&&& &&&&&(3-8)
可见,在定量分析的实验中,测定次数一般较少(n&20次),故其平均偏差,须由式(3-9)求得。
&&& 但是,在分析化学中测定次数一般不多(n&20),而总体平均值又不知道,故只好用样本的标准偏差S来衡量该组数据的分散程度。样本标准偏差的数学表达式为:
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& (3-9)
式中:(n-1)称为自由度,以f表示。它是指在n次测量中,只有n-1个可变的偏差。自由度也可以理解为:数据中可供对比的数目。例如,两次测定a值和b值,只有a与b之间的一种比较,三次测定可有两种比较(即其中任何两个数据之间及其平均值与第三个数据之间比较),n次测定n-1个可供对比的数目。这里引入(n-1)的目的,主要是为了校正& &以代替μ所引起的误差。很明显,当测定次数非常多时,测定次数n与自由度(n-1)的区别就变得很小,&& &→μ。即
此时,S→σ。
另外,在许多情况下也使用相对标准偏差(亦称变异系数)来说明数据的精密度,他代表单次测定标准偏差(S)对测定平均值( )的相对值,用百分率表示:
& &&&&&&&&& &(3-10) &&
&&&&&&&&&&
(三) 平均值的标准偏差
&&& 如果从同一总体中随机抽出容量相同的数个样本,由此可以得到一系列样本的平均值。实践证明,这些样本平均值也并非完全一致,它们的精密度可以用平均值的标准偏差来衡量。显然,与上述任一样本的各单次测定值相比,这些平均值之间的波动性更小,即平均值的精密度较单次测定值的更高。&&&
因此 ,在实际工作中 ,常用样本的平均值&& 对总体平均值μ进行估计。统计学证明,平均值的标准偏差 &与单次测定值的标准偏差σ之间 有下述关系。&
&&&&&&&&&&&&&&&&&&&&&&&&&& &&&&&&&&&&(n→∞) &(3-11)
&对于有限次的测定则有:
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& &&&&&&&(3-12)
&式中 &称样本平均值的标准偏差。由以上两式可以看出,平均值的标准偏差与测定次数的平方根成反比。因此增加测定次数可以减小随机误差的影响,提高测定的精密度。
&& &除了偏差之外,还可以用极差R来表示样本平行测定值的精密度。极差又称全距,是测定数据中的最大值与最小值之差,其值愈大表明测定值愈分散。由于没有充分利用所有的数据,故其精确性较差。偏差和极差的数值都在一定程度上反映了测定中随机误差影响的大小。
三、准确度和精密度的关系
&&& 从以上的讨论可知,系统误差是定量分析中误差的主要来源,它影响分析结果的准确度;偶然误差影响分析结果的精密度。获得良好的精密度并不能说明准确度就高(只有在消除了系统误差之后,精密度好,准确度才高)。
&& &根据以上分折,我们可以知道:准确度高一定需要精密度好,但精密度好不一定准确度高。若精密度很差,说明所测结果不可靠,虽然由于测定的次数多可能使正负偏差相互抵消,但已失去衡量准确度的前提。因此,我们在评价分析结果的时候,还必须将系统误差和偶然误差的影响结合起来考虑,以提高分析结果的准确度。
72页& 1.指出在下列情况下,各会引起哪种误差?如果是系统误差,应该采用什么方法减免?
(1)& 砝码被腐蚀;
(2)& 天平的两臂不等长;
(3)& 容量瓶和移液管不配套;
(4)&&&&&&& 试剂中含有微量的被测组分;
(5)& 天平的零点有微小变动;
(6)& 读取滴定体积时最后一位数字估计不准;
(7)& 滴定时不慎从锥形瓶中溅出一滴溶液;
(8)& 标定HCl溶液用的NaOH标准溶液中吸收了CO2。
答:(1)系统误差中的仪器误差。减免的方法:校准仪器或更换仪器。
(2)系统误差中的仪器误差。减免的方法:校准仪器或更换仪器。
(3)系统误差中的仪器误差。减免的方法:校准仪器或更换仪器。
(4)系统误差中的试剂误差。减免的方法:做空白实验。
(5)随机误差。
(6)系统误差中的操作误差。减免的方法:多读几次取平均值。
(7)过失误差。
(8)系统误差中的试剂误差。减免的方法:做空白实验。
9.标定浓度约为0.1mol·L-1的NaOH,欲消耗NaOH溶液20mL左右,应称取基准物质H2C2O4·2H2O多少克?其称量的相对误差能否达到0. 1%?若不能,可以用什么方法予以改善?若改用邻苯二甲酸氢钾为基准物,结果又如何?
解:根据方程2NaOH+H2C2O4·H2O==Na2C2O4+3H2O可知,
需H2C2O4·H2O的质量m1为:
&&&&&&&&&&&&& &&&&&
&&& 相对误差为&&&&
&&&&&& 则相对误差大于0.1% ,不能用H2C2O4·H2O标定0.1mol·L-1的NaOH ,可以选用相对分子质量大的作为基准物来标定。
&&&&&& 若改用KHC8H4O4为基准物时,则有:
&&&&&&&&&&&&&&&& KHC8H4O4+ NaOH== KNaC8H4O4+H2O
&&&&&& 需KHC8H4O4的质量为m2 ,则
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&& 相对误差小于0.1% ,可以用于标定NaOH。
第三节 &随机误差的正态分布
一、 频率分布
&&&& &在相同条件下对某样品中镍的质量分数(%)进行重复测定,得到90个测定值如下:
&1.60& 1.67& 1.67& 1.64& 1.58& 1.64& 1.67& 1.62& 1.57& 1.60
&&& &1.59& 1.64& 1.74& 1.65& 1.64& 1.61& 1.65& 1.69& 1.64& 1.63
&&& &1.65& 1.70& 1.63& 1.62& 1.70& 1.65& 1.68& 1.66& 1.69& 1.70
&&& &1.70& 1.63& 1.67& 1.70& 1.70& 1.63& 1.57& 1.59& 1.62& 1.60
&&& &1.53& 1.56& 1.58& 1.60& 1.58& 1.59& 1.61& 1.62& 1.55& 1.52
&&& &1.49& 1.56& 1.57& 1.61& 1.61& 1.61& 1.50& 1.53& 1.53& 1.59
&&& &1.66& 1.63& 1.54& 1.66& 1.64& 1.64& 1.64& 1.62& 1.62& 1.65
&&& &1.60& 1.63& 1.62& 1.61& 1.65& 1.61& 1.64& 1.63& 1.54& 1.61
&&& &1.60& 1.64 &&1.65& 1.59 &&1.58& 1.59 &&1.60&& 1.67& 1.68&& 1.69
首先视样本容量的大小将所有数据分成若干组:容量大时分为10-20组,容量小时(n&50)分为5-7组,本例分为9组。再将全部数据由小至大排列成序,找出其中最大值和最小值,算出极差R。由极差除以组数算出组距。本例中的R=1.74%-1.49%=0.25%,组距= R/9=0.25%/9=0.03%。每组内两个数据相差0.03%即:1.48-1.51,1.51-1.54等等。为了使每一个数据只能进入某一组内,将组界值较测定值多取一位。即:
1.485-1.515,1.515-1.545,1.545-1.575等等。
&&& 统计测定值落在每组内的个数(称为频数),再计算出数据出现在各组内的频率(即相对频数)
分组(%)&&&&&&&&&&&&&&& 频数&&&&&&&&&&&&&&&&& 频率
&&& &1.485-1.515&&&&&&&&&&&&&&&&&& 2&&&&&&&&&&&&&&&&&&&& 0.022
&&&& 1.515-1.545&&&&&&&&&&&&&&&&&& 6&&&&&&&&&&&&&&&&&&&& 0.067
&&&& 1.545-1.575&&&&&&&&&&&&&& &&&&6&&&&&&&&&&&&&&&&&&&& 0.067
&&&& 1.575-1.605&&&&&&&&&&&&&&&&& &17&&&&&&&&&&&&&&&&&& &0.189
&&&& 1.605-1.635&&&& &&&&&&&&&&&&&&22&&&&&&&&&&&&&&&&&& &0.244
&&&& 1.635-1.665&&&&&&&&&&&&&&&&& &20&&&&&&&&&&&&&&&&&& &0.222
&&&& 1.665-1.695&&&&&&&&&&&&&& &&&&10&&&&&&&&&&&&&&&&&& &0.111
&&&& 1.695-1.725&&&&&&&&&&&&&&&&&&& 6&&&&&&&&&&&&&&&&&&& 0.067
&&&& 1.725-1.755&&&&&&&&&&&&&&&&&&& 1&&&&&&&&&&&&&&&&&&& 0.011
&&&&& &∑&&&&&&&&&&&&&&&& &&&&&&&&&&90&&&&&&&&&&&&&&&&&& 1.000
图3-3&&& 频率分布的直方图
由表中的数据和图3-3可以看出,测定数据的分布并非杂乱无章,而是呈现出某些规律性。在全部数据中,平均值1.62%所在的组(第五组)具有最大的频率值,
处于它两侧的数据组,其频率值仅次之。统计结果表明:测定值出现在平均值附近的频率相当高,具有明显的集中趋势;而与平均值相差越大的数据出现的频率越小。
&二、正态分布
正态分布,又称高斯分布,它的数学表达式即正态分布函数式为:
(3-13) &
式中y表明测定次数趋于无限时,测定值xi出现的概率密度。若以x值表示横坐标,y值表示纵坐标,就得到测定值的正态分布曲线。曲线的最高点,它对应的横坐标值μ即为总体平均值,这就说明了在等精密度的许多测定值中,平均值是出现概率最大的值。
&&& 式(3-13)中的σ为总体标准偏差,是曲线两侧的拐点之一到直线x=μ的距离,它表征了测定值的分散程度。标准偏差较小的曲线陡峭,表明测定值位于μ附近的概率较大,即测定的精密度高。与此相反,具有较大标准偏差较大的曲线平坦,表明测定值位于μ附近的概率较小,即测定的精密度低。
图3-4正态分布曲线(μ相同,σ1>σ2)
综上所述,一旦μ和σ确定后,正态分布曲线的位置和形状也就确定,因此μ和σ是正态分布的两个基本参数,这种正态分布用N(μ,σ2)表示。
&正态分布曲线关于直线x=μ呈钟形对称,且具有以下特点:
&&& 1.对称性& 绝对值大小相等的正负误差出现的概率相等,因此它们常可能部分或完全相互低消。&&
2.单峰性& 峰形曲线最高点对应的横坐标x-μ值等于0,表明随机误差为0的测定值出现的概率密度最大。
3.有界性& 一般认为,误差大于 &的测定值并非是由随机误差所引起的。也就是说,随机误差的分布具有有限的范围,其值大小是界的。
三、标准正态分布
&&& 由于μ和σ不同时就有不同的正态分布,曲线的形状也随之而变化。为了使用方便,将正态分布曲线的横坐标改用u来表示(以σ为单位表示随机误差),并定义
&&&&&&&&&&&&&&&&&&& &&&&&&&&&&&&&&&&&&&&&&&&&&&&&(3-14)
代入(3-13)中得:&&&
故&&&&&& &
u称为标准正态变量。此时式(3-13)就转化成只有变量u的函数表达式:
&&&&&&&&&&&&&&&&&&&& (3-15)
经过上述变换,总体平均值为μ的任一正态分布均可化为μ=0,σ2=1的标准正态分布,以N(0,1)表示。标准正态分布曲线如图3-5所示,曲线的形状与μ和σ的大小无关。
图3-5标准正态分布曲线
四、随机误差的区间概率
& &正态分布曲线与横坐标之间所夹的总面积,就等于概率密度函数从-∞至+∞的积分值。它表示来自同一总体的全部测定值或随机误差在上述区间出现概率的总和为100%,即为1。
& &&&&&&& (3-16)
欲求测定值或随机误差在某区间出现的概率P,可取不同的u值对式(3-16)积分求面积而得到。例如随机误差在±σ区间(u=±1),即测定值在μ±σ区间出现的概率是:
按此法求出不同u值时的积分面积,制成相应的概率积分表可供直接查用。
表3-1中列出的面积对应于图中的阴影部分。若区间为±|u|值,则应将所查得的值乘以2。例如:
随机误差出现的区间&&& &&&&&&&测定值出现的区间&&&&&&&&&& 概率
&&&&& u=±1&&&&&&&&&&&&&&&&&&&& x=μ±σ&&&&&&& 0..6826
&&&&& u=±2&&&&&&&&&&&&&&&&&&&& x=μ±2σ&&&&&& 0..9546
&&&&& u=±3&&&&&&&&&&&&&&&&&&&&& x=μ±3σ&&& 0..9974
以上概率值表明,对于测定值总体而言,随机误差在±2σ范围以外的测定值出现的概率小于0.045,即20次测定中只有1次机会。随机误差超出±3σ的测定值出现的概率更小。平均1000次测定中只有3次机会。通常测定仅有几次,不可能出现具有这样大误差的测定值。如果一旦发现,从统计学的观点就有理由认为它不是由随机误差所引起,而应当将其舍去,以保证分析结果准确可靠。
&概率=面积=&&&&&&&&&&&&&&&&&&&&&&&&
概率积分面积表的另一用途是由概率确定误差界限。例如要保证测定值出现的概率为0.95,那么随机误差界限应为±1.96σ。
例3-3&& &经过无数次测定并在消除了系统误差的情况下,测得某钢样中磷的质量分数为0.099%。已知σ=0.002%,问测定值落在区间0.095%-0.103%的概率是多少?
解:根据得 :
&&& |u|=2,由表3-1查得相应的概率为0.4773,则
P(0.095%≤x≤0.103%)=0..955
例3-4 &&对烧结矿样进行150次全铁含量分析,已知结果符合正态分布(0.02)。求大于0.4735的测定值可能出现的次数。
查表,P=0.4773,故在150次测定中大于0.4773的测定值出现的概率为:
&&&&&&&&&& 0.3=0.0227
&&&&&&&&&&&&&& 150×0.0227≈3
第四节 有限测定数据的统计处理
一、置信度与μ的置信区间
日常分析中测定次数是很有限的,总体平均值自然不为人所知。但是随机误差的分布规律表明,测定值总是在以μ为中心的一定范围内波动,并有着向μ集中的趋势。因此,如何根据有限的测定结果来估计μ可能存在的范围(称之为置信区间)是有实际意义的。该范围愈小,说明测定值与μ愈接近,即测定的准确度愈高。但由于测定次数毕竟较少,由此计算出的置信区间也不可能以百分之百的把握将μ包含在内,只能以一定的概率进行判断。&&
(一) 已知总体标准偏差σ时
&&& 对于经常进行测定的某种试样,由于已经积累了大量的测定数据,可以认为σ是已知的。根据(3-14)式并考虑u的符号可得:
&&& &&&&&&&&&&&&&&&& &&&&&&&&&&&&&&&&(3-14a)
&&&& 由随机误差的区间概率可知,测定值出现的概率由u决定。例如,当u=±1.96时。x在μ-1.96σ至μ+1.96σ区间出现的概率为0.95。如果希望用单次测定值x来估计μ可能存在的范围,则可以认为区间x±1.96σ能以0.95的概率将真值包含在内。即有
&& &&&&&&& &&&&&&&&&&&&&&&&&&&&&&&&&&&(3-14b)
由于平均值较单次测定值的精密度更高,因此常用样本平均值来估计真值所在的范围。此时有
&&&&&&&&&&&&&&&&&&&&&&&&&& &&&&&&&&&&&&&&&&&&&&&&&&&&(3-17)
在对真值进行区间估计时,置信度的高低要定得恰当。一般以95%或90%的把握即可。
&&&& 式(3-14b)和式(3-17)还可以看出置信区间的大小取决于测定的精密度和对置信度的选择,对于平均值来说还与测定的次数有关。当σ一定时,置信度定得愈大,∣u∣值愈大,过大的置信区间将使其失去实用意义。若将置信度固定,当测定的精密度越高和测定次数越多时,置信区间越小,表明x或&&&& 越接近真值,即测定的准确度越高。
例3-5、用标准方法平行测定钢样中磷的质量分数4次,其平均值为0.087%。设系统误差已经消除,且σ =0.002%。(1)计算平均值的标准偏差;(2)求该钢样中磷含量的置信区间。置信度为P=0.95。
&&&&&&& (2)已知P=0.95时,u=±1.96。根据
注意:μ是确定且客观存在的,它没有随机性。而区间x±uσ或&&&&&&&&&&&&&& 是具有随机性的,即它们均与一定的置信度相联系。因此我们只能说置信区间包含真值的概率是0.95,而不能认为真值落在上述区间的概率是0.95。
(二)已知样本标准偏差S时
在实际工作中,通过有限次的测定是无法得知μ和σ的,只能求出&&& 和S。而且当测定次数较少时,测定值或随机误差也不呈正态分布,这就给少量测定数据的统计处理带来了困难。此时若用S代替σ从而对μ作出估计必然会引起偏离,而且测定次数越少,偏离就越大。如果采用另一新统计量tP,f取代u(仅与P有关),上述偏离即可得到修正。
t分布法:t值的定义:&&&&&&&&&&&&&&&&&&&&&&&&&&& (3-18)
t分布是有限测定数据及其随机误差的分布规律。t分布曲线见图3-6,其中纵坐标仍然表示概率密度值,横坐标则用统计量t值来表示。显然,在置信度相同时,t分布曲线的形状随f(f=n-1)而变化,反映了t分布与测定次数有关有实质。由图3-6可知,随着测定次数增多,t分布曲线愈来愈陡峭,测定值的集中趋势亦更加明显。当f→∞时,t分布曲线就与正态分布曲线合为一体,因此可以认为正态分布就是t的极限。&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
图3-6&& t分布曲线
与正态分布曲线一样,t分布曲线下面某区间的面积也表示随机误差在此区间的概率。但t值与标准正态分布中的u值不同,它不仅与概率还与测定次数有关。不同置信度和自由度所对应的t值见表3-2中。&
由表3-2中的数据可知,随着自由度的增加,t值逐渐减小并与u值接近。当f=20时,t与u已经比较接近。当f→∞时,t→u,S→σ。在引用t值时,一般取0.95置信度。
&& &&根据样本的单次测定值x或平均值分别表示μ的置信区间时,根据t分布则可以得出以下的关系:
&&&&&&&&&&&&&&&&&& (3-18a)
或 &&&&& &&&&&&&&(3-19)
式(3-18a)和式(3-19)的意义在于,真值虽然不为所知(σ也未知),但可以期望由有限的测定值计算出一个范围,它将以一定的置信度将真值包含在内。该范围越小,测定的准确度越高。
例3-6、标定HCl溶液的浓度时,先标定3次,结果为0.2001mol/L、0.2005mol/L和0.2009mol/L;后来又标定2次,数据为0.2004mol/L和0.2006mol/L。试分别计算3次和5次标定结果计算总体平均值μ的置信区间,P=0.95。
解:标定3次时,
& 标定5次时,
式(3-19)是计算置信区间通常使用的关系式。由该式可知,当P一定时,置信区间的大小与tP,f、S、n均有关,而且tP,f与S实际也都受n的影响,即n值越大,置信区间越小。
例3-7、测定某试样中SiO2质量分数得s=0.05%。若测定的精密度保持不变,当P=0.95时,欲使置信区间的置信限 ,问至少应对试样平行测定多少次?&
解:根据式(3-19)和题设得:
&&&&&&& 已知s=0.05%,故:
查表3-2得知,当f=n-1=5时,t0.95,5=2.57,此时 &。即至少应平行测定6次,才能满足题中的要求。
二、可疑测定值的取舍
&平行测定的数据中,有时会出现一二个与其结果相关较大的测定值,称为可疑值或异常值。对于为数不多的测定数据,可疑值的取舍往往对平均值和精密度造成相当显著的影响。
对可疑值的取舍实质是区分可疑值与其它测定值之间的差异到底是由过失、还是随机误差引起的。如果已经确证测定中发生过失,则无论此数据是否异常,一概都应舍去;而在原因不明的情况下,就必须按照一定的统计方法进行检验,然后再作出判断。根据随机误差分布规律,在为数不多的测定值中,出现大偏差的概率是极小的,因此通常就认为这样的可疑值是由过失所引起的,而应将其舍去,否则就予以保留。
(一)Q检验法
&& &将测定值由小至大按顺序排列,其中可疑值为x1或xn。
求出可疑值与其最邻近值之差xn-xn-1或x2-x1,然后用它除以极差xn-x1,计算出统计量Q:
或& &&& &&&&&&(3-20)
Q值越大,说明离群越远,远至一定程度时则应将其舍去。故Q称为舍弃商。
&根据测定次数n和所要求的置信度P查QP,n值表3-3。若Q&QP,n,则以一定的置信度弃去可疑值,反之则保留,分析化学中通常取0.90的置信度。
(二)格鲁布斯法
将测定值由小至大按顺序排列,其中可疑值为x1或xn。先计算该组数据的平均值和标准偏差,再计算统计量G。
&&&& 若x1可疑, &&&&&&&&&&&&(3-21)
&&& 若xn可疑, &&&&&&&&&&&&&(3-21a)
根据事先确定的置信度和测定次数查表3-4。若G&GP,n,说明可疑值对相对平均值的偏离较大,则以一定的置信度弃去可疑值,反之则保留。
&在运用格鲁布斯法判断可疑值的取舍时,由于引入了t分布中最基本的两个参数己&&& 和s,故该方法的准确度较Q法高,因此得到普遍采用。 &
三、显著性检验
&&& &用统计的方法检验测定值之间是否存在显著性差异,以此推断它们之间是否存在系统误差,从而判断测定结果或分析方法的可靠性,这一过程称为显著性检验。定量分析中常用的有t检验法和F检验法。
(一)样本平均值与真值的比较(t检验法)
&&& t检验法用来检验样本平均值或两组数据的平均值之间是否存在显著性差异,从而对分析方法的准确度作出评价。&&&&&&&&&
当检验一种分析方法的准确度时,采用该方法对某标准试样进行数次测定,再将样本平均值与标准值T进行比较。则置信区间的定义可知,经过n次测定后,如果以平均值为中心的某区间已经按指定的置信度将真值T包含在内,那么它们之间就不存在显著性差异,根据t分布,这种差异是仅由随机误差引起的。t可由下式计算:&& &&&&&&&&&&(3-22a)
&若t&tP,f,说明与T之差已超出随机误差的界限,就可以按照相应的置信度判断它们之间存在显著性差异。进行显著性检验时,如置信度定得过低,则容易将随机误差引起的差异判断为显著性差异,如置信度定得过高,又可能将系统误差引起的不一致认同为正常差异,从而得出不合理的结论。在定量分析中,常采用0.95或0.90的置信度。
&(二) 两组数据平均值之间的比较(F检验法和t检验法)(自学)
&&& 在显著性检验中,将具有显著性差异的测定值在随机误差分布中出现的概率称为显著性水平,用α表示,即这些测定值位于一定置信度所对应的随机误差界限之外。如置信度P=0.95,则显著水平α=0.05,即α=1-P。
第五节 有效数字及其应用
&&& 在科学实验中,为了得到准确的测量结果,不仅要准确地测定各种数据,而是还要正确地记录和计算。分析结果的数值不仅表示试样中被测成分含量的多少,而且还反映了测定的准确程度。所以,记录实验数据和计算结果应保留几位数字是一件很重要的事,不能随便增加或减少位数。例如用重量法测定硅酸盐中的SiO2时,若称取试样重为0.4538克,经过一系列处理后,灼烧得到SiO2沉淀重0.1374克,则其百分含量为:
SiO2 % =(0.8)×100%=30.%
&上述分析结果共有11位数字,从运算来讲,并无错误,但实际上用这样多位数的数字来表示上述分析结果是错误的,它没有反映客观事实,因为所用的分析方法和测量仪器不可能准确到这种程度。那么在分析实验中记录和计算时,究竟要准确到什么程度,才符合客观事实呢?这就必须了解“有效数字”的意义。
一、有效数字的意义及位数
&&& 有效数字是指在分析工作中实际上能测量到的数字。记录数据和计算结果时究竟应该保留几位数字,须根据测定方法和使用仪器的准确程度来决定。在记录数据和计算结果时,所保留的有效数字中,只有最后一位是可疑的数字。
&例如: 坩埚重18.5734克&&&&&&& &六位有效数字
&&&&&& &标准溶液体积24.41毫升&& 四位有效数字
&& 由于万分之一的分析天平能称准至±0.0001克,滴定管的读数能读准至±0.01毫升,故上述坩埚重应是18.1克,标准溶液的体积应是24.41±0.01毫升,因此这些数值的最后一位都是可疑的,这一位数字称为“不定数字”。在分析工作中应当使测定的数值,只有最后一位是可疑的。
&&& 有效数字的位数,直接与测定的相对误差有关。例如称得某物重为0.5180克,它表示该物实际重量是0.1克,其相对误差为:
&&& &&&&&&&(±0.0)×100%=±0.02%
&如果少取一位有效数字,则表示该物实际重量是0.518±0.001克,其相对误差为:
&&&&&&&& &&&(±0.001/0.518)×100%=±0.2%
表明测量的准确度后者比前者低10倍。所以在测量准确度的范围内,有效数字位数越多,测量也越准确。但超过测量准确度的范围,过多的位数是毫无意义的。
& 必须指出,如果数据中有“0”时,应分析具体情况,然后才能肯定哪些数据中的“0”是有效数字,哪些数据中的“0”不是有效数字。
& &&1.0005&&&&&&&&&&&&&&&&&&&&&&&& &五位有效数字
&&& 0.% ;6.023×102&&&&& 四位有效数字
&&& 0.×10-5&&&&&&&&&&&&& &&三位有效数字
&&& 0.%&&&&&&&&&&&&&&& &&&两位有效数字
&&& 0.5 ;& 0.002%&&&&&&&&&&&&&&&& 一位有效数字
&&& 在1.0005克中的三个“0”,0.5000克中的后三个“0”,都是有效数字;在0.0054克中的“0”只起定位作用,不是有效数;在0.0540克中,前面的“0”起定位作用,最后一位“0”是有效数字。同样,这些数值的最后一位数字,都是不定数字。&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
因此,在记录测量数据和计算结果时,应根据所使用的仪器的准确度,必须使所保留的有效数字中,只有最后一位数是“不定数字”。例如,用感量为百分之一克的台秤称物体的重量,由于仪器本身能准确称到±0.0l克,所以物体的重量如果是10.4克,就应写成10.40克,不能写成10.4克。
&&&& 分析化学中还经常遇到pH、pC、lgK等对数值,其有效数字的位数仅取决于小数部分数字的位数,因整数部分只说明该数的方次。例如,pH=12.68,即[H+]=2.1×l0-13mol/L,其有效数字为两位,而不是四位。
对于非测量所得的数字,如倍数、分数、π、e等等,它们没有不确定性,其有效数字可视为无限多位,根据具体情况来确定。
&&&& 另外,如果有效数字位数最少的因数的首位数是“8”或“9”,则有效数字可认为比这个因数多取一位。
二、数字修约规则
&&&&& &“四舍六入五留双”。
&&& 具体的做法是,当尾数≤4时将其舍去;尾数≥6时就进一位;如果尾数为5而后面的数为0时则看前方:前方为奇数就进位,前方为偶数则舍去;当“5”后面还有不是0的任何数时,都须向前进一位,无论前方是奇还是偶数,“0”则以偶数论。&&
0.56&&& 0.55 &&&10.&&
&&& 16.&& &&&27.& &&&18.0
&&&& 必须注意:进行数字修约时只能一次修约到指定的位数,不能数次修约,否则会得出名正错误的结果。
三、有效数字的运算规则
&& &(一) 加减法&
&&& 当几个数据相加或相减时、它们的和或差的有效数字的保留,应以小数点后位效最少,即绝对误差最大的的数据为依据。例如0.及1.05782三数相加,若各数最后一位为可疑数字,则25.64中的4已是可疑数字。因此,三数相加后,第二位小数已属可疑,其余两个数据可按规则进行修约、整理到只保留两位小数。
因此,0.0121应写成0.01;1.05782应写成1.06;三者之和为:
&&&&&&&&&&&&&&& &&&0.01+25.64+1.06=26.71
& &&在大量数据的运算中。为使误差不迅速积累,对参加运算的所有数据,可以多保留一位可疑数字(多保留的这一位数字叫“安全数字”)。如计算5.、3.7及2.12的总和时,根据上述规则,只应保留一位小数。但在运算中可以多保留一位,故5.2727应写成5.27;0.075应写成0.08;2.12应写成2.12。因此其和为:
&&&&&&&&&&&&&&&& &&&&5.27+0.08+3.7+2.12=11.17
然后、再根据修约规则把11.17整化成11.2。
(二)& 乘除法&
&&&& 几个数据相乘除时,积或商的有效数字的保留,应以其中相对误差最大的那个数,即有效数字位数最少的那个数为依据。
&&&& 例如求0.和1.05782三数相乘之积。设此三数的最后一位数字为可疑数字,且最后一位数字都有±1的绝对误差,则它们的相对误差分别为:
&&& &&&&&&&&&&0.0121:±1/121×1000‰=±8‰
&&&&&&&&&&& 25.64: ±1/‰=±0.4‰
&&&&&&&&&&& 1.05782:±1/00‰=±0.009‰
&&&& 第一个数是三位有效数字,其相对误差最大,以此数据为依据,确定其他数据的位数,即按规则将各数都保留三位有效数字然后相乘:
0.×1.06 = 0.328
&&&&&& 若是多保留一位可疑数字时,则
&&&&& &&0.×1.058 = 0.3282
&&&&&& 然后再按“四舍六入五留双”规则,将0.3282,改写成0.328。
四、有效数字的运算规则在分析化学实验中的应用
&&& &1.根据分析仪器和分析方法的准确度正确读出和记录测定值,且只保留一位可疑数字。
&&&& 2.在计算结果之前,先根据运算方法确定欲保留的位数,然后按照数字修约规则对各测定值进行修约,先修约,后计算。&
3.分析化学中的计算主要有两大类。一类是各种化学平衡中有关浓度的计算。
&&&& 另一类是计算测定结果,确定其有效数字位数与待测组分在试样中的相对含量有关,一般具体要求如下:对于高含量组分(10%)的测定,四位有效数字;对中含量组分(1%-10%),三位有效数字;微量组分(&1%),两位有效数字。
第六节 提高分析结果准确度的方法
一、选择适当的分析方法&&&&&&
在生产实践和一般科研工作中,对测定结果要求的准确度常与试样的组成、性质和待测组分的相对含量有关。化学分析的灵敏度虽然不高,但对于常量组分的测定能得到较准确的结果,一般相对误差不越过千分之几。仪器分析具有较高的灵敏度,用于微量或痕量组分含量的测定,对测定结果允许有较大的相对误差。 &二、减小测量的相对误差
&&& 仪器和量器的测量误差也是产生系统误差的因素之一。分析天平一般的绝对误差为±0.0002g,如人欲称量的相对误差不大于0.1%,那么应称量的最小质量不小于0.2g。&&&&&&&&
在滴定分析中,滴定管的读数误差一般为±0.02ml。为使读数的相对误差不大于0.1%,那么滴剂的体积就应不小于20ml。
&&&&& 称量的准确度还与分析方法的准确度一致。如光度法的误差为2%,若称取0.5g试样,那么就不必要像滴定分析法和重量法那样强调将试样称准到±0.0001g。 称准至±0.001g比较适宜。
三、检验和消除系统误差
(一) 对照试验
&&&& 对照实验用于检验和消除方法误差。用待检验的分析方法测定某标准试样或纯物质,并将结果与标准值或纯物质的理论值相对照。
(二)空白试验
&&&&& 空白实验是在不加试样的情况下,按照与试样测定完全相同的条件和操作方法进行试验,所得的结果称为空白值,从试样测定结果中扣除空白值就起到了校正误差的作用。空白试验的作用是检验和消除由试剂、溶剂和和分析仪器中某些杂质引起的系统误差。
(三)校准仪器和量器
&&&&& 允许测定结果的相对误差大于0.1%时,一般不必校准仪器。
四、适当增加平行测定次数,减小随机误差
&&&&&& 一般定量分析的测定次数为3-4次。
五、正确表示分析结果
&&&&& 为了正确的表示分析结果,不仅要表明其数值的大小,还应该反映出测定的准确度、精密度以及为此进行的测定次数。因此最基本的参数为样本的平均值、样本的标准偏差和测定次数。也可以采用置信区间表示分析结果。
课后习题:
P722.如果分析天平的称量误差为±0.2mg,拟分别称取试样0.1g和1g左右,称量的相对误差各为多少?这些结果说明了什么问题?
解:因分析天平的称量误差为 。故读数的绝对误差 &
&&&&&&& 根据 可得
&这说明,两物体称量的绝对误差相等,但他们的相对误差并不相同。也就是说,当被测定的量较大时,相对误差就比较小,测定的准确程度也就比较高。
3.滴定管的读数误差为±0.02mL。如果滴定中用去标准溶液的体积分别为2mL和20mL左右,读数的相对误差各是多少?从相对误差的大小说明了什么问题?
解:因滴定管的读数误差为 ,故读数的绝对误差
&&&&&&& 根据 可得
这说明,量取两溶液的绝对误差相等,但他们的相对误差并不相同。也就是说,当被测定的量较大时,测量的相对误差较小,测定的准确程度也就较高。
5.将0.089g Mg2P2O7沉淀换算为MgO的质量,问计算时在下列换算因数(2MgO/Mg2P2O7)中取哪个数值较为合适:0.,0.36?计算结果应以几位有效数字报出。
答::0.36&& 应以两位有效数字报出。
6.用返滴定法测定软锰矿中MnO2的质量分数,其结果按下式进行计算:
问测定结果应以几位有效数字报出?
答::应以四位有效数字报出。
7.用加热挥发法测定BaCl2·2H2O中结晶水的质量分数时,使用万分之一的分析天平称样0.5000g,问测定结果应以几位有效数字报出?
答::应以四位有效数字报出。
8.两位分析者同时测定某一试样中硫的质量分数,称取试样均为3.5g,分别报告结果如下:
甲:0.042%,0.041%;乙:0.001%。问哪一份报告是合理的,为什么?
答::甲的报告合理。因为在称样时取了两位有效数字,所以计算结果应和称样时相同,都取两位有效数字。

我要回帖

更多关于 回归系数的显著性检验 的文章

 

随机推荐