当前位置:首页 > 数据处理及误差分析
精密度高,正确度低 正确度高,精密度低 精密度和正确度均低 精密度和正确度均高
图1 精密度、正确度和准确度示意图
§2 误 差 处 理
一、处理系统误差的一般知识 1.发现系统误差的方法
系统误差一般难于发现,并且不能通过多次测量来消除。人们通过长期实践和理论研究,总结出一些发现系统误差的方法,常用的有:
理论分析法 包括分析实验所依据的理论和实验方法是否有不完善的地方;检查理论公式所要求的条件是否得到了满足;量具和仪器是否存在缺陷;实验环境能否使仪器正常工作以及实验人员的心理和技术素质是否存在造成系统误差的因素等。
实验比对法 对同一待测量可以采用不同的实验方法,使用不同的实验仪器,以及由不同的测量人员进行测量。对比、研究测量值变化的情况,可以发现系统误差的存在。
数据分析法 因为随机误差是遵从统计分布规律的,所以若测量结果不服从统计规律,则说明存在系统误差。我们可以按照规律测量列的先后次序,把偏差(残差)列表或作图,观察其数值变化的规律。比如前后偏差的大小是递增或递减的;偏差的数值和符号有规律地交替变化;在某些测量条件下,偏差均为正号(或负号),条件变化以后偏差又都变化为负号(或正号)等情况,都可以判断存在系统误差。
2.系统误差的减小与消除
知道了系统误差的来源,也就为减小和消除系统误差提供了依据。 (1)减小与消除产生系统误差的根源
对实验可能产生误差的因素尽可能予以处理。比如采用更符合实际的理论公式,保证仪器装置良好,满足仪器规定的使用条件等等。
(2)利用实验技巧,改进测量方法
对于定值系统误差的消除,可以采用如下一些技巧和方法。
交换法 根据误差产生的原因,在一次测量之后,把某些测量条件交换一下再次测量。例如,用天平称质量时,把被测物和砝码交换位置进行两次测量。设m1和m2分别为两次测得的质量,取物体的质量为m?m1?m2,就可以消除由于天平不等臂而产生的系统误差。
替代法 在测量条件不变的情况下,先测得未知量,然后再用一已知标准量取代被测量,而不引起指示值的改变,于是被测量就等于这个标准量。例如,用惠斯通电桥测电阻时,先接入被测电阻,使电桥平衡,然后再用标准电阻替代被测量,使电桥仍然达到平衡,则被测电阻值等于标准电阻值。这样可以消除桥臂电阻不准确而造成的系统误差。
异号法 改变测量中的某些条件,进行两次测量,使两次测量中的误差符号相反,再取两次测量结果的平均值做为测量结果。例如,用霍耳元件测磁场实验中,分别改变磁场和工作电流的方向,依次为(+B,+I)、(+B,-I)、(-B,+I)、(-B,-I),在四种条件下测量电势差UH,再取其平均值,可以减小或消除不等位电势、温差电势等附加效应所产生的系统误差。
此外,用“等距对称观测法”可消除按线性规律变化的变值系统误差;用“半周期偶数测量法”可以消除按周期性变化的变值系统误差等等,这里不再详细介绍。
在采取消除系统误差的措施后,还应对其它的已定系统误差进行分析,给出修正值,用修正公式或修正曲线对测量结果进行修正。例如,千分尺的零点读数就是一种修正值;标准电池的电动势随温度的变化可以给出修正公式;电表校准后可以给出校准曲线等等。
5
对于无法忽略又无法消除或修正的未定系统误差,可用估计误差极限值的方法进行估算。 以上仅就系统误差的发现及消除方法做了一般性介绍。在实际问题中,系统误差的处理是一件复杂而困难的工作,它不仅涉及许多知识,还需要有丰富的经验,这需要在长期的实践中不断积累,不断提高。
二、随机误差及其分布
实验中随机误差不可避免,也不可能消除。但是,可以根据随机误差的理论来估算其大小。为了简化起见,在下面讨论随机误差的有关问题中,并假设系统误差已经减小到可以忽略的程度。
1.标准误差与标准偏差
采用算术平均值作为测量结果可以削弱随机误差。但是,算术平均值只是真值的估计值,不能反映各次测量值的分散程度。采用标准误差来评价测量值的分散程度是既方便又可靠的。对物理量X进行n次测量,其标准误差(标准差)定义为 ?(x)?limn??1n(xi?x0)2 (4) ?ni?1 在实际测量中,测量次数n总是有限的,而且真值也不可知。因此标准误差只有理论上的价值。
对标准误差?(x)的实际处理只能进行估算。估算标准误差的方法很多,最常用的是贝塞尔法,它用实验标准(偏)差S(x)近似代替标准误差?(x)。实验标准差的表达式为
1nS(x)?(xi?x)2 (5) ?n?1i?1本书中我们都是用此式来计算直接测量量的实验标准差,其含义将在下面讨论。
2.平均值的实验标准差
如上所述,在我们进行了有限次测量后,可得到算术平均值x。x也是一个随机变量。在完全相同的条件下,多次进行重复测量,每次得到的算术平均值本身也具有离散性由误差理论可以证明,算术平均值的实验标准差为
S(x)?S(x)n?n12 (6) (x?x)?in(n?1)i?1由此式可以看出,平均值的实验标准差比任一次测量的实验标准差
图2 测量次数对S(x)的影小。增加测量次数,可以减少平均值的实验标准差,提高测量的准确度。
但是,单纯凭增加测量次数来提高准确度的作用是有限的。如图2所示,当n>10以后,随测量次数n的增加,S(x)减小得很缓慢。所以,在科学研究中测量次数一般取10-20次,而在物理实验教学中一般取6-10次。
3.随机误差的正态分布规律
随机误差的分布是服从统计规律的.首先,我们用一组测量数据来形象地说明这一点。例如用数字毫秒计测量单摆周期,重复60次(n=60),将测量结果统计如下表: 时间区间/s 出现次数Δn(频数) 相对频数时间区间/s ?n/% n2 5 15 27 2.166-2.170 2.171-2.175 2.176-2.180 2.181-2.185 出现次数Δn(频数) 相对频数?n/% n25 15 8 3 2.146-2.150 2.151-2.155 2.156-2.160 2.161-2.165 1 3 9 16 15 9 5 2 以时间T为横坐标,相对频数
?n为纵坐标,用直方图将测量结果表示如图3.如果再进行一组测n量(如100次),做出相应的直方图,仍可以得到与前述图形不完全吻合但轮廓相似的图形。随着次数的增加,曲线的形状基本不变,但对称性越来越明显,曲线也趋向光滑。当n??时,上述曲线
6
变成光滑曲线。这表示测值T与频数
?n的对应关系呈连续变化的函数关系。显然,频数与T的取n图3 统计直方图 值有关,连续分布时它们之间的关系可以表示为
dn?f(T)dT ndn函数f?T??称为概率密度函数,
ndT
其含义是在测值T附近、单位时间间隔内测值出现的概率。
当测量次数足够多时,其误差分布将服从统计规律。
许多物理测量中,当n??时随机误差?服从正态分布(或称高斯分布)规律。可以导出正态分布概率密度函数的表达式为:
f(?)?12??e??22?2 (7)
图4是正态分布曲线。该曲线的横坐标为误差?,纵坐标f(?)为误差分布的概率密度函数。f(?)的物理含义是:在误差值?附近,单位误差间隔内,误差出现的概率。曲线下阴影面积元
f(?)d?表示误差出现在?~?+d?区间内的概率。按照概率理论,误差?出现在区间(??,??)
范围内是必然的,即概率为100%。所以,图中曲线与横轴所包围的面积应恒等于1,即
????f(?)d??1 (8)
由概率理论可以证明?就是标准差。在正态分布的情况下,式(7)中?的物理意义是什么呢?首先定性分析一下:从式(7)可以看出,当?=0时,
f(0)?12??
因此,?值越小,f(0)的值越大。由于曲线与横坐标轴所包围的面积恒等于1,所以曲线峰值高,两侧下降就较快。这说明测量值的离散性小,测量的精密度高。相反,如果?值大,f(0)就小,误差分布的范围就较大,测量的精密度低。这两种情况的正态分布曲线如图5所示。
图4 正态分布曲线 图5 ?的物理意义
4.置信区间与置信概率
我们还可以从另一个角度理解?的物理意义。计算一下测量结果分布在-?~?之间的概率,可得
P1???f(?)d????0.683?68.3% (9)
这就是说,在所测的一组数据中平均有68.3%的数据测值误差落在区间[-?,?]之间。同样也可以认为在所测的一组数据中,任一个测值的误差落在区间[-?,?]内的概率为68.3%. 我们把P1称作置信概率,[-?,?]就是68.3%的置信概率,所对应的置信区间。
显然,扩大置信区间,置信概率就会提高。可以证明,如果置信区间分别为[-2?,2?]和[-3?,3?],则相应的置信概率为
7
P2?? P3?2??2?3?f(?)d??95.5% (10)
f(?)d??99.7% (11)
??3?一般情况下,置信区间可用[-k?,k?]表示,k称为包含因子,对于一个测量结果,只要给出置信区间和相应的置信概率就表达了测量结果的精密度。
对应于[-3?,3?]这个置信区间,其置信概率为99.7%,即在1000次的重复测量中,随机误差超出[-3?,3?]的平均只有3次。对于一般有限次测量来说,测量值超出这一区间的可能性非常小,因此常将?3?称为极限误差。
5.t分布
根据误差理论,当测量次数很少时(例如,少于10次),测量列的误差分布将明显偏离正态分布,这时测量值的随机误差将遵从t分布。这个分布是1908年由戈塞特首先提出来的,由于发表时使用了笔名“Student”,故也称“学生分布”。t分布曲线与正态分布曲线类似,两者的主要区别是t分布的峰值低于正态分布,而且上部较窄,下部较宽,如图1-6。这样,在有限次测量的情况下,就要将随机误差的估算值取大一些,包含因子k应转换成tp,tp值与测量次数有关,也与置信概率P有关,表1 给出了tp与测量次数n、置信概率P的对应关系,供查用。
表1 tp值表
n P 0.68 0.95 0.99 2 1.84 12.71 63.66 3 1.32 4.30 9.92 4 1.20 3.18 5.84 5 1.41 2.78 4.60 6 1.11 2.57 4.03 7 1.09 2.45 3.71 8 1.08 2.36 3.50 9 1.07 2.31 3.36 10 1.06 2.26 3.26 20 1.03 2.09 2.86 … … … … ∞ 1.00 1.96 2.58 由表1可见,当置信概率P=68%时,tp因子随测量次数增加而趋向于1。当n>6以后,tp与1的偏离并不大,故在进行误差估算时,当n≥6时置信概率取68.3%,包含因子可以不加修正。
图6 t分布与正态分布比较
三.坏值的剔除
在一列测量值中,有时会混有偏差很大的“可疑值”。一方面,“可疑值”可能是坏值,会影响测量结果,应将其剔除不用。另一方面,当一组正确测量值的分散性较大时,尽管概率很小,出现个别偏差较大的数据也是可能的,即“可疑值”也可能是正常值,如果人为地将它们剔除,也不合理。因此要有一个合理的准则,判定“可疑值”是否为“坏值”。下面介绍三种常用的准则。
1.拉依达准则
如前所述,?3?可认为是极限误差,它的估算值?3S(x)也可以认为是极限偏差。按照拉依达准则,将偏差大于?3S(x)的数据视为坏值而将它剔除。剔除坏值时,首先应算出测量列
x1,x2,???,xn的算术平均值x和任一次测量值的标准偏差S(x),然后检验每一个测值的偏差,如
8
共分享92篇相关文档