第六部分  统计学的应用

一、统计中的几个基本概念:

.总体(population)与样本(sample):

  总体是根据研究目的确定的同质观察单位的全体。在实际工作中经常是从总体中抽取样本,目的是用样本信息来推断总体特征。样本是从总体中随机抽取部分观察单位,其实测值的集合。而样本所代表的全体称为总体。如用动物做实验,雌性动物的实验结果,如不能证明雌雄动物反应性一致,没有性别差异,一般是不适用于雄性动物的;如实验设计时采用雌雄各半的动物,所得结论才适用于两性动物。

.概率(probability):

2.1 概率是描述随机事件发生的可能性大小的数值,常用P表示。随机事件的概率在0与1之间,即0≤P≤1,常用小数或百分数表示。P越接近1,表明某事件发生的可能性越大,P越接近于0,表示某事件发生的可能性越小。统计上的很多结论都是带有概率性的。习惯上将P≤0.05,或P≤0.01,称为小概率事件,表示某事件发生的可能性很小。

2.2 概率与可信限:概率又称机率,是反映某事件发生可能性大小的量。在雌雄各半的一群小鼠中,随意抽取一只,我们虽不能预言其雌雄,但根据统计理论和总体性质可以推算出,取出一只为雄性的可能性是50%,也即理论发生率(概率)为0.5。同样可以算出连取两制均为雄性的概率为0.5×0.5=0.25,甚至可以得到其规律,即连取n只均为雄性的概率为0.5n

一般情况下总体中某事件的概率是未知的,我们只能通过样本该事件的发生率来推断概率。所以概率也可理解为:“数次重复观察时某事件的发生率”。

    由于存在抽样误差,实际工作中,由样本算出的“率”或“均数”仅是接近而不是等同于总体率或均数。根据统计学原理,我们可以在样本率或均数上下扩大一定范围,使总体率或均数处于该范围的概率为95%,这就是“95%可信限”。样本越大,或重复次数越多,95%可信限的上下范围越接近,由样本推论总体的精密度也就越大。在药效统计分析中,常采用“95%可信限”和“99%可信限”来表达总体阳性率或均数的预期范围。

2.3 显著性检验与显著性水平:药效统计分析中,对两组或多组均数(率)进行比较时,长吁检验其间的差别在统计学上是否有显著性意义,这种检验方法就是“显著性检验”。显著性检验方法很多,但基本思路是一致的。以两组均数的显著性检验为例归纳如下:a.当两组均数有差别时,这种差别可能是由于这两个均数分别来自于两个不同的总体,也有可能使两组数据均来自统一总体,现在两组均数的差别和只不过是抽样误引起的。统计学上称后一种情况为“无效假设”。b.根据从总体抽样的规律,可由两组样本的数据计算出“无效假设”发生的可能性(概率)有多大,通常用大写“P”来表示。c.如果P<0.05(5%)0.01(1%)就可认为两组来自同一总体的可能性很小,因而否定“无效假设”,承认两组均数的差别在统计学上有显著或极显的意义。反之,如果P>0.05,表示两组来自同一总体的可能性>5%,这是不能轻易否定无效假设。尽管两组均数有一定差别,但统计学上认为这种差别并无统计学意义。

2.4 统计结论及专业结论:统计学结论这说明两组来自同一总体的可能性,如果P0.05P0.01,则表示两组来自不同总体的可能性≥95%或≥99%,但不说明两组均数(或率)间差值的大小。实际上,统计学上差异常显著时,在专业理论上未必就有显著意义,因为此时两组均数间数值上的差异可能很大也可能不大。过去统计结论常有“差异显著、非常显著或不显著”的说法,易与“两组均数差别很大、非差大或不大”相混淆。所以,现在改用:“差异有统计学的显著意义、极显著意义或无显著意义的说法,以强调统计学结论的意义不等于专业结论的意义(1-11)。固然统计学结论是专业结论的重要参考依据,但绝不是唯一的,它毕竟只是参考。真正合理的专业结论还要结合专业知识、整个实验的设计、条件等统筹考虑才能获得。

所以,在药效统计分析中,在正确运用统计学的概念、原理和方法得到统计学结论后,仍然要根据具体情况从药理专业知识方面来考虑最后的研究结论,及专业结论。

二、实验样本数的估算:

从量上看,样本既然代表总体,总体越大,样本数也相应增大。大样本的代表性显然优于小样本,但加大样本,势必增加工作量,增大实验成本。比如,以药理专业为例,基本实验数有如下习惯性规定,一般来讲实验例数不少于该值。

实验动物的基本例数:

2.1 小动物(小鼠、大鼠、鱼、蛙等):每组10-30例。在按剂量分为3-5个剂量组实验时,每组不少于8例。

2.2 中等动物(兔、豚鼠等):每组8-20例。

2.3 大动物(狗、猫、猴等):每组5-15例。

三、实验设计的基本概念

3.1 实验设计的要素:处理因素、受试对象、实验效应。

3.2 实验设计的基本原则:

实现实验设计的科学性,除了对实验对象、处理因素、观测指标做出合理的安排以外,还必须遵循实验设计的三大原则,即对照原则、重复原则、随机原则。

3.2.1 对照原则

设置对照是为了使观察指标通过对比发现其特异变化。对照是比较的基础。要具有可比性,在比较各组之间,除处理因素不同外,其它非处理因素尽量保持相同,从而根据处理与不处理之间的差异,了解处理因素带来的特殊效应。通常实验应该有实验组和对照组。对照组与实验组有同等重要意义。因为在实验中难免有非处理因素干扰造成误差,如动物个体差异、实验环境的作用等。如果设立一个对照组,应选择同一种属和体重、性别相近的动物,在同一实验环境下进行实验,仅仅是不给特殊的实验处理,由于实验组与对照组的非处理因素处于相同状态,两者对比可消除非对比因素带来的误差。又如观察某些与心理因素有关的治疗效果时,若不设对照,就无法分辨疾病的好转是药物的效果还是心理调节的作用。

对照有多种形式,可根据实验目的和内容加以选择。

1)空白对照:亦称正常对照,对照组不加任何处理因素。如观察某降压药的作用时,实验组动物服用降压药,对照组动物不服用药物或服用安慰剂。空白对照简单易行,但容易引起实验组与对照组在心理上的差异,从而影响实验效应的测定。

2)自身对照:对照与实验均在同一受试对象进行。例如用药前、后的对比,先用A药再用B药的对比,均为自身对照。

3)相互对照:又称组间对照。不专门设立对照组,而是几个实验组之间相互对照。例如用几种药物同时治疗同一疾病,对比这几种药物的效果,即为相互对照。

4)标准对照:不设立对照组,实验结果与标准值或正常值进行对比。如果是药物疗效观察,用已知有效的阳性药物作为标准对照组,对新的实验组的药物效应与已知阳性药物作用进行对比实验。因为很多情况下不给病人任何治疗是不符合医德的。此外,还可用于某种新的检验方法是否能代替传统方法的研究。

5)安慰剂对照:对照组采用一种无药理作用的假药,称为安慰剂(placebo)。但是要做好“保密工作”。一般说来,适用于小规模的实验研究。

6)实验对照:对照组不施加处理因素,,但施加某种与处理因素有关的实验因素。

3.2.2 随机原则

在实验研究中,不仅要求有对照,还要求各组间除了处理因素外,其它可能产生混杂效应的非处理因素应尽可能保持一致。遵循随机化原则是提高组间均衡性的一个重要手段。也是资料统计分析时,进行统计推断的前提。随机是指实验对象的实验顺序和分组进行随机处理。随机分配使之实验对象分配各实验或对照组时,它们的机会是均等的。通过随机化,一是尽量使抽取的样本能够代表总体,减少抽样误差;二是使各组样本的条件尽量一致,消除或减少组间人为的误差,从而使处理因素产生的效应更加客观,便于得出正确的实验结果。例如进行一个药物疗效的实验,观察某种新的抗休克药物对失血休克的治疗效果,实验组和对照组复制同一程度的失血性休克模型,然后给予实验组休克新药,对照组给与等量生理盐水。如果动物的分配不是随机进行,把营养状态好和体格健壮的动物均放在实验组,把营养和体格不好的动物放在盐水对照组,最后得到的阳性实验结果并不能真正反映药物的疗效,很可能是动物体格差异所至。

随机化的方法很多,可采用随机排列表和随机数字表来进行,还可利用抽签的方法,具体可参阅医学统计学。

3.3.3 重复原则

重复是指各处理组和各对照组的例数(或实验次数)要有一定的数量。重复是保证科研结果可靠的重要措施。由于实验动物的个体差异等原因,一次实验结果往往不够确实可靠,需要多次重复实验方能获得可靠的结果。重复有两个重要的作用:一是可以估计抽样误差的大小,因为抽样误差(即标准误)大小与重复次数成反比。二是可以保证实验的可重复性(即再现性)。

四、实验设计的基本方法:完全随机设计、配对设计、配伍组设计、析因实验设计、拉丁方设计、正交设计。

五、实验统计分析:

5.1   数学基础

 

 

 

 

 

 

 

 

 

 

 

 


5.2   常用定量数据统计分析的显著性检验:

5.2.1 配对t检验:

同体比较的显著性检验是指同一组实验对象用药前后或接受两种化验检查、两种不同处理时,观察值差值的显著性测验。

    (f = n-1

x

 
式中,  为差值的均数;S 为差值标准误。

结果判断:tt0.05,则P0.05,差异有显著意义;t<t0.05,则P>0.05,差异无显著意义。

5.2.2 两组t检验,两组比较的t检验——两组t值法

1)基本t值法公式:

自由度f = n1+n2-2

2)简化t值公式:

用于两组例数相等者,或例数较多,又基本相等者。此时n1=n2=n

故上公式可简化为:

自由度f = 2(n-1)

3)校正t值公式——t' 法:用于两组方差不齐者(不论例数是否相等)

校正自由度:

用以上t检验法检验两均数的差别有无显著意义时,除要求资料符合常态分布外,还应两总体的方差(标准差的平方)要相近,否则要采用校正t值法。

5.3 定性数据统计分析方法的选择

   定性数据也称计数资料,又称质反应资料 。计数资料的显著性检验最常用于两组阳性率的统计分析,在药效统计分析中,还应根据资料的特点如:有无配对关系、有无等级关系等计算资料统计分析法的选择因素来选择适当的统计分析法。下面先列出“计数资料显著性检验一览表”(见表1-12),在结合例子加以讨论。

 

           1-12 计数资料统计分析法的选择


                          构成比相同  数据中无01……χ2(2×2)

               无配对关系              数据中有01……简化直接概率法(1

         两率              构成比不同………………………权重χ2法(2

         对比              检验两法关联性……………………关联χ2

计数资      有配对关系  检验两法    优势对比          优势χ2

料(阳                   优势性      两发与真实检出率对比……三维χ2

性率资                     多行多列综合对比…………………χ2R×C)法

料)统        无等级关系

计分析     多率              两组阳性率两两对比………………χ2(2×2)

           对比

      有等级关系…………………………………………等级序值法(3


   *简化值直接概率法是新的简化法,计算结果与Fisher直接概率法相近;也可分别按

构成条件,进行几个单独的χ2检验;等级序值法是新的简化法,计算结果于Ridit法完

全相同。

5.4 定量数据统计方法的选择

定量资料,也成计量资料,又称量反应资料,是对每个观察对象测量某项指标的

数值大小所得到的资料。例如血压值、血糖值、血细胞数等。计量资料内涵的信息比

计数资料丰富,使药效统计分析中最常用的资料类型。

    定量资料的统计分析方法基本可以分为两大类,即“参数统计”

和“非参数统计”。前者常需要有一个总体分布的前提,一般是要求数据资料的分布情

况符合“常态分布”。即数据虽然有大有小,但中等居多,集中分布在均数附近,特别

大或特别小的数据很少。数据的分布可形成一个高峰位于中(均数所在处)两侧均匀、

对称的钟形曲线(常态曲线)。多数情况下,一组计量数据的分布情况是符合常态规律

的,因而参数统计方法是重要的常规分析方法。药效统计分析中,也会遇到一些数据

资料不符合常态分或其他分布,或有时分布情况不能确定。在这种情况下,或有时可

以通过数据转换的方法转为正态分布(或其他分布)来应用相应的分析方法外,通常

的统计方法就不适用。这时采用非参数统计方法。

5.4.1 计量资料的代表性参数

5.4.1.1均数(算术均数m,或):均数反映了一组测量数据的集中趋势。他具下列性质:

均数与列数的乘积即各值总和:n=Σx各值与均数差值之和恒为零Σ(x-)=0

各值与均数差值的平方和即Σ(x-)2恒为最小值。

对于大样本资料均数的计算还有其他近似计算方法儒家全法、简捷法等。由于近年

来计算器的普遍使用,可以准确、方便的计算均数,过近似计算不再介绍。

5.4.1.2 标准差(SD、δn-1):公式见(1-37)。

标准差是反映测量值离散性的参数。标准差还用来计算变异系数(CV)。后者在

药效研究中反映实验的稳定性。

5.4.1.3标准误(S):

标准误表示抽样误差的大小,是反映均数可靠性的参数。标准误小,说明抽样误

差较小,样本均属于总体均数较接近,用样本均数代表总体均受的可靠性较大;反之,

标准误差越大则表示样本均数越不可靠。样本均数的可靠程度可用均数加减标准误的

范围来估计。在±S范围内,总体均数出现的概率约为70%。可粗略的说重复100

次实验,得到100个均数,约有70个均数在上述范围内。可见S越小,由样本均数

估计总体均数的误差范围也越小(可靠程度大),均数的可信程度越好。

标准差和标准误不同,前者表示各个测量值的离散程度,而后者则说明样本均数

的抽样误差,即样本均数对总体均数的离散程度,所以标准误可称为“样本均数的标

准差”〉由此,±s(均数±标准差)与±S(均数±标准误)就具有不同的含义。

但二者在形式上很容易混淆。为此,近年建议一律用±s来表示均数及标准差,而在

表示均数的变异时则采用“95%可信限”的形式来表达。

5.4.1.4    可信限:99%可信限的公式见(1-39)和式(1-40)。

可信显示有样本均说估计总体均数所在可信范围的数值,以95%可信限最为多用,

通常不指明的可信限均指95%可信限。式中t0.05t0.01需根据自由度ft值表而得。

f10时也可用下面的孙——宋氏t值公式计算。

t0.05=1.960+2.376/(f-1.413)1.96+2.4/(f-1)       (1-73)

t0.01=2.576+4.96/(f-1.66)2.58+4.8/(f-2)         (1-74)

 

 

 

 

 

  1-13 常用t值简表


自由度(f    5    8    10    15    20    30    40    80    120   

t0.05        2.57  2.31  2.23  2.13   2.09  2.04   2.02  1.99   1.98   1.96

t0.01          4.03  3.36  3.17  2.95   2.84  2.75   2.70  2.64   2.62   2.58

t0.05=1.958+2.45/(f-1)        (区两位小数,适用于f=3)

 

5.4.2 异常数据的取舍

通过实验而获得的数据资料,在进行统计分析前应作必要的整理,使之系统化、

条理化,以利于分析,并对错误、遗漏的资料进行修正和补充,对可疑异常的数据做

出合理的取舍。

数值特别大或特别小的异常数据,除根据专业知识寻找原因决定取舍外,还可从

统计学原理上运用常态分布规律,估计该数值出现的概率有多大。如果该数值出现的

可能性非常小,则可视为“异常数据”舍去。如果概率较大,则说明有“抽样”得来

的可能性较大,应予保留。其步骤是先将可疑异常值(x)包括在内算出均数及标准

差,在按下面的原则取舍:

  x±3s范围内,x出现概率大于3/1000x来自抽样误差,尽管有些

“异常”,不应舍去。

  x±3s范围外,x±4s范围内,x出现的概率小于3/1000,大于7/1000

可结合专业知识决定取舍。

     x±4s范围外,x出现概率大于7/1000应舍去。

应用这一原则的前提条件有:一是假设资料满足正态分布,二是n应大于11

例如,用12例进行实验,将所有实验数据计算得到?±4s12.1±1.1的一组

数据中有可疑异常数值6.0,经判断:?±4s的范围为7.7~16.56.0在此范围内,则

应舍去再重新计算均值和标准差。

5.4.3 数据有无偏态的判断

判断资料数据有无偏态,也给予常态分布的差别有无显著意义,这种计算比较

复杂,可参考专著。下面提供一种简单判别法,结合例子说明计算步骤。

     求出均数与标准差:如数据为6888399920n=9;算出=9.44

s=4.06

     求高低列数差(绝对值):这组数据种植有20大于均数9.44,故高于均数

侧的列数为一列,nh=1。其余8列数据均小于9.44,故低于均数侧的列数为8例,nl=8

高低列数差的绝对值为|nh-nl|=|1-8|=7

     内外列数差(绝对值):所谓“内”、“外”是值数据分布在?±0.65s范围

内与外。本例?±0.65s的范围为6.8~11.2,其中620二列位于该范围以外,余者

7例均在该范围以内。所以no=2ni=7,则内外列数差的绝对值为| ni-no|=|7-2|=5

     判断:|nh-nl|2??表示资料在对称性上有偏态;| ni-no|2??表示资料

在峰波性上有偏态。

在对称性上或峰波性上任一种有偏态时,即可认为资料分布与常态分布的差别

有显著意义(P0.05)

在确定数据有偏态的情况下,不应采用均数和标准差等进行统计分需。应进行

数据转换或采用非参数统计法。

5.4.4 数据是否要转换:

在药效统计分析中,根据专业知识和资料的性质,常需将观察值先转换为X

然后以X为直接计算的数据来计算其均数、标准差和可信限,最后在逆转为X值。

对数转换:研究量效应反应关系及计算最小有效量、最低有效浓度的平均数

是,常将计量x作对数转换,X=x。计算X的均数,最后通过取反对数逆转。这样

求得的平均数称几何平均数G,其数值与直接计算的均数(?)不同。如果要直接用

x计算G,则需将这些观察值相乘再开n次方。即G=-1(∑㏒x/n)。转化后则计算大

为简化。

倒数转换:计算潜伏期、血凝时间及平均速度时,常将数据做到数转换,

X=1/x;求其均数最后逆转而得到的平均数称为调和均数(H),见公式(1-41)。

平方转换或平方根转换:计算面积、容积或体积时,有时需进行X=??,

X=x2X=x3等转换,这是通常要改变量纲的单位。

  其他转换:如死亡率转化为概率单位,反应强度转变为对数分值比等,

是专业理论而定。

总之,在药效学研究中,数据的转换是很普遍、很灵活的,有时还是较复杂的。

但转换的目的都是为了更好的反映药物效应的规律和本质。

当数据有偏态时,不宜采用参数统计方法。此时除考虑数据转换外,还可采用

非参数统计法。

5.4.5 非参数统计法

适用于①数据有偏态者;②数据离散度较大;③方差不齐;④观察指标不能定量者;⑤药效筛选中的初步分析。

对于既可用一般方法又可用非参数的资料应尽量采用常规的参数统计分析。只有在不宜采用常规统计方法,而又没有适当的数据转换方法时才采用非参数统计方法。

                                                         (郑尧、朱靖)