管理学百科|12Reads

统计检验方法

t检验

假设一位心理学家感兴趣的是生产经理是否比会计具备更强的数学思维能力,他或她会对20个人进行一个计算能力测验,并得到了两个平均分,生产经理为25分而会计为30分。显然,会计的平均分数要更高,但是在决定接受或者拒绝虚无假设(即生产经理和会计的总体在数学思维能力上没有差异)前,还需要获得哪些其他信息?

首先,我们需要考虑样本平均值之间的差异是否与分数的整体范围有关。毕竟,如果样本分数分布在10。50之问,两个平均数之间的差异为5就不是很大。但是,如果所有分数仅仅分布在20~35之问,那么差异为5在比较时就显得相当大了。

测量分数分布最常用的数学指标就是标准差。标准差是个体分数与整体平均分数之间的差异,与样本大小的函数。标准差越大,个体分数的变化也就越大。因此,如果所有分数都恰恰是平均分,标准差就会是零,因为在个体与整体平均分之间并不存在差别。除了这种极端的情况,我们通常认为大约68%的个体分数会处于平均值两侧一个标准差之内,大约96%的分数会处于平均值的两个标准差之内。

样本大小在评价两个平均值差异的显著性时也非常重要。假定一种虚无假设为真的情况,如果一位心理学家重复使用20位生产经理和20位会计作为样本,他或她会期望他们的平均分数是相等的。但是在小样本中,只要有一个或两个异常分数出现,就会导致两组的平均数出现相当大的差异。因此,尽管平均而言,两个样本的平均值应该是相等的,但是在某些样本中会出现相当大的差异。如果心理学家重复使用较大的样本(比如100位生产经理和会计),那么少数几个极端分数的影响就会被稀释了。如果虚无假设实际为真,我们还会期望两组平均分数之间的差异为零,但这次两个样本的变异范围就比较小了。

因此,在一项研究中要评估两个平均数之间差异的统计显著性,我们不仅需要考虑差异的大小,同时也要考虑标准差和样本容量。对于任何给定的均值差异,标准差越小,样本容量越大,则心理学家拒绝虚无假设的可能性也就越大。

典型的情况是,为了评估两个均值分数是否表现出统计上的显著差异,心理学家往往使用t检验的方法。这种统计程序考虑了上述的所有因素。一个大于2或小于一2的t分数一般预示着均值之间存在显著的统计显著性差异,但是显著性的精确值需要根据样本容量而定。大多数统计学教科书都会包含这样的表格,即在0.05、0.01和0.001水平上任何一个样本容量达到统计显著性所需的最小t值(有时候称为临界值)。

当然,t检验需要的数据是定量的。也就是说,数据应该反映人们有所变化的某个维度的分数,而非不同的类型,也不是他们进入的格子。严格地说,数据还应该满足这样的要求,即无论分数的绝对水平如何,两组分数之间一定数目单元的差异反映的应该是同样数量的差异。比如,分数100比90多出的数量应该与20多出10的数量相同。这看似直接,但是在很多自我报告的测量中(比如工作满意度),我们并不能够非常确定这种变量是否满足该条件。此外,分数应该是接近正态分布的(见图1)。方法学上称之为分数的钟形分布,它的峰值在平均值位置,并且在两侧以相同的比例下降,而这个比率与标准差有关。幸运的是,即使数据并不接近正态分布,t检验也并不总是无效的(Sawilowsky和Blair,1992)。在术语中,这是一种强耐受性(robust)的检验方法。这是非常有用的,因为心理学家获得的研究数据经常不是正态分布的(Micceri,1989)。

正太分布

图1:正太分布

如果我们希望看一看来自相同的人的两组分数的均值是否存在显著差异,可以使用一种有所不同的t检验方法。例如,我们可能对培训前后人们的绩效情况感兴趣。这时使用的公式有些区别,但是这种非独立样本t检验方法的大多数原则与前面所述的独立样本的t检验方法都是一样的。

方差分析

当我们比较两组以上群体的分数时,应该怎么做?这种情况下,会用到另外一种非常常见的统计检验——它被称为方差分析。实际上,它是t检验方法的一种扩展。结果统计量叫做F,t检验中关于统计显著性的原则同样适用于F(见上),使用t时的局限性在使用F时也同样存在。F可以代替t被用来比较仅仅两个均值,此时,F=t2。
F值反映了组间分数变化和组内分数变化的比值。前一个比后一个越大,F值就越大,总体均值之间的差异也就越大(即,如果虚无假设对于总体实际为真,则我们这种结果出现的概率很低)。如果F值具有统计显著性,我们就可以拒绝两个总体均值相等的虚无假设。我们可以使用检验的变式来考察具体是哪一对或哪几对群体之间的差异达到了显著。

更为复杂的研究设计数据也可以使用方差分析来进行检验。比如,假设心理学家感兴趣的是机器提速工作与监管(Supervision)类型对于工作满意度的影响。他或她就会实施一个具有四组人的实验:一组在近距离监管下进行机器提速的工作;另外一组在远程监管下进行相同的工作;第三组在近距离监管下进行自己控速的工作;而第四组在远程监管下进行自己控速的工作。可以使用方差分析来单独检验每个因素(工作的速度以及监管的类型)对于工作满意度的统计显著性效应,此外方差分析还能够检验交互作用,例如,近距离和远程监管对于工作满意度的影响可能在自己控速时比机器控速时更大(或者相反)。

卡方检验

正如前面指出的,数据有时候是非定性的而非定量的。例如,假定心理学家希望检验生产经理与市场经理是否在对工作中“人性”的看法上存在差异,他就需要设计出一种方法来评估50名生产经理和50名市场经理中的每个人是相信“X理论”(人们需要在控制和强迫之下才会工作),还是“Y理论”(人们在本质上是负责任以及值得信赖的),还是“社会性”(人们最关心的是工作中的社会关系)。每名经理的观点都会被分类到对人性的三种看法中。

心理学家不能使用t和F检验,因为数据是类目型的,而不是容量的。我们不能说相信一种对人性的观点比相信另外一种观点“更多”或者“更少”——显然这是有所不同的。因此,尽管心理学家可以武断地给那些相信X理论的经理们1分,相信Y理论的2分,相信社会性的3分,但这些数字并不是一个量表。相信Y理论并不比相信X理论更多或者更少,因此心理学家希望考察两组经理中支持每种人性观点的人数各有多少,以及这些数字之间是否存在统计显著性的差异,这种情况下所使用的统计方法就是卡方(X²)。组间差异越大,数据的卡方值就越高,虚无假设为真的可能性就越小。和t与F一样,卡方在各种水平下的临界值也可以在大多数统计学教科书中找到。与t和F不同的是,这些临界值并不直接依赖于样本容量,它们依赖的是数据列表中行、列的数目。在上面的例子中,表格总共包含6个单元格:2(经理类型)x 3(对人性的看法),每一个单元格中的数字就是分到此类中的经理人数。卡方的步骤比较了每类经理中支持各种人性看法的人数相同时的观测值与期望值。

相关

相关是调查研究中最常使用的方法。例如,心理学家希望找出工作满意度与离职意向之间的联系,或者,他或她可能有兴趣考察自尊和工资之问是否有所联系。在这些情况下,变量测量采用的是连续性的量表,就像是t检验用到的那种,但是与t检验不同的是,心理学家并不是比较均值分数,他或她希望发现的是两个变量之间是否存在相关。

有几种不同但是非常相似的相关统计方法,每一种都会给出一个相关系数。其中最常用的就是Pearson的积差相关系数,或者简称为r。相关系数的值不会大于1,也不会小于-1。Pearson的r为1表示如果将两个变量的分数点画在一张图上,穿过所有的点就会得到一条直线。这条线可以从左到右上升,表示当变量A增加时,变量B也会增加。这条线不需要有一个特定的角度,也不必然从零点开始。r值为-1同样表示穿过所有点会得到一条直线,但是这次它的倾斜方式有所不同,即当A增加时,B会减少。r值为0既表示不可能画出一条穿过所有数据点的直线,也意味着无论两个变量其中一个的分数如何变化,另一个变量的分数都不会出现某种上升或下降的趋势。

相关系数r为0就是虚无假设的统计学表示,即在变量之间没有线性关系。因此,心理学家一般会问“我从样本中得到的相关系数是否与0存在显著差异,可以使我拒绝虚无假设?”和其他统计方法一样,对于给定的样本容量我们能够在统计表中找到需要达到某个显著性水平的r的临界值。因此,如果有一个大小为20的样本,r在0.05水平上显著的临界值为±o.444,在0.01和0.001水平的相应值分别为0.590和0.708。

另一种相关就是Spearman秩次相关(rho,p)。当数据并不反映绝对分数,而反映了秩次顺序时,就要使用这种方法,比如,当我们知道分数X大于分数Y,但是我们并不知道大多少时。计算P的公式与计算r的公式不同,但实际上它所做的是同一件事情。当数据显著偏离正态分布或者有几个分数比其他分数大很多时,p也是非常有用处的。

无论使用哪种具体的相关方法,记住这句老话非常重要,相关并不表示因果关系。通常,心理学家会推断两个变量相关的原因就是一个引起了另外一个,这看起来似乎合理,但是要确定这一点却很难。假如心理学家发现在自尊和工资之间存在非常显著的正相关。如果对两个变量的测量是在相同的时间,那么没有任何理由来断定自尊是工资水平的原因或者工资水平是自尊的原因。为两种因果方向找到可能的解释都是非常容易的事情。也可能某个(某些)其他的变量(比如社会地位、教育程度)既是自尊的原因又是工资水平的原因,但我们如果不对它们进行测量,我们也仅能够做出推测。

获得跨越时间的数据(一个纵向研究)能够有所帮助,这样能够揭示出一个处在时间1的变量分数是否能够预测出在时间2的另外一个变量的分数。但即使如此,现象A发生在现象B之前也并不必然意味着现象A引起了现象B。

多元回归

就像方差分析是t检验在多于两个组时的扩展一样,多元回归是相关在多于两个变量时的扩展。假如心理学家希望计算自尊分别与工资水平、教育程度和社会地位的相关,他或她就会发现后面三个变量两两之间都相关,而且都与自尊相关。这样,心理学家会想知道究竟哪一(几)个变量在预测自尊时真的有作用。

多元回归这种统计方法让社会科学家能够评估工资水平、教育程度和社会地位在预测自尊时各自的重要性。它能够估计三个变量中每一个与自尊的相关,并且独立于另外两个(当然这种方法也适用于更多的变量数目)。这样研究者最终能够得到一个方程,该方程将每个预测变量的权重具体化,而且能够表示出在使用全部三个预测变量时,对于自尊的整体预测程度如何。但是注意:由于在多元回归分析中变量是被人为设计成“预测指标”的,因此它们并不一定是被预测变量的引发原因。

该词条对我有帮助 (0)
成就高成效,实现管理能力快速提升,12Reads系列教材限时特惠! 立即购买 PURCHASE NOW