统计显著是否必然等同于实际效果的显著?至少一本行为科学统计教科书(Rosenthal和Rosnow,1984)反复提醒它的读者,统计显著性有赖于研究效应的大小(比如相对于标准差两组平均值的差异;或者对于两个变量的r值)。因此,当研究使用了大样本时,相当小的效应值就能使我们拒绝虚无假设——当然,它可能是正确的,但是效应如此之小,虽然可以被检测到,我们需要为此感到担忧吗?例如,心理学家会发现在大样本中,市场经理在一个数字测验上的平均得分是58(百分制),而生产经理的平均得分是59.5(百分制),并且这一差异是统计显著的。那又怎么样?这能告诉我们多少有关市场经理和生产经理的相对效力方面的信息?显然,尽管生产经理做的稍好一些,但是有很多市场经理的分数高于很多生产经理。这种问题的一种解决途径就是评估计算能力与工作绩效之间的相关,特别关注的是如果计算成绩上有所提高,相应的工作绩效会有多大程度的提高,并将这种结果转化为实际利润(见第四章关于效用分析的部分)。
然而,在更为抽象的问题上考虑效应大小同样非常有用。我们可以将它想像为虚无假设错误的程度。对于t,我们可以将组间均值的差异与分数标准差的比值(d)作为效应大小的测量值;对于r,我们可以使用两个变量分数共同方差的比例,也就是r2。因此,相关0.60就会得出0.60×0.60=0.36,或者一个变量方差的36%可以由另一个变量的分数来解释。在大样本中,经常出现0.2或更小的相关就达到统计显著性的情况。这样,几个变量仅仅拥有4%的共同方差。听起来这很小,但是Rosenthal和Rosnow(1984)已经指出,它仍然能够反映出现实中重要的实际结果。例如,如果一种针对抑郁的治疗比另外一种治疗好4%,那么从全国范围来看,前一种方法治愈的人数将比后一种要大得多。
对于F,一个常用的效应大小指标叫做eta(n)。它反映了组内变异占分数全部方差的比例。像r2一样,eta可以被看做全部方差解释比例的指标。
效应大小这一指标并不神秘。通常它们非常容易获得,有时候在检验统计显著性的过程中就会例行地被计算出来。