效度 – 12Reads管理百科

什么是效度

效度表示一项研究的真实性和准确性程度。又称真确性。它与研究的目标密切相关，一项研究所得结果必须符合其目标才是有效的,因而效度也就是达到目标的程度。效度是相对的，仅针对特定目标而言，因此只有程度上的差别。

在测量方面，效度指一种测量手段能够测得预期结果的程度。从统计学角度可把效度(rXY)定义为潜在真分数方差(垏)与实得分数方差(垑)的比率,即：。效度与信度的关系为：信
度是效度的必要条件，但不是充分条件。一个测量的效度要高，其信度必须高，而一个测量的信度高时，效度并不一定高。

测量效度的方法

考验效度的方法很多，J.W.弗伦奇和W.B.米歇贝根据测验目标把效度分为内容效度、构想效度和效标关联效度，这种分类为美国心理学会在1974年发行的《教育与心理测验的标准》一书所采纳，成为通行的效度分类方法。

（1）内容效度指测验题目对有关内容或行为范围取样的适当性。成就测验和熟练测验特别注重这种效度。例如，在成就测验中，测验题目是根据教学大纲和教材内容适当抽出的，内容效度就是判断测验题目（内容）是否符合它欲测的目标。由于这种衡量效度的方法必须针对课程的目标和内容，以系统的逻辑方法详细分析题目的性能，故又称课程效度或逻辑效度。确定内容效度的方法主要有两种：①专家判断，即由有关专家对测验题目与原定内容范围的符合性作出判断；②统计分析，即以一组被试在取自同样内容范围的两个独立测验上得分的相关作出估计。内容效度很容易与表面效度相混淆，实际上两者意义不同。表面效度指从外表（如测验的材料及用语、试题的印刷等）直观地看，测验题目与测量目标的一致程度，它与内容效度所指测验在实际测量上的有效程度不同。从技术意义上严格地说，表面效度不是效度，但为了取得被试的信任与合作，表面效度也不可忽视。

（2）构想效度指测验分数能够说明心理学理论上的某种结构或特质的程度。它主要适用于心理测验，其目的是以心理学的概念说明和分析测验分数的意义，即从心理学的理论观点对测验的结果加以解释和探讨。在心理学上，所谓构想是指心理学理论所涉及的抽象而属假设性的概念、特质或变量,如智力、焦虑、机械能力倾向、成就动机等,通常采用某种操作性定义并用测验来测量。确定构想效度的逻辑和方法一般是：先从某一构想的理论出发，导出各项关于心理功能或行为的基本假设，据以设计和编制测验，然后由果求因，以相关、实验和因素分析等方法，审查测验结果是否符合心理学上的理论观点。

（3）效标关联效度指测验分数与效度标准的一致程度。效度标准简称效标，是足以反映测验所欲测量或预测的特质的独立量数，并作为估计效度的参照标准。测验分数与效标的一致程度以二者的相关系数表示，这种相关系数称为效度系数。效度系数越大,测验的效度越高。由于用相关系数这种统计数值表示，这种效度又称统计效度。效标关联效度可分同时效度和预测效度。同时效度指测验分数与当前的效标之间的相关程度，通常与心理特性的评估和诊断有关，常用的效标资料包括在校学业成绩、教师评定的等级、临床检查、其他同性质测验的结果等；预测效度指测验分数与将来的效标之间的相关程度,它对人员的甄选、分类与安置工作等甚为重要,常用的效标资料包括专业训练的成绩和实际工作的成果等。它运用追踪法对行为表现作长期观察、考核和记录，以累积所得的事实资料衡量测验结果对将来成就的预测性。

测量的各种效度的区别在于各自强调的方面不同。一个测验可以有多种效度，每种效度视使用者的具体目的而定，因此，一般不存在测验的统一效度。但各种效度又是相互联系和补充的。内容效度和构想效度既是效标关联效度的保证，又须得到它的支持。考察内容效度和效标关联效度又有助于确定构想效度。

内在效度与外在效度

内在效度与外在效度的概念

内在效度指实验的自变量和因变量之间存在明确因果关系或相关关系的程度。它表明因变量的变化在多大程度上来自自变量——有效性。

外在效度指教育实验研究结果的概括程度，它表明实验结果的可推广程度。　

在心理学研究（特别是实验研究）文献中，常使用内在效度和外在效度的概念，这与测量的效度的含义有所不同。内在效度指研究的自变量和因变量之间存在明确关系的程度。如果一项研究经过分析表明，因变量的变化确系主试操纵的自变量的变化所引起，并不因其他变量的影响而变得模糊不清或复杂化，那么这项研究就具有内在效度。

影响内在效度和外在效度的因素

影响实验研究的外在效度的因素主要有样本 (往往是便利样本而无法推及总体) 和环境 (人为制造而往往强化了实验效果) 两类。

影响内在效度的因素较多，可以用Stanley and Campbell 及其他人有关影响实验研究内在效度的下述因素为参照：

（１）自我选择（Selection，在单次调查中更容易存在）；

（２）历史（History，在重复实验或调查中均存在）；

（３）成熟（Maturation，同2）

（４）重复测试（Repeated Testing，固定样本调查有此问题）

（５）测试工具影响（Instrumentation，调查问卷自然有其问题）

（６）回归趋中（Regression to the Mean，调查同样存在、追踪调查尤其如此）

（７）实验对象流失（Experimental Mortality、同样适用于固定样本）

（８）自我选择和成熟的交互影响（Selection-Maturation Interaction、见1和３）

（９）实验偏差（Experimenter Bias，在调查中也有调查环境的问题）

上述影响中，大部分与追踪调查或固定样本调查（前者可以用非固定样本）有关；而与最常见的单次调查有关的是自我选择，即调查对象往往将自己的预存行为和观念（统称 predispositions) 带入他们对调查问题的回答，这是自然的，问题在于调查者无法测量各种预存行为和观念之间的先后次序，从而无法确定它们之间的因果关系。如看电视与文化观念之间，是因为看了西方电视节目然后有了现代化观念、还是因为崇尚现代化观念而看西方电视节目？再如网瘾与社会冷漠之间，是因为上网太多而减弱了人际交往、还是因为缺乏人际交往（的能力或机会）而泡在网上？传播研究中最常见的困惑往往就在于此。

当然，上述讨论也给了我们指出了希望和方向：调查与实验的结合，可以互补互助。在程序上，可以先做实验以确定一对关系的内在效度，然后通过调查来验证其外在效度；也可以倒过来，用实验来验证自己或前人已经做过的调查发现。也就是说，我们并不一定要同时做调查和实验，可以在别人的调查基础上做实验或者实验基础上做调查。Iyengar and Kinder (1988) 用实验方法做议程设置研究，开创了议程设置研究的一个新范式，其实验结果则给议程设置研究中的”鸡与蛋“悬案（即“先有媒体议程还是先有公众议程”）作了最后的定论。

控制实验 (control experiment) 与现场实验 (field experiment) 的结合使用，也是提高实验外在效度的一种有效方法，这里主要解决的是控制实验的环境问题；是否能否解决样本的代表性问题则要看现场实验的抽样方法。我做过的美国总统电视辩论实验 (Zhu, Milavsky & Biswas, 1994) 是控制实验和现场实验的结合，可惜我们用的实验对象是非随机抽取的大学生，所以只解决了环境问题。

固定样本调查是解决自我选择问题的良方，但是其容易受到其它几种影响。所以需要在做最后一次固定样本调查的同时，再另抽一个独立样本。其意义与调查与实验的结合相似。

内在效度与外在效度的联系

效度是研究设计必须考虑的问题。效度只是程度上的问题，是高与低的问题。效度不会全有或全无。内在效度是研究设计的基本要求，是研究质量的根本保证，是外在效度的先决条件。没有内在效度便无所谓外在效度，因为一个研究本身不科学、不精确，内在效度很低，即使它再容易推广、再现，外在效度再高，也不能正确解释问题现象，也不可能有什么实际意义。一般来说，内在效度越充分，结果的可推广度越大，研究也越有价值。正如有位科学家的名言：知道原因的失败，优于不知道原因的成功。

内在效度的目的在于排除另类的解释，使研究变量关系纯化、凸现，能经得起重复、验证。只有这样，最终的研究结果才能被大家所接受。研究设计时，研究者本人应该确定自己研究的内在效度，在确保研究最基本的内在效度的基础上，考虑研究的外在效度，即在保证研究科学性的前提下，考虑研究的可推广性。

当然在强调研究内在效度的同时，也不应该忽视研究的外在效度。我们希望研究能构建新的理论，能贡献新的知识，能为科研宝库添砖加瓦。要使研究结果形成放之四海而皆准的理论，首先要看这个研究是否具有内在效度，其次考虑外在效度，即研究结果是否能类化到其它相似情境。
但是，内在效度高的研究不一定具有较高的外在效度，有时二者往往难以都得到充分满足。有是确保了一种效度，就会削弱另一种效度。例如，为了控制性别差异可能对实验结果的影响，只选取男生或女生作为被试，这个实验的内在效度提高了，但实验的外在效度却受到损失，即实验结果难以推广到不同性别的群体中去，结论的普适性降低了。又如，在现场自然情境中进行一项实验，虽然能较好地适应现实情境（具有较好的外在效度），也便于推广运用，但受实验条件限制，无法像实验室实验那样充分控制无关变量，实验的内在效度降低了。为此，在研究设计中要综合考虑内在效度和外在效度的平衡，在保证实验结果可靠性的基础上，尽可能使研究获得更大的推广能力。