文件筐测验 – 12Reads管理百科

什么是文件筐测验

文件筐测验是评价中心最常用和最核心的技术之一。文件筐测验是情境模拟测试的一种，它是对实际工作中管理人员掌握和分析资料、处理各种信息，以及做出决策的工作活动的一种抽象和集中。该测验在假定的情景下实施。该情景模拟一种假设环境，如单位、机关所发生的实际业务、管理环境。提供给受测者的信息如函电、报告、声明、请示及有关材料等文件，内容涉及人事、资金、财务、市场信息、政府的法令、工作程序等多种材料，这些材料放在公文筐里，测验要求受测者以管理者的身份，模拟真实生活中的情景和想法，在规定的条件下在限定时间（通常为1~3小时）内对各类公文进行现场处理，评委通过对受测者处理文件过程中的行为表现和书面答案，评价其计划、授权、组织、预测、决策和沟通的能力，该测验通常用于管理人员的选拔。测验一般只给日历、背景介绍、测验指示和纸笔，考生在没有旁人协助的情况下回复函电，拟写指示，作出决定，以及安排会议，评分除了看书面结果外，还要求考生对其问题处理方式做出解释，根据其思维过程予以评分。文件筐测验具有考察内容范围广、表面效度高的特点，因而非常受欢迎，使用频率居各种情境模拟测验之首。

文件筐测验的特点

文件筐测验的主要特点表现在以下几个方面：

1、考察内容范围十分广泛。

作为纸币形式的文件筐测验，测评受测者的依据是文件处理的方式及理由，是静态的思维结果。因此，除了必须通过实际操作的动态过程才能体现的要素外，任何背景知识、业务知识、操作经验以及能力要素都可以涵盖于文件之中，借助于受测者对文件的处理来实现对受测者素质的考察。

2、表面效度很高。

文件筐作业所采用的文件，十分类似甚至有的直接就是应聘职位中常见的文件，因此，如果受测者如果能妥善处理测验公文，就能理所当然地被认为具备职位所需的素质。

3、应用范围大。

考察内容范围的广泛使得文件筐测验具有广泛的实用性，并且表面效度高，易为人所接受，因此，文件筐测验在众多公选考试测验中普遍使用的一种。

4、情景性强。

文件筐测验完全模拟现实中真实发生的经营、管理情景，对实际操作有高度似真性，因而预测效度高。

5、综合性强。

测验材料涉及到日常管理、人事、财务、市场、公共关系、政策法规等行政机关的各项工作，从而能够对高层及中层管理人员进行全面的测评与评价。

6、评分难度大。

文件处理结果的评价受多种因素的影响，机构、氛围、管理观念不同的组织，具有不同的评价标准。在文件筐测验的评分确定过程中，专业人员和实际工作者往往存在理解上的差异。

7、成本很高。

文件筐测验的试题设计、实施、评分都需要较长的研究与筛选，必须投入相当大的人力、物力和财力才能保证较高的表面效度，因此花费的精力和费用都比较高。

文件筐测验的设计

文件筐测验的设计必须紧紧抓住三个环节：

第一，工作分析。深入分析职位工作的特点，确定胜任该职位必须具备哪些知识、经验和能力。工作分析的方法可以是面谈、现场观察或问卷。通过工作分析，要确定文件筐测验要测评什么要素，哪些要素可以得到充分测评，各个要素应占多大权重。

文件筐测验一般可以考查以下要素：

①书面表达及其理解；②统筹计划能力；③组织协调能力；④洞察问题和判断、决策能力；⑤任用授权能力；⑥指导控制能力；⑦岗位特殊素质，如法规条例知识。

第二，文件设计。包括选择什么文件种类，如信函、报表、备忘录、批示等；确定每个文件的内容，选定文件寓设的情境等等。文件数量较多，时间以 2～3小时为宜。文件的签发方式及其行文规定可以忽略，但文件的行文方向（对上与对下，对内与对外等）应有所区别。特别要注意各个文件测评要素的设计。常常一个文件不同的处理可以体现不同的要素，设计的对文件的处理方式要有所控制，确定好计分规则或计分标准，尽量避免每个要素同时得分和无法归于某一要素的情况出现。

第三，测验评分。实施文件筐测验之后，评分一般由专家和具备该职位工作经验的人（一般是选拔职位的上级主管及人事组织部门的领导）进行，除了前面设计时要制订好评分标准外，更重要的是对评分者要进行培训，使评分者根据评分标准而不是个人的经验评分。评分的程序也要特别注意，可以考虑各自独立评分，然后交流评分结果，对评分差异各自申述理由后，再独立第二次评分。最后将评分结果进行统计平均（评分者比较多时，可以去掉最高分和最低分)，以平均分作为最后得分。有时，在考生答案不明确的情况下，需要质询应聘考生，根据其对处理方式的解释确定得分。

整个文件筐测验的设计要特别注意两点：

一是测验材料难度的把握。目前国内对各个职位应具备何种程度的知识、经验和能力缺乏客观可靠的依据，难度的把握比较困难。把握不准，材料过难，固然作为选拔测验有时可以选拔到很好的人才，但大材小用，很难设想这人会安心本职位工作，且导致人力资源的浪费。材料过于容易，测验会出现“天花板效应”，大家都得高分，区分不出应聘考生的能力大些。

二是要注意材料真实性程度的把握。完全杜撰的材料，应聘考生可以根据一般知识推理，处理的结果没有针对性，看不出应聘考生的水平差异，考生被录取后需要经过较长时间的培训和适应才能胜任工作。完全真实的材料，过于偏重经验的考查，忽视潜能的考查，最后选拔到的人无疑是完全与招聘单位文化气氛相同的人，违背了引入外来人才，给单位输入新鲜血液的本来目的。同时完全真实的材料，使招聘考试本身对单位内部考生和单位外部考生不公平，同样的能力水平内部考生被录取的可能性更大，结果给人留下“一切都是内定，考试不过是走形式”的印象，这对真正想引进外部人才的单位尤其不利。

文件筐测验的考察内容

管理人员计划、组织、预测、决策、沟通能力的个体水平和群体水平是企业管理团队核心能力的标尺，对于企业可持续发展力的保持和提升具有重大意义。五大能力的考察是文件筐测验关注的焦点。下面就以市场总监为例向大家逐一进行介绍：

计划能力

是指被测评者在分析每一既得信息所反映的问题、问题产生的根源以及各问题间的相互关系并据此确定工作目标、工作任务、工作方法和工作实施步骤的能力。对于市场总监来讲，就是考察他（她）在特定的外部竞争环境和内部资源条件下进行产品计划、价格计划、分销计划和促销计划的能力。滚动计划法的应用情况、计划的可行性、实施所需时间/成本以及风险度是考评管理者计划能力关键指标。

组织能力

是指被测评者按照各项既定工作任务的重要和紧急程度安排工作次序、调配人力/物力/财力资源、合理分工/授权并进行相应组织机构或人事调整的能力。当某大区的商品营业额出现大幅度滑坡时，市场总监往往要组织增派促销人员、调拨促销用品、加大营销费用，授予大区市场经理临时特别权力，甚至调整大区市场部组织机构或管理班子来加以应对。工作次序安排、资源配置、工作分工/授权情况以及组织措施的成本和风险度是考评管理者组织能力的关键指标。

预测能力

是指被测评者对模拟工作环境中相互关联的各类因素及总体形势未来发展趋势进行准确判断并预先采取相应措施的能力。竞争对手在某中心城市的各大商场刚刚投放一种明显优于公司现有主导产品的新产品，而该城市正是公司计划下一步重点经营的目标市场——准确的预测及有效的应对措施此时对市场总监来讲就显得十分关键。对工作环境中各类相关因素及总体形势未来发展的多种可能性及其发生概率的分析论证、各种防范/因应措施的合理性是考评管理者预测能力的关键指标。

决策能力

是指被测评者在解决实际工作问题（特别是解决重要且紧急的关键问题）时策划并选择高质量方案的能力。公司的新产品已被消费者认同，销售额和利润正在快速增长，仿制品也开始进入市场——是重点开拓全新市场、建立新的分销渠道，还是在已开发市场转变广告宣传策略、降价促销呢？这就需要市场总监审时度势、全面斟酌、正确决策。决策目标的清晰程度、备择方案（一般为两到三个）的可行性、各方案的评价/比较和最终确定的方式是考评管理者决策能力的关键指标。

沟通能力

是指被测评者通过书面形式准确表达个人思想和意见的能力。实际工作中，市场总监会经常以电子邮件、传真、信函或公文的形式与各大区经理进行工作交流、根据市场人员状况和市场竞争态势对大区经理进行适时的工作指导、对大区经理进行日常慰问和精神鼓励等等——这就需要良好的书面沟通能力。沟通网络和沟通方式的选择、信息的准确性、思维的逻辑性、结构的层次性、文字的流畅性是考评管理者沟通能力的关键指标。

文件筐测验对考官的要求

文件筐测验对考官的综合素质要求较高。他们不仅要具备管理学和心理学领域的基础知识，了解文件筐测验的理论和实践依据，而且还要对测评对象所任职务的职责权限和任职资格（工作经验、学历、能力、潜能和个性心理特征等）进行过系统研究，能够独立或与他人合作设计测评题目，了解各测评题目之间的内在联系；能够恰如其分地开展考评问询，能够对被测评者进行全面、客观、公正的评价。考官要对每种可能出现的答案及其所代表的意义成竹在胸并与其他考官事先达成共识。在上世纪五十至八十年代，文件筐测验的考官是清一色的管理顾问、咨询专家或心理学家。二十世纪八十年代以后，文件筐测验的考官也开始逐步吸收所在企业的高级管理人员（他们通常是被测评者直接上级的上司）。企业高级管理人员通常对企业管理现状的方方面面感受深刻，通过两周左右的标准化速成培训以及顾问人员的现场指导，他们基本上能够担负起合格考官的工作职责——而这对于企业自身管理团队的建设意义深远！

文件筐测验的优缺点

（1）文件筐测验突出的两个优点

一是考查的内容范围广。作为纸笔形式的文件筐测验，测评考生的依据是文件处理的方式及理由，是静态的思维结果。因此，除了必须通过动态过程才能体现的要素外，任何背景知识、业务知识、操作经验以及能力要素都可以寓于文件之中，通过考生对文件的处理实现对考生素质的考查。

二是它的效率高。由于文件筐测验所采用的文件，十分类似于考生应聘职位上常见的文件，有时就是完全真实的文件，因此，若考生能妥善处理测验文件，就理所当然地被认为具备职位所需的素质。

前一个优点使得文件筐测验具有广泛的适用性，而后一个优点使之易为人所理解和接受。因此文件筐测验在众多情景模拟测验手段中，属于最普遍使用的一种。

（2）文件筐测验在实施中的两个缺点

一是评分比较困难。一份文件的处理，除了个人素质的原因外，机构、氛围、管理观念等不同的组织，具有不同的评价标准。显然政府机关与公司企业、私营企业与国有企业对有关文件的处理是大相径庭的。在我国从事实际工作的人们往往缺乏对招聘单位管理或经营状况的深入了解，因而文件如何处理才能充分表明考生具备招聘职位所需素质，专业人员与实际工作者往往存在理解上的差异。因此，评分不容易把握。

二是不够经济。测验的设计、实施、评分都需要较长的时间，投入的精力和费用比较大。

文件筐测验实施程序

文件筐测验可以集体施测，实施过程分准备、测试和评分三个步骤。

1.准备

主要指测验材料和测试场所的准备。给每个考生的测验材料，事前要编上序号，答卷纸也要有相应序号，实施前要注意清点核对。答卷纸主要由三部分内容构成：一是考生姓名(或编号)、应聘单位和职位、文件序号等；二是处理意见(或处理措施)、签名及处理时间；三是处理的理由。文件序号只是文件的标识顺序，不代表处理的顺序，应允许考生根据轻重缓急调整顺序，但给所有考生的文件顺序必须相同，以示公正。测试的场所要求比较宽敞、安静，每个人一桌一椅，相互之间无干扰。为了保密，最好所有考生在同一时间完成。如果文件内容涉及到招聘单位内部的一些情况，测试前应对所有考生提供培训，介绍相关情况，缩小内部考生和外部考生对职位熟悉程度的差别。

2.实施

主试要对测验要求作一简单介绍，说明注意事项。然后发给考生测试指导语和答卷纸，回答考生的提问，当考生觉得没有问题后，再发测试用的文件。考生人数比较少时，也可以一次将材料发给考生，但要求考生严格遵从主试的要求，先看指导语再看文件。测试指导语是测试情景、考生扮演的角色、考生任务和测试要求的说明，必须明确、具体，一目了然。有时在初级人员的文件筐测验中，发给考生指导语后，让考生完成一个指导语的测验，强迫考生熟悉理解指导语，这在文化水平低的群体中有时十分有用。在考生正式进入文件处理后，一般不允许考生提问，除非是测验材料本身有问题。

文件筐测验答卷纸示例

**文件筐测验答卷纸**
考生编号________	招聘职位_________	文件序号________
处理意见：签名：_________ ______月______日
处理理由：

文件筐测验指导语示例(供招聘秘书用)

指导语

这是一些办公室工作的模拟练习。目的是了解您在办公室事务处理方面的经验与能力。以下是有关的背景情况，请您务必仔细阅读并牢记于心：
您是局办公室秘书之一，大家都称您小A。此办公室是直接协助几位局领导工作的职能部门，目前由田主任一人负责。

今天是2003年5月24日，星期五。局里在远郊召开一个重要会议，田主任和办公室所有其他同事都去办理会务，只有您一人留守。所有局领导都在出席重要会议。您不能找他们请示，局里其他同事也都因种种原因不能给您帮忙。最不巧的是，由于那里电信线路出现故障，您无法和在郊区开会的田主任及其他同事联系。

田主任昨晚辗转托人给您一张便条：

小A：
明天(24日)有这么几件事情要偏劳你：
（1）主管分房的李局长要了解职工对分房办法第五稿的意见。请你看一下职工的意见材料，代我起草一份500字左右的报告。
（2）]郑兰说是写了一份信息，你给看一下。最近局里上报的信息比较少，被采用的更少。看这份信息能否上报或经修改后上报。
（3）请你给杨菁去封信，告诉她我们已经录取了新秘书。
（4）请你根据李局长给马林副局长来信的批示，把马副局长的信处理一下。
以上几件事情都不能再拖了，明天上午无论如何要完成。下午1：00局里有车来会场，你搭车来会场，这里实在忙不过来。
明天上午办公室若有什么事，你见机行事。办公室不要因为我不在就影响正常运转。
谢谢!

现在是早晨8：30，您一上班就得到上述指示和有关材料，您的任务是遵照指示完成所有工作。

以下是您在完成工作中必须遵守的程序和规定：
（1）首先，请您完成《指导语自测题》，回答结果构成评分的重要内容。
（2）其次，请在《日程计划表》上拟订一份今天的日程安排，若情况变化，日程安排可以更改，但必须在《日程计划表》上予以注明。
（3）一切任务请按您本人对秘书工作的理解和相应的指示独立完成，并一定要说明这么处理的理由，否则要倒扣分。

指导语测验示例(供录用秘书用)

考生编号：________	应聘职位：________
指导语测验题请您判断以下陈述是否正确，选择“是”或“否”； 1. 局里只有你一人上班。 A.是B.否 2. 有什么不清楚的事情，您可以打电话请示田主任。 A.是B.否 3. 能处理完最好，处理不完向田主任好好解释一下，他会谅解的。 A.是B.否 4. 变动日程安排是允许的。 A.是B.否 5. 一件事情怎么处理有时候凭直觉，不一定非要说出理由。 A.是B.否 (答案： B， B， B， A， B)

(如自己的回答与答案不符，请对照指导语检查)

3. 评分

宜在考生做完后立即进行，当有质询考生的设计时，特别应该如此。为求客观，可将考生编号，由一个人将考生的处理意见和处理理由念给所有评分者听，由各位评分者独立评分。

为了保证评分的一致性，事前的评分者培训很重要，可以考虑对一部分考生(或者模拟考生)进行试评分，考查各个评分者对标准的掌握及评分过程中存在的问题，待取得一致意见后再往下进行。评分时，可按序号逐一评定，也可按文件内容分类评定。前一种办法可以对考生的素质形成整体印象，后一种办法容易达成评分标准的一致性。

文件筐测验的案例分析

案例一：文件筐测验中评分者信度的误差分析

文件筐测验能从多角度考察人员的能力，并在很大程度上减少猜测作答和抄袭的影响，成为人员测评中常用的方法之一。然而，不同的人根据同一评分标准对同一题评定往往得出不同的分数，因此评分者之间的变异成为误差的主要来源之一。本研究运用概化理论的方法，探讨题目难度、评分方法、培训程度对评分者信度的影响。

对象与方法

一、评估内容的选取

选取某区政府科级干部选拔的文件筐测评中第1，3，4，6题，均属主观题。依据内容的难易度分为2组：①复杂题组：包括第1和3题用于评估组织协调能力，第1题考察落实工作、授权、制定实施方案3个方面；第3题考察维持秩序和解决游行问题2个方面；②简单题组：包括第4和6题则是用于评估被试者的说服影响能力，各题内部不再细分考察要点。

二、评分标准

采用两种评分方法：①分析法，事前拟定标准答案，评分者在被测评者的答案中寻找得分点，并合计总分数；②等级法，把答题情况分成4个等级，确定相应等级描述，评分者根据答案总体情况评定等级。

三、评分者

6名评分者均为心理专业的硕士研究生，并随机分为2组：①高培训组，3名评分者，培训时对评分标准和试题所代表的能力进行反复地讲解，使其充分理解，并尝试对一份问卷评分，之后进行讨论，纠正错误并回答所问题；低培训组，3名评分者，仅对评分标准进行讲解和答疑，没有试评分的过程。

四、实施过程

从400份答卷中随机抽取40份作为正式评分的材料，要求6名评分者根据分析法评分标准和等级法评分标准对40份问卷分别评分。评分过程为：先讲解评分规则并对5份答卷进行预评价，待评分稳定后对40份答卷正式评价，为避免练习效应和疲劳效应，研究对评分者评价问卷的顺序作了平衡处理；为避免条目分析法评分和等级法评分先后顺序产生的误差，对两种评价方法的先后顺序也作了平衡处理。使用SPSS 12．0和GENOVA FOR PC进行计算和统计。

结果

一、影响评分者信度因素的G研究

1．评估内容的影响：比较设计1和3，复杂题组的目标变异分量估计值小于简单题组的值，而交互效应的值则大于简单题组的值；比较设计2和4，各变异分量估计值的百分比差距不大。见表1。

2．方法的影响：比较设计1和2，分析法的目标分量变异估计值所占比例较大，交互作用变异分量估计值的比例较小，评分者变异分量比例差距不大；比较设计3和4，采用两种方法的估计的目标分量变异估计值占的百分比很接近。见表1。

3．误差的控制：从低培训组的3个设计可以看到，只有设计6的目标分量变异估计值所占比例较大，无论是复杂题组还是简单题组，分析法在评分者和交互作用的变异分量所占的比例均小于等级法。见表1。 Image:p×r设计的G研究.jpg

二、影响评分者信度因素的D研究

对于高培训组，复杂题组用分析法时信度系数较高，而简单题组用两种方法差距不大；除用等级法评价的复杂题组外，当评分者在3人以上时其信度系数均高于0．8。对于低培训组，无论在复杂题组还是简单题组中，使用分析法均高于简单题组的信度系数；有5名评分者用分析法估计复杂组时，其评分者信度可基本满足要求。见表2。 Image:p×r设计的D研究.jpg

讨论

Penny等指出，对行为表现或笔试回答评估时，影响评分者信度的因素有评分方法、题目的长度、评分者对行为的打分。Breland与Huot的研究都证明了，分析性的评分方法好于整体性的评分方法。Linn和Burton认为，通过对评分者培训，采用清晰明了的评分细则等方式，能够在一定程度上对误差予以控制。计算评分者信度有多种方法：相关法、一致性百分比法和概化系数，一些学者对这些理论或公式的适用性和合理性进行了探讨，由于经典测验论的类内相关系数是G系数的特例，且不受总体或全域分布正态的，也没有分数效应是独立的、所有评分之间的方差和相关都是相等的等假定的限制，比其他评分者一致性估计方法更为主动，认为概化理论是一个比较好的方法。本研究结果显示，对复杂题组评分时，用分析法好于等级法，对简单题组评分用两种方法评估差距不大，因此，方法因素未得到跨内容的一致性；等级法对简单题组的评估好于对复杂题组的评估，分析法对两个题组的评估效果没有太大差别，因此，评估内容对评分者的信度的影响也未得到跨方法的一致性。然而，结果显示用等级法评估复杂题组时其信度指标较低。从结果中还可以看到，培训程度低的评分者用不同的方法差异较大，分析法好于等级法，分析法评价复杂能力时信度指标值更接近高培训组的值。因而，认为分析性评分方法或许会更有效地控制误差。

案例二：对文件筐测验在选拔高层经理人员中的实证研究

1．问题的提出

文件筐测验(In—Basket Test，简称I—B)也称作业筐或公文筐测验，是评价侯选人能否胜任特定管理岗位的常用情境模拟技术(situational exercises)之一。文件筐测验作为一种重要的心理测量工具，迄今为止已经有六十余年研究和应用的历史，Fredriksen，Saunders和Wand(1957)有关文件筐测验的研究，引起了学者们的广泛关注。此后，许多国际知名的公司如GE、AT&T等都开展了文件筐测验的研究和应用。

目前学者们对于文件筐测验信度和效度的认识还存在一些分歧，造成这种情况的重要原因之一是文件筐测验的计分存在一定缺陷。我国有关文件筐测验的应用并不少见，但鉴于文件筐测验开发、计分以及深入研究需要投入巨大的劳动量，工作时间往往持续几个月，而且必须依靠团队的协同工作才能完成，这些因素常常使研究者望而怯步，因而有关这方面的实证研究极少，导致对文件筐测验的应用评价缺少科学的依据。

2003年7月，我们在沈阳对应聘中国联通辽宁省分公司12个地市级副总经理这一高级职位的候选人进行了评价中心测验，其间运用所开发的文件筐测验，对36名候选人进行了测试。利用收集到的数据，采用新型的计分方式，尝试解决文件筐测验的传统计分方式中存在的问题，并对新型计分方式下的信度和效度进行了分析研究。

2．研究过程

(1)文件筐测验的开发

2003年4月至7月初，为文件筐测验的开发阶段。研究者通过三个步骤完成文件筐测验的开发工作。首先通过工作分析确定地市级副总经理工作的具体任务，以及完成工作所必须具备的胜任特征；其次确定测验考察的五个核心胜任特征维度，包括计划性、决策、人际沟通、问题分析和授权；最后是选择测验材料，在工作分析和维度指标的基础上，选择与实际工作活动和环境相适应的测验材料，文件筐测验最终由17个文件组成。

(2)样本的分布情况

参加文件筐测验的36位候选人来自全国各地，大部分是中国联通及中国移动公司各地相关部门的中层经理，最小年龄27岁，最大年龄43岁，平均年龄32．7778，标准差为3．788，样本具有一定的代表性，详细信息见表3。

表3 参加I-B测试的样本分布情况

	统计量	人数	百分比
性别	男	30	83.3%
性别	女	6	16.7%
年龄	27-30	8	22.2%
	31-40	27	75%
	40以上	1	2.8%
学历	大专	1	2.8%
	本科	33	91.6%
	研究生	2	5.6%

(3)新型评分技术的运用

文件筐测验计分的科学性是其研究和应用的基础，其信度和效度以及维度指标的评价都依赖于计分的科学性，徐晓锋、车宏生对文件筐测验的计分有较为详细的介绍。在文件筐测验的诸多计分方法中，维度评定计分(dimension ratingscheme)的应用最为广泛，这种方法要求计分者对被试所有维度都计分，测验总分数是每个维度分数的总和。以往有关文件筐测验的信度、效度指标多数是在此种计分基础上进行分析得出的。但这种传统的方法也存在明显的缺点，如计分前需要进行系统的培训，一般培训时间至少需要5个小时以上，有时甚至需要几天的时间；计分的过程十分繁琐，而且需要耗费大量时间，对每一位应试者的计分至少需要1．5—2小时。由于信息加工量极大，不同计分者的计分内部一致性也存在差异。

如何减少文件筐测验的计分时间、提高计分的内部一致性是文件筐测验计分研究需要解决的主要问题。为了尝试解决传统计分上存在的问题，与以往国外研究者不同的是，我们首次采用锚定维度计分方法，即每个计分者都只对五个维度中的两个维度进行计分，以减少信息加工量过大的问题，克服计分者评判标准在五个维度之问频繁转换带来的误差。

计分者由北京师范大学心理学院人力资源与管理心理学研究所6名受过专业训练的工作者组成，他们都有过文件筐传统计分培训经验。为了适应此次新型计分方法．正式计分前统一经过一名人力资源专家的详细培训，对不同维度都采用利克特五点计分，并就计分的行为评定标准(behavior checklist)达成一致意见。正式计分中又删去了3个区分度不大的文件，最后只对14个文件进行计分。

(4)研究结果

①评分者内部一致性信度

Frederiksen,Saunders和Wand(1957)研究发现文件筐测验评分者内部一致性信度范围从0．47到0．94。此后一些学者如Ward、Lopez、Crooks、Brass、Oldham，以及AT&T公司等都进行了此方面的研究，发现评分者内部一致性信度存在很大差异。通过分析，一些学者认为存在诸如评分者培训等“其它因素”(Something else)的影响作用。以往有关研究，评分者和被斌人数都十分有限，评分者一般都不超过4人，被试不超过30人。

本研究在如下两个方面较以往研究有所改进：一是认为造成评分者内部一致性信度分数差异的“其它因素”除了培训以外，还有计分方法的原因，如采用新型的计分方法，能影响评分者内部一致性信度；二是总评分者(6人)和被试(36人)数目都超过国外以往评分者内部一致性信度的研究，所不同的是在单项维度的评分者数目为2—4人，没有超过4人，研究结果见表4。 Image:I—B中14个文件的评分者内部一致性情况.jpg

上述统计结果显示，文件筐测验有12个文件的评分一致性达到显著水平，其中文件2(决策)、4(决策)、5(问题分析)、9(人际沟通)达到P<0．001显著水平；文件1(计划性)、1(授权)、3(决策)、6(授权)和13(人际沟通)达到声<0．O1显著水平；文件7(决策)、10(问题分析)、11(决策)和12(人际沟通)达到P<0．05显著水平。只有两个文件，即文件8和14不显著。说明从总体上采用新型计分技术的评分一致性取得较好的效果。

进一步分析发现文件筐测验的五个维度的评分者内部一致性信度分别为：问题分析(0．7521)、计划性(0．8695)、人际沟通(0．8175)、授权(0．6986)和决策(0．9198)。将上述统计结果与Frederiksen等人的研究结果比较，可以发现此次文件筐测验评分者内部一致性信度获得比较理想的结果。

②效标关联效度

关于文件筐的绩效预测作用，一直都是在评价中心的研究文献中加以报告的，离开评价中心的其他评价工具，很难单独判断文件箧对于绩效预测的贡献大小。一些研究结果揭示了文件筐测验分数和各种效标之间存在显著的相关关系，为文件筐测验的有效性提供了证据，然而另一些研究文献只在中等程度上支持(modest support)其对工作绩效的预测作用。

为了对这些有争议的问题进行认识，我们尝试进行了I—B的效度研究。由于预测效度的收集存在一定的难度，本研究用同时效度代替预测效度的研究，从两个方面探讨效度研究的问题：

首先，将I—B测验结果按照各维度得分的正态与偏态的不同分布情况，分成A(录用)、B(进一步考察)、C(淘汰)三类。最终录用候选人名单由笔试、结构化面试和无领导小组讨论的结果确定，最后将所有候选人也分成A(录用)、B(进一步考察)、C(淘汰)三类。I—B与最终录用名单的斯皮尔曼等级相关系数为r=0．704**。这说明I—B的评价结果和以由笔试、结构化面试和无领导小组讨论确定的结果，具有较高的一致性，证实了其具有较高的同时效度。

其次，将I—B中的A(4人)、B(19人)、C(13人)和最终录用名单中的A(10人)、B(13人)、C(13人)加以比较，发现I—B结果与最终录用名单中A、B、C结果完全相同的人有22人，占61．16％，说明I—B和最终确定的结果总体上有较高的一致性。

③结构效度研究

关于文件筐测验的结构效度研究，存在不同的研究结论。Frederiksen(1966)研究认为文件筐测验存在较高的结构效度，而Brannick等(1989)研究发现文件筐测验仅仅存在有限的(some)汇聚效度，缺乏区分效度。

为了获得对结构效度的认识，首先分析了文件筐测验各维度平均分数与文件筐测验总平均分数的斯皮尔曼等级相关。结果发现，问题分析、计划性、人际沟通、授权、决策与总分的相关分别为0．720**、0．646**、0．689**、0．469**和0．604**。说明各维度分数与总分均呈现显著的相关，并对最终的分数结果均有较大的贡献。其次，分析了文件筐测验各维度平均分数的斯皮尔曼等级相关，结果见表5。

表5 I-B各维度分数的相关

问题分析	决策	计划	沟通	授权
问题分析
决策	0.284
计划	0.355*	0.192
沟通	0.426**	0.499**	0.182
授权	0.081	0.325	0.053	0.295

上述统计结果显示．在相关系数的十个结果中，七个相关不显著，说明总体上各维度有一定的区分性。但问题分析和计划、问题分析和沟通、决策和沟通的相关结果呈现显著的相关，说明在维度的区分上还存在一些不清晰的界定，需要进一步做出分析探讨。

Arthur(1999)和Filip(2002)等研究发现不良的设计、测最结构的混乱、评定存在的错误、不一致的评分、评定类型和形式上存在的差别等都可能导致评价中心的结构效度受到影响。这些研究结论，对认识文件筐测验的结构效度研究结果及其解释有一定的借鉴意义。

3．结论及建议

(1)通过以上分析和研究，可以获得以下结论：

文件筐测验新型计分技术的运用，有助于克服传统计分2的一些缺点，尤其是在经济性和准确性上显示了独特的优点，我们认为它体现了文件筐测验的发展方向。

在新型计分技术基础上，评分者一致性信度获得了较为理想的研究结果，可以认为评分一致性信度依赖于文件筐测．验计分的科学性。

新型计分技术基础上的同时效度研究，与总体录用结果有着较高的一致性，证实了文件筐测验在选拔中能够发挥重要的作用。

(2)但是本研究也暴露了如下一些不足之处，今后需要改进和完善：

文件筐测验的开发还需要完善。本次测验在计分研究中删去了3个区分效果不明显的文件。另外在五个维度中，正如表4所示，考察决策的文件数目较多，而考察问题分析的文件又偏少。今后文件筐测验的开发更多的应以有关内容效度的研究成果做指导，以确保将工作分析获得的知识、技能、能力等信息有效转化成文件筐的测验信息。

本研究用同时效度代替预测效度的研究，还缺乏足够的说服力。建议在半年或一年之后，收集录用候选人的效标资料，以更加科学地评价文件筐测验的预测效度问题。

本研究关于评分者内部一致性问题的研究，使用的肯德尔系数方法依然较为粗略。近年来，学者们对评分者一致性信度(reliability)和评分一致性(agreement)进行了区分。James，Demaree和Wolf(1984)提出的普遍采用的计算内部评分者一致性(interrater agreement)的 $r W G$ 方法；Burke，Finkelstein和Dusig(1999)提出的计算评分者内部一致性的Average Deviation方法；以及影响较大的Intraclass CorrelationCoefficient(ICC)方法都受到广泛关注与探索，并成为应用领域方法研究的热点问题之一。我国在此方面还研究不多，建议今后在研究应用领域的类似问题时，考虑这些新研究成果，以减少研究的误差。