图形推理在测量学上的理论来源主要是文化公平性的要求。一般的借助特定语言表达的测试, 对于不同的测试者而言, 以该语言为母语和非母语的测试者由于受不同文化背景的影响, 往往不能公平地测试出被试实际的能力水平, 尤其是不能准确体现两者之间实际的能力差异。例如, 使用一套英语的GRE测试题来比较中、英学生的一般学业能力, 对于汉语考生不够公平;使用一套日语的写作试题来比较日、俄学生的语言表达能力, 对于俄语考生不够公平。为了能够在不同文化间公平地测试被试的能力水平并进行比较研究, 人们提出了文化公平测验的概念, 图形推理是其中一种非常重要的测试形式。图形推理在测量学上的另一个理论来源是非言语智力测验, 它可以测量有语言障碍的被试的智力水平, 并进行相关比较研究。
目前, 国际上的文化公平和非言语测验中使用图形推理的测验主要有: (1) 瑞文推理测验[1]; (2) 文化公平智力测验; (3) 矩阵类比测验; (4) 古德依诺-哈里斯画人测验; (5) 纳格利尔里非言语能力测验。[2]
由于图形推理具有很好的非言语性和文化公平的特点[3], 目前在一般的能力测验中也被广泛使用。[4]在我国的公务员招录考试行政职业能力测验、事业单位职业能力倾向测验以及各类企业招聘考试中都安排有图形推理模块的测试。[5]随着图形推理在各类测验中的广泛应用, 亟待加强图形推理测验科学的研究, 以便图形推理这种测试形式能够公平、公正、准确地测量出被试的相关推理能力。[6]
本文的核心问题是, 在图形推理测试题的命制过程中如何提高测量的区分度, 以达到区别被试的推理能力, 从而实现有效选拔的目的。
一、测试及抽样的基本情况
推理可以分为演绎推理和非演绎推理 (主要有归纳推理和类比推理) , 相应地, 推理能力也可以分为演绎推理能力和非演绎推理能力。随之而来的一个问题就是, 试题测量的区分度和试题的类型 (演绎推理题型和非演绎推理题型) 是否相关?或者说, 不同题型之间区分度是否存在差异?另外一个值得探究的问题是:图形推理测试题的难度和区分度之间是否存在相关性?如果存在相关性, 它们是如何相关的?
为此, 我们借用了某省行测试题作为3种类型的测试题。一种是演绎推理能力测试题, 一种是归纳推理能力测试题, 还有一种是综合推理能力测试题。
演绎推理能力测试题的具体测试形式是:
题型Ⅰ左边给定的是纸盒外表面的展开图, 右边哪一项能由它折叠而成?请把它找出来。
该题型的左边实际上给定了推理的前提条件, 即4个面上的不同图案和4个面之间的位置关系;题目要求实际上相当于给出了推理的规则, 即空间变换的规则;答案实际上是推理的结论。根据推理的前提条件和推理规则, 其答案是精确的、唯一确定的。所以, 该题型考察的是被试的演绎推理能力。
归纳推理能力测试题的具体测试形式是:
题型Ⅱ每道题的题干给出一套图形, 其中包括5个图, 这5个图呈现一定的规律性。选项给出一套图形, 其中有4个图, 请从中选出唯一的一项作为保持题干5个图规律性的第6个图。
该题型主要测试的是被试的归纳推理能力。图形主要是由点、线、面构成的, 要求考生通过观察左边题干中的图形在点、线、面等方面的共同性和差异性, 探寻其中的规律。该题左边5个图形中的封闭区域数分别是7、6、5、4、3, 按此规律, 第6个图中的封闭区域个数应该是2, 答案为C。该题考察的是被试运用共变法探求规律的归纳推理能力。
综合推理能力测试题的具体测试形式是:
题型Ⅲ右边四个图形中, 只有一个是由左边的四个图形拼合 (只能通过上、下、左、右平移) 而成的, 请把它找出来。
该题型需要观察左边4个图, 特别是其中最大的图与右边图形类比, 找出两者之间的相同之处, 涉及类比推理;还需要拼合左边4个图, 得出和右边完全一致的图形, 涉及演绎推理。所以, 该题考察的是被试的综合推理能力。
我们共设计了30道图形推理题, 其中题型Ⅰ共15题, 题型Ⅱ共9题, 题型Ⅲ共6题。 (1) 为了提高测试精度, 获得尽可能全面的测量数据, 我们选取了3个不同文化层次的被试各二千余人。其中第一个层次是优秀的大学本科生, 第二个层次是一般的大学本科生, 第三个层次是一般的大专生。30道题分为A、B、C三组, 每组含题型Ⅰ共5题 (第6至10题) , 题型Ⅱ共3题 (第1至3题) , 题型Ⅲ共2题 (第4、5题) 。A组题的被试是优秀的大学本科生, B组题的被试是一般的大学本科生, C组题的被试是一般的大专生。
每组10题作为一个模块, 分别安排进一个能力倾向测试 (共120题, 包括数学运算、逻辑推理、语言理解与表达) 中, 测试数据如下:
表1 A组试题的测试数据 下载原表
表1 A组试题的测试数据
表2 B组试题的测试数据 下载原表
表2 B组试题的测试数据
表3 C组试题的测试数据 下载原表
表3 C组试题的测试数据
二、测试数据分析
1. 题型与区分度的相关性分析
三组图形推理共30道题的总体区分度平均是0.261, 其中A组题平均为0.253, B组题平均为0.245, C组题平均为0.284, 三组之间差异性不大。三种题型中, 题型Ⅱ共9题平均区分度为0.234, 题型Ⅲ共6题平均区分度为0.245, 题型Ⅰ共15题平均区分度为0.283。由此可见, 图形推理中题型Ⅰ平均区分度大于题型Ⅲ, 而题型Ⅲ的平均区分度大于题型Ⅱ。这可能与题型Ⅰ、题型Ⅲ答案的确定性、唯一性有关, 而题型Ⅱ往往没有严格的唯一确定的答案, 其答案具有一定的模糊性。这从一定程度上说明, 不同题型之间区分度是存在差异的。
30道题的总体难度是0.544, 其中A组题难度为0.526, B组题难度为0.497, C组题难度为0.608;题型Ⅱ的9题难度为0.505, 题型Ⅲ的6题难度为0.633, 题型Ⅰ的15题难度为0.514。
30道题的总体标准差平均是0.577, 其中A组平均为0.576, B组平均为0.583, C组平均为0.571;题型Ⅱ的9题平均为0.583, 题型Ⅲ的6题平均为0.555, 题型Ⅰ的15题平均为0.582。
2. 难度与区分度的相关性分析
在选拔性考试中, 区分度是衡量一个图形推理题的重要质量指标。除了题型之间区分度存在差异性之外, 区分度还和哪些因素相关?下面以上述三组图形推理测试数据为根据来分析区分度和难度之间的相关性。相对而言, 在实际命题中, 难度比区分度容易判断。
30道题难度和区分度之间的二维散点图:
通过二阶多项式趋势线可以看出, 难度和区分度之间存在如下关系:当难度低的时候区分度也较低, 随着难度的提升其区分度也随之提高, 但是达到一定难度之后, 随着难度的提高, 区分度反而会逐渐下降。难度在0.57左右的时候区分度最好。
30道题难度和区分度之间的相关系数r=0.314, 相关性并不高。[7]如果以难度0.57为界 (在上述难度序列中, 处于0.568和0.579之间) , 难度低于0.57的前18道题, 其难度和区分度之间的相关系数r=0.738, 具有较高的正相关性;难度高于0.57的12道题, 其难度和区分度之间的相关系数r=-0.436, 具有一定的负相关性。这也进一步验证了上述对二维散点图的有关分析。
题型Ⅲ的9道题难度和区分度之间的二维散点图如下:
通过二阶多项式趋势线可以看出, 难度和区分度之间也存在类似的关系。难度在0.59左右的时候区分度最好。
题型Ⅱ的9道题难度和区分度之间的相关系数r=0.496, 相关性不高。如果以难度0.59为界 (在上述难度序列中, 处于0.568和0.594之间) , 难度低于0.59的前7道题, 其难度和区分度之间的相关系数r=0.708, 具有较高的正相关性。
题型Ⅰ的15道题难度和区分度之间的二维散点图如下:
通过二阶多项式趋势线可以看出, 难度和区分度之间也存在类似的关系。难度在0.65左右的时候区分度最好。
题型Ⅰ的15道题难度和区分度之间的相关系数r=0.658, 有正相关性。如果以难度0.65为界 (在上述难度序列中, 处于0.651和0.767之间) , 难度高于0.65的前14道题, 其难度和区分度之间的相关系数r=0.888, 具有较高的正相关性。
题型Ⅲ的6道题难度和区分度之间的二维散点图如下:
题型Ⅲ的6道题难度和区分度的相关性存在和上述两种题型相类似的情况, 由于题量较少, 不再做进一步分析。
3. 难度与标准差的相关性分析
30道图形推理题难度和标准差之间的二维散点图如下:
通过二阶多项式趋势线可以看出, 难度和标准差之间存在如下关系:当难度低的时候, 标准差也较低;随着难度的提升, 标准差也随之提高;达到一定难度之后, 随着难度的提高, 标准差又逐渐下降。难度在0.52左右的时候标准差最大。
30道题难度和标准差之间的相关系数r=-0.371, 整体呈现一定程度的负相关性。但是如果我们以难度0.52为界 (在上述难度序列中, 处于0.512和0.534之间) , 难度低于0.52的前14道题, 难度和区分度之间的相关系数r=0.950, 具有很高的正相关性;难度高于0.52的16道题, 难度和区分度之间的相关系数r=-0.975, 具有很高的负相关性。这也进一步验证了上述对二维散点图的有关分析。
三、结论
通过上述分析, 可以得出如下几点启示:
1. 答案唯一确定的图形推理题型, 测试效果较好。这要求在命题中, 题目的答案应尽可能精确, 无歧义。
2. 图形推理题型的难度和区分度之间存在一定的相关性, 不同题型的最大相关点不同。题型Ⅱ的最大相关点在难度0.59左右, 题型Ⅰ的最大相关点在难度0.65左右, 题型Ⅲ的最大相关点在难度0.60左右。在实际命题中, 可以通过控制题目的难度来提高题目的区分度。
3. 图形推理题型的难度和标准差之间存在相关性。以难度0.52为界, 当难度低于0.52时, 呈现很高的正相关性;当难度高于0.52时, 呈现很高的负相关性。
参考文献
[1] Robert M.Kaplan, Dennis P.Saccuzzo.Psychological Testing:Principles, Applications, and Issues[M].Wadsworth Publishing, 2005:339-342.
[2] [美]刘易斯·艾肯, 加里·格罗思-马纳特.心理测量与评估[M].张厚粲, 赵守盈, 译.北京:中国人民大学出版社, 2011:73-93.
[3]杜国平.图形推理及其社会文化功能[J].徐州师范大学学报 (哲学社会科学版) , 2011, (1) :12-126.
[4] Robert Allen, Josephine Fulton.Mensa Presents:Mighty Mind Boosters[M].Barnes&Noble, 1996:27-134.
[5]杜国平.图形推理研究[J].北京行政学院学报, 2007, (2) :99-103.
[6]杜国平.逻辑思维能力测试形式分析//2012学术前沿论丛[C].北京:北京师范大学出版社, 2012:330-339.
[7] Robert R.Pagano.Understanding Statistics in the Behavioral Sciences[M].Cengage Learning, 2013:131-135.
注释
1 之所以3种题型的题量不一样, 是为了兼顾实际测试的需要。但是因为研究所分析的数据是测量的平均指标, 所以对研究结论的影响不大。
(原载《江淮论坛》2018年04期)