【王兰敬、杜慧平】欧美人文社会科学评价的现状与反思-哲学中国网

学术批评

【王兰敬、杜慧平】欧美人文社会科学评价的现状与反思

任何国家都需要通过评价来揭示其各学科学术研究的质量，促进本国的学术发展和提高全球竞争力。研究成果是学术评价的主要对象，无论定性评价还是定量评价，都是通过对以往研究成果作出价值判断，并在此基础上对未来的研究进行预测。但是人文社会科学及其研究成果的特点与自然科学具有很大差别，甚至各个子学科之间都存在较大差异，目前不加区分地采用相同评价方法和指标的做法势必造成评价结果的偏颇，不能反映真实的学术水平。本文意在通过考察欧美主要国家人文社会科学领域学术评价的相关文献和实践，特别是国外学者对目前广泛使用的引文计量方法的看法，以为我国学术评价提供借鉴。

一、人文社会科学特点及评价难点

与自然科学不同，人文学科具有内部复杂多元性、民族性、本土性、真理检验的直观性、价值实现的潜在性和间接性、成果多样性及引文周期长等特点。社会科学则介于两者之间。①Mu-hsuanHuang等学者认为各个学科性质不同，出版行为和内容实质也具有多样性，对不同领域学者的期望也不同，学术评价需要针对不同学科采用不同的方法。因此了解学科性质和出版行为是开发合理评价方法的前提，只有这样，才能保障评价的公正性、科学性和高效性。②自然科学与人文社会科学之间最根本的差异在于研究对象和研究方法的不同。Zuckerman和Merton提出用“编码”(codification)这个概念来检验科学的认知结构，意在把经验知识转化成简洁的、相互依存的理论公式的综合表达。他认为人文社会科学研究编码化水平比较低，是高度经验主义的，因为它依赖经验；而自然科学编码化水平比较高，是低经验主义的，因为它能够把经验知识转化为能够精确预测完全依赖经验的现象。③有的学者还用“软/硬”程度来描述自然科学与人文社会科学之间的学科差异，认为自然科学是硬科学，而人文社会科学是软科学。

HenkF.Moed总结了人文学科与自然科学在诸多方面各自的特点(见表1)。

表1人文学科与自然科学的特点对比

标准自然科学人文学科

研究对象自然现象人类精神世界现象

研究方法强调定量和逻辑推理多采用直觉和想象

观点数据模型的规则、规律独特性、不可复归性

语言数学表达自然语言

组织国际研究前沿在学术和公众范围内传播

知识增长不断增加全方位体验事物

研究单元学术团队个体

研究活动短期项目终生成就

信息传播速度高低

出版物类型期刊论文图书

出版语言英语本土语言

合著情况学术团队独著

资料来源：HenkF.Moed,"ResearchAssessmentinSocialSciencesandHumanities,"http://www2.lingue.unibo.it/evaluationinthehumanities/Research%20Assessment%20in%20Social%20Sciences%20and%20Humanities.

据此，HenkF.Moed认为人文社会科学研究评价具有以下特点：一是学科结构和研究成果的多样性。评价需要考虑学科的自身特征和学术研究的习惯及规律。人文社会科学的研究对象——一定的社会历史背景下人的精神世界和社会现象，本身具有多样性，是独特的和不可复归的。人文社会科学研究周期长，成果不仅是期刊论文，也有很大一部分是专著类图书，在引文中论文和专著各占一定比重，且引用周期较长。这就决定了人文社会科学需要根据其自身特点建立相应的评价体系，而不能直接套用自然科学的评价标准和评价体系。二是人文社会科学研究的影响很难辨识和测量。与自然科学研究成果易于检验不同，人文社会科学研究的质量和影响是隐性的，更多表现为受众的感受和价值判断，具有主观性和模糊性，且影响周期可以长至一个人的终生。尤其是人文学科，其研究成果的影响往往能超越国家和地区的限制，应以受到国际学者普遍关注作为其研究质量的标准，但由于认识上的差异，学者之间就研究质量很难达成一致意见，所以人文学科还没有完善的质量标准。④

二、对引文计量方法的反思

开发引文索引的初衷只是将其作为一种检索工具，后来人们“发现”了引文数据库的评价功能，并首先用于自然科学领域的学术评价。目前使用最多的评价引文库一般以期刊引文作为计量依据，许多研究表明，引文与质量判断在统计上具有积极的相关性，从理论上讲，用智力影响(intellectualinfluence)来解释引文的作用是有效的。⑤相比同行评议，引文计量方法具有客观、具体、可操作性强等优点，同时还能提供同行评议无法提供的信息，所以引文分析方法在国内外得到普遍应用，影响也很深远，例如通过这种方法既可以作领域内比较，也可以进行领域间的比较，常用于期刊评价、学者评价和机构评价。引文分析评价方法的成功源于以下假设前提：期刊文章发表前经过严格的同行评议，质量是有保障的，期刊论文的引用行为很大程度上反映了被引文献的研究质量和学术影响。

但是，这种在自然科学和部分社会科学领域表现大致正常的期刊评价方法用于人文社会科学领域时却很敏感。英国人文社会科学研究部(Art&HumanitiesResearchBoard，AHRB)前首席执行官GeoffreyCrossick认为，对于人文社会科学领域仅用期刊作为同行评议的替代品来评价研究质量的做法很难行得通。⑥首先，人文社会科学领域的研究成果表现形式具有多样性，在许多子学科领域，独立专著一直是最受尊崇的成果形式，当然也以合著和期刊形式出版。在创作和表演艺术领域，还有许多实践成果，如作曲、设计、展览、表演等等。著名的英国高等教育评鉴(ResearchAccessingExecutive，RAE)要求每个科研人员向其递交4份代表其研究质量的作品作为评价的参考依据，在2001年人文社会科学领域所有递交材料中，期刊论文占37％，图书占52％，合著占3％，其他成果形式占9％。那么是否最好的院系在期刊上发表文章最多呢？AHRB的统计显示，RAE对院系的排名与实际出版数量并无明显的规律可循，甚至在法律专业，最好的院系在期刊上发表的论文最少。另一项统计显示，西班牙科学研究委员会下属的七个自然科学部门在1995年以期刊论文形式发表的出版物占81％，而人文社会科学部门在期刊上发表的成果仅占54％。⑦其次，人文社会科学领域的引用行为具有与自然科学不同的特点，对知识的理解和知识积累也与自然科学不同。人文社会科学领域的引文周期一般比自然科学要长。自然科学更关注国际前沿知识，信息传播快，参考文献多引自近期发表的期刊论文；而人文社会科学引文周期长，一部经典之作往往被引用数十年。普赖斯甚至建议以引文周期长短来区分软科学与硬科学，在一个学科里如果有超过42％的参考文献是在5年之内发表的，则该学科属于硬科学；如果只有不到42％的参考文献是在5年内发表的，则该学科属于软科学。⑧另外，引用目的也存在多样性，包括批判性引用，即负面引用现象的存在。因此普赖斯指出，文献计量方法得出的数据虽然在一定程度上能反映研究质量，但是普遍认为并不能代替质量评价，同行评议仍然是科研成果质量评价的核心方法。质量评价时如果只考虑学术期刊这一种成果形式，不仅容易产生误导，而且还会不当地刺激学者片面追求在期刊上发表成果的数量，这对学术会产生破坏性后果。目前欧美国家的评价机构已普遍认识到人文社会科学领域采用的引文计量测度应该不同于自然科学，但应如何做仍然在探索之中。AHRC和HEFCE(英国高等教育基金委)专家组在2006年曾建议采用多种成果形式作为计量依据，但并没有提出这些成果质量的替代计量依据，期刊仍然被作为学术研究质量和影响的计量替代品，用于英国高等教育评价的项目。

台湾学者黄慕萱(Mu-hsuanHuang)等汇总了24例西方学者对人文社会科学领域引文来源的统计文章，发现其中许多统计结果显示人文社会科学研究的主要引用源是图书。这些统计涉及哲学、经济学、管理学、政治学、法学、社会学、图书情报学、人类学、历史学、宗教、语言学、艺术、音乐等学科。除了心理学、经济学和法学的期刊引文占50％以上，其余学科多为10％-30％，而对图书的引用大多学科的统计数字显示占50％以上，其中政治学、哲学、宗教、音乐学科高于80％。⑨另外，人文社会科学研究主要涉及本地区和本国家的社会现实，学者一般首选以本国语言撰写论文并投稿到本地期刊，导致研究成果具有一定的语言分布和地理分布。被SSCI和A&HCI收录说明学者的研究成果在国际上具有一定的可见度和影响，但是这并不能说明未被收录的非英语语言的论文不是高质量成果。所以对于非英语国家来说，依靠这些数据库的评价不能以偏概全，而应主要以本国所建引文数据库统计为主。

上述观点表明，仅用期刊指标的做法不能完全反映和正确评价人文社会科学学者和机构的研究成果，即使在人文社会科学领域，每个子学科的引用行为和规律也有不同，所以在评价不同学科研究质量时应根据不同特点来设置指标体系。另外，人文社会科学研究成果在1-2年之内很难产生影响，评价时不能以短期引文统计为据来评估科研成果。荷兰学者AnthonyF.J.vanRann建议引文计量测度应该采用较长的时间跨度，一般要长于5年。⑩

HenkF.Moed指出目前使用以ISI系列引文数据库为代表工具的引文分析方法存在一定局限性。首先ISI数据库对人文社会科学领域的覆盖度不足40％，远低于自然科学，尤其是生物化学、化学、临床医学、物理等学科所具有的80％以上的覆盖率，如此之低的覆盖率很难满足人文社会科学研究的评价要求，更难保证评价结果的可靠性。(11)其次，目前常用的引文库的构成和质量也存在问题，用于人文社会科学领域学术评价的数据库除了WebofScience，还有Elsevier的Scopus数据库和GoogleScholar。WebofScience在三个数据库中数据来源质量是最高的，但是其收录内容偏重英文文献，由于语言限制，非英语语言国家的学者很难在其来源期刊发表论文；即使发表，又因为研究对象的本土化特征而不像自然科学那样具有国际普遍性，被引率也相对较低。所以，SSCI和A&HCI很难用于非英语国家人文社会科学研究评价。而Scopus收录来源文献范围较广，但其人文社会科学来源期刊的质量并无保障。相比而言，GoogleScholar无论学科覆盖率、来源文献质量还是引文链接精确度都值得质疑，把它作为评价统计工具也很难保障结果的可靠性。

三、欧美国家人文社会科学评价的现状

在欧美，无论是人文科学还是社会科学的评价，广泛采用的方法是同行评议，但也有许多国家辅以引文分析等文献计量方法，以实现定性评价与定量评价相结合。

1.美国

作为一项学术研究管理制度的同行评议于20世纪六、七十年代在美国开始出现，在20世纪末盛行起来。尤其北美学者非常认可同行评议，并努力完善这种制度。他们认为非常有必要深入理解同行评议制度，并认为只有这样才能保障评审过程的公平性和高效率。自1992年政府绩效和成果草案(GovernmentPerformanceandResultActs,GPRA)公布和白宫的行政管理及预算局(ManagementandBudgetOffice)建立R&D投资标准后，美国基金委开始建立绩效测评标准。研究绩效的定量指标(主要是以出版物进行衡量)和研究影响的定量指标(主要是引文分析)开始被用于计算成本—效益比(资金投入/创造的知识)，并用于评价包括人文社会科学在内的所有科研活动，但并未取代同行评议，到目前为止，同行评议仍是得到最广泛认可和最通行的评价方法。

在美国，对同行评议的研究可分为明显的两个阶段：第一阶段对同行评议的研究开始于20世纪70年代末并延续到80年代末，主要集中在探讨学术成果的质量、产出、影响、用途等因素的指标对专家评价影响的程度，旨在增加公共机构的可靠性和判断他们是否对特殊群体更有利，如政治、社会关系、机构位置等对评价公正性的影响。这一轮对同行评议研究的结果是，美国学者发现同行评价结果与科研产出如在国际期刊发表论文的数量相关性最大，与科研影响如通过学术期刊引文数量测量的学术影响力也有很大关联，所以他们进一步确认了同行评议制度的合理性。

第二阶段对同行评议的研究从20世纪90年代开始至今，学者更关注同行评议的认知内容和同行评议在不同学科评价中表现出的特点。例如，人文社会科学研究的规范性、科学性、创新性和价值性是学术评价的常用标准，其中创新性指标是评价的核心指标。普林斯顿大学的Guetzkow和哈佛大学的Lamont合作对人文社会科学领域就创新性的认知内容做了调查，他们通过访谈，了解来自美国五个基金组织(美国学术团体协会、社会科学研究委员会、伍德·威尔逊全国联谊基金会、一家匿名学术协会和一家匿名社会科学研究基金委)的评审小组成员在评审中对创新性的理解(12)，结果显示同行评审者使用以下几个标准定义创新性：新路径、新理论、新方法、新数据、研究新主题、开拓研究领域、新发现。人文学科和历史学科倾向于以新路径(approach)作为创新性研究的判断依据，其中人文学科也强调所用数据(如新手稿、新信件或者新作者)的创新性，社会科学更看重方法(method)上的创新性，但他们也看重不同类型的创新，强调用新颖的研究路径、新颖的理论或对一个新颖的主题进行的原创性研究(0riginaltopic)。

在美国，政府并没有直接参与任何学术机构的评价和排名，第三方机构按照自己设定的指标对教学和科研进行评估。《美国新闻与世界报道》每年推出的大学排行榜，在美国高等教育界影响广泛，曾被视为美国大学学术质量排名的变革。它主要采用问卷调查形式收集各个大学数据和征询专家意见，自己设定指标和权重方案并负责对评价方法进行解释。但美国教育界对该排行榜态度毁誉参半，一些大学校长认为对复杂的人类教育行为很难实施评估，如斯坦福大学前校长GerhardGasper认为它以“华而不实的形式和虚假的精确度，完全起了误导的作用”，一些大学校长甚至拒绝填写调查问卷或是提供相关资料。(13)而美国科研人员评价由大学院系的学术委员会这一学术共同体来执行，一般从著述和教学情况来评价，决定职称评聘。在学术论文或著作的量上并没有硬性数量标准，而更看重作品的质量和学术影响，如非常重视刊载论文的期刊等级。所以美国存在著述极少的著名教授，有的人一生只写过一本书。学术共同体对评价对象的认可非常重要，即使没有任何正式的期刊论文或著作产生，在课题和讲座中体现出来的学识和见解如能产生巨大影响，也能受到同等的评价，尤其是哲学领域。(14)

2.英国

英国学术评价的特点是，关于评价的改革从政府开始，而后扩散开来，但受到学界的反对。在美国广受关注的公平性问题在英国并未受到重视。在20世纪80年代初，对学术质量的定量研究已经不断被用于评估英国大学院系和研究人员的绩效。对评价的研究由撒切尔政府启动，但并没有得到专业协会的支持，其中大学教育资助委员会(UniversityGrantsCommittee，UGC)发起对多个学科研究绩效的调查，该调查作为对所有大学研究进行资源分配的指南。与美国不同的是，这些对评价研究的措施并不是征求专业学会对评价开放性和公平性的意见，而是作为政府“新公共管理”措施的一部分来开展，而政府制定这项政策的目的是弱化20世纪40-70年代末国家官僚机构和自治的专业协会两者长期和平共存的状况。英国关于评价的研究也分为以下两种情况。

第一种以UGC的调查为标志，80年代实施的调查是英国政府第一次尝试对所有院系和大学进行比较和排名。在教育这一复杂的国家学术、学科生态系统中，只考虑研究活动来产生大学排名，这就对那些以教学水平而享有声望的学科造成了偏见，特别是诠释性学科。研究绩效在UGC调查中的测评形式有：(1)产出。定义为经过同行评议的出版物数量。(2)影响。定义为引文数量。(3)质量。以先前由研究委员会(researchcouncils)授予的研究资金来测评。(4)效用。由以下指标测评：毕业学生和其他实验人员从私营企业得到的外部收入、实验室获得的专利数和许可证数量。研究绩效的级别由一个管理单位——“成本中心”负责，包括平衡学术预算、测评和解释说明，这种做法从管理角度讲得通，但是从科学的角度却行不通。

这种评价方法伤害了人文社会科学各个学科，如发表在本学科期刊的文章比发表在跨学科期刊的文章给予更多权重，效用指标由得到的私人资助、获得的专利和合同来测评，这更有利于自然和应用科学。而对整个国家具有直接“效用”的公共投入，如学术共同体的建立，参与公共辩论，大学教学等都被排除在效用的测度之外。结果是，UGC的调查受到人文社会科学界强烈的批判。这种基于市场规律的强调投入/产出的新评价方法看来让人特别难以接受，主要因为政府并没有站在提升学术水平的立场上。

UGC的调查直接导致了第二种对评价的研究，主要是批评试图把评价指标系统化和标准化的做法。这些批评大致朝着三个不同方向发展：(1)一些学者批评英国政府引入一套新的评价标准而未咨询过学术界。(2)英国高等教育和研究网(HigherEducationandResearchOpportunities)通过咨询文献计量专家，协商改革学术研究评价方法。(3)关于新评价标准背后的哲学，反对UGC发表的非民主评论或者批评测评方法存在局限性。

3.法国

法国对评价标准的研究集中在雇佣决策上，很少关注到项目资助决策和同行评议过程，特别是人文社会科学领域。与北美学者不同，法国学者也没有关注评价的公平性。这种现象主要源于法国研究机构的背景环境。法国的专业协会还未形成制度化的行业组织，而美国的人文社会科学会把大量学者聚集在一起，尽管这些学者在地理分布上比法国更分散。这可能因为在法国雇用一个新学者的聘用期很短暂，这样他们对同行评议的合理性和透明性，对美国学者坚守的“不发表就出局”(publishorperish)并不关心。

在法国，各种思想有相对活跃的公共市场，这弥补了当地松散的学者组织方式以及标准化和合理性不足的学术评价，思想活跃的公众市场使得学术能够绕过严格的同行评议制度。人文学科研究者在法国学术界可以通过吸引广泛的公众关注，通过在著名出版社出版书籍或通过各种媒体，而不需通过专业期刊或从同一领域专家那里得到认可。也就是说，法国学术界有两个市场来发表学术成果，包括学术市场和媒体市场，这样就存在两组评价标准。

职业发展路径的多样化也决定了同行评价制度在法国学术界难以得到认同，许多法国学者怀疑他们的同行是否足够见多识广，能否提出完全无利益冲突的观点。因此，学者的研究重点并不放在同行评议制度上，而是施行评价的候选人、全职人员和院系领导候选人的选拔和评价上。

4.德国

在德国，提供科研资助的机构有德意志研究联合会(DFG)和著名的洪堡基金会等。德意志研究联合会是德国历史悠久的最大的科学研究资助机构，资助包括人文社会科学在内的所有学科的基础研究。德意志研究联合会的宗旨是：“通过财政上支持研究课题和促进科研人员的合作为所有学科提供服务。”根据这一宗旨，德意志研究联合会作为德国唯一的资助机构，完全放弃了申请课题的主题内容和专业方向必须依从某既定项目并与之相合，否则就予以否决的不合理做法，任何自由申请的课题，德意志研究联合会都可以资助，只有很少领域的一些大型项目必须交给选举产生的同行评议和各主管委员会裁决。德意志研究联合会的评审系统具有自己的特色，有别于国外类似资助机构的评审系统：德意志研究联合会的专业评议人是从众多科学学会建议的人选中，实际上是从所有已获博士学位至少3年的在职科学家中选举产生，选举每4年举行一次，选举方式是无记名投票。1987-1990年共有445名选举产生的专业评议人在工作，分属于172个学科，并按若干学科为一组分为36个专业委员会。此外，如果申请项目的课题内容特别专业化，可视具体情况另外邀请特约评议人。评议人绝对不享受工作报酬，他们收回的钱款只是他们自己的垫付款，如出差费。评议人最重要的一项任务是，评审申请项目的学术水平并提出适当的财政资助建议。(15)

洪堡基金会成立于1860年，后几经重建。最近一次重建是在1953年12月。洪堡基金会的主要目的是资助世界各地的研究者到德国做访问学者。近50年来，洪堡基金会致力于将科研奖学金发放给世界上最优秀的科研人才，使他们能够自由选择德国的大学和科研机构做访问学者。洪堡基金会评价一所大学科研地位与声望的重要指标是，每100位教授所吸引的洪堡奖学金获得者人数。2003年洪堡基金会统计分析了从1998-2002年之间4713名洪堡奖学金获得者在德国大学和研究机构的分布，依据这项标准确定德国大学2003年科研地位排行榜。(16)

5.加拿大

加拿大人文社会科学研究委员会(SSHRC)是加拿大资助高等教育学术研究活动的三大重要基金来源之一。另外两个是国家科学与工程研究委员会(NSERC)和医学研究委员会(MRC)。尽管SSHRC在高等教育界按照资助对象占有最大份额，但是长期以来它在三个委员会中得到的资金份额最校由于自然科学很多领域的研究成本高于人文社会科学，SSHRC在审批和竞争中成功率一直比较低，在其范围内只能支持少数学者和学生。相比之下，大多数自然科学和医学领域的学者和学生能够得到NSERC或者MRC更多的支持。

项目评价包括为决策提供更多更好的信息，主要是对项目的实证信息及其结果和成本效率的有效依据的系统收集。(17)这已被加拿大联邦政府各部门广泛采用并在1981年予以详细阐述。同行评议在项目之间的资金分配中起着关键的作用，SSHRC的项目评价在对项目进展情况、研究成果以及资助项目的选择提供反馈信息方面起着基础性的作用。SSHRC的项目根据研究成果和对研究的评价建议实现了广泛的改变。SSHRC评价的战略地位主要不在于政府的评价政策。为了引导评价研究，SSHRC采用了许多研究方法。就项目评价来说，目前该委员会正面临着一些严重的局限性，有如下几个因素降低了适合决策者需要的评价结果的可信度：(1)研究领域、研究成果的多样化；(2)人文学科研究影响力证明的模糊性；(3)缺少一个关于研究人员及其研究活动、研究成果的可持续的综合性数据库。(18)

四、结语

纵观欧美主要国家人文社会科学研究学者和评价机构的观点，在评价方法方面，目前在人文社会科学领域普遍使用的引文计量方法存在一定局限性，使用时需建立本国或本地区的引文数据库，并在测评指标设置上针对人文社会科学各学科特点作出适当调整。那些为了操作简单而不加区分地使用引文数据库进行人员、机构和学术成果的评价都不可避免地产生偏颇，不仅违背以评促优的初衷，而且也会破坏学术环境。另外，国外学者趋于一致地认为，引文计量方法和同行评议方法的结合使用是未来评价方法的走向(19)，如何在使用时使二者合理的融合则需要谨慎探究。尽管各国情况不同，为了达到公平、科学和可靠的评价，评价对象的学科背景特点是必须考虑的。这也说明，适合的评价方法才是最好的评价方法。通过国外人文社会科学研究成果评价现状可以看出，学术评价方法，尤其是定量指标如何使用，与管理层的目的密不可分。另外学术评价的发展更与所处的学术和社会大环境紧密相关。

（来源：《南京大学学报：哲学·人文科学》。录入编辑：乾乾）