复旦大学经济学院教授:选优评审中,哪种评分机制最合理?

七弦琴国家平台
+ 订阅

《5分钟经济学》,是复旦大学经济学院教授、华发七弦琴国家知识产权运营平台专家寇宗来推出的经济学系列作品,旨在用通俗的语言、丰富的案例,阐释经济学的思维逻辑和分析方法。五分钟,你或许能得到意想不到的经济学智慧。

提要:本文考虑了委员会投票时不同投票机制的优劣,并认为一种两步序贯评分机制可能是表现最好的:首先以“序数”评分选优;若“序数”评分出现“并票”,再使用百分制评分的“基数”评分选优。

不管是学术论文选优,还是各种项目评审,都不可避免地牵涉到如何打分,以及如何评分加总的问题。

针对不同的情况,选择合适的打分和加总方案,对于避免两种类型的偏误,即“去真”错误和“存误”偏误都是至关重要的。

设想一个非常现实的应用情景:某个杂志设立了一个论坛,向广大师生征集稿件,最终由论坛的10名学术委员会委员从15篇候选论文中评出5篇优秀论文。

考虑几种常见的评分机制:

1. 百分制连续评分

每个委员对每篇论文按百分制打分,然后计算每篇论文的平均分,依次从高低排序,选出得分最高的5篇论文。

在具体实施过程中,为了消除异常值,可以考虑将高于100分的打分可以视同100分,或者视为废票,将低于50分的打分设为50分,或者视为废票。

用经济学术语来说,这种评分机制下每个评委的打分乃是采用了“基数”评分。

2. 简单排序

每个委员对15篇论文从第1到第15进行排序。然后,把每篇论文所得序数之和加总平均,平均分数越小,论文评价越高。故对平均分数从小到大进行排序,选出5篇论文进行推荐。

用经济学术语来说,这种评分机制每个评委的打分都是采用了“序数”评分。

3. 分档离散打分

具体分档级别可以是三档、五档、十档,没有定数。

以三档举例说明,每个委员对每篇文章有三种选择,而每种选择被赋予不同的分数:强烈推荐,计2分;一般推荐,计1分;不推荐,计0分。然后,将每篇论文得分加总取平均数,从高到低排序,选出得分最高的5篇。

用经济学术语来说,这种评分机制每个委员的打分都是采用了“序数”评分和“基数”评分的加权评分。

现在讨论三种评分机制的优缺点。

从原则上讲,凡是牵涉到委员会的集体投票,就必然要考虑因为不同委员打分标准的个体差异而对最终结果造成的影响。

先看百分制连续打分的优缺点。

这种打分的好处显而易见,即加总取平均分之后,产生“并票”的可能性很小,因而基本上一轮投票就能解决问题。

但这种打分的坏处也同样显著,即有可能让某些打分极端的委员成为决定最终结果的关键投票人(pivotal voter)。

必须清楚,之所以需要综合考虑委员会成员的打分,就是因为同样一篇论文,不同人的看法是不一样的,有的人认为很好,有的人却可能认为一般般,否则委员会就产生了“一致性”结论,根本就无需投票了(委员会如果被某个“权威”主导,可以算作这种情况的特例)。

单纯的观点差异并不足以构成问题,但再与不同委员的打分习惯差异结合起来,就有可能出现“反常”结果了。

同样都是评委,有的委员打分比较苛刻,有的委员打分比较宽松;有的委员打分集中度很高,各论文得分差距很小,有的委员打分离散度很大,各论文得分差距很大。

现在,不妨考虑A和B两篇论文的打分和排序。

假设A文章比B文章获得更多打分比较集中的委员的认可,比如说有7个评委对A文章给出的百分制分数比B文章高,只有3个评委对B文章的打分比A文章高。

但问题是有可能出现这种情况:对B文章更认可的三个评委打分差距很大,结果A文章虽然得到更多委员认可,但其百分制综合评分反而低于B文章;故在这种评分机制下,B文章最终“获胜”。

认识到百分制评分的上述缺点,方案2要求每个评委只需要给出15篇文章的排序即可,这就消除了不同委员因为打分标准不同而让“异常值”打分严重影响排序结果的情况。

仍旧以刚才的例子说明问题,在排序加总方案下,A论文将优于B论文。

但这种方案也有明显的缺点。

首先,这种方式很容易出现“并票”,因而可能需要非常复杂的多轮投票,而在很多情况下,多轮投票实施起来非常困难。

进一步,给定委员们是理性的,那么,只有通过“择首”或“汰末”之后,重复投票才能有可能进行分离出各论文的差异。

实际上,按照职称晋升投票中的实际经验,即便采取了“择首汰末”,依然有可能出现并票,进而需要引入其他的附加标准才能进行分离。

投票委员的人数以及候选人数都比较少时,并票出现的几率非常大。

其次,好处和坏处是一个硬币的两个方面。这种方法放大了两个本来差别很小的论文的差异。

比如,某个委员可能觉得A论文和B论文难分伯仲,但在这种投票机制下,却必须将它们进行排序。这样,一旦委员人数比较少,两篇本来差异不大的论文,最终可能评分差异很大。

第三种方案是前两种方案的“中间道路”,即以对每篇文章采取了较为模糊的分档打分,同时又允许多篇文章获得相同的档次分。

这种方法貌似综合了前两种方法的优点,但仔细想,并非如此。

它并没有解决不同委员打分标准不同的问题。打分比较集中的委员可能打了很多的“强烈推荐”,而打分比较离散的委员可能只给了少数几个“强烈推荐”而其他都是“不推荐”。

由此,打分没有差异的委员实际上相当于是放弃了投票权,因而最终结果只是取决于那几个打分差异比较大的委员。

这种方法可以有更加复杂的变种,比如限制每个委员给出“强烈推荐”的比例。但这种变种投票机制显得稍微复杂了一些,而只要稍微复杂一些,就会给投票实施带来很大的不确定性,比如很容易产生“废票”。现实经验是,委员们往往是很“迷糊”的。

所以,若能解决问题,投票机制越简洁越好。

综合以上分析,我们认为上述三种方案实际上都不是很好的解决方案。但综合考虑三种方案的优缺点,有一种两步序贯的“混合打分机制”可能是表现最好的。

这种打分机制要求每个委员不但按照百分制对每篇论文进行打分,而且要求他们对15篇论文从1到15给出排序。然后,委员会首先按照序数评分对论文进行排序选优;如果出现并票,再对并票的论文按照百分评分进行选优。

也就是说,我们建议的评分规则也是前述第一种方案和第二种方案的混合体,但混合方式是“序贯的”,即先以序数评分排序,只有出现并票时才考虑基数评分。

一般而言,即便序数评分产生并票,基数评分继续产生并票的概率是极小的。

当然,如果上述两步程序依然出现并票,那只能说“小概率”出现了。

针对这种“小概率”事件,委员会可以酌情按照某个附加规则进行选择,比如“女士优先”,或者“年龄优先”等等。

任何规则,总是要给“运气”留下一定的空间。

对于那些能够在“小概率”事件出现时而最终胜出的候选人,我们只能祝福他们运气很好;

而对于那些在“小概率”事件出现时而不幸输掉的候选人,我们只能祝福他们下一次会有好运气。

来源:来谈经济

作者:寇宗来

编辑:华发七弦琴

(文章仅代表作者观点,不代表华发七弦琴立场)

打开APP阅读全文
免责声明:本文由南方+客户端“南方号”入驻单位发布,不代表“南方+”的观点和立场。

更多精彩内容请进入频道查看

还没看够?打开南方+看看吧
立即打开