在过去 60 年左右的时间里,科学一直在对自己进行实验。实验设计不是很好;没有随机分组,也没有对照组。确切地说,没有人负责,也没有人真正进行一致的测量。然而,这是有史以来规模最大的实验,它包括地球上的每一位科学家。
大多数人甚至没有意识到他们正在做实验。他们中的许多人,包括我在内,在实验开始时还没有出生。如果我们注意到发生了什么,也许我们会要求具有基本的科学严谨性。也许没有人反对,因为这个假设似乎显然是正确的:如果我们有人检查每篇论文并拒绝那些不合格的论文,科学将会变得更好。他们称之为“同行评审”。
这是一个巨大的变化。从古代到现代,科学家们写信和传阅专着,阻止他们传播他们的发现的主要障碍是纸张、邮资或印刷机的成本,或者在极少数情况下,天主教会的访问费用。科学期刊出现于1600 年代,但它们的运作更像杂志或时事通讯,它们的选文过程从“我们得到什么就打印什么”到“编辑问他的朋友他的想法”到“全社会投票”。有时期刊无法获得足够的论文来发表,所以编辑们不得不四处求朋友投稿,或者自己填补空间。几个世纪以来,科学出版一直是大杂烩。
(顺便说一句,爱因斯坦只有一篇论文经过同行评审,他感到非常惊讶和沮丧,以至于他在另一本期刊上发表了他的论文。)
二战后这一切都变了。政府向研究投入大量资金,并召集“同行评审员”以确保他们不会把钱浪费在愚蠢的提案上。这笔资金变成了大量的论文,以前难以填满页面的期刊现在难以选择要打印的文章。在 1960 年代之前“相当罕见”的发表前审阅论文变得更加普遍。然后它变得普遍。
现在几乎所有期刊都聘请外部专家来审查论文,不讨好审稿人的论文会被拒绝。你仍然可以写信告诉你的朋友你的发现,但招聘委员会和资助机构表现得好像唯一存在的科学就是发表在同行评审期刊上的东西。这是我们已经运行了六年的宏伟实验。
结果出来了。它失败了。
一分钱一分货
同行评审是一项巨大而昂贵的干预。据估计,科学家们每年共同花费15,000 年的时间来审阅论文。一篇论文可能需要数月或数年才能通过审查系统,而当人们试图做诸如治愈癌症和阻止气候变化之类的事情时,这是一个很大的时间。大学为访问经过同行评审的期刊支付了数百万美元,尽管大部分研究是由纳税人资助的,而且这些钱都没有给作者或审稿人。
大规模的干预应该会产生巨大的影响。例如,如果你在学校系统上投入 1 亿美元,希望最终会清楚你让学生过得更好。如果几年后你出现,你会说,“嘿,那我的 1 亿美元是怎么帮助这个学校系统的”,每个人都会说“嗯,好吧,我们不确定它真的做了什么,而且我们都很生气现在对你说,”你会非常沮丧和尴尬。同样,如果同行评审改进了科学,那应该是显而易见的,如果没有,我们应该感到非常沮丧和尴尬。
它没有。在各种不同的领域,研究生产力几十年来一直持平或下降,而同行评审似乎并没有改变这一趋势。新思想未能取代旧思想。许多经过同行评审的发现无法复制,其中大部分可能是彻头彻尾的错误。当你要求科学家评价 20 世纪获得诺贝尔奖的发现时,他们会说在同行评议之前出现的那些与后来出现的那些一样 好甚至更好。事实上,您甚至不能要求他们对 1990 年代和 2000 年代获得诺贝尔奖的发现进行评级,因为那个时期几乎没有任何东西获得过诺贝尔奖。
当然,自第二次世界大战以来,许多其他东西都发生了变化。我们在运行这个实验时做得很糟糕,所以一切都很混乱。从这些大趋势中我们只能说,我们不知道同行评审是否有帮助,它可能有伤害,它花费了很多钱,而且科学文献的现状非常糟糕。在这个行业,我们称之为彻底失败。
尸检
什么地方出了错?
这是一个简单的问题:同行评审真的做了它应该做的事情吗?它会发现不良研究并阻止其发表吗?
它没有。科学家们进行了一些研究,他们故意在论文中添加错误,将它们发送给审稿人,然后简单地计算审稿人发现了多少错误。审稿人对此非常糟糕。在这项研究中,审稿人发现了 30% 的主要缺陷,在这项研究中,他们发现了 25%,在这项研究中,他们发现了 29%。这些都是关键问题,比如“这篇论文声称是一项随机对照试验,但它不是”和“当你看图表时,很明显没有效果”和“作者得出的结论完全没有得到支持”数据。”审稿人大多没有注意到。
事实上,我们已经得到了同行评议不起作用的真实数据:欺诈性论文一直在发表。如果审稿人尽职尽责,我们会听到很多故事,例如“Cornelius von Fraud 教授在试图向科学期刊提交虚假论文后,今天被解雇了”。但我们从未听过这样的故事。相反,几乎每一个关于欺诈的故事都是从论文通过审查和发表开始的。只是后来一些好心人——通常是作者自己实验室的人!——注意到了一些奇怪的事情并决定进行调查。这就是这篇关于明显有假数据(具有讽刺意味)的不诚实论文所发生的事情,这些人发表了数十甚至数百篇欺诈性论文,而这次崩溃:
为什么审稿人不发现基本错误和公然欺诈?一个原因是他们几乎从不查看他们审查的论文背后的数据,而这正是最有可能出现错误和欺诈的地方。事实上, 大多数期刊根本不要求您公开数据。您应该“应要求”提供它们,但大多数人不会这样做。这就是我们如何在情景喜剧式的情况下结束的,比如大约 20%的遗传学论文拥有完全无用的数据,因为 Excel 会自动将基因名称更正为月份和年份。
(当一位编辑开始要求作者在向他的期刊提交论文后添加他们的原始数据时,其中一半拒绝并撤回了他们的提交。用编辑的话来说,这表明“原始数据可能不存在于开始。”)
同行评审的发明甚至可能助长了糟糕的研究。如果你试图发表一篇论文表明,比如说,观看小狗视频会让人们为慈善事业捐款更多,而审稿人 2 说“如果这也适用于猫视频,我只会印象深刻”,那么你就面临着巨大的压力来做出猫视频学习工作。也许您稍微捏造了一些数字,或者扔掉了一些异常值,或者测试了一堆猫视频,直到找到一个有用的,然后您就再也不提那些没有用的了。 ? 做点小骗局 // 发表论文 // 今晚下来 ?
同行评审,我们几乎没有认真对待你
这是我们可以测试同行评议是否有效的另一种方法:它真的赢得了科学家的信任吗?
科学家们经常说他们非常重视同行评审。但是人们说了很多他们不是故意的话,比如“很高兴认识你”和“我永远不会离开你,亚当。”如果你看看科学家们实际做了什么,很明显他们认为同行评审并不重要。
第一:如果科学家非常关心同行评审,当他们的论文被评审和拒绝时,他们会听取反馈,做更多的实验,重写论文等。相反,他们通常只是将同一篇论文提交给另一个期刊。这是我作为一名年轻的心理学家学到的第一件事,当时我的本科导师解释说出版业有一个“很大的随机因素”(翻译:“它是随机的,伙计”)。如果第一个期刊没有成功,我们会尝试下一个。出版就像中了彩票,她告诉我,中奖的方法就是不断地把票塞进盒子里。当非常认真和成功的科学家宣称你所谓的科学事实核查系统并不比偶然性更好时,那是非常令人沮丧的。
第二:一旦论文发表,我们就会粉碎评论。一些期刊发表评论;大多数没有。没有人关心审稿人说了什么或作者如何编辑他们的论文作为回应,这表明没有人首先认为评论实际上很重要。
第三:科学家们会毫不犹豫地认真对待未经审查的工作。我们阅读了“预印本”、工作论文和博客文章,它们都没有在同行评审的期刊上发表过。我们使用来自皮尤和盖洛普以及政府的数据,同样未经审查。我们去参加人们谈论未经审查的项目的会议,我们不会互相转身说,“太有趣了!我迫不及待地希望它得到同行评审,这样我就能知道它是否属实。”
相反,科学家默认同行评议不会增加任何东西,他们通过查看方法和结果来决定科学工作。有时人们会大声说出安静的部分,例如诺贝尔奖获得者悉尼·布伦纳 (Sydney Brenner) :
我不相信同行评议,因为我认为它非常扭曲,而且正如我所说,它只是对均值的回归。我认为同行评审阻碍了科学。事实上,我认为它已经成为一个完全腐败的系统。
我们能修好吗?不,我们不能
我曾经考虑过我们可以改进同行评审的所有方法。审稿人要看数据!期刊应该确保论文没有造假!
很容易想象事情会如何变得更好——我的朋友 Ethan 和我就此写了一整篇论文——但这并不意味着让事情变得更好很容易。我对同行评审的抱怨有点像看着每年死于车祸的约 35,000 名美国人并说“人们不应该经常撞车”。好吧,但怎么办?
缺乏努力不是问题所在:请记住,我们当前的系统每年需要15,000 年的劳动力,而且它的工作仍然非常糟糕。付钱给同行评审员似乎并没有让他们变得更好。也不训练他们。也许我们可以解决一些边缘问题,但请记住,现在我们发表的论文使用大写字母 T 而不是错误栏,所以我们还有很长很长的路要走。
如果我们让同行评审更加严格怎么办?这听起来不错,但它会使同行评审的许多其他问题变得更糟。
比如,你以前能写出有风格的科学论文。现在,为了取悦审稿人,你必须把它写得像一份法律合同。过去,论文的开头是这样的:“救命!一个神秘的数字在迫害我,”现在他们开始说,“有人说,在不同的时间和地点,人类存在,甚至有几种品质,或维度,或关于他们的真实事物,但当然这需要进一步研究(Smergdorf & Blugensnout,1978;Stikkiwikket,2002;von Fraud 等,2018b)”。
这吹。结果,没有人真正阅读这些论文。其中一些长达 100 页,另外还有 200 页的补充信息,所有内容都写得像是讨厌你,希望你立即停止阅读。最近,有朋友问我上次从头到尾读一篇论文是什么时候;我不记得了,他也不记得。 “每当有人告诉我他们喜欢我的论文时,”他说,“我会说谢谢,尽管我知道他们没有读过它。”更严格的同行评审将意味着更多无聊的论文,这意味着更少的人会阅读它们。
让同行评议变得更严厉也会加剧最糟糕的问题:仅仅知道你的想法没有任何意义,除非同行评议者喜欢他们让你更不善于思考。就像又回到了少年时代:在你做任何事情之前,你会问自己,“但人们会认为我很酷吗?”当获得和保住一份工作取决于产生流行的想法时,你可以很好地控制自己的思想,从不接受任何奇怪或不受欢迎的事情。这意味着我们最终会得到更少的革命性想法,除非你认为现在一切都非常完美,否则我们非常需要革命性的想法。
如果你确实想出了一种方法来改进同行评审而不会使情况变得更糟,你可以尝试说服现有的近 30,000种科学期刊将你的神奇方法应用于他们每年发表的约 470 万篇文章。祝你好运!
同行评审比没有更糟糕;或者,为什么闻牛肉还不够
同行评审不起作用,而且可能没有办法解决它。但一点点审查总比没有好,对吧?
我说:不行。
想象一下,你发现美国食品和药物管理局“检查”牛肉的方法只是派一个人(“Gary”)四处闻闻牛肉,然后说它闻起来是否好闻,通过嗅探测试的牛肉会得到一个标签上面写着“已通过 FDA 检查”。你会很生气的。是的,加里可能会发现几批劣质牛肉,但显然他会错过大部分危险的肉。这个极其糟糕的系统比没有更糟糕,因为它让人们误以为他们是安全的,而实际上他们并不安全。
这就是我们当前的同行评审系统所做的,而且很危险。被揭穿的关于疫苗导致自闭症的理论来自世界上最负盛名的期刊之一的同行评议论文,它在那里停留了12 年才被撤回。有多少孩子因为一篇烂论文通过了同行评审并盖上了科学认可的印章而没有接种疫苗?
如果你想在美国销售一瓶维生素 C 药丸,你必须附上免责声明,说明瓶子上的所有声明都没有经过食品和药物管理局的评估。也许期刊应该在每篇论文上加盖类似的声明:“没有人真正检查过这篇论文是否真实。据我们所知,它可能是编造的。”这至少会给人们适当的信心。
科学必须是免费的
为什么同行评审一开始看起来如此合理?
我认为我们对科学如何运作的模型是错误的。我们对待科学就像它是一个薄弱环节的问题,进步取决于我们最糟糕工作的质量。如果你相信弱链接科学,你会认为杜绝不真实的想法非常重要——理想情况下,首先要防止它们被发表。如果您在此过程中提出了一些好主意,您不会介意,因为埋葬不好的东西非常重要。
但科学是一个强关联问题:进步取决于我们最好工作的质量。 更好的想法并不总是立即获胜,但它们最终会获胜,因为它们更有用。你不能用亚里士多德的物理学登陆月球,你不能用自然生成把泥变成青蛙,你不能用燃素制造炸弹。牛顿的物理定律仍然存在;他的 魔法石配方没有。我们不需要一个科学机构来扼杀错误的想法。我们需要它来让新想法挑战旧想法,剩下的交给时间。
如果您担心薄弱环节,我完全理解。如果我们让人们想说什么就说什么,他们有时会说不真实的话,这听起来很可怕。但我们现在实际上并没有阻止人们说出不真实的话;我们只是假装。事实上,现在我们偶尔会用大贴纸来祝福不真实的东西,上面写着“被一本奇特的杂志检查过”,而且这些贴纸很难撕掉。那更可怕。
薄弱环节思维让科学审查看起来合理,但所有审查所做的只是让旧观念更难被击败。请记住,地球是宇宙的中心在过去显然是正确的,如果哥白尼时代存在科学期刊,地心说评论家会拒绝他的论文并拍拍自己的背以防止错误信息的传播。优生学曾经是科学界的热门话题——你认为一群种族主义者会给一篇表明黑人和白人一样聪明的论文开绿灯吗?或者黑人作者的任何论文? (如果你认为那是古老的历史:这种动力今天仍在上演。)我们仍然不了解关于宇宙的基本真理,我们今天相信的许多想法总有一天会被揭穿。同行评审,就像每一种形式的审查一样,只会减慢真相。
万岁,我们失败了
没有人负责我们的同行评审实验,这意味着没有人有责任说它什么时候结束。看到没有其他人,我想我会这样做:
我们完成了,大家!到处都是香槟!干得好,祝贺你。我们尝试过同行评审,但没有奏效。
老实说,我很放心。那个系统烂透了!等待几个月只是为了听到一位编辑认为您的论文不值得审查?阅读来自出于某种原因认为您的论文是宇宙中所有邪恶之源的审稿人的长篇文字?花一整天的时间给一本期刊发电子邮件请求他们让你使用“年”这个词,而不是总是无缘无故地将它缩写为“y”(这确实发生在我身上)?我们永远不必再做任何那样的事情。
我知道我们可能对浪费了这么多时间感到有点失望,但失败的实验并不丢人。是的,在我们将其普及之前,我们应该进行同行评审以进行试运行。但这没关系——当时这似乎是个好主意,现在我们知道它不是。那是科学!当然,科学家们对彼此的想法发表评论总是很重要的。只是这种特殊的方法行不通。
我们现在应该做什么?好吧,上个月我发表了一篇论文,我的意思是我将 PDF 上传到互联网上。我用普通语言写了它,所以任何人都能理解。我没有隐瞒——我什至承认我忘记了我为什么要进行其中一项研究。我在里面放了笑话,因为没有人能告诉我不要这样做。我把所有的材料、数据和代码都上传到了每个人都能看到的地方。我想我会看起来像个彻头彻尾的傻瓜,没人会注意,但至少我很开心,做我认为正确的事。
然后,在我把这篇论文告诉任何人之前,成千上万的人找到了它,发表了评论,并转发了它。
完全陌生的人给我发了深思熟虑的评论。终身教授向我发送了想法。 NPR 要求采访。与我发表的上一篇同行评议论文相比,这篇论文现在的浏览量更多,后者发表在著名的《美国国家科学院院刊》上。而且我有一种预感,更多的人从头到尾阅读了这篇新论文,因为最后几段特别得到了 很多 评论。所以我不知道,我想这似乎是个好方法?
我不知道科学的未来会是什么样子。也许我们会在元宇宙中制作交互式论文,或者我们会将数据集下载到我们的脑海中,或者在技术狂欢的舞池中互相窃窃私语我们的发现。不管是什么,它都会比我们过去 60 年所做的要好得多。为了实现这一目标,我们所要做的就是我们最擅长的事情:实验。
原文: https://experimentalhistory.substack.com/p/the-rise-and-fall-of-peer-review