20 世纪 60 年代的聊天机器人 ELIZA 在最近的图灵测试研究中击败了 OpenAI 的 GPT-3.5

放大/艺术家对人类和机器人交谈的印象。（来源：盖蒂图片社 | 本杰·爱德华兹）

在一篇题为“GPT-4 通过图灵测试吗？”的预印本研究论文中，加州大学圣地亚哥分校的两名研究人员将 OpenAI 的GPT-4人工智能语言模型与人类参与者、GPT-3.5 和ELIZA进行比较，看看哪个可以欺骗参与者思考这是人类最成功的。但一路走来，这项尚未经过同行评审的研究发现，人类参与者在互动中只有 63% 能够正确识别其他人，而且 20 世纪 60 年代的计算机程序超越了为免费版 ChatGPT 提供支持的人工智能模型。

尽管存在我们将在下面介绍的限制和警告，本文仍然对人工智能模型方法进行了发人深省的比较，并提出了有关使用图灵测试评估人工智能模型性能的进一步问题。

英国数学家和计算机科学家艾伦·图灵于 1950 年首次将图灵测试设想为“模仿游戏”。从那时起，它已成为确定机器模仿人类对话能力的著名但有争议的基准。在现代版本的测试中，人类法官通常与另一个人或聊天机器人交谈，但不知道哪个是哪个。如果法官在一定比例的时间内无法可靠地区分聊天机器人和人类，则认为聊天机器人已通过测试。通过测试的门槛是主观的，因此对于什么是通过测试的成功率从来没有达成广泛的共识。

阅读剩余 13 段|评论

原文： https://arstechnica.com/?p=1986387