放大/艺术家对人类和机器人交谈的印象。 (来源:盖蒂图片社 | 本杰·爱德华兹)
在一篇题为“GPT-4 通过图灵测试吗?”的预印本研究论文中,加州大学圣地亚哥分校的两名研究人员将 OpenAI 的GPT-4人工智能语言模型与人类参与者、GPT-3.5 和ELIZA进行比较,看看哪个可以欺骗参与者思考这是人类最成功的。但一路走来,这项尚未经过同行评审的研究发现,人类参与者在互动中只有 63% 能够正确识别其他人,而且 20 世纪 60 年代的计算机程序超越了为免费版 ChatGPT 提供支持的人工智能模型。
尽管存在我们将在下面介绍的限制和警告,本文仍然对人工智能模型方法进行了发人深省的比较,并提出了有关使用图灵测试评估人工智能模型性能的进一步问题。
英国数学家和计算机科学家艾伦·图灵于 1950 年首次将图灵测试设想为“模仿游戏”。从那时起,它已成为确定机器模仿人类对话能力的著名但有争议的基准。在现代版本的测试中,人类法官通常与另一个人或聊天机器人交谈,但不知道哪个是哪个。如果法官在一定比例的时间内无法可靠地区分聊天机器人和人类,则认为聊天机器人已通过测试。通过测试的门槛是主观的,因此对于什么是通过测试的成功率从来没有达成广泛的共识。