可视化 ChatGPT 在人类考试中的表现
ChatGPT 是 OpenAI 开发的一种语言模型,在过去一年中变得非常流行,因为它能够在各种情况下生成类似人类的响应。
事实上,ChatGPT 已经变得如此强大,以至于学生们现在正在使用它来帮助他们完成家庭作业。这促使美国的几个学区阻止设备在其网络上访问该模型。
那么,ChatGPT 有多聪明?
在 2023 年 3 月 27 日发布的一份技术报告中,OpenAI 全面介绍了其最新模型 GPT-4。此报告中包含一组考试结果,我们已在上图中将其可视化。
GPT-4 与 GPT-3.5
为了对 ChatGPT 的功能进行基准测试,OpenAI 模拟了各种专业和学术考试的测试运行。这包括 SAT、律师资格考试和各种大学先修课程 (AP) 期末考试。
绩效以百分位数衡量,百分位数基于每种考试类型的应试者的最新分数分布。
百分位评分是一种相对于其他人的表现对一个人的表现进行排名的方法。例如,如果您在测试中排名第 60 个百分位,则意味着您的得分高于 60% 的应试者。
下表列出了我们在图形中可视化的结果。
类别 | 考试 | GPT-4 百分位数 |
GPT-3.5 百分位数 |
---|---|---|---|
法律 | 统一律师考试 | 90后 | 10 |
法律 | 高考 | 88 | 40 |
高考 | 循证阅读与写作 | 93 | 87 |
高考 | 数学 | 89 | 70 |
研究生入学考试 (GRE) | 定量的 | 80 | 25 |
研究生入学考试 (GRE) | 口头 | 99 | 63 |
研究生入学考试 (GRE) | 写作 | 54 | 54 |
大学先修课程 (AP) | 生物学 | 85 | 62 |
大学先修课程 (AP) | 结石 | 43 | 0 |
大学先修课程 (AP) | 化学 | 71 | 22 |
大学先修课程 (AP) | 物理学 2 | 66 | 30 |
大学先修课程 (AP) | 心理学 | 83 | 83 |
大学先修课程 (AP) | 统计数据 | 85 | 40 |
大学先修课程 (AP) | 英语 | 14 | 14 |
大学先修课程 (AP) | 英国文学 | 8个 | 8个 |
竞争性编程 | Codeforces评级 |
上面报告的分数是针对启用视觉输入的 GPT-4 的。请参阅 OpenAI 的技术报告以获得更全面的结果。
正如我们所见,在大多数这些考试中,GPT-4(2023 年 3 月发布)比 GPT-3.5(2022 年 3 月发布)的能力强得多。然而,它无法提高AP 英语和竞争性编程。
关于 AP 英语(以及其他需要书面回答的考试),ChatGPT 的提交由“1-2 名具有相关工作经验的合格第三方承包商对这些论文进行评分”进行评分。虽然 ChatGPT 确实能够写出足够的论文,但它可能难以理解考试的提示。
对于竞争性编程,GPT 尝试了 10 场 Codeforces 比赛,每场比赛 100 次。 Codeforces 举办竞争性编程竞赛,参赛者必须解决复杂的问题。 GPT-4 的平均 Codeforces 评分为 392(低于第 5 个百分点),而其在单场比赛中的最高评分约为 1,300。参考 Codeforces评分页面,得分最高的用户是来自中国的jiangly ,评分为 3,841。
GPT-4 有什么变化?
以下是 GPT-4 相对于 GPT-3.5 改进了用户体验的一些领域。
互联网接入和插件
GPT-3.5 的一个限制因素是它无法访问互联网,并且只接受了截至 2021 年 6 月的数据训练。
借助 GPT-4,用户将可以访问各种插件,这些插件使 ChatGPT 能够访问互联网、提供更多最新响应并完成更广泛的任务。这包括来自 Expedia 等服务的第三方插件,这些插件将使 ChatGPT 能够为您预订整个假期。
视觉输入
虽然 GPT-3.5 只能接受文本输入,但 GPT-4 还具有分析图像的能力。用户将能够要求 ChatGPT 描述照片、分析图表,甚至解释模因。
更大的上下文长度
最后,GPT-4 能够处理更多的文本并使对话持续更长时间。作为参考,GPT-3.5 的最大请求值为 4,096 个令牌,相当于大约 3,000 个单词。 GPT-4 有两个变体,一个有 8,192 个标记(6,000 个单词),另一个有 32,768 个标记(24,000 个单词)。
有兴趣了解更多关于人工智能对工作世界的影响吗? VC+ 成员可以访问此特别调度以及我们的整个 VC+ 内容档案。了解更多。 |