当“认为”是 12 月时,API 上的 gpt-4-turbo 会产生(统计上显着的)更短的完成时间,而“认为”是 5 月时(由系统提示中的日期确定)。
我在 API 上得到了同样的提示(一个代码完成任务,要求在没有库的情况下实现机器学习任务)。
我创建了两个系统提示,一个告诉 API 现在是 5 月,另一个告诉 API 现在是 12 月,然后比较了分布。
对于 May 系统提示,平均值 = 4298
对于 12 月系统提示,平均值 = 4086N = 5 月和 12 月每个样本中有 477 次完成
t 检验 p < 2.28e-07
原文: https://simonwillison.net/2023/Dec/11/rob-lynch/#atom-everything