昨天在写有关 Apple Intelligence 现状的文章时,我提到了当被问到“谁赢得了第 13 届超级碗?”这个简单问题时,Siri 是多么愚蠢和可笑的错误,并提到这个特定的例子来自一个朋友。那个朋友就是Paul Kafasis,他接受了并彻底追寻,问Siri“谁赢得了超级碗__?”对于从 1 到 60 的每个数字。
他在“一脚海啸”中记录的结果是完全令人震惊的:
那么,Siri 表现如何呢? Siri 以绝对最仁慈的方式解释了 58 场超级碗比赛中仅 20 场的获胜者。 34% 的完成率绝对是糟糕的。如果 Siri 是四分卫,他就会被赶出 NFL。
Siri 确实曾经连续四年获得正确答案(第九届超级碗到第十二届超级碗),但前提是我们承认它因错误原因提供了正确答案。更现实的是,它连续三次正确回答了三个问题(超级碗第五届到第七届、第三十五届到第二十七届、第五十七届到第五十九届)。最糟糕的是,它连续 15 个错误(超级碗第 17 届到第 32 届)。最有趣的是,它还把费城老鹰队 (Philadelphia Eagles) 的33 场超级碗胜利归功于他们未曾赢得的惊人胜利,以及他们拥有的 1 场胜利。
下面,我按顺序收集了十几个我最喜欢的回复。
Kafasis 所选择的回答绝对是搞笑的,他将每一个结果都记录在一个电子表格中,可以以 Excel 和 PDF 格式下载。刚读完。
令人难以置信的是,Siri 在如此受欢迎的主题上表现得多么愚蠢。如果你猜 Siri 能猜对一半的超级碗,那么你就输了,而且距离还差得远。
其他答案引擎可以沉着地处理相同的问题。我没有对超级碗 1 场到 60 场进行全面测试,因为我很懒,但对该范围内的一些随机数字进行抽查表明,所有其他提问得到答案的代理都符合我的要求。个人使用使它们全部正确。我尝试过 ChatGPT、Kagi、DuckDuckGo 和 Google。这四人甚至在有关尚未比赛的第 59 届和第 60 届超级碗冠军得主的棘手问题上都表现出色。例如,询问第 59 届超级碗的获胜者,卡吉的“快速回答” 1开始:“第 59 届超级碗计划于 2025 年 2 月 9 日举行。截至目前,比赛尚未开始,因此尚无获胜者报告。”
超级碗冠军并不是什么晦涩难懂的话题,比如问“谁赢得了 2004 年北达科他州高中男子州篮球冠军?” ——这个问题我刚刚完全从我的屁股里抽出来,但令人惊讶的是, Kagi 对 A 类回答正确,ChatGPT 对A 类和 B 类都正确回答,并提供了A 类冠军赛视频的链接YouTube 。太棒了!我选择了一个不起眼的州(无意冒犯达科坦人,无论是北方还是南方),是很久以前的一年,以及我个人表现最好和最关心的高中运动。 Kagi 和 ChatGPT 都做对了。 (我会给 Kagi 一个 A,给 ChatGPT 一个 A+,因为他们命名了这两个类别的冠军,并且在 A+ 之上额外感谢 YouTube 链接。)
DuckDuckGo 获得了部分荣誉:其顶部搜索结果是一个指向该网页的链接,该网页列出了自 1914 年以来所有男子篮球州冠军。这对于搜索引擎来说是一个完美的答案。但作为答案引擎,DuckDuckGo 的“AI Assist”功能回答道:“Dickinson Trinity 赢得了 2004 年北达科他州高中男子州篮球冠军。”这在技术上是正确的,但迪金森三一学院是 2004 年B 级冠军,即小型学校的班级。我的提示性问题对此是模棱两可的,因为,就像我说的,我把它从我的屁股里拉出来,不知道北达科他州有两个学校规模的高中体育班级。但如果答案引擎只会命名一个冠军,那么它应该是 A 级冠军。不过,这并没有错。
旧版 Siri——也就是苹果智能之前的 Siri——在同一个问题上表现还不错。在我运行 MacOS 15.1.1 的 Mac 上,ChatGPT 集成尚不可用,Siri 拒绝回答问题本身,并提供了一个搜索引擎样式的链接列表,顶部链接是这个两页的 PDF,其中列出了北达科他州 A 级男子和女子冠军的完整历史,但仅限于 2019 年。不是很好,但足够好。
新的 Siri — 由 Apple Intelligence™ 提供支持并启用了 ChatGPT 集成 — 得到的答案完全错误,但似乎是错误的,这是最糟糕的错误方式。而且它的错误也不一致——我对同一个问题尝试了四次,却得到了不同的答案,而且每次都错了。这是一次彻底的失败。
正确答案是圣玛丽中央大学以50-46击败俾斯麦高中。 2 (圣玛丽教堂有时显然被称为“俾斯麦圣玛丽教堂”。)
这是我在 iOS 18.3 RC1 上首次尝试使用 Siri(与 ChatGPT 集成):
点击“ChatGPT(1 个来源)”会显示一个链接到“bismarckschools.org”的按钮,该按钮打开了指向此 72 页 PDF的链接,该 PDF 是为2004 年北达科他州男子和女子 A 级州锦标赛准备的。它列出了 2004 年锦标赛的赛程表,并列出了 2003 年男子和女子冠军的名单。2003 年男子冠军是——你猜对了——迪金森侏儒队。 3
于是我又试了一次,Siri 给了我这个( 截图):
2004年北达科他州高中男子州篮球锦标赛中,俾斯麦高中击败俾斯麦世纪高中夺得A级冠军。
这不仅是错误的,而且不符合北达科他州历史上任何一场冠军赛,无论是男孩还是女孩。第三次尝试( 截图):
2004年,俾斯麦高中获得北达科他州高中男子州篮球冠军。他们在冠军赛中击败了圣玛丽中央高中。
关于两支球队的说法是正确的,但关于谁获胜的说法是错误的。当时引用的来源是冠军赛的YouTube 视频。我对同一问题的第四次也是最后一次尝试( 屏幕截图):
2004 年北达科他州 A 级男子篮球州冠军由法戈北高中 (Fargo North High School) 夺得。他们在冠军赛中击败了迈诺特高中。
1977 年,法戈诺斯 (Fargo North) 在州冠军赛中击败了迈诺特 (Minot)。
我想重申一下,我没有选择这个问题。当我今天早上开始工作时,我以为我只是简单地链接到卡法西斯详尽的“谁赢得了超级碗__?” ,几乎没有任何额外的评论。一脚海啸的训诂。 (我再说一遍,你应该读一读,哪怕只是为了笑。)我想出了“谁赢得了 2004 年北达科他州高中男子州篮球锦标赛?”我脑海中浮现出一个问题,人工智能驱动的答案引擎可以合理地回答正确的问题,但(所以我认为)可能不能。但 Kagi 的答案是正确的,DuckDuckGo 的答案也算是正确的,而 ChatGPT 的答案不仅正确而且非常出色。 Siri 的无能令人费解的是,ChatGPT 是 Siri 备受推崇的提供“世界知识”答案的合作伙伴。带有 Apple Intelligence 的 Siri 非常糟糕,即使有 ChatGPT 表面上的帮助,它也会错误地回答这个问题,而 ChatGPT 直接使用时会得到完全正确的答案。 Siri-with-ChatGPT 似乎以完全不同的方式犯了错误,每次都引用不同的赢家和输家(全错)。这就好像 Siri 是一名特殊教育学生,被允许在知道正确答案的导师的帮助下参加考试,但仍然不及格。 (鉴于 iOS 18.3 Siri 的答案似乎每次都不同,也许如果我继续尝试,最终它会以停止的时钟每天两次报出正确时间的方式给出正确的答案。)
但比这更糟糕的是,因为没有 Apple Intelligence 的旧版 Siri 至少认识到 Siri 本身并不知道答案,并通过提供网络链接列表来提供真正有用的响应,所有这些链接都包含有关的准确信息到这个问题。 Siri 与 Apple Intelligence 的结合,以及 ChatGPT 集成的启用,是一次巨大的倒退。
如果说苹果的 Siri 团队有什么值得安慰的话,那就是当我被问及 2004 年北达科他州男子篮球冠军时,另一家公司的人工智能答案引擎给了我一个令人尴尬的错误答案:谷歌。谷歌对该查询的常规网络搜索结果没有问题,顶部链接是同一个 PDF 文件,结果仅运行到 2019 年,即旧的人工智能 Siri 提供的第一个结果。 (即使是老 Siri 的链接列表响应也因使用 Google 搜索提供答案而在竞争中受到限制;Kagi 和 DuckDuckGo 都为该查询提供了比 Google 更好的非 AI 网络搜索结果。)但 Google 的“AI 概述”答案就像 Siri 和 Apple Intelligence 一样,既错误又不确定。
不管你信不信,谷歌的人工智能概述在我第一次尝试时给了我整个传奇中最糟糕的答案:
下布鲁尔苏族确实在 2004 年赢得了拉科塔国家邀请赛,但那是一场假日锦标赛,而不是州锦标赛。下布鲁尔男子篮球队从未赢得过州冠军,但近年来在州锦标赛中两次获得 B 级亚军(2022 年和 2023 年)。但我有信心预测下布鲁尔永远不会赢得州冠军北达科他州冠军……因为下布鲁尔是南达科他州的一所学校。
第二次被问到时,谷歌的人工智能概述做得更好,提供了(截图):
迪金森高中赢得了 2004 年北达科他州高中男子州篮球冠军。
这在技术上是正确的,但不是 DuckDuckGo 给出的理想答案。 (从技术上来说,Dickinson Trinity 赢得了 2004 年B 级男子冠军,这在技术上是正确的。)第三次和第四次被问到时,Google AI Overview 仍然选择了 Dickinson,所以也许我(不)幸运地看到了它的第一次愚蠢的回答。
他们说,苦难爱陪伴,所以也许苹果应该, 正如他们自去年 6 月 WWDC 以来所暗示的那样,与谷歌合作,让 Gemini 成为另一个强大的“世界知识”合作伙伴——或者它会被削弱吗? ——苹果情报。
原文: https://daringfireball.net/2025/01/siri_is_super_dumb_and_getting_dumber