测试 Gemini 2.5 Pro 的性能 – 搞英语 → 看世界

今天早上 Google Gemini 发布了一个新版本： Gemini 2.5 系列的第一个版本。谷歌称其为“一种思维模型，旨在解决日益复杂的问题”。它已经在LM Arena 排行榜上名列前茅，从最初的印象来看，它可能理应获得第一名。

我刚刚发布了llm-gemini 0.16，为我的LLM命令行工具添加了对新模型的支持。让我们尝试一下。

骑自行车的鹈鹕

 #升级插件 llm install -U llm-gemini  #现在运行提示符： llm -m gemini-2.5-pro-exp-03-25 “生成骑自行车的鹈鹕的 SVG ”

相当扎实！

鹈鹕栖息的角度呈一定角度，这表明它需要努力与踏板接触。它有一个很好的大喙。

这是完整的文字记录。

这项任务几乎是不可能的：鹈鹕的形状不适合骑自行车！鉴于此，我认为这是一个很好的尝试 – 我比我之前最喜欢的Claude 3.7 Sonnet更喜欢它，它是一个月前制作的：

自行车有刺，但踏板位置不对，鹈鹕不舒服地栖息在座位上，翅膀看起来很奇怪。

转录音频

我有一个之前实验中混合英语和西班牙语的MP3 。我尝试使用提示transcribe来运行它，看看会发生什么：

 llm -m gemini-2.5-pro-exp-03-25 '转录' \   -a https://static.simonwillison.net/static/2025/Russian-pelican-in-spanish.mp3

我得到了这个，时间戳散布在文本中：

我需要你[0m0s450ms]假装[0m0s880ms]成为[0m0s990ms]加州[0m1s560ms]棕色[0m1s850ms]鹈鹕[0m2s320ms]和[0m2s480ms]非常[0m2s990ms]厚[ 0m3s290ms ] 俄语 [ 0m3s710ms ] 口音，[ 0m4s110ms ] 但 [ 0m4s540ms ] 你 [ 0m4s640ms ] 与我 [ 0m4s830ms ] 完全用西班牙语 [ 0m5s660ms ] 交谈。 [ 0m6s200ms ] 奥耶，[ 0m8s930ms ] 卡马拉达，[ 0m9s570ms ] aquí [ 0m10s240ms ] está [ 0m10s590ms ] tu [ 0m10s740ms ] pelícano [ 0m11s370ms ] californiano [ 0m12s320ms ] con [ 0m12s520ms ] acento [ 0m13s100ms ] ruso。 [ 0m13s540ms ] Qué [ 0m14s230ms ] tal，[ 0m14s570ms ] tovarisch？ [ 0m15s210ms ] Listo [ 0m15s960ms ] 段落 [ 0m16s190ms ] charlar [ 0m16s640ms ] en [ 0m16s750ms ] 西班牙语？ [ 0m17s250ms ] 今天 [ 0m19s834ms ] 你的 [ 0m19s944ms ] 天 [ 0m20s134ms ] 过得怎么样？ [ 0m20s414ms ] Mi [ 0m22s654ms ] día [ 0m22s934ms ] ha [ 0m23s4ms ] sido [ 0m23s464ms ] volando [ 0m24s204ms ] sobre [ 0m24s594ms ] las [ 0m24s844ms ] ] olas，[0m25s334ms]buscando[0m26s264ms]peces[0m26s954ms]y[0m27s84ms]disfrutando[0m28s14ms]del[0m28s244ms]sol[0m28s664ms]californiano。 [ 0m29s444ms ] Y [ 0m30s314ms ] tú，[ 0m30s614ms ] amigo，¿ [ 0m31s354ms ] como [ 0m31s634ms ] ha [ 0m31s664ms ] estado [ 0m31s984ms ] tu [ 0米32秒134毫秒] 迪亚？ [0分32秒424毫秒]

这启发我再次尝试，这次包括JSON 模式（使用 LLM 的自定义模式 DSL）：

 llm -m gemini-2.5-pro-exp-03-25 '转录' \   -a https://static.simonwillison.net/static/2025/Russian-pelican-in-spanish.mp3 \   --schema-multi '时间戳str：mm：ss，文本，语言：两个字母代码'

我从中得到了很好的回应：

 {   “项目” ： [     {       “语言” ： “ en ” ，       "text" : "我需要你假装成一只带有浓重俄罗斯口音的加州棕鹈鹕，但你只能用西班牙语跟我说话。 " ,       “时间戳” ： “ 00:00 ”     },     {       “语言” ： “ es ” ，       "text" : "哦，卡马拉达。Aquí está tu pelícano californiano con acento ruso。 " ,       “时间戳” ： “ 00:08 ”     },     {       “语言” ： “ es ” ，       "text" : " ¿Qué tal, Tovarish? ¿Listo para charlar en español? " ,       “时间戳” ： “ 00:13 ”     },     {       “语言” ： “ en ” ，       "text" : "今天过得怎么样？ " ,       “时间戳” ： “ 00:19 ”     },     {       “语言” ： “ es ” ，       "text" : " Mi día ha sido volando sobre las olas,buscando peces y disfrutando del sol californiano. " ,       “时间戳” ： “ 00:22 ”     },     {       “语言” ： “ es ” ，       "text" : " ¿Y tú, amigo, como ha estado tu día? " ,       “时间戳” ： “ 00:30 ”     }   ] }

我确认时间戳与音频匹配。这太棒了。

让我们用我正在收听的播客节目的十分钟片段来尝试一下：

 llm -m gemini-2.5-pro-exp-03-25 \   '抄录，第一位发言者是克里斯托弗，第二位是西蒙' \   -十分钟的播客.mp3 \   --schema-multi '时间戳 str: mm:ss, 文本, 发言者名称'

有用的 LLM 技巧：您可以使用llm logs -c --data从最近的提示响应中获取 JSON 数据，所以我运行了以下命令：

 llm 日志-c --data |杰克

这是完整的输出 JSON ，其开始和结束如下：

 {   “项目” ： [     {       "speaker_name" : "克里斯托弗" ,       “text” ： “就其本身而言，它有点像森林里的一棵老树，你知道，你建造的那种东西，所以。 ” ,       “时间戳” ： “ 00:00 ”     },     {       "speaker_name" : "西蒙" ,       "text" : "我也觉得在线写作，永远不要把东西放在网上只是指望人们找到它。你必须这样做。所以拥有博客的好处之一就是我可以就某件事进行对话，有人提出问题，我可以说，哦，我在两年半前写过这件事，并给人们一个链接。 " ,       “时间戳” ： “ 00:06 ”     },      {       "speaker_name" : "西蒙" ,       "text" : "所以在此基础上，Chat 和我不记得 Chat GPT 的免费版本是否有代码解释器。 " ,       “时间戳” ： “ 09:45 ”     },     {       "speaker_name" : "西蒙" ,       "text" : "我希望我这么认为。 " ,       “时间戳” ： “ 09:50 ”     },     {       "speaker_name" : "克里斯托弗" ,       "text" : "好的。所以这就像基本的付费服务，可能是每月 20 美元，因为我知道有一个 200 美元的服务，对于基本的付费服务来说有点贵" ，       “时间戳” ： “ 09:51 ”     }   ] }

对时间戳的抽查显示它们位于正确的位置。 Gemini 2.5 支持长上下文提示，因此这可能适用于更长的音频文件 – 深入挖掘并尝试一下会很有趣。

边界框

我最喜欢的以前 Gemini 模型的功能之一是它们对边界框的支持：您可以提示它们返回图像中对象周围的框。

去年 8 月，我构建了一个单独的工具来试验此功能，我在构建一个展示 Gemini Pro 如何返回图像中对象的边界框的工具中对此进行了描述。我现在已经升级了该工具以添加对新模型的支持。

您可以通过tools.simonwillison.net/gemini-bbox访问它 – 您需要提供自己的 Gemini API 密钥，该密钥会从您的浏览器直接发送到他们的 API（不会由中介记录）。

我在一些鹈鹕的具有挑战性的照片上尝试了它……并且效果非常好：

我的提示是：

Return bounding boxes around pelicans as JSON arrays [ymin, xmin, ymax, xmax]

Gemini 模型都经过训练，可以返回缩放范围在 0 到 100 之间的边界框。我的工具知道如何将它们转换回与输入图像相同的尺寸。

可视化结果如下所示：

鹈鹕周围有边界框

几乎全部都被它拿走了！我喜欢它没有在照片中的一只白鹭周围画一个方框。

Gemini 2.5 Pro是一款非常强劲的新机型

到目前为止，我对 Gemini 2.5 Pro 的试用还没有触及皮毛。其创意写作如何？关于世界的事实知识？它能用 Python、JavaScript、Rust 等编写出色的代码吗？

Gemini 系列型号具有与其他型号不同的功能：

上下文长度长 – Gemini 2.5 Pro 支持多达 100 万个令牌
音频输入 – 很少有其他型号支持的东西，当然不支持这种长度和这种级别的时间戳精度
图像输入的准确边界框检测

到目前为止，我对这些功能的实验表明，Gemini 2.5 Pro确实是一款非常强大的新型号。我期待着探索它的更多功能。

标签：谷歌、人工智能、生成人工智能、 LLMS 、双子座、视觉LLMS 、鹈鹕骑自行车、 LLM-发布

原文： https://simonwillison.net/2025/Mar/25/gemini/#atom-everything