今天早上 Google Gemini 发布了一个新版本: Gemini 2.5 系列的第一个版本。谷歌称其为“一种思维模型,旨在解决日益复杂的问题”。它已经在LM Arena 排行榜上名列前茅,从最初的印象来看,它可能理应获得第一名。
我刚刚发布了llm-gemini 0.16,为我的LLM命令行工具添加了对新模型的支持。让我们尝试一下。
骑自行车的鹈鹕
首先,我的经典生成了鹈鹕骑自行车提示的 SVG 。
#升级插件 llm install -U llm-gemini #现在运行提示符: llm -m gemini-2.5-pro-exp-03-25 “生成骑自行车的鹈鹕的 SVG ”
相当扎实!
这是完整的文字记录。
这项任务几乎是不可能的:鹈鹕的形状不适合骑自行车!鉴于此,我认为这是一个很好的尝试 – 我比我之前最喜欢的Claude 3.7 Sonnet更喜欢它,它是一个月前制作的:
转录音频
我有一个之前实验中混合英语和西班牙语的MP3 。我尝试使用提示transcribe
来运行它,看看会发生什么:
llm -m gemini-2.5-pro-exp-03-25 '转录' \ -a https://static.simonwillison.net/static/2025/Russian-pelican-in-spanish.mp3
我得到了这个,时间戳散布在文本中:
我需要你[0m0s450ms]假装[0m0s880ms]成为[0m0s990ms]加州[0m1s560ms]棕色[0m1s850ms]鹈鹕[0m2s320ms]和[0m2s480ms]非常[0m2s990ms]厚[ 0m3s290ms ] 俄语 [ 0m3s710ms ] 口音,[ 0m4s110ms ] 但 [ 0m4s540ms ] 你 [ 0m4s640ms ] 与我 [ 0m4s830ms ] 完全用西班牙语 [ 0m5s660ms ] 交谈。 [ 0m6s200ms ] 奥耶,[ 0m8s930ms ] 卡马拉达,[ 0m9s570ms ] aquí [ 0m10s240ms ] está [ 0m10s590ms ] tu [ 0m10s740ms ] pelícano [ 0m11s370ms ] californiano [ 0m12s320ms ] con [ 0m12s520ms ] acento [ 0m13s100ms ] ruso。 [ 0m13s540ms ] Qué [ 0m14s230ms ] tal,[ 0m14s570ms ] tovarisch? [ 0m15s210ms ] Listo [ 0m15s960ms ] 段落 [ 0m16s190ms ] charlar [ 0m16s640ms ] en [ 0m16s750ms ] 西班牙语? [ 0m17s250ms ] 今天 [ 0m19s834ms ] 你的 [ 0m19s944ms ] 天 [ 0m20s134ms ] 过得怎么样? [ 0m20s414ms ] Mi [ 0m22s654ms ] día [ 0m22s934ms ] ha [ 0m23s4ms ] sido [ 0m23s464ms ] volando [ 0m24s204ms ] sobre [ 0m24s594ms ] las [ 0m24s844ms ] ] olas,[0m25s334ms]buscando[0m26s264ms]peces[0m26s954ms]y[0m27s84ms]disfrutando[0m28s14ms]del[0m28s244ms]sol[0m28s664ms]californiano。 [ 0m29s444ms ] Y [ 0m30s314ms ] tú,[ 0m30s614ms ] amigo,¿ [ 0m31s354ms ] como [ 0m31s634ms ] ha [ 0m31s664ms ] estado [ 0m31s984ms ] tu [ 0米32秒134毫秒] 迪亚? [0分32秒424毫秒]
这启发我再次尝试,这次包括JSON 模式(使用 LLM 的自定义模式 DSL):
llm -m gemini-2.5-pro-exp-03-25 '转录' \ -a https://static.simonwillison.net/static/2025/Russian-pelican-in-spanish.mp3 \ --schema-multi '时间戳str:mm:ss,文本,语言:两个字母代码'
我从中得到了很好的回应:
{ “项目” : [ { “语言” : “ en ” , "text" : "我需要你假装成一只带有浓重俄罗斯口音的加州棕鹈鹕,但你只能用西班牙语跟我说话。 " , “时间戳” : “ 00:00 ” }, { “语言” : “ es ” , "text" : "哦,卡马拉达。Aquí está tu pelícano californiano con acento ruso。 " , “时间戳” : “ 00:08 ” }, { “语言” : “ es ” , "text" : " ¿Qué tal, Tovarish? ¿Listo para charlar en español? " , “时间戳” : “ 00:13 ” }, { “语言” : “ en ” , "text" : "今天过得怎么样? " , “时间戳” : “ 00:19 ” }, { “语言” : “ es ” , "text" : " Mi día ha sido volando sobre las olas,buscando peces y disfrutando del sol californiano. " , “时间戳” : “ 00:22 ” }, { “语言” : “ es ” , "text" : " ¿Y tú, amigo, como ha estado tu día? " , “时间戳” : “ 00:30 ” } ] }
我确认时间戳与音频匹配。这太棒了。
让我们用我正在收听的播客节目的十分钟片段来尝试一下:
llm -m gemini-2.5-pro-exp-03-25 \ '抄录,第一位发言者是克里斯托弗,第二位是西蒙' \ -十分钟的播客.mp3 \ --schema-multi '时间戳 str: mm:ss, 文本, 发言者名称'
有用的 LLM 技巧:您可以使用llm logs -c --data
从最近的提示响应中获取 JSON 数据,所以我运行了以下命令:
llm 日志-c --data |杰克
这是完整的输出 JSON ,其开始和结束如下:
{ “项目” : [ { "speaker_name" : "克里斯托弗" , “text” : “就其本身而言,它有点像森林里的一棵老树,你知道,你建造的那种东西,所以。 ” , “时间戳” : “ 00:00 ” }, { "speaker_name" : "西蒙" , "text" : "我也觉得在线写作,永远不要把东西放在网上只是指望人们找到它。你必须这样做。所以拥有博客的好处之一就是我可以就某件事进行对话,有人提出问题,我可以说,哦,我在两年半前写过这件事,并给人们一个链接。 " , “时间戳” : “ 00:06 ” }, { "speaker_name" : "西蒙" , "text" : "所以在此基础上,Chat 和我不记得 Chat GPT 的免费版本是否有代码解释器。 " , “时间戳” : “ 09:45 ” }, { "speaker_name" : "西蒙" , "text" : "我希望我这么认为。 " , “时间戳” : “ 09:50 ” }, { "speaker_name" : "克里斯托弗" , "text" : "好的。所以这就像基本的付费服务,可能是每月 20 美元,因为我知道有一个 200 美元的服务,对于基本的付费服务来说有点贵" , “时间戳” : “ 09:51 ” } ] }
对时间戳的抽查显示它们位于正确的位置。 Gemini 2.5 支持长上下文提示,因此这可能适用于更长的音频文件 – 深入挖掘并尝试一下会很有趣。
边界框
我最喜欢的以前 Gemini 模型的功能之一是它们对边界框的支持:您可以提示它们返回图像中对象周围的框。
去年 8 月,我构建了一个单独的工具来试验此功能,我在构建一个展示 Gemini Pro 如何返回图像中对象的边界框的工具中对此进行了描述。我现在已经升级了该工具以添加对新模型的支持。
您可以通过tools.simonwillison.net/gemini-bbox访问它 – 您需要提供自己的 Gemini API 密钥,该密钥会从您的浏览器直接发送到他们的 API(不会由中介记录)。
我在一些鹈鹕的具有挑战性的照片上尝试了它……并且效果非常好:
我的提示是:
Return bounding boxes around pelicans as JSON arrays [ymin, xmin, ymax, xmax]
Gemini 模型都经过训练,可以返回缩放范围在 0 到 100 之间的边界框。我的工具知道如何将它们转换回与输入图像相同的尺寸。
可视化结果如下所示:
几乎全部都被它拿走了!我喜欢它没有在照片中的一只白鹭周围画一个方框。
Gemini 2.5 Pro是一款非常强劲的新机型
到目前为止,我对 Gemini 2.5 Pro 的试用还没有触及皮毛。其创意写作如何?关于世界的事实知识?它能用 Python、JavaScript、Rust 等编写出色的代码吗?
Gemini 系列型号具有与其他型号不同的功能:
- 上下文长度长 – Gemini 2.5 Pro 支持多达 100 万个令牌
- 音频输入 – 很少有其他型号支持的东西,当然不支持这种长度和这种级别的时间戳精度
- 图像输入的准确边界框检测
到目前为止,我对这些功能的实验表明,Gemini 2.5 Pro确实是一款非常强大的新型号。我期待着探索它的更多功能。
标签:谷歌、人工智能、生成人工智能、 LLMS 、双子座、视觉LLMS 、鹈鹕骑自行车、 LLM-发布
原文: https://simonwillison.net/2025/Mar/25/gemini/#atom-everything