德里克·威利斯 (Derek Willis) 收集“几乎每个委员会的政治筹款电子邮件”——每月 3,000-12,000 封——并根据他去年 11 月收集的 1,000 封电子邮件创建了法学硕士基准。
他在这篇博文中解释了排行榜。目标是让法学硕士从电子邮件中包含的免责声明文本中正确识别委员会名称。
以下是他使用 Ollama 运行提示的代码。它使用这个系统提示:
Produce a JSON object with the following keys: 'committee', which is the name of the committee in the disclaimer that begins with Paid for by but does not include 'Paid for by', the committee address or the treasurer name. If no committee is present, the value of 'committee' should be None. Also add a key called 'sender', which is the name of the person, if any, mentioned as the author of the email. If there is no person named, the value is None. Do not include any other text, no yapping.
Gemini 2.5 Pro 目前以 95.40% 的成绩位居榜首,但新款 Mistral Small 3.1 以 85.70% 的成绩排名第五,对于本土机型来说已经相当不错了!
我在上个月的 NICAR 数据新闻会议上的演讲中说过,我们需要我们自己的评估,但没有意识到德里克自一月份以来就一直在运行评估。
标签: Gemini 、 evals 、 ai 、 ollama 、 llms 、 mistra 、 derek-willis 、生成人工智能、数据新闻、即时工程
原文: https://simonwillison.net/2025/Apr/8/political-email-extraction-leaderboard/#atom-everything