派丹提克评估 – 搞英语 → 看世界

Pydantic AI 团队推出的全新软件包直接解决了我认为的 AI 工程中最难的问题：构建评估以确定基于 LLM 的系统是否正常工作并随着时间的推移变得更好。

该功能被描述为“测试版”，并附带以下非常现实的警告：

与单元测试不同，评估是一门新兴的艺术/科学；任何声称确切知道如何定义评估的人都可以安全地被忽略。

他们文档中的代码示例说明了两个关键名词 – 案例和数据集之间的关系：

从pydantic_evals导入案例，数据集  案例 1 =案例(     名称= “简单情况” ，     输入= “法国的首都是哪里？” ,     预期输出= “巴黎” ，     元数据= { "难度" : "简单" }, ）  数据集=数据集(案例= [案例 1 ])

该库还支持自定义评估器，包括 LLM-as-a-judge：

案件（     名称= “素食食谱” ，     输入=客户订单(         菜肴名称= “肉酱意粉” ，饮食限制= “素食”     ),     预期输出=无，     元数据= { “焦点” ： “素食” }，     评估者= (         法学硕士法官（             rubric = “食谱不应包含肉类或动物产品” ，         ),     ), ）

案例和数据集也可以序列化为 YAML。

我的第一印象是，这看起来像是合理设计的可靠实现。我期待着在真实的项目中尝试它。

标签： evals 、 python 、 pydantic 、 Generative-ai 、 ai 、 llms

原文： https://simonwillison.net/2025/Apr/1/pydantic-evals/#atom-everything