Pydantic AI 团队推出的全新软件包直接解决了我认为的 AI 工程中最难的问题:构建评估以确定基于 LLM 的系统是否正常工作并随着时间的推移变得更好。
该功能被描述为“测试版”,并附带以下非常现实的警告:
与单元测试不同,评估是一门新兴的艺术/科学;任何声称确切知道如何定义评估的人都可以安全地被忽略。
他们文档中的代码示例说明了两个关键名词 – 案例和数据集之间的关系:
从pydantic_evals导入案例,数据集 案例 1 =案例( 名称= “简单情况” , 输入= “法国的首都是哪里?” , 预期输出= “巴黎” , 元数据= { "难度" : "简单" }, ) 数据集=数据集(案例= [案例 1 ])
该库还支持自定义评估器,包括 LLM-as-a-judge:
案件( 名称= “素食食谱” , 输入=客户订单( 菜肴名称= “肉酱意粉” ,饮食限制= “素食” ), 预期输出=无, 元数据= { “焦点” : “素食” }, 评估者= ( 法学硕士法官( rubric = “食谱不应包含肉类或动物产品” , ), ), )
案例和数据集也可以序列化为 YAML。
我的第一印象是,这看起来像是合理设计的可靠实现。我期待着在真实的项目中尝试它。
标签: evals 、 python 、 pydantic 、 Generative-ai 、 ai 、 llms
原文: https://simonwillison.net/2025/Apr/1/pydantic-evals/#atom-everything