测试你的公司对人工智能的重视程度:当 o-1(和新的 Gemini)本周推出时,是否有指定人员立即通过内部、经过验证的、公司特定的基准运行该模型,以了解它的有用性?您因此更新了任何计划或目标吗?
或者你们没有指派人员(包括非技术人员)来测试新模型?没有内部基准吗?您没有及时了解人工智能将如何影响您的业务吗?
没有人会为组织做这件事,你需要自己做。
标签: ethan-mollick , evals ,生成人工智能, ai , llms
原文: https://simonwillison.net/2024/Dec/7/ethan-mollick/#atom-everything