Apoorv Saxena 提出的非常巧妙的 LLM 优化技巧,他观察到 LLM 输入中的标记序列通常会被输出反映 – 例如,摘要中包含的片段。
Apoorv 的代码对此类前缀执行简单搜索,并在 LLM 令牌生成期间使用它们填充一组建议的候选 ID。
结果似乎将生成输出的速度提高了约 2.4 倍!
通过@abacaj
原文: https://simonwillison.net/2024/Jan/23/prompt-lookup-decoding/#atom-everything
翻译英文优质信息和名人推特
Apoorv Saxena 提出的非常巧妙的 LLM 优化技巧,他观察到 LLM 输入中的标记序列通常会被输出反映 – 例如,摘要中包含的片段。
Apoorv 的代码对此类前缀执行简单搜索,并在 LLM 令牌生成期间使用它们填充一组建议的候选 ID。
结果似乎将生成输出的速度提高了约 2.4 倍!
通过@abacaj
原文: https://simonwillison.net/2024/Jan/23/prompt-lookup-decoding/#atom-everything