ggml :通过优化 SIMD 将 WASM 速度提高 2 倍
Xu-Son Nguyen 为llama.cpp
做的公关:
此 PR 通过利用
qX_K_q8_K
和qX_0_q8_0
点积函数的 SIMD 指令,使 WASM 的速度大幅提升。令人惊讶的是,此 PR 中 99% 的代码是由 DeekSeek-R1 编写的。我唯一做的就是开发测试并编写提示(带有一些线索和错误)
他们在这里分享了他们的提示,他们直接通过chat.deepseek.com上的 R1 运行这些提示 – 它花了 3-5 分钟“思考”每个提示。
我也从 DeepSeek R1 的代码中看到了一些非常有希望的结果。这是最近的记录,我用它重写了llm_groq.py插件来模仿llm_mistral.py使用的缓存模型 JSON 模式,从而产生了这个 PR 。
标签:推理缩放、 deepseek 、 llama-cpp 、 ai 、 llms 、 webassemble 、人工智能辅助编程、生成人工智能
原文: https://simonwillison.net/2025/Jan/27/llamacpp-pr/#atom-everything