Google 发布了一个有趣的版本,作为上个月Gemma 3 的后续版本:
为了使 Gemma 3 更易于使用,我们宣布推出通过量化感知训练 (QAT) 进行优化的新版本,该版本可在保持高质量的同时显着降低内存需求。这使您能够在 NVIDIA RTX 3090 等消费级 GPU 上本地运行 Gemma 3 27B 等功能强大的模型。
我以前并不知道量化感知训练,但事实证明它现在已经成为一种既定的模式,并且在Tensorflow和PyTorch中都得到支持。
Google 报告以下模型的模型大小从 BF16 降至 int4:
- Gemma 3 27B:54GB 至 14.1GB
- Gemma 3 12B:24GB 至 6.6GB
- Gemma 3 4B:8GB 至 2.6GB
- Gemma 3 1B:2GB 至 0.5GB
他们与 Ollama、LM Studio、MLX(这是他们的集合)和 llama.cpp 合作发布了此版本 – 我希望看到更多 AI 实验室效仿他们的榜样。
Ollama 模型版本选择器当前将它们隐藏在“查看全部”选项后面,因此以下是直接链接:
- gemma3:1b-it-qat – 1GB
- gemma3:4b-it-qat – 4GB
- gemma3:12b-it-qat – 8.9GB
- gemma3:27b-it-qat – 18GB
我用以下方法获取了最大的模型:
ollama pull gemma3:27b-it-qat
现在我正在尝试使用llm-ollama :
llm -m gemma3:27b-it-qat "impress me with some physics"
我得到了很好的回应!
更新:花了一段时间通过Open WebUI和Tailscale通过手机访问我的笔记本电脑进行测试,我认为这可能是我最喜欢的通用本地模型。 Ollama 在模型运行时似乎使用 22GB 内存,这为我的 64GB 机器留下了足够的内存用于其他应用程序。
标签: llm , ai , ollama , llms , gemma , llm-release ,谷歌,生成人工智能, tailscale , mlx
原文: https://simonwillison.net/2025/Apr/19/gemma-3-qat-models/#atom-everything