这个官方Int4 GPTQ版本把模型权重压缩到只需约15-16GB,单张RTX 4090(24GB显存)就能轻松跑起来,短中上下文(8k-32k)显存占用仅18-30GB,长上下文也远比传统27B模型省显存——得益于Gated DeltaNet架构,KV cache增长超慢! 原本要多卡A100/H100才能玩的顶级性能,现在普通玩家一台24GB消费级显卡就能本地部署,推理速度飞起,质量损失极小,几乎无感! 极大降低了部署门槛和硬件成本,普通开发者/创作者/小团队也能享受到27B级别的推理、Agent、视
www.bilibili.com