如何在16G以下显存上部署某些24B、35B甚至更大的模型

ShowBL > 如何在16G以下显存上部署某些24B、35B甚至更大的模型

UP主：

封面：

简介：

效果：以在RTX5080 16G Laptop上部署Qwen3.5 35B A3B为例，Q6模型的速度约30t/s以上，Q4模型的速度约45t/s以上，同时有128k上下文同时该模型的无审查版本还保留了较好的多...

ShowBLwww.showbl.com