做了一天测试在ultra7 270kplus 64G 4800内存 5070ti的资源下 gemma31b 最好每秒6token/sgemma26b 最好每秒45token/sqwen3.6 35b 最好每秒77.66token/s这说明千问这一套MoE模型量化技术比较适配低显存环境。

做了一天测试在ultra7 270kplus 64G 4800内存 5070ti的资源下 gemma31b 最好每秒6token/sgemma26b 最好每秒45token/sqwen3.6 35b 最好每秒77.66token/s这说明千问这一套MoE模型量化技术比较适配低显存环境。
