越来也快了,比Qwen3.5-35B-A3B效果要更好,当前单卡部署了ud-Q4-K-XL.gguf
目前已知4090 180+toks/s, 3090 100+toks
附上对应的启动参数,
llama-server --model path --ctx-size 262144 --port 8081 -ngl 99 --no-mmap --threads 16 --batch-size 256 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -np 1 --temp 0.6 --top-p 0.95 --top-k 20 --mlock
期待下Qwen3.6-27B Dense预计周末或者下周就出来了吧
4 个帖子 - 4 位参与者