/tag/5060Ti

单卡16G 5060Ti 部署 Qwen3.6 35B A3B Apex量化测试（大核显亦可

linux.do · 2026-04-18 20:35:22+08:00 · tech

概述感谢各位上次发帖很多佬的交流, 上次是豪华配置，这次测了弱一点的配置首先期望不要太高，其实这个水平的模型OpenCode还有厉害一点的Minimax M2.5免费用（虽然刚才出现的Bug Minimax也没修好能玩，但是上下文看自己的操作，如果有核显则可以拉到100K上下文，没有的话可能20-50K上下文了。（所以我特别喜欢有核显的电脑）显存比较紧急的话可以划分1层给CPU，可以拉高20K上下文应该体感可以编程，没有什么问题写了个时钟，还有个贪食蛇相关说明 Apex量化的I-MINI GGUF表现真的很亮眼，损失感觉很小？ Qwen3.6 35B A3B的上下文真的好便宜模型在这里，I-MINI版本就13.3G（这里不加载视觉模块了，显存不够）： Qwen3.6-35B-A3B-APEX-GGUF · 模型库如果有Intel 358H, 338H 32G+1T，或者AMD 890M, 780M 的用户也可以试试看，内存大可以选I-Compact的17G版本部署环境硬件 CPU 12450H 显卡 RTX 5060 Ti 16G 内存单根 16G DDR4 3200 注意：显卡上没有接任何输出，BIOS设置的核显优先，界面渲染都交给了核显，如果开个渲染个界面可能就剩下13-14G显存，上下文只能开比较少或者拿一层给CPU，decode速度会降低25% 软件后端 LM Studio 部署模型：Qwen3.6-35B-A3B-APEX-I-Mini.gguf Decode速度： 80tps 层数：全部放在GPU上上下文：100K 关闭MMAP, 不保持模型在内存中打开快速注意力，K缓存 V缓存量化均为Q8， Q4好像有BUG → 会导致Prefill非常慢建议：用来编程时，如果第一步没能做好，建议直接从第一步重开多试一次，应该会比修bug要好点，改代码bug能力没有写代码能力强的感觉本地还能玩玩Heretic（虽然这个模型好像没什么感觉，RP不是很好，总之玩玩也不赖）这个量化确实损失感觉没多少的样子，因为同样概率发生的bug我跑Q6量化的版本也有概率发生对于天才编程佬们来说，模型的能力还是远远不够的，这篇文章没什么帮助，虽然如此，但是还是想要分享一下如果发生长时间卡住，可能是模型跑出循环思考bug了，可以中断一下重新跑题外话话说L站没有本地部署模型的标签吗（逃附加截图 2 个帖子 - 2 位参与者阅读完整话题