智能助手网 - 标签：单卡

单卡16G 5060Ti 部署 Qwen3.6 35B A3B Apex量化测试（大核显亦可

linux.do · 2026-04-18 20:35:22+08:00 · tech

概述感谢各位上次发帖很多佬的交流, 上次是豪华配置，这次测了弱一点的配置首先期望不要太高，其实这个水平的模型OpenCode还有厉害一点的Minimax M2.5免费用（虽然刚才出现的Bug Minimax也没修好能玩，但是上下文看自己的操作，如果有核显则可以拉到100K上下文，没有的话可能20-50K上下文了。（所以我特别喜欢有核显的电脑）显存比较紧急的话可以划分1层给CPU，可以拉高20K上下文应该体感可以编程，没有什么问题写了个时钟，还有个贪食蛇相关说明 Apex量化的I-MINI GGUF表现真的很亮眼，损失感觉很小？ Qwen3.6 35B A3B的上下文真的好便宜模型在这里，I-MINI版本就13.3G（这里不加载视觉模块了，显存不够）： Qwen3.6-35B-A3B-APEX-GGUF · 模型库如果有Intel 358H, 338H 32G+1T，或者AMD 890M, 780M 的用户也可以试试看，内存大可以选I-Compact的17G版本部署环境硬件 CPU 12450H 显卡 RTX 5060 Ti 16G 内存单根 16G DDR4 3200 注意：显卡上没有接任何输出，BIOS设置的核显优先，界面渲染都交给了核显，如果开个渲染个界面可能就剩下13-14G显存，上下文只能开比较少或者拿一层给CPU，decode速度会降低25% 软件后端 LM Studio 部署模型：Qwen3.6-35B-A3B-APEX-I-Mini.gguf Decode速度： 80tps 层数：全部放在GPU上上下文：100K 关闭MMAP, 不保持模型在内存中打开快速注意力，K缓存 V缓存量化均为Q8， Q4好像有BUG → 会导致Prefill非常慢建议：用来编程时，如果第一步没能做好，建议直接从第一步重开多试一次，应该会比修bug要好点，改代码bug能力没有写代码能力强的感觉本地还能玩玩Heretic（虽然这个模型好像没什么感觉，RP不是很好，总之玩玩也不赖）这个量化确实损失感觉没多少的样子，因为同样概率发生的bug我跑Q6量化的版本也有概率发生对于天才编程佬们来说，模型的能力还是远远不够的，这篇文章没什么帮助，虽然如此，但是还是想要分享一下如果发生长时间卡住，可能是模型跑出循环思考bug了，可以中断一下重新跑题外话话说L站没有本地部署模型的标签吗（逃附加截图 2 个帖子 - 2 位参与者阅读完整话题

Qwen3.6-35B-A3B 5090单卡部署，200+ toks/s

linux.do · 2026-04-17 15:05:18+08:00 · tech

越来也快了，比Qwen3.5-35B-A3B效果要更好，当前单卡部署了ud-Q4-K-XL.gguf 目前已知4090 180+toks/s, 3090 100+toks 附上对应的启动参数， llama-server --model path --ctx-size 262144 --port 8081 -ngl 99 --no-mmap --threads 16 --batch-size 256 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -np 1 --temp 0.6 --top-p 0.95 --top-k 20 --mlock 期待下Qwen3.6-27B Dense预计周末或者下周就出来了吧 4 个帖子 - 4 位参与者阅读完整话题

iPhone双卡延迟高有解决方案吗？

linux.do · 2026-04-16 10:08:50+08:00 · tech

iPhone 16PM 双卡打游戏延迟老高了，基本100MS左右，换成单卡马上丝滑两张都是电信卡，一张接打电话和验证码，另一张流量卡好像看挺多人都有这个困扰有没有佬友知道怎么解决 4 个帖子 - 2 位参与者阅读完整话题

/tag/单卡