概述 感谢各位上次发帖很多佬的交流, 上次是豪华配置,这次测了弱一点的配置 首先期望不要太高,其实这个水平的模型OpenCode还有厉害一点的Minimax M2.5免费用( 虽然刚才出现的Bug Minimax也没修好 能玩,但是上下文看自己的操作,如果有核显则可以拉到100K上下文,没有的话可能20-50K上下文了。( 所以我特别喜欢有核显的电脑 )显存比较紧急的话可以划分1层给CPU,可以拉高20K上下文应该 体感可以编程,没有什么问题 写了个时钟,还有个贪食蛇 相关说明 Apex量化的I-MINI GGUF表现真的很亮眼,损失感觉很小? Qwen3.6 35B A3B的上下文真的好便宜 模型在这里,I-MINI版本就13.3G(这里不加载视觉模块了,显存不够): Qwen3.6-35B-A3B-APEX-GGUF · 模型库 如果有Intel 358H, 338H 32G+1T, 或者AMD 890M, 780M 的用户也可以试试看,内存大可以选I-Compact的17G版本 部署环境 硬件 CPU 12450H 显卡 RTX 5060 Ti 16G 内存 单根 16G DDR4 3200 注意:显卡上没有接任何输出,BIOS设置的核显优先,界面渲染都交给了核显,如果开个渲染个界面可能就剩下13-14G显存,上下文只能开比较少或者拿一层给CPU,decode速度会降低25% 软件 后端 LM Studio 部署模型:Qwen3.6-35B-A3B-APEX-I-Mini.gguf Decode速度: 80tps 层数:全部放在GPU上 上下文:100K 关闭MMAP, 不保持模型在内存中 打开快速注意力,K缓存 V缓存量化均为Q8, Q4好像有BUG → 会导致Prefill非常慢 建议: 用来编程时,如果第一步没能做好,建议直接从第一步重开多试一次,应该会比修bug要好点,改代码bug能力没有写代码能力强的感觉 本地还能玩玩Heretic(虽然这个模型好像没什么感觉,RP不是很好,总之玩玩也不赖) 这个量化确实损失感觉没多少的样子,因为同样概率发生的bug我跑Q6量化的版本也有概率发生 对于天才编程佬们来说,模型的能力还是远远不够的,这篇文章没什么帮助,虽然如此,但是还是想要分享一下 如果发生长时间卡住,可能是模型跑出循环思考bug了,可以中断一下重新跑 题外话 话说L站没有本地部署模型的标签吗(逃 附加截图 2 个帖子 - 2 位参与者 阅读完整话题
越来也快了,比Qwen3.5-35B-A3B效果要更好,当前单卡部署了ud-Q4-K-XL.gguf 目前已知4090 180+toks/s, 3090 100+toks 附上对应的启动参数, llama-server --model path --ctx-size 262144 --port 8081 -ngl 99 --no-mmap --threads 16 --batch-size 256 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -np 1 --temp 0.6 --top-p 0.95 --top-k 20 --mlock 期待下Qwen3.6-27B Dense预计周末或者下周就出来了吧 4 个帖子 - 4 位参与者 阅读完整话题
iPhone 16PM 双卡打游戏延迟老高了,基本100MS左右,换成单卡马上丝滑 两张都是电信卡,一张接打电话和验证码,另一张流量卡 好像看挺多人都有这个困扰 有没有佬友知道怎么解决 4 个帖子 - 2 位参与者 阅读完整话题