智能助手网 - 标签：qwen

linux.do · 2026-04-18 20:52:40+08:00 · tech

各位实际coding的时候3.6plus的效果和5.1对比怎么样？ 1 个帖子 - 1 位参与者阅读完整话题

单卡16G 5060Ti 部署 Qwen3.6 35B A3B Apex量化测试（大核显亦可

linux.do · 2026-04-18 20:35:22+08:00 · tech

概述感谢各位上次发帖很多佬的交流, 上次是豪华配置，这次测了弱一点的配置首先期望不要太高，其实这个水平的模型OpenCode还有厉害一点的Minimax M2.5免费用（虽然刚才出现的Bug Minimax也没修好能玩，但是上下文看自己的操作，如果有核显则可以拉到100K上下文，没有的话可能20-50K上下文了。（所以我特别喜欢有核显的电脑）显存比较紧急的话可以划分1层给CPU，可以拉高20K上下文应该体感可以编程，没有什么问题写了个时钟，还有个贪食蛇相关说明 Apex量化的I-MINI GGUF表现真的很亮眼，损失感觉很小？ Qwen3.6 35B A3B的上下文真的好便宜模型在这里，I-MINI版本就13.3G（这里不加载视觉模块了，显存不够）： Qwen3.6-35B-A3B-APEX-GGUF · 模型库如果有Intel 358H, 338H 32G+1T，或者AMD 890M, 780M 的用户也可以试试看，内存大可以选I-Compact的17G版本部署环境硬件 CPU 12450H 显卡 RTX 5060 Ti 16G 内存单根 16G DDR4 3200 注意：显卡上没有接任何输出，BIOS设置的核显优先，界面渲染都交给了核显，如果开个渲染个界面可能就剩下13-14G显存，上下文只能开比较少或者拿一层给CPU，decode速度会降低25% 软件后端 LM Studio 部署模型：Qwen3.6-35B-A3B-APEX-I-Mini.gguf Decode速度： 80tps 层数：全部放在GPU上上下文：100K 关闭MMAP, 不保持模型在内存中打开快速注意力，K缓存 V缓存量化均为Q8， Q4好像有BUG → 会导致Prefill非常慢建议：用来编程时，如果第一步没能做好，建议直接从第一步重开多试一次，应该会比修bug要好点，改代码bug能力没有写代码能力强的感觉本地还能玩玩Heretic（虽然这个模型好像没什么感觉，RP不是很好，总之玩玩也不赖）这个量化确实损失感觉没多少的样子，因为同样概率发生的bug我跑Q6量化的版本也有概率发生对于天才编程佬们来说，模型的能力还是远远不够的，这篇文章没什么帮助，虽然如此，但是还是想要分享一下如果发生长时间卡住，可能是模型跑出循环思考bug了，可以中断一下重新跑题外话话说L站没有本地部署模型的标签吗（逃附加截图 2 个帖子 - 2 位参与者阅读完整话题

阿里百炼coding plan用哪个模型，Qwen3.6-Plus感觉不太行

linux.do · 2026-04-18 20:18:14+08:00 · tech

百炼Qwen3.6-Plus用了下，改代码越改越乱，不知道是不是错觉。glm5指令遵循有点差，经常不按在CLAUDE.md或ANGENTS.md中写的测试方法来执行，各位有遇到过吗。kimi2.5用着还行，但百炼上非常不稳定，经常报错，不知道是不是接的claude code的原因。有用百炼coding plan的吗，佬们觉得哪个好用 8 个帖子 - 5 位参与者阅读完整话题

Prompt复述？

linux.do · 2026-04-18 16:21:51+08:00 · tech

佬友们有个困惑求解，自部署Qwen3.5 27B,做一套偏知识类的Agent 现在的情况就是如果走Native Reasoning输出，会暴露系统约束、工具Key啥的，模型跑去复述系统提示词，如果不开而是通过提示词约束模型输出类思维链，又感觉不是很稳定。就是感觉模型的思维过程还是挺有用的对知识类场景还挺有启发的，但是又不希望暴露系统提示词，咋解决呢 2 个帖子 - 2 位参与者阅读完整话题

佬们本地部署一个小小模型选啥啊到底, 怎么感觉qwen3.5特别难用啊感觉还不如ChatGLM2-6B

linux.do · 2026-04-18 14:29:54+08:00 · tech

如题, 我是wsl+ollama, 试了一个qwen3.5 2b 4b 9b, 都贼拉难用, 我就问他 1+1=? , 一直搁那吐字, 思考, 我记得以前2023年的ChatGLM没这么难用的啊, glm问他是谁他都正常吐字就完事了, qwen一直搁那思考自己是阿里巴巴开发的, 中文思考完了换英文, 半天不吐字, 介绍完自己, 又介绍阿里巴巴, 难用得要命了 13 个帖子 - 10 位参与者阅读完整话题

满血版qwen3.6 是什么水平

linux.do · 2026-04-18 13:59:57+08:00 · tech

部署了一个Qwen3.6-35B-A3B 怎么感觉有点呆啊是不是真不行啊 2 个帖子 - 1 位参与者阅读完整话题

佬们，有text-embedding-3-small的公益站吗？

linux.do · 2026-04-18 12:14:10+08:00 · tech

求一个有text-embedding-3-small或者Qwen3-Embedding-8B的公益站，感谢佬们 3 个帖子 - 2 位参与者阅读完整话题

qwen/qwen3.6-35b-a3b 私有化部署测试

linux.do · 2026-04-18 02:53:41+08:00 · tech

两张3090 48G显存私有化部署35B大模型，生成速度142.65tokens/s 上下文长度262144 真香 8 个帖子 - 5 位参与者阅读完整话题

PPT生成调优

linux.do · 2026-04-17 22:25:53+08:00 · tech

最近尝试了用gemini（nanobanana） gpt 和 qwen用来生成PPT，发现效果远不如小红书等平台上调出来的效果，生成中文经常鬼画符，图标也容易和解释文字关系不大。不知这种问题一般如何解决.本人目前用的还是官网入口的免费模型 2 个帖子 - 2 位参与者阅读完整话题

试了试Qwen3.6 35B A3B在本地编程，感觉还行

linux.do · 2026-04-17 21:24:43+08:00 · tech

总结这么小的模型有这个能力，还是让我感觉挺开心的，阿里牛逼体验挺好的，希望再接再厉部署情况部署版本： unsloth UD_Q6K 部署硬件： 4080 Super 32G + 5060Ti 16G Token速度： 90token/s 上下文 256K拉满只多5G显存，总共占用30多G显存官方跑分昨晚（4月16日）开源的看了下跑分好像追到GLM4.7,不过都是agent下的吧，肯定有水分的就是了 GLM 4.7 Qwen3.6 35B TerminalBench 2.0 41.0 51.5 SWE Bench-Verified 73.8 73.4 基础编程能力都有，速度也很快写了个HTML时钟，很流畅，还随便写了个网页，网页没啥问题，挺好玩的解决个nginx配置问题也能一下子看出来题外话 OpenCode不错，Qwen Code不知道为啥不能读取图片 9 个帖子 - 6 位参与者阅读完整话题

Show HN: Open Access Qwen3.6-35B-A3B-UD-Q5_K_M with TurboQuant

hnrss.org · 2026-04-17 20:06:46+08:00 · tech

https://w418ufqpha7gzj-80.proxy.runpod.net Started for myself, but since Im not using it continuously, sharing it: Open Access Qwen3.6-35B-A3B-UD-Q5_K_M with TurboQuant (TheTom/llama-cpp-turboquant) on RTX 3090 (Runpod spot instance). 5 parallel requests supported.. full context available (please don't misuse..there are no safety guards in place) Open till spot instance lasts or max 4 hours. And yes, no request logging (I don't even know how to do it with llama-server) Prompt processing and generation speeds (at 8K context): 900t/s and 60t/s. And at 100K context: 450t/s and 30t/s. Command used: ./build/bin/llama-server \ -m ../Qwen3.6-35B-A3B-UD-Q5_K_M.gguf \ --alias 'Qwen3-6-35B-A3B-turbo' \ --ctx-size 262144 \ --no-mmproj \ --host 0.0.0.0 \ --port 80 \ --jinja \ --flash-attn on \ --cache-type-k turbo3 \ --cache-type-v turbo3 \ --reasoning off \ --temp 0.6 \ --top-p 0.95 \ --top-k 20 \ --min-p 0.0 \ --presence-penalty 0.0 \ --repeat-penalty 1.0 \ --parallel 5.0 \ --cont-batching \ --threads 16 \ --threads-batch 16 Thanks.. Comments URL: https://news.ycombinator.com/item?id=47805007 Points: 3 # Comments: 2

笔记本本地运行 qwen3.5-35b-a3b-q4km，天气卡片这么强？！

linux.do · 2026-04-17 19:46:59+08:00 · tech

笔记本配置 32GB 内存加 8GB 5060，就是生成速度会有点慢（24token/s）但这个天气卡片真不想像是本地模型能跑出来的。如果想试试接入 coding agent，推荐 PI，对模型负担很轻，作为一个小电脑助手又快又好同类推荐： 5060 笔记本成功部署 Gemma 4，30t/s，效果很好这个速度会快一些，硬件需求类似，也可以试试。 5 个帖子 - 5 位参与者阅读完整话题

Intel Arc Alchemist XPU 运行 Qwen 3.5 / Qwen 3.6 / Gemma 4 并支持MoE （系列之三，教你如何自己写算子）

linux.do · 2026-04-17 18:07:37+08:00 · tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社区和佬友监督：是以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出上次发帖忘记加模板被始皇狠狠指点了，虽然是系列之三但这次还是加上模板。月经贴又来力已测试的模型： google\gemma-4-E4B-it Intel\Qwen3.5-2B-int4-AutoRound Intel\Qwen3.5-35B-A3B-int4-AutoRound Jackrong\Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2 Qwen\Qwen3-TTS-12Hz-1.7B-Base 这个月着重于解决MoE模型的运行乱码问题、Turboquant适配。 1、具备生产能力的 Qwen-3.5-35B-A3B 模型太大，不能全丢进显存里面。必须做 CPU-XPU 混合推理，也就是专家层放在内存里，需要时再调到 XPU，这个机制其实很多推理引擎已经有对应的"cpu-offload"实现了。 2、 MoE 的性能卡点主要出现在 decode 阶段。对 MoE 实施混合推理推理设计，decode 每走一步都可能要重新选专家，所以特别容易被CPU-XPU之间的数据搬运环节拖慢，由于开发环境在平时打游戏的PC上，内存频率受限3200Mhz，所以现在运行 35B-A3B 的输出速度只有 1 tokens/s 。 3、所有的模型权重都转换成项目内部兼容 XPU 的 int4 布局，节省资源。项目内自定义算子的设计（如何自己写算子）： 1、 gated_delta_fused_op.sycl 里通过 TORCH_LIBRARY 注册算子名字和参数形式，让项目能在Pytorch上运行。 2、同时提供 Meta 和 XPU 两套。Meta 实现不真正计算，只负责告诉 PyTorch“输出长什么样”；XPU 实现才是真正在 Intel XPU 上跑的 kernel。 3、 Python 侧只负责“接线”，因为性能表现太垃圾。 fused_ops.py 负责加载 .pyd 动态库、暴露 run_xxx_fused() 这类包装函数。ops.py 再把这些 fused op 接到模型真实的 forward 调用链上。 4、构建链路依赖 oneAPI + PyTorch XPU（最终还是脱离不了Intel官方提供的技术栈，因为这一部分实现比较完整，自己弄CPP太耗时间了，一个人做不了） build_gated_delta_fused_op.py 会调用 dpcpp 编译出 .pyd，再动态加载到 torch.ops.anna 命名空间。 5、所有算子都要非常严格地检查输入的维度信息、dtype、device、是否 contiguous 以及 shape 是否匹配。自定义算子一旦吃到错误输入，往往不是普通报错中断，而是直接结果错乱，包括输出乱码、思维链循环、甚至直接不输出任何内容。 6、项目里很多输入虽然是 bf16/fp16，但中间经常要用 float32。避免模型出现乱码、异常重复、输出不稳定的清空。 7、对 MoE 来说，路由、dispatch、scatter、专家缓存、专家搬运，常常比矩阵乘本身更影响速度。所以项目里不仅做了 GEMM 算子，还做了 router、dispatch、scatter 这些算子。 8、测试选用的 AutoRound 量化模型导出的 int4 权重格式，不等于项目内部适合 XPU 直接算的 int4 格式。因此还有一层转换来做兼容化。结构是： gated_delta_fused_op.sycl - 真正写 XPU 核心计算逻辑的地方。 fused_ops.py - Python 到自定义算子的桥接层。 ops.py - 模型真正调用这些算子的地方。 build_gated_delta_fused_op.py - 负责编译和注册自定义算子。用 NotebookLM 内的 Nanobanana 2 帮忙画的简图 1 个帖子 - 1 位参与者阅读完整话题

Qwen3.6-35B-A3B-Q4_K_M，写的天气卡片，效果不错呀

linux.do · 2026-04-17 17:38:30+08:00 · tech

你是一位就职于苹果公司的顶级前端工程师。请创建一个包含CSS和JavaScript的HTML文件，用于生成动画天气卡片。卡片需要以不同动画效果直观展示以下天气状况：风力（如：飘动的云朵、摇曳的树木或风线）降雨（如：下落的雨滴、形成的水洼）晴天（如：闪耀的光线、明亮的背景）下雪（如：飘落的雪花、积雪效果）所有天气卡片需要并排显示，背景采用深色设计。所有HTML、CSS和JavaScript代码都需包含在这个单一文件中。JavaScript部分需包含切换不同天气状态的功能（例如通过函数或按钮组），以演示每种天气的动画效果。将前端显示效果优化得更精致流畅，打造出价值20元/月的精品天气应用既视感。需要把上下文开大一点，写完大约10K+。一次写完的结果，没修改。 5060+DDR4，大概跑起来18tokens/s。 qwen3-6-35b-a3b-q4-k-m-v1.html.zip (8.7 KB) 5 个帖子 - 4 位参与者阅读完整话题

如何抢到百炼的coding plan？

linux.do · 2026-04-17 17:16:33+08:00 · tech

codex都封了，claude也没有了，转向qwen, 如何抢到百炼coding plan呢？大家有经验吗 6 个帖子 - 4 位参与者阅读完整话题

qwen 3.6 在国内是第几梯队? 这tmd页面对话给我气笑了

linux.do · 2026-04-17 15:54:18+08:00 · tech

这就是一个不过 80 行的 .h 文件, 就问了第1个问题, 然后给我扔一堆错误, 还要我一一反驳, 给我气笑了 , 4 个帖子 - 2 位参与者阅读完整话题

Qwen3.6-35B-A3B 5090单卡部署，200+ toks/s

linux.do · 2026-04-17 15:05:18+08:00 · tech

越来也快了，比Qwen3.5-35B-A3B效果要更好，当前单卡部署了ud-Q4-K-XL.gguf 目前已知4090 180+toks/s, 3090 100+toks 附上对应的启动参数， llama-server --model path --ctx-size 262144 --port 8081 -ngl 99 --no-mmap --threads 16 --batch-size 256 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -np 1 --temp 0.6 --top-p 0.95 --top-k 20 --mlock 期待下Qwen3.6-27B Dense预计周末或者下周就出来了吧 4 个帖子 - 4 位参与者阅读完整话题

Qwen3.6-Flash相比Qwen3.5-Flash输入涨价6倍、输出涨价3倍，它凭啥？

linux.do · 2026-04-17 14:41:40+08:00 · tech

Qwen3.5-Flash输入每百万token 0.2元，输出每百万token 2元， Qwen3.6-Flash输入每百万token 1.2元，输出每百万token 7.2元，涨价这么多？提升有这么大吗？ 3 个帖子 - 3 位参与者阅读完整话题

qwen-3.6-35b-a3b又来了，到底本地部署能喂好龙虾/hermes吗？

linux.do · 2026-04-17 14:41:00+08:00 · tech

今天又被qwen3.6的35b-a3b刷屏了。都在说/吹很强，到底是不是真的的？能不能正确流畅的在ai agent上操作。另外M5 max 128G能部署流畅使用吗，200k上下文 1 个帖子 - 1 位参与者阅读完整话题

小白问下，为啥现在大家都不讨论用DeepSeek了

linux.do · 2026-04-17 13:21:49+08:00 · tech

只说国产也都是在聊Qwen，GLM，为啥之前火出圈的DeepSeek现在不名不见经传了。我本人一直用CodeX和Gemini，国内的就体验过Qwen。 15 个帖子 - 15 位参与者阅读完整话题

/tag/qwen