智能助手网
标签聚合 qwen

/tag/qwen

linux.do · 2026-04-18 20:35:22+08:00 · tech

概述 感谢各位上次发帖很多佬的交流, 上次是豪华配置,这次测了弱一点的配置 首先期望不要太高,其实这个水平的模型OpenCode还有厉害一点的Minimax M2.5免费用( 虽然刚才出现的Bug Minimax也没修好 能玩,但是上下文看自己的操作,如果有核显则可以拉到100K上下文,没有的话可能20-50K上下文了。( 所以我特别喜欢有核显的电脑 )显存比较紧急的话可以划分1层给CPU,可以拉高20K上下文应该 体感可以编程,没有什么问题 写了个时钟,还有个贪食蛇 相关说明 Apex量化的I-MINI GGUF表现真的很亮眼,损失感觉很小? Qwen3.6 35B A3B的上下文真的好便宜 模型在这里,I-MINI版本就13.3G(这里不加载视觉模块了,显存不够): Qwen3.6-35B-A3B-APEX-GGUF · 模型库 如果有Intel 358H, 338H 32G+1T, 或者AMD 890M, 780M 的用户也可以试试看,内存大可以选I-Compact的17G版本 部署环境 硬件 CPU 12450H 显卡 RTX 5060 Ti 16G 内存 单根 16G DDR4 3200 注意:显卡上没有接任何输出,BIOS设置的核显优先,界面渲染都交给了核显,如果开个渲染个界面可能就剩下13-14G显存,上下文只能开比较少或者拿一层给CPU,decode速度会降低25% 软件 后端 LM Studio 部署模型:Qwen3.6-35B-A3B-APEX-I-Mini.gguf Decode速度: 80tps 层数:全部放在GPU上 上下文:100K 关闭MMAP, 不保持模型在内存中 打开快速注意力,K缓存 V缓存量化均为Q8, Q4好像有BUG → 会导致Prefill非常慢 建议: 用来编程时,如果第一步没能做好,建议直接从第一步重开多试一次,应该会比修bug要好点,改代码bug能力没有写代码能力强的感觉 本地还能玩玩Heretic(虽然这个模型好像没什么感觉,RP不是很好,总之玩玩也不赖) 这个量化确实损失感觉没多少的样子,因为同样概率发生的bug我跑Q6量化的版本也有概率发生 对于天才编程佬们来说,模型的能力还是远远不够的,这篇文章没什么帮助,虽然如此,但是还是想要分享一下 如果发生长时间卡住,可能是模型跑出循环思考bug了,可以中断一下重新跑 题外话 话说L站没有本地部署模型的标签吗(逃 附加截图 2 个帖子 - 2 位参与者 阅读完整话题

linux.do · 2026-04-18 16:21:51+08:00 · tech

佬友们有个困惑求解,自部署Qwen3.5 27B,做一套偏知识类的Agent 现在的情况就是如果走Native Reasoning输出,会暴露系统约束、工具Key啥的,模型跑去复述系统提示词,如果不开而是通过提示词约束模型输出类思维链,又感觉不是很稳定。 就是感觉模型的思维过程还是挺有用的对知识类场景还挺有启发的,但是又不希望暴露系统提示词,咋解决呢 2 个帖子 - 2 位参与者 阅读完整话题

linux.do · 2026-04-17 21:24:43+08:00 · tech

总结 这么小的模型有这个能力,还是让我感觉挺开心的,阿里牛逼 体验挺好的,希望再接再厉 部署情况 部署版本: unsloth UD_Q6K 部署硬件: 4080 Super 32G + 5060Ti 16G Token速度: 90token/s 上下文 256K拉满 只多5G显存,总共占用30多G显存 官方跑分 昨晚(4月16日)开源的 看了下跑分好像追到GLM4.7,不过都是agent下的吧,肯定有水分的就是了 GLM 4.7 Qwen3.6 35B TerminalBench 2.0 41.0 51.5 SWE Bench-Verified 73.8 73.4 基础编程能力都有,速度也很快 写了个HTML时钟,很流畅,还随便写了个网页,网页没啥问题,挺好玩的 解决个nginx配置问题也能一下子看出来 题外话 OpenCode不错,Qwen Code不知道为啥不能读取图片 9 个帖子 - 6 位参与者 阅读完整话题

hnrss.org · 2026-04-17 20:06:46+08:00 · tech

https://w418ufqpha7gzj-80.proxy.runpod.net Started for myself, but since Im not using it continuously, sharing it: Open Access Qwen3.6-35B-A3B-UD-Q5_K_M with TurboQuant (TheTom/llama-cpp-turboquant) on RTX 3090 (Runpod spot instance). 5 parallel requests supported.. full context available (please don't misuse..there are no safety guards in place) Open till spot instance lasts or max 4 hours. And yes, no request logging (I don't even know how to do it with llama-server) Prompt processing and generation speeds (at 8K context): 900t/s and 60t/s. And at 100K context: 450t/s and 30t/s. Command used: ./build/bin/llama-server \ -m ../Qwen3.6-35B-A3B-UD-Q5_K_M.gguf \ --alias 'Qwen3-6-35B-A3B-turbo' \ --ctx-size 262144 \ --no-mmproj \ --host 0.0.0.0 \ --port 80 \ --jinja \ --flash-attn on \ --cache-type-k turbo3 \ --cache-type-v turbo3 \ --reasoning off \ --temp 0.6 \ --top-p 0.95 \ --top-k 20 \ --min-p 0.0 \ --presence-penalty 0.0 \ --repeat-penalty 1.0 \ --parallel 5.0 \ --cont-batching \ --threads 16 \ --threads-batch 16 Thanks.. Comments URL: https://news.ycombinator.com/item?id=47805007 Points: 3 # Comments: 2

linux.do · 2026-04-17 18:07:37+08:00 · tech

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 上次发帖忘记加模板被始皇狠狠指点了,虽然是系列之三但这次还是加上模板。 月经贴又来力 已测试的模型: google\gemma-4-E4B-it Intel\Qwen3.5-2B-int4-AutoRound Intel\Qwen3.5-35B-A3B-int4-AutoRound Jackrong\Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2 Qwen\Qwen3-TTS-12Hz-1.7B-Base 这个月着重于解决MoE模型的运行乱码问题、Turboquant适配。 1、 具备生产能力的 Qwen-3.5-35B-A3B 模型太大,不能全丢进显存里面。必须做 CPU-XPU 混合推理,也就是专家层放在内存里,需要时再调到 XPU,这个机制其实很多推理引擎已经有对应的"cpu-offload"实现了。 2、 MoE 的性能卡点主要出现在 decode 阶段。对 MoE 实施混合推理推理设计,decode 每走一步都可能要重新选专家,所以特别容易被CPU-XPU之间的数据搬运环节拖慢,由于开发环境在平时打游戏的PC上,内存频率受限3200Mhz,所以现在运行 35B-A3B 的输出速度只有 1 tokens/s 。 3、 所有的模型权重都转换成项目内部兼容 XPU 的 int4 布局,节省资源。 项目内自定义算子的设计(如何自己写算子): 1、 gated_delta_fused_op.sycl 里通过 TORCH_LIBRARY 注册算子名字和参数形式,让项目能在Pytorch上运行。 2、 同时提供 Meta 和 XPU 两套。Meta 实现不真正计算,只负责告诉 PyTorch“输出长什么样”;XPU 实现才是真正在 Intel XPU 上跑的 kernel。 3、 Python 侧只负责“接线”,因为性能表现 太垃圾 。 fused_ops.py 负责加载 .pyd 动态库、暴露 run_xxx_fused() 这类包装函数。ops.py 再把这些 fused op 接到模型真实的 forward 调用链上。 4、 构建链路依赖 oneAPI + PyTorch XPU( 最终还是脱离不了Intel官方提供的技术栈,因为这一部分实现比较完整,自己弄CPP太耗时间了,一个人做不了 ) build_gated_delta_fused_op.py 会调用 dpcpp 编译出 .pyd,再动态加载到 torch.ops.anna 命名空间。 5、 所有算子都要非常严格地检查输入的维度信息、dtype、device、是否 contiguous 以及 shape 是否匹配。自定义算子一旦吃到错误输入,往往不是普通报错中断,而是直接结果错乱,包括输出乱码、思维链循环、甚至直接不输出任何内容。 6、 项目里很多输入虽然是 bf16/fp16,但中间经常要用 float32。避免模型出现乱码、异常重复、输出不稳定的清空。 7、 对 MoE 来说,路由、dispatch、scatter、专家缓存、专家搬运,常常比矩阵乘本身更影响速度。所以项目里不仅做了 GEMM 算子,还做了 router、dispatch、scatter 这些算子。 8、 测试选用的 AutoRound 量化模型导出的 int4 权重格式,不等于项目内部适合 XPU 直接算的 int4 格式。因此还有一层转换来做兼容化。 结构是: gated_delta_fused_op.sycl - 真正写 XPU 核心计算逻辑的地方 。 fused_ops.py - Python 到自定义算子的桥接层 。 ops.py - 模型真正调用这些算子的地方 。 build_gated_delta_fused_op.py - 负责编译和注册自定义算子 。 用 NotebookLM 内的 Nanobanana 2 帮忙画的简图 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-17 17:38:30+08:00 · tech

你是一位就职于苹果公司的顶级前端工程师。请创建一个包含CSS和JavaScript的HTML文件,用于生成动画天气卡片。卡片需要以不同动画效果直观展示以下天气状况: 风力(如:飘动的云朵、摇曳的树木或风线) 降雨(如:下落的雨滴、形成的水洼) 晴天(如:闪耀的光线、明亮的背景) 下雪(如:飘落的雪花、积雪效果) 所有天气卡片需要并排显示,背景采用深色设计。所有HTML、CSS和JavaScript代码都需包含在这个单一文件中。JavaScript部分需包含切换不同天气状态的功能(例如通过函数或按钮组),以演示每种天气的动画效果。 将前端显示效果优化得更精致流畅,打造出价值20元/月的精品天气应用既视感。 需要把上下文开大一点,写完大约10K+。一次写完的结果,没修改。 5060+DDR4,大概跑起来18tokens/s。 qwen3-6-35b-a3b-q4-k-m-v1.html.zip (8.7 KB) 5 个帖子 - 4 位参与者 阅读完整话题

linux.do · 2026-04-17 15:05:18+08:00 · tech

越来也快了,比Qwen3.5-35B-A3B效果要更好,当前单卡部署了ud-Q4-K-XL.gguf 目前已知4090 180+toks/s, 3090 100+toks 附上对应的启动参数, llama-server --model path --ctx-size 262144 --port 8081 -ngl 99 --no-mmap --threads 16 --batch-size 256 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -np 1 --temp 0.6 --top-p 0.95 --top-k 20 --mlock 期待下Qwen3.6-27B Dense预计周末或者下周就出来了吧 4 个帖子 - 4 位参与者 阅读完整话题