智能助手网
标签聚合 Engineering

/tag/Engineering

linux.do · 2026-04-14 16:25:25+08:00 · tech

Harness Engineering 的执行核心是一种叫做 Ralph Loop 的编排模式 AI—>概率模型 AI agent处理复杂任务—>没有一个足够好的环境、约束以及反馈机制 Ralph Loop—>让AI持续工作直到真正完成—>解决AI编程助手"半途而废"问题的创新方法—》通过Stop Hook 拦截机制,让AI在未完成任务时无法退出, 通过文件系统、测试结果和Git历史形成自我参照的迭代循环—>专注于可验证任务的持续迭代修正,不依赖LLM主观判断 痛点:AI编程助手为何总是"半途而废 在使用AI编程工具时,开发者经常遭遇以下困境: 过早退出:AI在它认为"足够好"时就停止工作,而非真正完成任务 单次提示脆弱:复杂任务无法通过一次提示完成,需要反复人工干预 重新提示成本高:每次手动重新引导都在浪费开发者时间 上下文断裂:绘画重启后,之前的所有进展和上下文全部丢失 问题本质:LLM的自我评估机制不靠谱—>它会在主观认为"完成"时退出,而非达到客观可验证的标准 解决思路:让 AI 持续工作直到真正完成 Claude Code 社区诞生了一种极简但有效的范式——Ralph Loop(也称 Ralph Wiggum Loop): bash命令 while :; do cat PROMPT.md | claude-code --continue done 核心思想:同一个提示反复输入,让 AI 在文件系统和 Git 历史中看到自己之前的工作成果 Ralph Loop 让大语言模型持续迭代、自动运行直到任务完成,而不在典型“一次性提示 → 结束”循环中退出。这种范式已经被集成到主流 AI 编程工具和框架中, 被一些技术博主和开发者称作"AI 持续工作模式" Ralph Loop 让 AI 代理持续迭代直到任务完成 核心三要素: 明确任务+完成条件:定义可验证的成功标准 Stop Hook阻止提前退出:未达标时强制继续 max-iterations安全阀:防止无限循环 — 安装插件 /plugin install ralph-wiggum@claude-plugins-official — 运行循环任务 /ralph-loop “任务描述” --completion-promise “COMPLETE” --max-iterations 50 任务描述例子:“为当前项目添加单元测试 Completion criteria: - Tests passing (coverage > 80%) - Output COMPLETE” Ralph Loop 概述 不是简单的一次性运行,而是持续迭代直到完成任务 循环使用同一个prompt,但外部状态(代码、测试输出、文件等)在每次迭代后发生改变 需要明确的完成条件(如输出特定关键字、测试通过等)和合理的最大迭代次数作为安全控制 常规智能体的一个核心痛点是"上下文腐烂(Context Rot)"—>随着对话轮次的增加,LLM 对早期指令的注意力和精确度会线性下降 Ralph 循环通过“刷新上下文”解决了这一问题: 每一轮循环都可视作一个全新对话,智能体不再从臃肿的历史记录中读取状态 智能体直接通过文件读取工具扫描当前的项目结构和日志文件 这种模式将"状态管理"从 LLM 的内存(Token 序列)转移到了硬盘(文件系统) 确保Agent执行任务是否正确—>观测性 一个完整的可观测性站包含三层数据: LOGS—>日志 发生了什么事?记录每一步的行为与结果,用于事后溯源 OTLP METRICS—>指标 系统健康状况如何?延迟、错误率、吞吐量等数字化度量 OTLP TRACE—>链路追踪 一次请求从头到尾经过了哪些环节?完整的执行路径还原 这三层数据汇入向量存储库,供 Agent 自主查询。整个推理链路如下: Query 查询→Correlate 关联分析→Reason 推理原因→Implement Change→Re-run 验证 目标是自主定位问题、自主修复、自主验证—>这个闭环就是 Feedback Loop,是 Harness Engineering 的重点。 这套可观测性架构直接驱动 Agent 的代码修改行为:Agent 读到指标异常,分析 trace 找到根因,生成 PR,重启应用,重跑 workload,直到验证通过 约束先于能力—>好的架构不依赖人的自觉,而是用工具强制执行 渐进式披露的思想参考模板 project/ ├── AGENTS.md ← 地图,约 50-100 行,只做导航 ├── ARCHITECTURE.md ← 系统全貌,组件间的依赖关系 ├── docs/ │ ├── design-docs/ ← 为什么这样设计 │ └── core-beliefs.md ← 团队工程价值观 ├── exec-plans/ │ ├── active/ ← 正在做什么 │ └── completed/ ├── tech-debt-tracker.md ├── references/ ← 工具文档(为 LLM 裁剪的版本) └── FRONTEND.md ← 端层实践切分文档 三个维度,一个闭环 编码—>执行环境—>Ralph Loop保证Agent在受控的单步循环中执行,每步可验证,可回滚 研究—>观测系统—>可观测性栈让Agent的行为透明化,支持自主定位和修复问题 设计—>规范框架—>文档结构和工程原则把约束写入系统,而非依赖认为记忆自觉 找出 Agent 缺哪方面的知识或工具,然后给他补上—>这是 Harness Engineering 的日常工作。不是调模型,而是完善 harness(挽具)本身. 3 个帖子 - 2 位参与者 阅读完整话题

linux.do · 2026-04-14 14:59:03+08:00 · tech

前面把 memory 这条线拆了一遍,这两天我又把仓库里的 harness 专题做完了。 上一篇相关帖子在这里,也顺手关联一下: https://linux.do/t/topic/1867372/34 这次我最大的感受是: 很多人讨论 Agent 稳定性时,默认还停留在两个层面: Prompt 有没有写清楚 Context 有没有喂够 但只要系统真的开始做事,比如进浏览器、调工具、跑多步骤链路,问题就已经不是“模型答得对不对”了,而是: 系统还能不能持续做对。 这也是为什么我越来越觉得,很多 Agent 失稳问题,本质上不是模型问题,而是 Harness 问题。 以下为AI生成内容 6 个帖子 - 4 位参与者 阅读完整话题

hnrss.org · 2026-04-14 03:15:46+08:00 · tech

Hey HN, So I'm currently taking a lot of enterprise network engineering courses where my professor's course layout is very much figure it out yourselves, go through old forums and guides, and ask AI to help explain information or protocols you don't understand. In the last course I took, I used a lot of the popular LLMs out there, and they genuinely sucked at anything related to network engineering. I would ask something and just receive incorrect, false, or completely unrelated responses over and over, to the point where it wasn’t even speeding up my learning or labs; it would still take me hours to troubleshoot. I've been using Claude code a lot recently, and I made these skills for my friends and me to help us. So far, I've been playing around with it using the old labs and work I did, and it's giving me much better, more insightful outputs. I made some homelab skills just for fun too, because I'm trying to get into that area to expand my learning with my Raspberry Pi at home. Anyways, I'm posting it here so if you guys find it useful and cool, I'd really love to hear your feedback! Skills cover BGP troubleshooting, Cisco IOS patterns, interface health, VLAN segmentation, Pi-hole, and WireGuard. Will definitely add more depending on what kind of feedback I get. Instructions to add these skills are located in the README Thank you for reading! Comments URL: https://news.ycombinator.com/item?id=47756639 Points: 1 # Comments: 0

linux.do · 2026-04-13 17:23:25+08:00 · tech

这三个词本质上是在 大模型应用工程化不同层级的“控制手段” ,可以理解为从“写一句提示词”→“组织上下文”→“搭建完整执行系统”的递进关系。 1. Prompt Engineering(提示词工程) 核心: 怎么对模型说话 指通过设计输入提示词(prompt),让模型输出更符合预期。 关注点 任务描述怎么写更清晰 few-shot 示例怎么设计 角色设定(system prompt) 输出格式约束(JSON / Markdown) 提示词模板优化 本质 控制“单次输入 → 单次输出” 举例 你是一个中文摘要助手,请将以下内容总结为100字以内: ... 局限 只作用于单轮或局部输入 对长任务、多步骤推理控制弱 不管理外部数据/工具 2. Context Engineering(上下文工程) 核心: 给模型“喂什么信息” 强调的不只是 prompt,而是 整个输入上下文的构建与组织 。 关注点 如何拼接 system / user / memory / history RAG(检索增强)如何插入知识 长上下文裁剪(context pruning) 信息排序(重要信息放前) token budget 管理 多轮对话状态管理 本质 控制“模型看到什么世界” 举例 一个完整 context 可能包含: system:角色定义 memory:用户偏好 retrieved docs:外部知识 conversation history:对话记录 user query:当前问题 特点 比 prompt engineering 更“系统化” 是 agent / RAG 系统的核心基础 3. Harness Engineering(编排/框架工程) 核心: 如何让模型在系统中“跑起来并可控” harness = “马具/控制系统”,在 AI 里指 模型执行框架与运行控制层 。 关注点 多步 agent workflow 编排(plan → act → observe) tool calling / function calling 多模型协作(planner / executor / critic) retry / fallback / guardrails evaluation & logging 并发执行与调度 安全控制与权限管理 本质 控制“模型如何被系统调用与执行任务” 举例系统 AutoGPT / LangGraph / Semantic Kernel 企业级 AI workflow engine agent pipeline(检索→推理→执行→校验) 三者关系(非常关键) 可以用一个层级图理解: Harness Engineering(系统层) ↓ 管理执行流程 Context Engineering(信息层) ↓ 构建输入世界 Prompt Engineering(表达层) ↓ 控制单次输出 Model 一个直觉类比 层级 类比 含义 Prompt Engineering 你怎么说一句话 表达方式 Context Engineering 你给对方看哪些资料 信息供给 Harness Engineering 你搭了一个工作系统 流程与执行机制 一个真实例子(AI客服系统) Prompt Engineering “请礼貌回答用户问题” Context Engineering 用户历史订单 FAQ知识库检索结果 用户身份信息 当前对话上下文 Harness Engineering 判断是否需要调用退款API 调用订单系统 fallback 到人工客服 记录日志 + 评估满意度 总结一句话 Prompt Engineering :让模型“怎么说” Context Engineering :让模型“知道什么” Harness Engineering :让模型“怎么干活” 1 个帖子 - 1 位参与者 阅读完整话题