前面把 memory 这条线拆了一遍,这两天我又把仓库里的 harness 专题做完了。
上一篇相关帖子在这里,也顺手关联一下:https://linux.do/t/topic/1867372/34
这次我最大的感受是:
很多人讨论 Agent 稳定性时,默认还停留在两个层面:
- Prompt 有没有写清楚
- Context 有没有喂够
但只要系统真的开始做事,比如进浏览器、调工具、跑多步骤链路,问题就已经不是“模型答得对不对”了,而是:
系统还能不能持续做对。
这也是为什么我越来越觉得,很多 Agent 失稳问题,本质上不是模型问题,而是 Harness 问题。
以下为AI生成内容





6 个帖子 - 4 位参与者