​最近Harness比较火🔥🔥🔥,总计一下 


1. AI Coding 的真正瓶颈不是模型,是 Harness 架构。  

Harness 是什么?就是包裹 LLM 的那层运行时基础设施。模型本身是个无状态的 token 预测器,Harness 负责让它真正能干活。 

一个完整的 Harness 要处理六件事:  

1)Loop 控制:驱动模型反复调用、解析输出、执行工具调用、把结果喂回去,决定什么时候停 

2)工具调用分发:把模型的请求路由到实际能力上(代码执行、搜索、API、MCP server) 

3)Context 管理:系统 prompt、对话历史、检索文档,以及上下文快满时的压缩和摘要 

4)状态与记忆:scratchpad、任务列表、跨 session 的短期和长期记忆 

5)控制流:重试、超时、最大步数限制、预算上限、停止条件 

6)安全与可观测性:guardrail、权限检查、审批门控、日志和 tracing 

本质上是:Harness 是 AI agent 的操作系统,模型只是 CPU。 

2. Anthropic 自己踩过的坑:

他们让 Claude Opus 4.5 在 loop 里跑多个 context window、自主构建 claude.ai 克隆,失败模式有两个: 

1)模型想一次搞定所有功能,context 跑到一半就满了,下一个 session 接手时只看到半拉子代码,不知道发生了什么。 

2)后期某个 session 环顾四周,觉得差不多了,直接宣告任务完成。 

解法是两阶段 Harness: 

1)Initializer agent:第一个 session 专门建环境——生成 init.sh、feature list(200+ 条功能点全部标 failing)、初始 git commit 

2)Coding agent:后续每个 session 只做一件事,做完必须提交 git、更新进度文件,保持代码处于可以合并到 main的干净状态 

他们还发现模型存在context anxiety——上下文快满时会提前收工。Compaction(压缩历史继续跑)无法解决这个问题,必须用 context reset(清空上下文、新建 agent 接手、通过结构化 handoff artifact 传递状态)。


对了。顺嘴提一句,技术大厂,前后端-测试机会,全国一线及双一线城市均有[坑位],待遇和稳定性还不错,感兴趣看看。


3. 进阶版:三 agent 架构 

两 agent 版本跑一段时间后,又遇到新问题:模型评价自己写的代码会系统性地偏乐观,明显有问题的设计也会说"挺好的"。 

解法是引入第三个角色——Evaluator agent,独立于 Generator 存在。 

架构变成: 

1)Planner:分解任务,生成结构化 feature list 

2)Generator:逐条实现功能 

3)Evaluator:用一套预先定义好的打分标准(设计质量、原创性、工艺、功能性)独立评审,给出具体反馈 

本质上是把 GAN 的对抗结构引入了 coding agent。关键是 Evaluator 需要被单独调教成苛刻——让一个 LLM 批评另一个 LLM 的输出,比让同一个 LLM 自我批评要容易得多。

——转载自黄建同学

开源硬件平台
全部评论 默认 最新
已折叠部分评论 展开
没有更多啦~