Anthropic 让 Claude 自己写代码,结果它跑到一半直接摆烂:我觉得差不多了,完工!
最近Harness比较火🔥🔥🔥,总计一下
1. AI Coding 的真正瓶颈不是模型,是 Harness 架构。
Harness 是什么?就是包裹 LLM 的那层运行时基础设施。模型本身是个无状态的 token 预测器,Harness 负责让它真正能干活。
一个完整的 Harness 要处理六件事:
1)Loop 控制:驱动模型反复调用、解析输出、执行工具调用、把结果喂回去,决定什么时候停
2)工具调用分发:把模型的请求路由到实际能力上(代码执行、搜索、API、MCP server)
3)Context 管理:系统 prompt、对话历史、检索文档,以及上下文快满时的压缩和摘要
4)状态与记忆:scratchpad、任务列表、跨 session 的短期和长期记忆
5)控制流:重试、超时、最大步数限制、预算上限、停止条件
6)安全与可观测性:guardrail、权限检查、审批门控、日志和 tracing
本质上是:Harness 是 AI agent 的操作系统,模型只是 CPU。

2. Anthropic 自己踩过的坑:
他们让 Claude Opus 4.5 在 loop 里跑多个 context window、自主构建 claude.ai 克隆,失败模式有两个:
1)模型想一次搞定所有功能,context 跑到一半就满了,下一个 session 接手时只看到半拉子代码,不知道发生了什么。
2)后期某个 session 环顾四周,觉得差不多了,直接宣告任务完成。
解法是两阶段 Harness:
1)Initializer agent:第一个 session 专门建环境——生成 init.sh、feature list(200+ 条功能点全部标 failing)、初始 git commit
2)Coding agent:后续每个 session 只做一件事,做完必须提交 git、更新进度文件,保持代码处于可以合并到 main的干净状态
他们还发现模型存在context anxiety——上下文快满时会提前收工。Compaction(压缩历史继续跑)无法解决这个问题,必须用 context reset(清空上下文、新建 agent 接手、通过结构化 handoff artifact 传递状态)。
对了。顺嘴提一句,技术大厂,前后端-测试机会,全国一线及双一线城市均有[坑位],待遇和稳定性还不错,感兴趣看看。
3. 进阶版:三 agent 架构
两 agent 版本跑一段时间后,又遇到新问题:模型评价自己写的代码会系统性地偏乐观,明显有问题的设计也会说"挺好的"。
解法是引入第三个角色——Evaluator agent,独立于 Generator 存在。
架构变成:
1)Planner:分解任务,生成结构化 feature list
2)Generator:逐条实现功能
3)Evaluator:用一套预先定义好的打分标准(设计质量、原创性、工艺、功能性)独立评审,给出具体反馈
本质上是把 GAN 的对抗结构引入了 coding agent。关键是 Evaluator 需要被单独调教成苛刻——让一个 LLM 批评另一个 LLM 的输出,比让同一个 LLM 自我批评要容易得多。
——转载自黄建同学


登录 或 注册 后才可以进行评论哦!