引言:Anthropic推出多代理harness设计,支持长时间运行的自主应用开发,覆盖前端设计和全栈软件创建。该方法将任务分配给不同代理,分别负责规划、生成和评估,旨在在持续数小时的AI会话中保持一致性并提升输出质量。
Anthropic推出多代理harness设计,支持长时间运行的自主应用开发,覆盖前端设计和全栈软件创建。该方法将任务分配给不同代理,分别负责规划、生成和评估,旨在在持续数小时的AI会话中保持一致性并提升输出质量。该设计解决了自主编码工作流中的常见挑战,如上下文丢失和任务过早终止。工程师引入上下文重置和结构化交接产物,使下一个代理能从明确状态继续执行,这与压缩不同,压缩可能使模型在接近上下文限制时更谨慎,影响性能。

输出自我评估是另一重点。代理常高估自身结果,尤其在主观性强的任务中。为此,Anthropic引入独立评估代理,通过少样本示例和评分标准校准。工程负责人Prithvi Rajasekaran表示,将“干活的”和“打分的”代理分开是关键。前端设计方面,团队建立四项标准:设计质量、原创性、工艺和功能性。评估代理使用Playwright MCP与实时页面交互,提供详细评审意见,指导生成代理迭代,每轮循环产生逐步优化的输出,迭代次数5-15次,有时长达四小时,生成兼具视觉差异性和功能准确性的设计。
业界从业者强调该框架的结构化方法。Artem Bredikhin指出,长时间运行的AI代理易因上下文窗口“失忆”而失败,真正的突破在于结构,包括JSON功能规格、测试机制、可追踪进展和初始化脚本。Raghu Arangarajan评论称,三代理框架提供可复用工作方式,通过拆分评估和迭代,明确角色边界,提升系统可靠性和输出质量。
Anthropic工程师将框架应用于不同任务评估性能,发现分离规划、生成和评估在主观评估中表现更好,客观任务保持可复现性。结构化工作流通过明确职责和交接促进渐进式进展。操作层面需建立评估标准、校准评分机制并监控迭代,代理可自动评估,但初始校准和质量验证仍需人类监督。该工作流支持分布式处理,允许多个代理并行或顺序运行。随着模型能力提升,harness角色可能变化,部分任务或由下一代模型直接完成,更强模型也使harness能处理更复杂任务。工程师需持续实验、监控轨迹、拆分任务并调整harness,因模型演进下harness组合空间不断变化。

声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:sales@idmakers.cn删除,任何个人或组织,需要转载可以自行与原作者联系。
