Anthropic 推出多代理 Harness，重构长时 AI 编程流程

引言：Anthropic推出多代理harness设计，支持长时间运行的自主应用开发，覆盖前端设计和全栈软件创建。该方法将任务分配给不同代理，分别负责规划、生成和评估，旨在在持续数小时的AI会话中保持一致性并提升输出质量。

Anthropic推出多代理harness设计，支持长时间运行的自主应用开发，覆盖前端设计和全栈软件创建。该方法将任务分配给不同代理，分别负责规划、生成和评估，旨在在持续数小时的AI会话中保持一致性并提升输出质量。该设计解决了自主编码工作流中的常见挑战，如上下文丢失和任务过早终止。工程师引入上下文重置和结构化交接产物，使下一个代理能从明确状态继续执行，这与压缩不同，压缩可能使模型在接近上下文限制时更谨慎，影响性能。

输出自我评估是另一重点。代理常高估自身结果，尤其在主观性强的任务中。为此，Anthropic引入独立评估代理，通过少样本示例和评分标准校准。工程负责人Prithvi Rajasekaran表示，将“干活的”和“打分的”代理分开是关键。前端设计方面，团队建立四项标准：设计质量、原创性、工艺和功能性。评估代理使用Playwright MCP与实时页面交互，提供详细评审意见，指导生成代理迭代，每轮循环产生逐步优化的输出，迭代次数5-15次，有时长达四小时，生成兼具视觉差异性和功能准确性的设计。

业界从业者强调该框架的结构化方法。Artem Bredikhin指出，长时间运行的AI代理易因上下文窗口“失忆”而失败，真正的突破在于结构，包括JSON功能规格、测试机制、可追踪进展和初始化脚本。Raghu Arangarajan评论称，三代理框架提供可复用工作方式，通过拆分评估和迭代，明确角色边界，提升系统可靠性和输出质量。

Anthropic工程师将框架应用于不同任务评估性能，发现分离规划、生成和评估在主观评估中表现更好，客观任务保持可复现性。结构化工作流通过明确职责和交接促进渐进式进展。操作层面需建立评估标准、校准评分机制并监控迭代，代理可自动评估，但初始校准和质量验证仍需人类监督。该工作流支持分布式处理，允许多个代理并行或顺序运行。随着模型能力提升，harness角色可能变化，部分任务或由下一代模型直接完成，更强模型也使harness能处理更复杂任务。工程师需持续实验、监控轨迹、拆分任务并调整harness，因模型演进下harness组合空间不断变化。

思为交互

思为交互科技

思为交互科技是一家”从云到端”的新型物联网及工业4.0技术公司，可以为各类生产制造型企业提供从硬件到云端全套的解决方案。我公司Galileo OS数据基座融合AI大模型、数据中台、物联网等技术，推动制造业工厂数字化转型。从数字化车间到智能工厂，全面覆盖安全、生产、质量、设备管理等业务。

立即咨询

更多方案… 更多产品…

声明：本站发布的内容（图片、视频和文字）以原创、转载和分享为主，文章观点不代表本网站立场，如果涉及侵权请联系站长邮箱：sales@idmakers.cn删除，任何个人或组织，需要转载可以自行与原作者联系。