You are currently viewing Anthropic 推出多代理 Harness,重构长时 AI 编程流程

Anthropic 推出多代理 Harness,重构长时 AI 编程流程

引言:Anthropic推出多代理harness设计,支持长时间运行的自主应用开发,覆盖前端设计和全栈软件创建。该方法将任务分配给不同代理,分别负责规划、生成和评估,旨在在持续数小时的AI会话中保持一致性并提升输出质量。

Anthropic推出多代理harness设计,支持长时间运行的自主应用开发,覆盖前端设计和全栈软件创建。该方法将任务分配给不同代理,分别负责规划、生成和评估,旨在在持续数小时的AI会话中保持一致性并提升输出质量。该设计解决了自主编码工作流中的常见挑战,如上下文丢失和任务过早终止。工程师引入上下文重置和结构化交接产物,使下一个代理能从明确状态继续执行,这与压缩不同,压缩可能使模型在接近上下文限制时更谨慎,影响性能。

输出自我评估是另一重点。代理常高估自身结果,尤其在主观性强的任务中。为此,Anthropic引入独立评估代理,通过少样本示例和评分标准校准。工程负责人Prithvi Rajasekaran表示,将“干活的”和“打分的”代理分开是关键。前端设计方面,团队建立四项标准:设计质量、原创性、工艺和功能性。评估代理使用Playwright MCP与实时页面交互,提供详细评审意见,指导生成代理迭代,每轮循环产生逐步优化的输出,迭代次数5-15次,有时长达四小时,生成兼具视觉差异性和功能准确性的设计。

业界从业者强调该框架的结构化方法。Artem Bredikhin指出,长时间运行的AI代理易因上下文窗口“失忆”而失败,真正的突破在于结构,包括JSON功能规格、测试机制、可追踪进展和初始化脚本。Raghu Arangarajan评论称,三代理框架提供可复用工作方式,通过拆分评估和迭代,明确角色边界,提升系统可靠性和输出质量。

Anthropic工程师将框架应用于不同任务评估性能,发现分离规划、生成和评估在主观评估中表现更好,客观任务保持可复现性。结构化工作流通过明确职责和交接促进渐进式进展。操作层面需建立评估标准、校准评分机制并监控迭代,代理可自动评估,但初始校准和质量验证仍需人类监督。该工作流支持分布式处理,允许多个代理并行或顺序运行。随着模型能力提升,harness角色可能变化,部分任务或由下一代模型直接完成,更强模型也使harness能处理更复杂任务。工程师需持续实验、监控轨迹、拆分任务并调整harness,因模型演进下harness组合空间不断变化。

思为交互

思为交互科技

思为交互科技是一家”从云到端”的新型物联网及工业4.0技术公司,可以为各类生产制造型企业提供从硬件到云端全套的解决方案。我公司Galileo OS数据基座融合AI大模型、数据中台、物联网等技术,推动制造业工厂数字化转型。从数字化车间到智能工厂,全面覆盖安全、生产、质量、设备管理等业务。

声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:sales@idmakers.cn删除,任何个人或组织,需要转载可以自行与原作者联系。