
Anthropicは2026年5月6日、Claude Platformの「Claude Managed Agents」に、エージェントの自己改善や成果物の評価、複数エージェントによる並列処理を支援する新機能を追加したと発表しました。今回発表されたのは、過去セッションをもとに記憶を整理する「dreaming」、成功基準に基づいて出力を評価する「outcomes」、複雑な作業を複数の専門エージェントに委任する「multiagent orchestration」などです。Anthropicは、これらの機能により、少ない指示でも複雑なタスクを処理しやすくなると説明しています。
dreamingは、エージェントの過去セッションやメモリストアを定期的に確認し、繰り返し起きるミスや有効なワークフロー、チーム内で共有される好みなどのパターンを抽出する機能です。抽出した内容はメモリに反映され、エージェントがセッションをまたいで学習しやすくなります。メモリの更新は自動化できるほか、開発者が変更内容を確認してから反映する運用にも対応します。Anthropicは、memoryとdreamingを組み合わせることで、自己改善するエージェントのための強固なメモリシステムを構成できるとしています。
outcomesは、開発者が「何をもって成功とするか」をルーブリックとして定義し、エージェントがその基準に沿って作業できるようにする機能です。別の採点役が独立したコンテキストで出力を評価し、不足があれば修正点を示してエージェントに再実行させます。細部の確認や網羅性が求められるタスクに加え、ブランドボイスやデザインガイドラインといった主観的な品質評価にも利用できます。Anthropicの内部テストでは、通常のプロンプトループと比べてタスク成功率が最大10ポイント向上し、docxでは8.4%、pptxでは10.1%の改善が見られました。
multiagent orchestrationでは、リードエージェントが作業を分解し、異なるモデルやプロンプト、ツールを持つ専門エージェントに委任します。各エージェントは共有ファイルシステム上で並列に作業し、リードエージェントの全体コンテキストに結果を集約します。Claude Consoleでは、どのエージェントが何を、どの順序で、なぜ実行したのかを確認でき、処理の透明性も高められています。
導入事例として、法務AI企業Harveyでは、dreamingによりファイル形式ごとの回避策やツール固有のパターンをセッション間で記憶できるようになり、テストで完了率が約6倍に向上しました。Netflixのプラットフォームチームは、数百件のビルドログを複数ソースから分析する用途でmultiagent orchestrationを活用しています。また、Wisedocsではoutcomesを使った文書品質チェックにより、社内基準との整合性を保ちながらレビューを50%高速化しました。dreamingは研究プレビュー、outcomes、multiagent orchestration、memoryはManaged Agentsの一部としてパブリックベータで提供されています。
出典:New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration | Claude
