
米Anthropicは25日、最新大規模言語モデル「Claude Opus 4.5」を発表しました。同社は、コーディングやエージェント、コンピュータ操作で世界最高レベルと位置づけており、SWE-bench Verifiedなど実務寄りのベンチマークでGemini 3やGPT-5.1を含む他のフロンティアモデルを上回るスコアを記録したと説明しています。
Opus 4.5は、開発者採用で用いている難度の高い在宅形式の技術課題でも、2時間の制限時間内で過去のどの人間候補より高い点数を出したとされます。社内テスターや早期アクセス顧客からは、曖昧な要件に対してもトレードオフを考えながら自律的に方針を決め、複数システムにまたがる複雑なバグも自ら原因を突き止めて修正案を示すようになった、という評価が寄せられています。
エージェントとしての振る舞いも強化されました。エージェント能力を測るベンチマーク「τ2-bench」では、航空会社のサポート業務を模したシナリオで、ベーシックエコノミーでは予約変更不可という規約を読み込み、まずキャビンをアップグレードし、その後フライトを変更するという合法的な迂回策を提案し、想定外ながら現実的な解決策を見つけ出しました。
こうした「抜け道」を探す挙動は文脈によっては「報酬ハッキング」とも受け取られ得るため、Anthropicは安全性評価の一環として注意深く検証したとしています。同社は、Claude Opus 4.5をこれまでで最もアライメントの取れたモデルと位置づけ、特に強力なプロンプトインジェクション攻撃に対する耐性が業界トップクラスだとし、悪意ある指示に巻き込まれにくい設計を強調しました。
開発者向けには、APIで利用できる新パラメータ「effort」を導入し、処理時間とコストを抑えるか能力を最大限引き出すかをタスクごとに調整できるようにしました。コンテキスト圧縮やツール連携の強化と組み合わせることで、長時間動作するエージェントや複数のサブエージェントを束ねるシステム、コード作業を計画的に進める「Claude Code」のPlan Mode、ブラウザやExcelと連携するアプリ群などを通じて、企業の開発・業務プロセス全体を支援する構想です。
Opus 4.5は、ClaudeアプリとAPIに加え、3大クラウドプラットフォームでも提供が始まっており、料金は100万トークンあたり入力5ドル、出力25ドルに設定されています。Anthropicは、本モデルを「よりスマートで安全なAIエージェント時代への一歩」と位置づけ、今後も性能評価や社会的影響に関する結果を順次公表していく方針を示しました。
