Anthropicは、AIモデルのClaude 3.5 Sonnetのアップグレード版と、新しいモデルClaude 3.5 Haikuを発表しました。
これに加え、同社は新たな機能として「コンピュータ使用」という機能を導入し、開発者がAIに実際にコンピュータ操作をさせることが可能になると発表しました。
この機能は現在、公開ベータ版として提供されており、まだ実験的であるため、改善の余地があるものの、今後大幅に進化することが期待されています。
Claude 3.5 Sonnetが性能アップ
Claude 3.5 Sonnetは、すでに業界で高く評価されていたコーディング性能をさらに向上させました。
特にSWE-bench Verifiedというコーディングのベンチマークテストでのスコアが33.4%から49.0%に向上し、他の公開されているAIモデルを上回る成果を出しています。
また、TAU-benchというツール使用タスクにおいても、複数の分野でパフォーマンスの向上が見られ、航空業界では36.0%から46.0%へ、リテール業界では62.6%から69.2%へと大幅に向上しました。
こうした改善にもかかわらず、Claude 3.5 Sonnetの速度やコストは従来のバージョンと同様に維持されており、開発者にとって大きなメリットとなっています。
早期の顧客フィードバックによると、新しいClaude 3.5 Sonnetは、AIによるコーディングやソフトウェア開発のプロセスで大きな飛躍を遂げているとのことです。
GitLabは、DevSecOpsのタスクにおいて、以前のモデルに比べて推論能力が最大で10%向上し、遅延がまったく追加されない点を特に高く評価しました。
また、The Browser Companyでは、ウェブベースの作業自動化において、これまでテストしたモデルの中で最高のパフォーマンスを発揮していると報告しています。
新たにClaude 3.5 Haikuをリリース
新しいClaude 3.5 Haikuは、速度とコストを抑えつつも、Claude 3 Opusという以前の最大モデルを多くの指標で上回る性能を提供します。
特にコーディングタスクでの優れた性能が評価されており、SWE-bench Verifiedでは40.6%という高スコアを記録し、多くの最先端モデルを凌駕しています。
また、低遅延であり、指示のフォローやツール使用においても向上しているため、ユーザー向け製品やデータ解析など、幅広い用途に適しています。
新たに「コンピュータ使用」機能をリリース
コンピュータ使用機能は、Claudeがスクリーンを見てカーソルを動かし、クリックし、テキストを入力するという、人間が行うような操作を再現する能力を持つ新しい技術です。
現在はAPIでのみ提供しています。
Anthropicは、AIが一般的なツールやソフトウェアを使えるようにすることで、特定のタスクに合わせた専用ツールを開発するのではなく、より柔軟なコンピュータ操作が可能になることを目指しています。
この技術を利用することで、開発者は反復作業の自動化やソフトウェアのテスト、オープンエンドのタスク(例:調査やデータの入力)を行うことができます。
現在のClaude 3.5 Sonnetは、OSWorldというAIのコンピュータ操作能力を評価するテストで14.9%のスコアを記録し、次点のモデルの7.8%を大きく上回っています。
ただし、現段階ではまだ不完全であり、スクロールやズームなどの基本的な操作でも課題が残っているため、リスクの低いタスクでの使用を推奨しています。
また、コンピュータ使用機能はスパムや詐欺などのリスクを伴う可能性があるため、Anthropicは新しい分類システムを開発し、適切な使用と安全性を確保するための措置を講じています。
今後、この技術のさらなる展開により、より高度なAIシステムがどのように発展し、私たちの生活や仕事に影響を与えるかを理解するための洞察が得られるでしょう。
出典:Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku \ Anthropic