Anthropic、レッドチーミングの手法を公開

2024年6月13日2025年9月7日

AIの安全性とセキュリティを高めるための重要な手法として「レッドチーミング」が注目されています。Anthropic社は、このレッドチーミングの詳細を公開しました。レッドチーミングとは、技術システムをわざと攻撃し、弱点を見つけ出す手法で、AIシステムの開発において重要性が増しています。

ポリシー脆弱性テストとフロンティア脅威レッドチーミング

Anthropic社は、様々な分野の専門家と協力し、多様なレッドチーミングを実施しています。例えば、「ポリシー脆弱性テスト」では、AIシステムがルールに違反していないか、「フロンティア脅威レッドチーミング」では、国家安全保障上のリスクがないかを検証します。

ポリシー脆弱性テストでは、児童安全や選挙の公正さなど、特定の分野に特化した外部機関と連携し、AIシステムのリスクを評価します。フロンティア脅威レッドチーミングでは、化学兵器、生物兵器、放射線兵器、核兵器、サイバーセキュリティ、自律AIのリスクに焦点を当て、専門家と協力して評価技術を構築しています。

多言語・多文化レッドチーミングと自動化

Anthropic社は、多言語・多文化レッドチーミングにも取り組んでいます。英語だけでなく、タミル語、中国語、マレー語でもテストを行い、特定のコミュニティに関連するリスクを深く理解し対応します。さらに、言語モデルを使って自動的に攻撃例を作り出し、AIモデルの頑丈さをテストする自動化レッドチーミングも実施しています。

新しいモダリティとオープンエンド

Anthropic社は、画像や音声など様々な形式の入力に対応できるAIシステムのテストにも力を入れています。Claude 3モデルファミリーは、視覚情報を取り入れてテキストを生成できるため、新機能のリスクを評価するために事前展開レッドチーミングや外部との協力による評価を行っています。また、クラウドソーシングやコミュニティベースのアプローチも採用し、幅広い参加者がAIシステムをテストできる機会を提供しています。

レッドチーミングの標準化と今後の展望

これらのレッドチーミング手法は、AI業界における標準化されたレッドチーミング実践の確立に向けた重要なステップです。Anthropic社は、これらの手法を活用してAIモデルのリスクを評価し、適切な対策を実施することを目指しています。また、標準化されたレッドチーミング実践の確立、外部機関との協力促進、透明性とモデルアクセスに関する基準の開発などを推奨しています。

Anthropic社は、レッドチーミングがAIシステムの安全性と社会的利益を確保するための重要な手法であると考えており、今後も他の関係者と協力してこの技術を進化させ、AI開発のリスクを軽減するための取り組みを続けていく予定です。

よかったらシェアしてね！