OpenAIは、開発するAIモデルの安全性をより高めるため、ルールベースの報酬(RBR)という新しいアプローチを採用しました。
従来の強化学習(RLHF)では、AIモデルの学習に人間のフィードバックが不可欠でしたが、RBRでは明確なルールに基づいてモデルの出力が安全かどうかを判断します。
その結果、従来の手法と比べて人間の労力を大幅に削減でき、モデルの安全性と効果を同時に向上させることが可能になりました。
RBRでは、モデルがどのような応答をすべきかを明確なルールとして設定し、そのルールに基づいてモデルの出力を評価します。
例えば、「犯罪や暴力に関する要求には謝罪を含めて簡潔に断る」といったルールを設定することで、モデルが安全かつ適切な応答を生成できるようにします。
RBRでは、状況に応じて以下の3種類の応答を使い分けるように設計されています。
応答 | 詳細 |
---|---|
ハード拒否 | 犯罪や暴力に関する要求に対しては、簡潔に謝罪し、要求には応じません。 |
ソフト拒否 | 自傷行為などの要求に対しては、共感を示しながらも、要求には応じません。 |
承諾 | 無害な要求に対しては、ユーザーの要求に応じます。 |
実際にRBRを導入したモデルは、人間のフィードバックに基づいて学習したモデルと同等の安全性能を示し、安全な要求を誤って拒否してしまうケースも減少しました。
また、広範な人間によるデータが必要なくなるため、トレーニングにかかるコストと時間を削減できます。
さらに、RBRは迅速に更新できるため、モデルの能力や安全ガイドラインの変更にも柔軟に対応し、安全性と有用性のバランスを維持できます。
RBRは明確なルールが設定できるタスクには非常に効果的ですが、主観的な判断が求められるタスクには適用が難しい場合があります。
そのため、状況に応じて人間のフィードバックと組み合わせて使用することが推奨されます。
今後は、RBRの各要素をさらに深く理解し、より多様なタスクへの適用可能性を検証していく予定です。
安全性向上策を積極的に活用し、AIモデルがユーザーにとって安全で有用なものとなるよう、努力を続けていきます。
出典:Improving Model Safety Behavior with Rule-Based Rewards | OpenAI