xAI、「Grok 4.1」を正式公開 創造性と感情知能が大幅向上

出典:Grok 4.1 | xAI

米xAIは、新たなAIモデル「Grok 4.1」を公開し、grok.comのほか、XやiOS・Androidアプリを含む全ユーザーが利用できるようになりました。Autoモードでは即時反映され、モデルピッカーから明示的に選択することも可能になっています。今回のアップデートは、創造性や感情知能、対話における協働性を重点的に強化し、現実世界での使いやすさを大幅に向上させたと説明されています。

Grok 4.1は、ユーザーの意図を細かく読み取り、より自然で一貫性のある人格的応答を目指すよう調整されました。前モデルで用いた大規模強化学習(RL)の基盤を活用しつつ、スタイルやパーソナリティ、有用性、アライメントなどの要素を最適化した点も特徴です。特に、共感性や対人スキルといった検証しづらい性質を高めるために、推論特化モデルをリワードモデルとして応用し、自動で大量の応答を評価して改善する手法が導入されています。

公開前には11月1日から14日にかけ、grok.comやXなどで段階的なサイレントロールアウトが実施されました。この期間に行われたブラインド比較の結果、Grok 4.1は旧モデルより64.78%の確率で支持され、応答品質の向上が実証されています。

出典:Grok 4.1 | xAI

能力面の評価も公開されており、LMArenaのText Arenaでは「Grok 4.1 Thinking」が1483 Eloで1位、「Grok 4.1」も1465 Eloで2位となりました。

出典:Grok 4.1 | xAI

いずれも他社の推論モデルを上回っており、旧モデルが33位だった点を踏まえると大幅な前進といえます。また、感情知能を測るEQ-Bench3では両モードが上位を占め、共感や洞察を求める場面での応答力が大きく向上したと報告されています。

創作能力の評価でも改善が見られ、Creative Writing v3では「Grok 4.1 Thinking」がトップクラスのスコアを記録しました。物語性や比喩表現を含む回答例も示されており、旧モデルよりも表現の幅が広がっています。

さらに、情報探索タスクにおける事実誤認(ハルシネーション)の発生率も改善され、Grok 4 Fastの12.09%に対し、Grok 4.1では4.22%へ大きく減少しました。FActScoreでも同様に数値が改善しており、非推論モデルの精度向上が確認されています。

総じてGrok 4.1は、創造性・感情知能・対話品質・事実性のすべてで前モデルを上回る結果となりました。xAIは追加のベンチマーク反映を進めているとし、今後の改善も視野に入れていると述べています。今回のアップデートにより、Grokシリーズは幅広い用途に対応する実用的なAIモデルへと進化したといえます。


出典:Grok 4.1 | xAI

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次