Thinking Machines Lab、リアルタイム協働AI「Interaction Models」を発表

出典:Introducing interaction models | Thinking Machines Lab – YouTube

OpenAIの元CTOであるMira Murati氏が設立したThinking Machines Labは2026年5月11日、人間とAIのリアルタイム協働を目的とした「Interaction Models」の研究プレビューを発表しました。Interaction Modelsは、外部の補助的な仕組みで対話性を後付けするのではなく、モデル自体が音声、映像、テキストを継続的に処理し、会話、視覚理解、思考、ツール使用を並行して実行できるよう設計されたAIモデルです。

同社は、現在の多くのAIモデルがターン制のやり取りを前提としており、ユーザーが入力を終えるまで待ち、モデルが応答している間は新しい情報を受け取れない点を課題として挙げています。実際の業務では、利用者が最初から要件を完全に指定してAIに任せるだけでなく、途中で補足や修正、フィードバックを加えながら進める場面が多くあります。Thinking Machines Labは、こうした協働に必要な情報のやり取りが、従来のインターフェースでは十分に確保されていないと説明しています。

Interaction Modelsでは、200ミリ秒単位の「マイクロターン」と呼ばれる設計を採用しています。これにより、モデルは音声や映像、テキストを時間に沿って連続的に受け取りながら、同時に応答を生成できます。ユーザーの発話が終わるのを待たずに文脈に応じて割り込んだり、相づちを打ったり、視覚的な変化に反応したりすることも可能です。たとえば、ライブ翻訳のようにユーザーとモデルが同時に話す用途や、画面上のコードを見ながらバグに気づいた時点で知らせる用途が想定されています。

システムは、リアルタイムで人間とやり取りするInteraction Modelと、より深い推論や検索、ツール使用を担う非同期のBackground Modelで構成されています。Interaction Modelは会話を継続しながら、必要に応じてBackground Modelへ処理を委任し、結果が返ってきたタイミングで自然に会話へ統合します。これにより、低遅延の応答性と、推論モデルが持つ高度な作業能力を両立させる狙いです。

ベンチマークでは、「TML-Interaction-Small」が評価されました。FD-bench v1におけるターン間の応答遅延は0.40秒で、FD-bench v1.5の平均スコアは77.8とされています。また、Audio MultiChallengeでは43.4%、音声版IFEvalでは82.1%、テキスト版IFEvalでは89.7%を記録しました。一方で、長時間の音声・映像入力では文脈が急速に蓄積するため、非常に長いセッションの管理は今後の課題とされています。現在のTML-Interaction-Smallは2760億パラメータのMoEモデルで、そのうち120億パラメータがアクティブに使われます。同社は今後数カ月以内に限定的な研究プレビューを開始し、2026年後半により広く公開する計画です。


出典:Interaction Models: A Scalable Approach to Human-AI Collaboration – Thinking Machines Lab

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次