Google、ノートPCで動くマルチモーダルモデル「Gemma 4 12B」を発表

2026年6月4日

Google DeepMindは2026年6月3日、マルチモーダルモデル「Gemma 4 12B」を発表しました。高性能なマルチモーダルAIをノートPC上で実行できるよう設計されたモデルで、モバイル向けの効率性と高度な推論能力を組み合わせ、ローカル環境でのエージェント的なAI活用を広げる狙いです。

Gemma 4 12Bは、エッジ環境向けのE4Bと、より大規模な26B Mixture of Experts（MoE）モデルの中間に位置付けられています。標準的なベンチマークでは26B MoEモデルに近い性能を示しながら、総メモリ使用量は半分未満に抑えられているということです。16GBのVRAMまたはユニファイドメモリを備えた一般的なノートPCでもローカル実行できる点が特徴で、日常的なハードウェア上で複数段階の推論やマルチモーダル処理を扱えるようになります。

大きな特徴は、画像や音声を処理するための専用エンコーダーを使わない統合アーキテクチャです。従来のマルチモーダルモデルでは、画像や音声を個別のエンコーダーで変換してから言語モデルに渡す方式が一般的でした。しかし、こうした構成はレイテンシーやメモリ使用量の増加につながります。Gemma 4 12Bでは、画像と音声の入力をLLMのバックボーンへ直接統合することで、より効率的な処理を目指しています。

画像処理では、従来のビジョンエンコーダーを、単一の行列乗算、位置埋め込み、正規化で構成される軽量な埋め込みモジュールに置き換えました。音声処理では、音声エンコーダーを完全に取り除き、生の音声信号をテキストトークンと同じ次元空間へ射影する方式を採用しています。Gemma 4 12BはGoogleの中規模モデルとして初めてネイティブな音声入力に対応しており、Google AI Edge Eloquentアプリでは、音声入力の文字起こし、整形、翻訳を完全オフラインで実行するデモも紹介されています。

モデルはApache 2.0ライセンスで提供され、事前学習済みモデルと命令チューニング済みチェックポイントはHugging FaceとKaggleからダウンロードできます。LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent app、LiteRT-LM CLIで試せるほか、Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLMによるローカル推論にも対応します。効率的なファインチューニングにはUnslothを利用可能です。

Googleはあわせて、Gemmaモデルを使ったエージェント開発を支援する公式のSkills Repositoryも公開しました。本番環境ではGoogle Cloud上でエンドポイントを構築でき、Gemini Enterprise Agent Platform Model Garden、Cloud Run、GKEを通じたデプロイにも対応します。Gemma 4シリーズは累計1億5000万ダウンロードを突破しており、今回の12Bモデルによって、ローカル環境で扱えるマルチモーダルAIの選択肢がさらに広がることになります。

出典：Introducing Gemma 4 12B

よかったらシェアしてね！