Luma、思考と画像生成を同時に行う新モデル「Uni-1」を公開

出典:UNI-1 | Less Artificial. More Intelligent. | Luma

米AI企業のLumaは、思考とピクセル生成を同時にこなす新たな画像生成モデル「Uni-1」を公開しました。Uni-1は、ユーザーの意図を理解し、指示に応えながら一緒に考えるように生成できるモデルとして打ち出されています。Lumaは「より人工的ではなく、より知的」と位置づけており、従来の画像生成モデルとは異なる方向性を示しました。

Uni-1は、同社の「Unified Intelligence」アーキテクチャを基盤にしたマルチモーダル推論モデルです。単にテキストから画像を作るだけでなく、場面の整合性や空間的な関係を踏まえて生成できる点を特徴としています。Lumaはその能力として、常識に基づくシーン補完、空間推論、もっともらしさを重視した画像変換を挙げました。

加えて、Uni-1は参照画像をもとに生成内容を細かく制御できるモデルでもあります。Lumaはこれを「Directable」と表現し、元画像に基づいたコントロール付き生成を訴求しています。

もう一つの特徴が、文化的な文脈を踏まえた生成です。LumaはUni-1を「Cultured」とも説明しており、美的感覚やミーム、漫画表現を含む幅広いスタイルに対応するとしています。

評価面では、Uni-1が人間の好みに基づくElo評価で、総合評価、スタイル・編集、参照ベース生成の各部門で首位になったとLumaは説明しています。テキストから画像を生成するText-to-Image部門では2位だったものの、総合評価では「Nano Banana 2」を上回ったとされており、特に編集や参照ベース生成の強さを印象づける内容です。

料金も公開されました。API向け価格は、テキスト入力が100万トークン当たり0.50ドル、画像入力が1.20ドル、テキストと思考の出力が3.00ドル、画像出力が45.45ドルです。2048px画像の参考単価は、テキストから画像を生成する場合が1枚0.0909ドル、画像編集が0.0933ドルと案内されています。

現時点では無料で試用できる一方、APIは近日公開予定で、早期アクセス向けのウェイトリストも用意されました。今後は参照画像数の拡大、複数出力、マルチターン対応、人物同一性の保持、画質や指示追従性の改善を進める方針です。


出典:UNI-1 | Less Artificial. More Intelligent. | Luma

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次