OpenAI、新画像モデル「ChatGPT Images 2.0」を公開 思考能力や日本語性能を強化

出典:https://x.com/OpenAI/status/2046670977145372771

OpenAIは、新たな画像生成モデル「ChatGPT Images 2.0」を公開しました。複雑な視覚タスクに対応する最先端モデルと位置づけられており、指示への追従精度や編集性能、レイアウト表現を大きく高めたのが特徴です。あわせて、同社の画像モデルとして初めて「思考能力」を導入した点も注目されます。

同モデルは、細かな指示を踏まえて画像を構成する力が向上しており、物体の配置や相互関係を正確に描き分けられるといいます。小さな文字やアイコン、UI要素、情報量の多い構図、繊細なスタイル指定にも強く、最大2K解像度で出力できるため、実務ですぐ使えるビジュアルを作りやすくなりました。

日本語を含む非英語テキストの表現も強化されました。単に文字を正しく描くにとどまらず、文章として自然につながる形で出力できるとしており、日本語の画像制作でも使い勝手の向上が期待されます。OpenAIは、各国の利用者が普段使う言語で実用的なビジュアルを作成しやすくなると説明しています。

表現面では、写真の質感や映画のワンシーンのような静止画に加え、ピクセルアートやマンガなど多様なビジュアル表現への対応力も高まりました。テクスチャや光の表現、構図、細部の一貫性が増し、ゲームの試作、絵コンテ制作、広告クリエイティブなど幅広い用途を想定しています。

また、アスペクト比は横長3対1から縦長1対3まで対応しました。バナー、プレゼン資料、ポスター、SNS画像など、用途に応じた比率で生成できる点も実用性を押し上げそうです。

さらに、ChatGPTで思考モデルを選択すると、Images 2.0はWeb検索によるリアルタイム情報の参照や、1つの指示から複数案の生成、出力内容の再確認、機能するQRコードの作成にも対応します。知識の更新範囲は2025年12月まで拡張されており、コピー作成から分析、構図設計まで一貫して扱えるとしています。ChatGPT Images 2.0はChatGPTとCodexの全ユーザー向けに提供開始され、基盤モデル「gpt-image-2」はAPIでも利用可能です。


出典:https://x.com/OpenAI/status/2046670977145372771

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次