OpenAIが提供する最新モデルChatGPT-4oは、GPT-4と同等の性能を持ちながらも、さらに高速でコスト効率の高い新しいAIモデルです。
音声入力や画像認識など、複数の種類の情報に対応できることが特徴で、様々なビジネスシーンでの活用が期待されています。
この記事では、ChatGPT-4oの特徴、使い方、そして無料版での制限について詳しく解説します。
また、従来のGPT-4との違いや、ChatGPT-4oが提供する新しい機能についても詳述します。
OpenAIの最新モデルChatGPT-4oとは?できることや概要
OpenAIが開発したChatGPT-4oは、従来モデルであるGPT-4-turboを凌駕する処理速度と効率性を誇りながら、同等の性能を実現した最新AIモデルです。
テキスト処理はもちろんのこと、音声や画像といった異なる種類の情報をリアルタイムで処理できる点が大きな進化を遂げており、特に音声入力や画像認識において目覚ましい性能を発揮します。
さらに、API費用が従来モデルの半額になったことで、より多くのユーザーにとって利用しやすいものとなりました。
マルチモーダル対応
ChatGPT-4oの「o」は、ラテン語で「全て」「全体」「全方位」を意味する「omni(オムニ)」の略称です。
この名前が示す通り、ChatGPT-4oは従来モデルのChatGPT-4が持つ高度な言語処理能力に加えて、テキスト以外のデータ処理能力も飛躍的に向上させています。
音声や画像といった多様な情報タイプに対応できるようになったことで、ユーザーはChatGPT-4oを使って写真の内容を分析したり、ロゴを認識させたり、手書きのメモをデジタル化したり、データ分析結果をグラフ化したりすることが可能になりました。
GPT-4o凄いな、速いだけじゃなくて賢い。
— AIセバスちゃん (@SebasAi) May 14, 2024
1枚目 GPT-4
2枚目 GPT-4o
なんで分かるんだよ。まじかよ pic.twitter.com/2mJsujYk9c
例えば、海外旅行先で見つけたメニューの写真をChatGPT-4oに読み込ませると、翻訳だけでなく、その国の食文化や歴史に関する情報も教えてくれます。
また、Google DriveやMicrosoft OneDriveなどのクラウドストレージサービスに保存されているファイルも直接分析できるようになったため、利便性がさらに高まっています。
音声入力に関しても、ChatGPT-4oは自然な会話のように音声を理解し、応答することができます。
スマートスピーカーへの指示、リアルタイム音声翻訳、音声メモ作成など、音声関連のタスクを迅速にこなせるため、国際的なコミュニケーションや日々の業務効率化に役立ちます。
さらに、デスクトップアプリ版ChatGPT-4oでは、他のアプリの画面をリアルタイムで共有し、その内容についてChatGPT-4oと対話できる機能も搭載予定です。(Windows版は未公開)
これは従来のAIでは不可能だった画期的な機能であり、今後の展開に期待が高まります。
音声入力に対する応答速度の向上
ChatGPT-4oは、音声入力に対する応答速度が劇的に向上しました。
GPT-4では平均5.4秒かかっていた音声応答が、ChatGPT-4oでは平均0.32秒に短縮されています。
これは人間同士の会話と遜色ない速度であり、より自然でスムーズな音声対話を実現します。
この高速応答により、スマートスピーカーや音声メモ作成といった用途でChatGPT-4oをより快適に利用できるようになりました。
従来のAIでは音声認識と処理に時間がかかり、会話が途切れがちでしたが、ChatGPT-4oはリアルタイムでの音声処理を可能にすることで、ストレスフリーな音声コミュニケーションを実現します。
例えば、会議中にChatGPT-4oで議事録を作成したり、外国語の会話をリアルタイムで翻訳したりといった使い方が考えられます。
また、「こういう声を出して」と指示することで、様々なキャラクターの声色を再現することも可能です。
自社で製作する動画に簡単にナレーションをつけることが可能となります。
画像生成機能の向上
GPT-4oは画像生成機能が大幅に向上しており、ストーリー性のある画像が生成できます。
また、一貫性のある画像を生成する能力も大幅に向上していて、同一のキャラクターで様々なシーンの画像を生成できます。
GPT-4よりAPIの費用が半額
ChatGPT-4oのAPI利用料金は、従来モデルのGPT-4-turboと比較して、入力・出力ともに半額になりました。
モデル名 | 入力時 | 出力時 |
---|---|---|
gpt-4o | 5ドル / 1M tokens | 15ドル / 1M tokens |
gpt-4o-2024-05-13 | 5ドル / 1M tokens | 15ドル / 1M tokens |
gpt-4-turbo | 10ドル /1M tokens | 30ドル / 1M tokens |
gpt-4-turbo-2024-04-09 | 10ドル /1M tokens | 30ドル / 1M tokens |
この大幅なコストダウンにより、企業や開発者はより手軽に高度なAI技術を活用できるようになりました。
特に、予算が限られているスタートアップ企業や、大規模プロジェクトにおいても、コストを抑えながらChatGPT-4oの革新的な機能を導入することが可能です。
セキュリティの向上
ChatGPT-4oでは、トレーニングデータのフィルタリングや、トレーニング後のモデル行動の改善など、セキュリティ対策も強化されています。
不適切な応答や偏見を抑制することで、より安全なAI利用を実現しています。
また、音声出力に関する新たなセーフティシステムも導入されており、誤情報や有害なコンテンツのリスクを低減しています。
さらに、社会心理学、偏見、公平性、誤情報などの分野における70名以上の外部専門家による評価も実施しており、リスク特定と軽減のための対策を強化しています。
内部・外部両面からの評価プロセスを通じて、モデルのトレーニング過程全体を精査することで、安全性と信頼性を確保しています。
ChatGPT-4oの使い方(PCブラウザ版)
ChatGPT-4oは、PCブラウザを使用して簡単に利用することができます。
ここでは、有料版と無料版それぞれの使い方について詳しく説明します。
有料版(ChatGPT Plus)でのChatGPT-4oの使い方
有料版のChatGPT Plusでは、ChatGPT-4oの全機能を制限なく利用することができます。
契約済みの方は、画面左上のモデル選択欄から「GPT-4o」を選択することで利用できます。
無料版でのChatGPT-4oの使い方
無料版のChatGPTでは、デフォルトでChatGPT-4oが選択されているため、特別な設定は必要ありません。
ただし、無料版ではモデル選択機能が無効化されているため、ChatGPT-3.5を利用したい場合は、生成処理を行った後、表示されるオプションからChatGPT-3.5を選択する必要があります。
なお、無料版ではChatGPT-4は利用できません。
ChatGPT-4oは制限回数内であれば利用可能ですが、制限を超えた場合はChatGPT-3.5に変更するか、有料プランへの加入が必要となります。
ChatGPT-4oの使い方(スマホアプリ版)
ChatGPTスマホアプリの場合も、有料版と無料版でそれぞれモデルの切り替え方法が異なります。
有料版(ChatGPT Plus)でのChatGPT-4oの使い方
ChatGPTとのトーク画面上部に表示されているモデル名をタップすることで、モデルを切り替えることができます。
iPhoneとAndroidで若干表示が異なりますが、概ね操作は同じです。
無料版でのChatGPT-4oの使い方
無料版のChatGPTアプリでも、デフォルトでChatGPT-4oが選択されています。
PCブラウザ版と同様にモデル選択機能は利用できませんが、生成処理を行った後、返答を長押しすることでモデル変更オプションが表示されます。
ChatGPT-4oは無料だと回数制限や機能制限あり
ChatGPTの無料版と有料版では、GPT-4oモデルの利用回数に制限があります。
無料版の場合、3時間あたり約10回までしか利用できません。
これは、サービスの安定化と全ユーザーへの公平な利用機会提供を目的とした措置です。
また、有料版ユーザーは高性能な画像生成機能「DALL-E3」を利用できますが、無料版ユーザーは利用できません。
DALL-E3は、テキストの説明文から高画質で詳細な画像を生成できる機能であり、有料プランの特典の一つとなっています。
このように、無料版と有料版では利用できる機能と回数に違いがあるため、より高度な機能をフル活用したい場合は有料プランへの加入を検討する必要があります。
ChatGPT-4oのモデル評価と性能!GPT-4-turboとの違いとは
GPT-3.5-turbo、GPT-4-turbo、ChatGPT-4oの特徴と違いを以下の表にまとめました。
項目 | GPT-3.5-turbo | GPT-4-turbo | GPT-4o |
---|---|---|---|
料金プラン | 無料 | 有料 | 無料/有料 |
パラメータ数 | 約3550億 | 非公表 | 非公表 |
学習データ | 2022年1月まで (公表値は2021年9月) | 2023年12月まで | 2023年10月まで |
最大入力トークン数 | 16,385トークン (書籍約75ページ分) | 128,000トークン (書籍約300ページ分) | 128,000トークン (書籍約300ページ分) |
最大出力トークン数 | 4,096トークン | 4,096トークン | 4,096トークン |
入力形式 | テキスト | テキスト/画像 | テキスト/画像 |
出力形式 | テキスト | テキスト/画像 | テキスト/画像 |
回答速度 | 普通 | GPT-3.5-turboより少し遅い | GPT-4-turboの2倍 |
ChatGPT-4oのパラメータ数は公表されていませんが、その性能から5,000億〜1兆と推定されています。
ChatGPT-4-turboは、ChatGPT-3.5-turboと比較して処理能力が大幅に向上しており、有害な回答を生成する確率が低く、処理できるデータ量も増加しています。
ただし、レスポンス速度は若干遅くなっています。
ChatGPT-4oは、ChatGPT-4-turboと同等の性能を維持しながら、回答速度を2倍に高速化しています。
テキスト評価(Text Evaluation)
OpenAIが公開しているデータによると、ChatGPT-4oは下記の6つの評価軸において高い評価を得ています。
- MMLU:多くのタスクにわたる言語理解能力を評価
- GPCQA:一般常識に基づく質問応答能力を評価
- MATH:数学問題の解答能力を評価
- HumanEval:コード生成の正確さを評価
- MGSM:複数ステップの算術推論能力を評価
- DROP:段落にわたる離散的な推論能力を評価
主要LLMのデータをピックアップしました。
項目 | GPT-4o | GPT-4-turbo | Claude 3 Opus | Gemini Pro 1.5 |
---|---|---|---|---|
MMLU (%) | 88.7% | 86.5% | 86.8% | 81.9% |
GPCQA (%) | 53.6% | 48.0% | 50.4% | – |
MATH (%) | 76.6% | 72.6% | 60.1% | 58.5% |
HumanEval (%) | 90.2% | 87.1% | 84.9% | 71.9% |
MGSM (%) | 90.5% | 88.5% | 90.7% | 88.7% |
DROP (f1) | 83.4% | 86.0% | 83.1% | 78.9% |
この結果が示すように、ChatGPT-4oは様々なテキストベースのタスクにおいて、従来モデルや他のAIモデルを超える性能を有しています。
音声認識性能(Audio ASR Performance)
ChatGPT-4oの音声認識性能は、Word Error Rate(WER%)を用いて評価されます。
WER%は誤字率を意味し、低いほど高性能であることを示します。
ChatGPT-4oの音声認識性能は、主にWhisper-v3と比較して評価されており、全ての言語においてWER%が大幅に低下、特に音声データや言語資源が少ない「低リソース言語」において顕著な改善が見られます。
このWER%の大幅な低下は、ChatGPT-4oが音声からの情報抽出と処理の精度を向上させたことを示しており、より広範な言語への対応が可能になったことを意味します。
音声翻訳性能(Audio Translation Performance)
ChatGPT-4oは、音声翻訳においても非常に高い性能を示しています。
OpenAIの公式サイトでは、ChatGPT-4oと他のモデルの音声翻訳性能を比較したグラフが公開されており、ChatGPT-4oが非常に優れたBLEUスコアを獲得していることが分かります。
具体的には、Whisper-v3、XLS-R、SeamlessM4T-V2、AudioPalm 2、Geminiといった主要なモデルと比較して、ChatGPT-4oは音声翻訳の精度が高く、多くの言語で誤字率が低いという結果が出ています。
視覚理解評価(Vision Understanding Evals)
ChatGPT-4oは、視覚的知覚ベンチマークにおいても最先端の性能を達成しています。
様々なAIモデルと比較した結果、ChatGPT-4oは極めて高い精度で視覚情報を認識できることが明らかになっています。
この結果からも、ChatGPT-4oは画像キャプション生成、画像検索、ビジュアルデータ解析など、視覚情報を必要とする様々なアプリケーションにおいて高い有用性を持ち、他のAIモデルを凌駕する精度を誇ることが分かります。
新しいトークナイザーにるトークンの圧縮
ChatGPT-4oでは、新しいトークナイザーが導入されたことで、複数の言語においてトークン数を大幅に削減し、より効率的なテキスト処理が可能になりました。
これにより、多言語対応が強化され、様々な言語をスムーズに処理できるようになっています。
日本語を含む多くの言語においてトークン数が削減されたことで、特に日本語のテキスト処理におけるトークン効率が飛躍的に向上しました。
少ないトークン数で効率的に処理できるようになったことで、日本語の文章生成や翻訳がよりスムーズに行えるようになっています。
日本語以外の言語においてもトークン効率が大幅に向上しており、多言語テキスト処理の効率性が飛躍的に高まっています。
このトークナイザーの改良は、ChatGPT-4oが多様な言語で優れた自然言語処理能力を発揮する上で大きく貢献しています。