2024年9月12日に、OpenAIから最新AIモデル「ChatGPT o1-preview」が登場しました。
複雑な問題解決に特化したこのモデルは、従来のモデルよりもさらに深く思考し、高度な推論能力を発揮します。
特に科学、コーディング、数学といった分野で目覚ましい成果を上げており、人間顔負けの能力を発揮するその実力に注目が集まっています。
本記事では、ChatGPT o1-previewの機能や特徴、従来モデルとの違い、使い方、料金プランなど、詳細な情報を分かりやすく解説していきます。
ChatGPT o1-previewとは?機能や特徴を紹介
そもそもChatGPT o1-previewとはどういったモデルなのでしょうか。
機能や特徴をまとめます。
ChatGPT o1-previewの概要
ChatGPT o1-previewは、複雑な問題解決のために設計された、新しいAIモデルシリーズです。
従来のモデルよりも深く思考し、より難しい問題を論理的に解決できる点が特徴です。
特に科学、コーディング、数学の分野において優れた能力を発揮します。
動作原理
ChatGPT o1-previewは、人間のように、回答を生成する前に問題についてじっくり考えるようにトレーニングされています。
トレーニングを通して思考プロセスを洗練させ、様々な戦略を試しながら、ミスを認識し修正することを学習していきます。
推論能力
o1-previewの推論能力は、様々な分野で目覚ましい成果をあげています。
数学とコーディングにおいても優れた能力を示し、国際数学オリンピック(IMO)の予選試験では、従来のGPT-4oが13%しか正解できなかった問題を、o1は83%も正解しました。
コーディング能力を測るCodeforcesコンテストでも上位89%にランクインするなど、その実力は折り紙付きです。
o1-previewは、広範なベンチマークにおいてGPT-4oを凌駕する結果を出しています。
例えば、アメリカの優秀な高校生を対象とした数学試験AIMEでは、問題あたり1つのサンプルで平均74%、64個のサンプル間のコンセンサスで83%、学習済みスコアリング関数で1000個のサンプルを再ランク付けすると93%という驚異的な正解率を達成しました。
このスコアは全国上位500人の学生に相当し、USA Mathematical Olympiadのカットオフも超えています。
また、化学、物理学、生物学の専門知識をテストする難しい知能ベンチマークGPQA diamondでは、博士課程の学生に匹敵する成績を収めています。
さらに、視覚認識機能を有効化したMMMUでは78.2%のスコアを記録し、人間の専門家と競合できる最初のモデルとなっています。
コーディング能力
o1-previewは、プログラミング能力の面でも目覚ましい成果を上げています。
2024年国際情報オリンピック(IOI)では、o1から初期化してトレーニングされたモデルが213点という高得点をマークし、49パーセンタイルにランクインしました。
このモデルは、人間と同じ条件下で6つの難しいアルゴリズムの問題を10時間以内に解き、問題ごとに最大50回の提出を行いました。
IOIの公開テストケース、モデル生成テストケース、学習済みスコアリング関数のパフォーマンスに基づき最適な提出物が選択され、ランダムに提出した場合と比べて約60ポイントも高いスコアを達成しました。
さらに、問題ごとに10,000件の提出を許可した場合には、テスト時の選択戦略を用いなくても362.14点という、金メダル獲得レベルのスコアを達成しています。
また、Codeforcesが主催する競技プログラミングコンテストにおいても、o1-previewは優れた性能を発揮しています。
競技規則に準拠した評価において、10回の提出が許可された結果、1807のEloレーティングを達成し、競技者の93%を上回るパフォーマンスを示しました。
これは従来のGPT-4oのEloレーティング808をはるかに凌駕するものであり、o1の高いコーディング能力を示す結果と言えるでしょう。
思考連鎖
ChatGPT o1-previewは、人間が難しい問題を考えるのと同様に、思考連鎖を用いて問題を解決します。
問題を段階的に分解し、それぞれの段階で推論を積み重ねていくことで、最終的な答えを導き出します。
強化学習を通じてo1-previewは思考連鎖を洗練させ、より効果的な戦略を用いることを学習し、思考過程で発生する間違いを認識し修正することも学習します。
難しい問題に直面した場合、別のアプローチを試すなど、柔軟な思考を可能にするのです。
o1-previewは、暗号解読、コーディング、数学、クロスワードパズル、英語、科学、安全性、健康科学など、様々な分野の問題に対して思考連鎖を用いることができます。
例えばクロスワードパズルの場合、4oは即座に回答するのに対して、o1-previewは思考を連鎖させ、自発的にステップごとに考えています。
安全性
ChatGPT o1-previewは、高度な推論能力を安全かつ倫理的に利用できるよう設計されています。
安全と整合性のガイドラインを遵守させる新しい安全トレーニングアプローチと、文脈に応じた安全ルールの推論を可能にすることで、より効果的にルールが適用されます。
ユーザーが安全ルールを回避(ジェイルブレーク)しようとした場合のテストでは、最も難しいテストにおいてもGPT-4oが22点であったのに対し、o1-previewは84点という高いスコアを記録しています。
o1-previewの開発チームは、モデルの新しい能力に合わせて安全性に関する取り組み、内部ガバナンス、連邦政府との連携を強化しています。
Preparedness Frameworkを用いた厳格なテストと評価、クラス最高のレッドチーミング、安全性とセキュリティ委員会によるものを含む取締役会レベルのレビュープロセスなどを実施することで、安全性の確保に努めています。
さらに、米国および英国のAI安全研究所と正式に契約を締結し、研究所にこのモデルの研究バージョンへの早期アクセスを許可するなど、AI安全性の確保に向けた取り組みを積極的に進めています。
コンテキストウィンドウ
ChatGPT o1-previewは、128,000トークンというコンテキストウィンドウを提供します。
これは、モデルが過去の会話や情報を記憶し、より文脈に沿った応答を生成することを可能にします。
ただし、各補完には出力トークン数の上限があり、非表示の推論トークンと可視補完トークンの両方を含めて、最大32,768トークンまでとなっています。
ChatGPT o1-miniとは?機能や特徴を紹介
ChatGPT o1-previewと同時に、o1-miniというモデルも登場しています。
o1-miniの機能や特徴を紹介します。
概要
ChatGPT o1-miniは、複雑なコードの正確な生成とデバッグに優れたo1シリーズの中でも、特に高速で安価な推論モデルです。
開発者向けにより効率的なソリューションを提供するために設計されており、コーディングに特に効果を発揮します。
o1-previewよりも80%安価であるため、コストパフォーマンスを重視する場合に最適な選択肢です。
推論能力は必要としながらも、幅広い世界知識を必要としないアプリケーションに適しており、強力かつ費用対効果の高いモデルと言えるでしょう。
推論能力
o1-miniは、o1の高速かつ安価なバージョンとして、広範な一般的な知識を必要としないコーディング、数学、科学のタスクに特化して設計されています。
限られたコンテキスト情報の中でも効率的に推論を行い、問題解決を支援します。
コンテキストウィンドウ
o1-miniは、o1-previewと同様に128,000トークンというコンテキストウィンドウを提供します。
これは、モデルが過去の会話や大量の情報を記憶し、文脈に沿った応答を生成するのに役立ちます。
ただし、各補完における出力トークン数の上限は、非表示の推論トークンと可視補完トークンを含めて最大65,536トークンとなっています。
ChatGPT o1-previewとChatGPT-4oとの違い
ChatGPTの代表モデルといえばChatGPT-4oですが、はたしてo1-previewとどのような違いがあるのでしょうか。
また、使い分けの必要はあるでしょうか。
一般的なタスクはGPT-4oで複雑な推論タスクはo1-preview
実は一般的なタスクにおいては、GPT-4oの方が優れた性能を発揮する可能性があります。
o1-previewの場合、長く推論する必要がない簡易的な問題でも思考連鎖を行ってしまうためです。
しかし、複雑な推論タスクにおいては、ChatGPT o1-previewがGPT-4oを大きく上回る性能を示しています。
o1-previewは、複雑な問題解決に特化して設計されており、AI能力の新たなレベルに到達したと言えるでしょう。
具体的な適用分野
画像入力、関数呼び出し、高速な応答時間が必要なアプリケーションには、GPT-4oおよびGPT-4o miniモデルが適しています。
一方、深い推論を必要とし、多少応答時間がかかっても構わないアプリケーション開発には、o1モデルが最適な選択肢となります。
OpenAIも公式サイトで、o1-previewの対象者として以下の例を挙げています。
o1 は、医療研究者が細胞配列データに注釈を付けるために、物理学者が量子光学に必要な複雑な数式を生成するために、またあらゆる分野の開発者が複数ステップのワークフローを構築して実行するために使用できます。
出典:Introducing OpenAI o1 | OpenAI
これを見ると、ビジネスシーンでの資料作成やアイデア出しのように、今までのAIアシスタントという使い方がo1-previewに向いていないのが分かるかと思います。
それぞれのモデルの特徴を理解した上で、適切なモデルを選択することが重要です。
ChatGPT o1-previewの料金プラン!無料利用や回数制限を紹介
ChatGPTの無料ユーザーでもo1-previewが使えるのか、また有料ユーザーでも回数制限はあるのか、料金プランや機能制限について紹介します。
ChatGPTでの利用の料金と回数制限
ChatGPT PlusおよびTeamユーザーはChatGPTでo1モデルにアクセス可能です。
リリース当初は、o1-previewは週30メッセージ、o1-miniは週50メッセージのレート制限があります。
9月17日、Plus および Team ユーザーのレート制限が若干緩和されました。
miniが週単位から日単位へ大幅に緩和したのはかなり朗報です。
We appreciate your excitement for OpenAI o1 and we want you to be able to use it more.
— OpenAI (@OpenAI) September 17, 2024
For Plus and Team users, we have increased rate limits for o1-mini by 7x, from 50 messages per week to 50 messages per day.
o1-preview is more expensive to serve, so we’ve increased the rate…
将来的には、レート制限が引き上げられ、ChatGPTが与えられたプロンプトに対して最適なモデルを自動的に選択するようになる予定です。
ChatGPT EnterpriseおよびEduユーザーは、9月16日の週から両方のモデルにアクセス可能になります。
また、ChatGPT Freeユーザーにも将来的にo1-miniへのアクセスが提供される予定です。
そのため、無料のユーザーは現時点では利用できず、o1-previewは利用できないままとなる可能性が高いです。
APIでの利用
API使用ティア5の資格を持つ開発者は、本日よりAPIでo1-previewとo1-miniの両方のモデルのプロトタイピングを開始できます。
レート制限は20RPMですが、追加テストを経て制限が引き上げられる予定です。
現時点では、これらのモデルのAPIでは、関数呼び出し、ストリーミング、システムメッセージのサポートなどの機能は提供されていません。
ChatGPT o1-previewの使い方
ChatGPT o1-previewを使い方を解説します。
大前提としてPlusの有料プランに加入している場合限定となる点に注意が必要です。
ChatGPT o1-previewで効果的なプロンプトを作成する方法
ChatGPT o1-previewは推論能力が過去のモデルと比べて大幅に向上しているため、プロンプトの作成方法も今までと同じでは正しく動かない可能性があります。
ポイントとしてはシンプルなプロンプトを心がけることです。
シンプルで直接的なプロンプトにする
o1-previewでは、シンプルで直接的なプロンプトを作成することが効果的です。
o1-previewは高度な推論能力を持っているため、複雑な指示や誘導は必要ありません。
プロンプトを作成する際には、簡潔で明確な指示を記述し、回りくどい表現や曖昧な表現は避けましょう。
o1-previewは内部的に思考連鎖を行うため、「段階的に考えて」や「推論を説明して」といった指示は不要です。
むしろ、これらの指示はモデルの推論プロセスを阻害する可能性があります。
以下はプロンプトエンジニアリングについてまとめた記事ですが、今後o1シリーズが主流になれば不要な知識となってしまうかもしれません。
区切り文字を活用して明確に区別する
三重引用符、XMLタグ、セクションタイトルなどの区切り文字を使用することで、入力の異なる部分を明確に区別し、o1-previewが各セクションを適切に解釈しやすくなるようにしましょう。
検索拡張生成(RAG)で追加のコンテキストやドキュメントを提供する場合は、最も関連性の高い情報のみを含めるようにします。
o1-previewは大量の情報から重要な情報を抽出することに長けていますが、無関係な情報が多すぎると、応答の精度が低下する可能性があります。
ChatGPT o1-previewのよくある質問
まだ登場してすぐのため、ChatGPT o1-previewに関して不明点も多いと思います。
細かな疑問を解消できるようによくある質問形式でまとめました。
o1-previewはウェブ検索、ファイルや画像のアップロードなどは搭載していますか?
o1-previewは初期のモデルであるため、現時点ではウェブ検索、ファイルや画像のアップロードなどの機能は搭載されていません。これらの機能は、今後のアップデートで追加される予定です。
なぜo1と名付け、GPT4からの5ではなく、1にリセットしたのですか?
o1-previewは、複雑な推論タスクにおいて従来のモデルを大きく上回る、AI能力の新たなレベルに到達したモデルです。この大きな進歩を踏まえ、新たなシリーズとしてOpenAI o1と名付け、カウンターを1にリセットしました。
o1-previewはどのような点が優れていますか?
o1-previewは、強化学習を用いたデータ効率の高いトレーニングプロセスで、思考連鎖を生産的に使用する方法を学習しています。強化学習と思考時間(テスト時計算量)を増やすことで、o1のパフォーマンスは向上します。様々な人間の試験やMLベンチマークテストにおいて、o1は推論量の多いタスクの大部分で、従来のGPT-4oを大幅に上回る結果を出しています。
o1-previewはどのような問題解決に役立ちますか?
o1-previewは、科学、コーディング、数学、および類似分野の複雑な問題解決に役立ちます。例えば、ヘルスケア研究者による細胞配列データの注釈付け、物理学者による量子光学に必要な複雑な数学的公式の生成、あらゆる分野の開発者による複数ステップのワークフローの構築と実行などに活用できます。
o1-previewは安全に利用できますか?
o1-previewは、安全性と整合性を重視して開発されています。モデルの動作に関するポリシーを思考連鎖に統合することで、人間の価値観と原則を学習しています。また、安全規則とその文脈に応じた推論方法を学習することで、モデルの堅牢性が向上しています。安全性と整合性の大幅な進歩のために、展開前にPreparedness Frameworkに則った一連の安全性テストとレッドチーミングを実施しています。
o1-previewの思考連鎖はなぜ非表示になっているのですか?
o1-previewの思考連鎖は、モデルの思考プロセスを理解し、ユーザー操作の兆候などを監視するために役立ちます。しかし、ユーザーエクスペリエンス、競争上の優位性などを考慮し、生の思考連鎖はユーザーに非表示になっています。代わりに、モデルが思考連鎖から抽出した有用なアイデアを回答に含めることで、ユーザーに理解しやすい説明を提供しています。o1モデルシリーズでは、モデルが生成した思考連鎖の概要を表示しています。
o1-previewは今後どのように進化しますか?
o1-previewは、AI推論の最先端を大幅に進歩させたモデルです。開発チームは、反復を続けながら、このモデルの改善版をリリースしていく予定です。これらの新しい推論機能により、モデルを人間の価値観と原則により良く適合させることができると期待されています。o1-previewとその後のモデルは、科学、コーディング、数学、および関連分野におけるAIの多くの新しいユースケースを切り開くでしょう。
o1-previewは現在どのような制限がありますか?
o1-previewは現在ベータ版であり、いくつかの制限があります。
・モダリティ: テキストのみ対応で、画像はサポートされていません。
・メッセージタイプ: ユーザーメッセージとアシスタントメッセージのみサポートされ、システムメッセージはサポートされていません。
・ストリーミング: サポートされていません。
・ツール: ツール、関数呼び出し、応答形式のパラメータはサポートされていません。
・ログ確率: サポートされていません。
・その他: temperature、top_p、nは1に固定され、presence_penaltyとfrequency_penaltyは0に固定されています。
・アシスタントとバッチ: これらのモデルは、アシスタントAPIまたはバッチAPIではサポートされていません。
今後数週間で、これらのパラメータのいくつかがサポートされる予定です。マルチモーダルやツール使用などの機能は、o1シリーズの将来のモデルに含まれる予定です。
推論トークンはどのように課金されますか?
推論トークンはAPIを介しては表示されませんが、モデルのコンテキストウィンドウでスペースを占有し、出力トークンとして課金されます。
生成されたトークンが制限を超えた場合はどうなりますか?
生成されたトークンがコンテキストウィンドウの制限または設定した max_completion_tokens 値に達すると、finish_reason が length に設定されたチャット補完応答が返されます。これは、可視補完トークンが生成される前に発生する可能性があり、可視応答を受信せずに、入力トークンと推論トークンのコストが発生する可能性があります。これを防ぐには、コンテキストウィンドウに十分なスペースがあることを確認するか、max_completion_tokens 値をより高い数値に調整してください。
まとめ
今回はChatGPTの最新モデル「ChatGPT o1-preview」について解説しました。
複雑な推論タスクに特化したo1-previewは、従来のモデルよりも高度な思考能力を持ち、様々な分野で目覚ましい成果を上げています。
まだベータ版としてリリースされたばかりですが、今後のアップデートでさらなる進化が期待されます。
o1-previewは、AI技術が新たな段階へと進んだことを示す画期的なモデルと言えるでしょう。
o1-previewが、いかにすごいモデルなのかPodcastで語りましたのでご興味ある方は聞いていただけると嬉しいです。