この記事のポイント
- OpenAI o1(o1-preview)は、複雑な推論を実行するために強化学習で訓練された新しいAIモデル
- o1-miniは、基本的能力を維持しつつ処理速度と効率性を向上させた軽量・高速モデル
- GPT-4oとの違いは、o1はSTEM分野で優れた性能を示すが、一般的な言語タスクではGPT-4oの方が優位
- o1 Proは、特に数学的推論や複雑な問題解決においてo1より優れた性能を持つ
- 無料開放は無く、ChatGPT PlusまたはChatGPT Teamへの加入が必要
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
AIと先進技術への関心が高まる中、OpenAIが開発した新しいAIモデルシリーズ、「OpenAI o1(オーワン)」が注目を集めています。
本記事では、その特徴から使い方、料金体系やGPT-4oとの違いに至るまで、「OpenAI o1」に関する情報を徹底解説いたします。
複雑な推論を高速に実行できる「o1-mini」をはじめ、深い思考力や高度な推論能力により学問の分野でもその力を発揮する「OpenAI o1」の可能性に迫ります。
科学、数学、プログラミングといったSTEM分野において特にその力を発揮する本モデルは、AIを活用した未来を創造する新たな1ページとなるかもしれません。
【2024年12月6日追記】
OpenAIは「o1」のフルバージョンを正式リリースしました。プレビュー版と比べてコーディング、数学、文章作成の能力が向上し、より高速で信頼性の高い応答が可能になりました。
高度な画像アップロード機能も追加され、視覚情報に対してより詳細な分析が可能になりました。
さらに、「ChatGPT Pro」という新しいプランも発表されています。
目次
OpenAI o1(ChatGPT-o1)とは
OpenAI o1は、OpenAIが開発した新しいAIモデルシリーズです。
複雑な推論を実行するために強化学習で訓練された大規模言語モデルで、応答する前に考え、ユーザーに応答する前に長い内部思考の連鎖を生成することができます。
We're releasing a preview of OpenAI o1—a new series of AI models designed to spend more time thinking before they respond.
— OpenAI (@OpenAI) September 12, 2024
These models can reason through complex tasks and solve harder problems than previous models in science, coding, and math. https://t.co/peKzzKX1bu
o1 proとは
o1 proは、通常のo1モデルをさらに進化させた高性能バージョンです。より多くの計算リソースを活用することで、より深い思考と高精度な回答を実現します。主な特徴として:
- 高い正答率: 特に数学分野において、通常のo1よりも高い精度で問題を解決
- 安定した性能: 複数回の解答を求めた場合でも、一貫して高い精度を維持
- 処理時間: より深い思考を行うため処理時間は長くなるものの、進捗バーで状況確認が可能
- マルチタスク対応: 他の会話に切り替えても、完了時に通知が届く機能を搭載
ただし、o1 proへのアクセスにはChatGPT Proプラン(月額200ドル)への加入が必要です。
コーディングや科学的な質問については通常のo1との差は小さいものの、特に複雑な数学的推論や長時間の思考を要する問題において、その真価を発揮します。
o1-previewのフルバージョンがリリース
OpenAIは2024年12月6日、o1のフルバージョンを正式にリリースしました。主な改善点は以下の通りです。
- コーディング、数学、文章作成においてより高速(o1-previewより60%速くなった) で強力な推論能力を実現
- プレビュー版と比べて、難しい実世界の質問における重大なエラーを34%削減
- 画像アップロード機能 を追加し、マルチモーダルに視覚情報に対してより詳細な分析が可能に
また、同時にChatGPT Proプランも発表され、o1への無制限アクセスや、より信頼性の高い応答のための専用バージョンが提供されます。
なお、PlusとTeamユーザーは即座に利用可能で、EnterpriseとEduユーザーは1週間後にアクセス可能となります。
【関連記事】
ChatGPT proプランの紹介記事
OpenAI o1(ChatGPT-o1)の特徴
OpenAIは2024年12月5日に、最新のAIモデル「OpenAI o1」とその高速版「OpenAI o1-mini」のシステムカードを公開しました。
「OpenAI o1」シリーズは、大規模な強化学習を通じて「思考の連鎖(Chain of Thought)」を用いた複雑な推論を行うよう設計されています。これにより、ユーザーからの質問に回答する前に内部で深い思考プロセスを生成し、より正確で安全な応答を提供することが可能となります。
トレーニングデータは、以下の3つの主要なデータから収集されています。
この複合的なデータセットがOpenAIの強みの一つになります。
データソース | 内容 |
---|---|
公開データ | ウェブ上の情報やオープンソースのデータセットなど、一般に公開されているデータ。 |
パートナーシップによる専有データ | 有料コンテンツや専門的なアーカイブなど、特定の業界や分野に特化した非公開データ。 |
社内で開発したカスタムデータセット | 特定のタスクや目的に合わせてOpenAIが独自に作成したデータ。 |
能力評価
システムカードでは、大きく10カテゴリ40項目以上の評価がされています。
示されているのは、具体的には以下の項目です。
カテゴリ | 目的 | 意味 |
---|---|---|
拒否評価 | 有害・違法なリクエストを拒否する能力を測定。 | モデルの安全性と過剰拒否のバランスを評価。 |
マルチモーダル評価 | テキストと画像の複合入力に対する拒否性能を評価。 | 複雑なデータ入力を正しく処理する能力を測定。 |
幻覚評価 | 正確性と虚偽情報(幻覚)の生成頻度を測定。 | ユーザーに信頼できる回答を提供する能力を評価。 |
ジェイルブレイク評価 | 悪意ある攻撃的入力に対する耐性を評価。 | 不正な操作を防ぐ安全策の有効性を確認。 |
バイアス評価 | 偏りのない公平な回答を生成できるかを評価。 | 公平性と倫理的配慮を反映した応答を測定。 |
命令階層評価 | 命令の優先度(システム>開発者>ユーザー)を遵守する能力を評価。 | 安全で一貫性のある応答を保証。 |
説得力・操作性評価 | 論理的説得力や他者を操作する能力を評価。 | 説得力の強さと操作リスクをバランス良く測定。 |
自律性評価 | モデルが自己改善やリソース獲得を行う能力を評価。 | 開発者の意図に沿った動作を維持できるかを確認。 |
思考の安全性評価 | 思考の連鎖が正確かつ安全かを評価。 | 誤った思考や不適切な内容生成を防ぐための基盤を測定。 |
実践応用評価 | 専門分野でのモデルの信頼性とリスクを評価。 | サイバーセキュリティや科学分野での有害使用を防ぐ能力を確認。 |
これらの評価結果からo1の能力の高さが示されています。
高度な多段階エージェントタスク
高度な多段階エージェントタスクグラフ
- 具体的な結果:
- ベースラインスキャフォルディング(最小限の支援):
- o1の成功率は約45%と、Claude 3.5 Sonnet(約52%)に劣る結果でした。
- o1-miniはさらに低く、成功率は約**30%**程度にとどまりました。
- 改善されたスキャフォルディング(詳細な支援):
- o1の成功率は約 85% と、人間の平均成功率(約87%)に匹敵。
- Claude 3.5 Sonnetは約 70% の成功率で、o1に及びませんでした。
- o1-miniは約 65% と改善しましたが、o1には劣ります。
- ベースラインスキャフォルディング(最小限の支援):
これらの結果から、o1は支援が与えられることで、複雑なタスクの成功率を大きく向上させる能力を持つことがわかります。また、詳細な手順が提供された際には、人間に非常に近いパフォーマンスを示しました。一方で、ベースラインでは他モデルよりやや劣る結果から、タスクの分解やサポートがない環境では、能力を十分に発揮しにくいことも明らかになりました。
o1シリーズと4oとの比較
OpenAIの公式サイトでは以下のようなグラフで比較もなされています。
高度な推論能力
o1シリーズは、GPT-4oよりも複雑なタスクを推論し、科学、コーディング、数学の分野でより難しい問題を解決可能です。
- 物理学、化学、生物学の難しいベンチマークタスク(GPQA)で博士課程の学生と同等の成績を達成
- 国際数学オリンピック(IMO)の予選試験で83%の正答率を記録(GPT-4oは13%)
- コーディング能力はCodeforces(競技プロラミング)で参加者の上位11%に入る水準
競技数学、競技プログラミング、科学問題におけるGPT-4o、o1-preview、o1の性能比較。o1シリーズがすべての分野でGPT-4oを大幅に上回る (参考:OpenAI
安全性の向上
o1シリーズでは、モデルの高度な推論能力を活用して安全性を向上させる新しいアプローチが採用されています。
- 安全性と整合性ガイドラインに従わせるための新しい安全性学習手法が導入
- モデルの推論能力を利用して、状況に応じて安全ポリシーについて推論
これにより、違法なアドバイスの生成、ステレオタイプな対応の選択などのリスクに対して、特定のベンチマークで最先端のパフォーマンスが得られています。
ChatGPT-4oとChatGPT-o1の違い
o1シリーズがSTEMタスクで高度な推論力を発揮する一方、人間の評価では言語処理を重視する分野においてはGPT-4oの方が優れているという結果が出ています。
GPT-4oとo1シリーズの分野別の勝率 (参考:OpenAI)
上記からわかるように、o1シリーズが数学・科学技術分野に特化している反面、一般的な言語タスクや幅広い知識を要する課題では、従来のモデルに及ばない可能性があることを示唆しています。
このような特性は、o1シリーズの用途や適用範囲を考える上で重要な点となります。
ChatGPT-o1とo1 pro modeの違い
性能の高さを誇るo1モデルですがo1 proは特に数学の分野でo1と大きく差があることが示されています。
o1で十分に処理できない問題の場合にo1 proの利用も検討してみても良いでしょう。
【軽量・高速モデル】o1-miniとは
o1-miniは、o1シリーズの基本的な能力(深い思考力、高度な推論能力)を継承しつつ、処理速度と効率性を向上させたモデルです。
【主な特徴】
- STEM分野(科学、数学、プログラミングの性能)においてはo1と同等以上のスコアを獲得
- 回答速度はo1-previewの約3倍
- API利用料金はo1-previewの5分の1
特筆すべきは、o1-miniの優れたコーディング能力です。コーディングタスクにおいて、o1-miniはo1-previewを大きく上回る性能を示しています。
Reinforcement Fine-Tuningのよるo1-miniの性能向上を示すグラフ
OpenAIはo1-miniの性能向上をReinforcement Fine-Tuning、いわゆる強化学習によるファインチューニングをすることで特定の分野における強力な推論ができることを示しています。
これにより、より軽量で特定のタスクに特化させたLLMの活用が期待されます。
処理アプローチの違い
o1とChatGPT4oは、問題解決の方法が異なります。
特徴 | o1 | ChatGPT4o |
---|---|---|
思考スタイル | じっくり考え抜く | 素早く幅広く対応 |
得意分野 | 複雑な理系問題 | 多様な話題の会話 |
処理時間 | 長め | 短め |
知識の使い方 | 深く掘り下げる | 広く活用する |
回答の特徴 | 段階的で論理的 | 柔軟で文脈に応じた |
o1は、複雑な問題に対してじっくり時間をかけて考えます。数学や科学の難しい問題を解くときのように、段階を踏んで深く考え抜いてから答えを出します。
一方、ChatGPT4oは幅広い知識を使って素早く対応します。雑談をするように、様々な話題にすぐに反応できます。文章の意図をよく理解し、自然な会話ができるのが特徴です。
o1モデルの推論プロセス
o1モデルは「推論トークン」という特別な仕組みを使って「考える」ことができます。
- 質問を理解し、複数の角度から思考
- この思考過程を「推論トークン」として記録
- 最終的な回答を出力
- 回答後、「推論トークン」は消去
参考:OpenAI
この図は、会話が進む中でのo1モデルの動きを示しています。
- 各ターンで新しい入力を受け取り・処理
- 過去の会話内容(入力と出力)は記憶されますが、内部の思考過程(推論トークン)は消去
- 会話の履歴は一定量(128,000トークン)まで保持
この方法により、o1モデルは複雑な問題に対してより深く考え、高品質な回答を生み出すことができます。
活用分野の違い
ここまでで紹介したように、ChatGPT4oとo1は、それぞれ異なる強みを持ちます。
以下の表は、両モデルの実用面での特徴と処理方法の違いをまとめたものです。
分野 | o1 | ChatGPT4o |
---|---|---|
研究開発 | • 複雑な科学的モデリング • 高度な数学的分析 • 新薬開発のシミュレーション |
• 学際的な研究 • 文献レビュー • 研究提案書の作成 |
ビジネス応用 | • 財務モデリング • 市場予測アルゴリズム • 供給チェーン最適化 |
• 顧客サービス • マーケティングコピーの作成 • 多言語コミュニケーション |
教育分野 | • STEM教育 • 高度な問題解決 • 複雑な概念理解のチュータリング |
• 幅広い科目での一般的な質問応答 • エッセイ添削 • 言語学習支援 |
上記から、o1は科学技術分野での複雑な問題解決に強く、ChatGPT4oは幅広い知識を活用した言語処理に優れていることがわかります。
用途に応じて適切なモデルを選ぶことが大切です。
OpenAI o1(ChatGPT-o1)の料金
OpenAI o1を利用するには、ChatGPTの有料プランであるChatGPT Plus(月額30ドル)、もしくはChatGPT Teamへの加入が必要と。
料金表は以下の通りです。
プラン名 | 料金 | 主な特徴 | 対象ユーザー |
---|---|---|---|
無料版 | $0/月 | - 文書作成、問題解決などの基本支援 - GPT-4o miniへのアクセス - GPT-4oの限定アクセス - データ分析、ファイルアップロード、ビジョン、ウェブ参照、画像生成への限定アクセス - カスタムGPTの利用 |
一般ユーザー、AI活用初心者 |
ChatGPT Plus | $20/月 | - 無料版の全機能 - 新機能への早期アクセス - OpenAI o1-preview、o1-miniへのアクセス - GPT-4o、GPT-4o mini、GPT-4へのアクセス(メッセージ数最大5倍) - 高度な音声モードへのアクセス |
生産性と創造性の向上を求めるユーザー |
ChatGPT Team | $25/月/ユーザー | - Plusの全機能 - より高いメッセージ制限 - GPTの作成とワークスペース共有 - 管理者コンソール - デフォルトで学習対象外のデータ扱い ※2人以上、年単位課金 |
ビジネスチーム、企業ユーザー |
ChatGPT Enterprise | 要問い合わせ | - Teamの全機能に加えて無制限のデータ分析 - 高度なセキュリティとサポート |
大企業向け |
ChatGPT Pro | $200/月 | - o1、o1-mini、GPT-4o、Advanced Voiceへの無制限アクセス - o1 proモードによる高度な推論能力 - より信頼性の高い応答生成 - 新機能への最優先アクセス |
研究者、エンジニア、プロフェッショナルユーザー |
OpenAI o1のAPI料金
OpenAI o1のAPI料金は以下の通りです。
モデル | 入力トークン料金 | 出力トークン料金 |
---|---|---|
o1-preview | 100万トークンあたり15.00ドル | 100万トークンあたり60.00ドル |
o1-mini | 100万トークンあたり3.00ドル | 100万トークンあたり12.00ドル |
o1-miniモデルは、o1-previewモデルと比較して、入出力ともに5分の1のコストであることがわかります。
OpenAI o1とGPT-4oのAPI料金比較
OpenAI o1とGPT-4oシリーズの料金体系を比較します。(o1シリーズはBatch API未対応のため未掲載)
モデル | 入力トークン料金 | 出力トークン料金 |
---|---|---|
o1-preview | $15.00 / 1M | $60.00 / 1M |
o1-mini | $3.00 / 1M | $12.00 / 1M |
gpt-4o | $5.00 / 1M | $15.00 / 1M |
gpt-4o-2024-08-06 | $2.50 / 1M | $10.00 / 1M |
gpt-4o-mini | $0.150 / 1M | $0.600 / 1M |
OpenAI o1(ChatGPT-o1)の使い方
ChatGPTのトップ画面左上の、モデル切り替えボタンから切り替え可能です。
OpenAI o1(ChatGPT-o1)利用時の注意点
o1は、従来のGPTシリーズとは異なる特徴を持っています。
高度な推論能力を備えたこのモデルを効果的に活用するには、プロンプトの書き方や利用回数の制限に注意が必要です。
以下、具体的な利用のポイントと制限について説明します。
プロンプトの書き方
o1モデルは従来のGPTシリーズと異なり、「人間が自然に質問するような形で使うのが最適で、複雑な指示や余計な情報は逆効果になる可能性がある」とOpenAIが見解を示しています。
OpenAIによるプロンプトアドバイス (参考:OpenAI
1.シンプルさを重視
複雑な指示よりも、簡単で明確な指示の方がうまく機能します。
【✅効果的なプロンプト例】
地球温暖化の主な原因は何ですか?
【❌避けるべきプロンプト例】
地球温暖化の原因について、まず科学的な背景を説明し、次に主な要因を5つ挙げ、それぞれについて詳細に解説し、最後に解決策を3つ提案してください。
各段階で考えるプロセスも示してください。
2.自然に考えさせる
「段階的に考えて」などの指示は不要です。モデルは自動的に深く考えるようプログラムされています。
【✅効果的なプロンプト例】
次の数式を解いてください:2x + 5 = 15
【❌避けるべきプロンプト例】
2x + 5 = 15 を解くために、一歩ずつ考えてプロセスを説明しながら解いてください。
3.情報を整理する
引用符やタグを使って、入力情報を明確に区分けすると良いでしょう。
【✅効果的なプロンプト例】
以下の文章を要約してください:
"""
人工知能(AI)は、人間の知能を模倣し、学習、問題解決、パターン認識などのタスクを実行するコンピューターシステムです。機械学習やディープラーニングなどの技術を用いて、AIは日々進化を続けています。
"""
4.関連情報に絞る
追加情報を与える場合は、本当に必要な情報だけに絞りましょう。
【❌避けるべきプロンプト例】
AIについて300字で要約してください。
参考として以下の3つの長い記事を添付します:[ここに長い記事1, 2, 3が続く]...
このように、モデルの高度な推論能力を信頼し、シンプルに使うことが推奨されています。
回数制限について
モデル | 変更前 | 変更後 |
---|---|---|
o1-preview | 30メッセージ/週 | 50メッセージ/週 |
o1-mini | 50メッセージ/週 | 50メッセージ/1日 |
We appreciate your excitement for OpenAI o1 and we want you to be able to use it more.
— OpenAI (@OpenAI) September 17, 2024
For Plus and Team users, we have increased rate limits for o1-mini by 7x, from 50 messages per week to 50 messages per day.
o1-preview is more expensive to serve, so we’ve increased the rate…
OpenAI o1(ChatGPT-o1)の活用事例
OpenAI o1の高度な推論能力と深い思考力は、様々な分野で革新的な応用を可能にします。
以下の事例は、o1シリーズが従来のAIモデルを超える能力を持ち、複雑な問題解決や創造的なタスクにおいて優れた性能を発揮することを示しています。
複雑なパズルを解読
OpenAI o1 solves a complex logic puzzle. pic.twitter.com/rpJbh8FkAg
— OpenAI (@OpenAI) September 12, 2024
プロンプトからビデオゲームのコードを作成
OpenAI o1 codes a video game from a prompt. pic.twitter.com/aBEcehP0j8
— OpenAI (@OpenAI) September 12, 2024
GPT-4oでは不可能な複雑な言語翻訳
OpenAI o1 answers a famously tricky question for large language models. pic.twitter.com/5ZlQIOBWEd
— OpenAI (@OpenAI) September 12, 2024
まとめ
本記事では、OpenAIが開発した新しいAIモデルシリーズ「OpenAI o1」について解説しました。
o1シリーズの特徴である深い思考力、高度な推論能力、そして向上した安全性について詳しく説明し、従来のモデルとの性能比較を行いました。
また、o1とo1 pro model、 o1-miniの3つのモデルの特徴や料金体系、GPT-4oとの違いについても触れました。さらに、o1シリーズの具体的な活用事例を紹介し、その潜在的な可能性を示しました。
今後の発展により、AIの応用範囲がさらに広がることが期待されます。