この記事のポイント
- OpenAI o3-miniは、OpenAIの推論に特化した最新かつ最もコスト効率の高いモデル
- 低コストと低レイテンシを維持しながら、優れたSTEM能力を発揮
- 開発者から要望の多かった関数呼び出し、構造化出力、開発者メッセージといった機能をサポート
- 人間による評価で、o1-miniよりも正確で明確な回答を生成
- 無料プランのユーザーも試用可能
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
近年、AI技術の進化は目覚ましく、特に大規模言語モデル(LLM)の発展は著しいものがあります。その中でも、OpenAIは最先端の研究開発をリードし、GPTシリーズなどの革新的なモデルを次々と発表してきました。そして今、推論に特化した最新かつ最もコスト効率の高いモデルとして、「OpenAI o3-mini」が登場しました。このパワフルかつ高速なモデルは、小規模モデルの可能性を広げ、科学、数学、コーディングなどの分野で優れた性能を発揮します。
本記事では、OpenAI o3-miniの概要、特徴、性能、料金体系、安全性、そして今後の展望について、詳しく解説します。
目次
OpenAI o3-miniとは
OpenAI o3-miniは、OpenAIが開発した最新の推論特化型モデルであり、同社の推論シリーズの中で最も新しく、最もコスト効率に優れたモデルと位置付けられています。
このモデルの最大の特徴は、低コストと低レイテンシを維持しながら、優れたSTEM(科学、技術、工学、数学)能力を発揮する点です。
さらに、OpenAI o3-miniは、開発者から要望の多かった機能をサポート関数呼び出し、構造化出力、開発者メッセージといった機能がサポートされており、開発者はより効率的にアプリケーションを構築できます。
また、ストリーミングにも対応しているため、リアルタイムな応答が求められるアプリケーションにも適しています。
なお、o3-miniは、「OpenAI o3」の軽量版モデルです。
o3についてさらに詳しく知りたい方は、こちらの記事をご覧ください。
OpenAI o3-miniの主な特徴
OpenAI o3-miniは、そのサイズとコストからは想像できないほどの、優れた特徴を数多く備えています。
ここでは、その中でも特に重要な3つの特徴について詳しく見ていきましょう。
推論能力と専門性
OpenAI o3-miniは、特にSTEM分野における推論能力に強みを持っています。数学、コーディング、科学といった分野において、先行モデルであるOpenAI o1-miniを上回るパフォーマンスを発揮します。
これは、OpenAI o3-miniが、これらの分野に特化したトレーニングを受けているためです。
速度と効率
OpenAI o3-miniは、高速かつ効率的に動作するよう設計されています。先行モデルであるOpenAI o1-miniと比較して、応答速度が向上しており、よりスムーズなユーザーエクスペリエンスを提供します。
具体的には、A/Bテストにおいて、o3-miniはo1-miniよりも24%高速に応答を返し、平均応答時間は7.7秒でした(o1-miniは10.16秒)。
さらに、Time to First Token (TTFT) においても、o3-mini は o1-mini より平均2500ms 高速です。
推論のレベルオプション
OpenAI o3-miniでは、推論のレベルを「低」、「中」、「高」の3つから選択できます。
これにより、特定のユースケースに最適化されたパフォーマンスを実現できます。
たとえば、複雑な問題に取り組む際には「高」を選択して、モデルに「より深く考えさせる」ことができ、レイテンシが重要な場合には「低」を選択して、速度を優先できます。
この柔軟性は、開発者にとって大きなメリットとなります。
OpenAI o3-miniの性能
OpenAI o3-miniは、様々なベンチマークテストにおいて、その優れた性能を示しています。ここでは、その中でも特に注目すべき結果について紹介します。
STEM分野におけるベンチマーク結果
OpenAI o3-miniは、STEM分野の複数のベンチマークで、先行モデルであるOpenAI o1-miniを上回る、または同等の性能を達成しています。
数学ベンチマーク (参考:OpenAI
AIME 2024 (数学コンペティション):
- 低い推論の努力で、OpenAI o3-miniはOpenAI o1-miniと同等の性能を達成。
- 中程度の推論の努力で、OpenAI o3-miniはOpenAI o1と同等の性能を達成。
- 高い推論の努力で、OpenAI o3-miniはOpenAI o1-miniとOpenAI o1の両方を上回り、83.6%の精度を達成。
博士課程レベルの科学問題ベンチマーク (参考:OpenAI
-GPQA Diamond (博士レベルの科学問題)
- 低い推論の努力で、OpenAI o3-miniはOpenAI o1-miniを上回る性能を達成。
- 高い推論の努力で、OpenAI o3-miniはOpenAI o1と同等の性能を達成し、77.0%の精度を達成。
研究レベルの数学問題のベンチマーク (参考:OpenAI
FrontierMath (研究レベルの数学問題)
- 高い推論の努力で、OpenAI o3-miniは先行モデルを上回り、Pythonツールを使用するようプロンプトされた場合、最初の試行で32%以上の問題を解決 (難易度の高い問題の28%以上を含む)。
プログラミングコンペティションのベンチマーク (参考:OpenAI
Codeforces (プログラミングコンペティション):
- 推推論の努力を高めるにつれて、OpenAI o3-miniは段階的に高いEloスコアを達成し、すべてo1-miniを上回る。
- 中程度の推論の努力で、OpenAI o1の性能に匹敵。
ソフトウェアエンジニアリングのベンチマーク (参考:OpenAI
SWE-bench Verified (ソフトウェアエンジニアリング):
- OpenAI o3-miniは、リリースされたモデルの中で最高の性能を発揮し、48.9%の精度を達成。
LiveBench Codingのベンチマーク (参考:OpenAI
LiveBench Coding:
- 中程度の推論の努力でも、OpenAI o3-miniはo1-highを上回り、コーディングタスクにおける効率性を示している。
- 高い推論の努力で、o3-miniはさらにリードを広げ、主要な指標全体で大幅に強力なパフォーマンスを達成。
一般知識に関するベンチマーク (参考:OpenAI
一般知識:
- OpenAI o3-miniは、一般知識ドメイン全体の知識評価において、o1-miniを上回る性能を発揮。
人間による評価結果
外部の専門テスターによる評価でも、OpenAI o3-miniは高い評価を得ています。テスターは、o3-miniの回答がo1-miniよりも正確で明確であり、より強力な推論能力を持っていると評価しました。
特にSTEM関連の質問において、テスターは56%の確率でo3-miniの回答を好み、難しい現実世界の問題における主要なエラーが39%減少したことが観察されました。
レイテンシとパフォーマンス
前述の通り、OpenAI o3-miniは、先行モデルであるOpenAI o1-miniと比較して、応答速度が向上しています。
A/Bテストにおいて、o3-miniはo1-miniよりも24%高速に応答を返し、平均応答時間は7.7秒でした(o1-miniは10.16秒)。
o1-mini と o3-mini のレイテンシ比較
さらに、Time to First Token (TTFT) においても、o3-mini は o1-mini より平均2500ms 高速です。
OpenAI o3-miniの料金体系
OpenAI o3-miniは、無料プランおよび、ChatGPT Plus、Team、Proプランのユーザーが利用可能です。(Enterpriseプランユーザーへのアクセスは2月に予定されています。)
OpenAI o3-miniのAPI料金
具体的なAPI料金は以下の通りです。(2025年1月31日時点)
項目 | 料金 (100万トークンあたり) |
---|---|
入力 | $1.10 |
入力 (キャッシュ機能利用) | $0.55 |
出力 | $4.40 |
:::messahe
プロンプトキャッシングについて
OpenAIのAPIでは、1,024トークンを超えるプロンプトに対して、プロンプトキャッシングが自動的に適用されます。
これは、プロンプトの先頭部分が以前に処理されたプロンプトと完全に一致する場合、その部分をキャッシュから取得することで、入力コストを50%削減し、レイテンシも削減する機能です。
キャッシュヒットは128トークン単位で発生し、通常5〜10分間操作がないとクリアされます(オフピーク時は最大1時間)。
詳細は、OpenAIのドキュメントをご覧ください。
【o1・o1-miniとの比較】
項目 | o1 | o1-mini | o3-mini |
---|---|---|---|
入力 (キャッシュ機能を利用しない場合) | $15.00 | $1.10 | $1.10 |
入力 (キャッシュ機能を利用する場合) | $7.50 | $0.55 | $0.55 |
出力 | $60.00 | $4.40 | $4.40 |
o3-miniは、o1と比較して大幅に安価であり、o1-miniより高性能でありながら同等の価格設定となっています。
OpenAI o3-miniの使い方
無料プランのユーザーは、チャット欄下部にある「理由」と言うボタンを選択することで、OpenAI o3-miniを試すことができます。
有料プラン(ChatGPT Plus、Team、Proプラン)のユーザーは、画面左上のモデル切り替えボタンから「o3-mini」「o3-mini-high」を選択できます。
また、同じ推論モデルであるo1では利用できなかった「検索機能」も利用可能です。
OpenAI o3-miniの安全性
OpenAIは、o3-miniの開発において、安全性を最優先事項の一つとして位置づけています。
そのために、熟慮されたアライメント (deliberative alignment) と呼ばれる技術を用いて、モデルが人間の書いた安全仕様について推論してからユーザーのプロンプトに応答するようにトレーニングしています。
具体的には、o1と同様に、o3-miniは、難しい安全性評価とジェイルブレイク評価において、GPT-4oを大幅に上回っています。
また、デプロイ前に、o1と同じアプローチを用いて、o3-miniの安全リスクを慎重に評価しています。
これには、準備、外部レッドチームによる評価、安全評価が含まれます。
これらの評価結果、潜在的なリスク、および緩和策の有効性に関する包括的な説明は、o3-miniのシステムカードに記載されています。
OpenAI o3-miniの今後の展望
OpenAI o3-miniのリリースは、コスト効率の高いAIの実現に向けた大きな一歩です。STEM分野に特化した推論能力を最適化し、コストを抑えることで、高品質なAIをより多くの人々に提供することが可能になります。
このモデルは、GPT-4のリリース以来、トークンあたりの価格を95%削減するというOpenAIの実績をさらに推し進めるものです。
AIの普及が進む中、OpenAIは、知能、効率、安全性のバランスが取れたモデルを構築し、最先端をリードし続けることを約束しています。
OpenAI o3-miniの活用事例
※近日公開予定
まとめ
OpenAI o3-miniは、推論に特化した、最新かつ最もコスト効率の高いモデルです。その優れたSTEM能力、高速な応答速度、柔軟な推論オプション、そして安全性への取り組みは、小規模モデルの可能性を大きく広げるものです。
OpenAI o3-miniの登場により、より多くの人々や企業が、高度なAIの恩恵を受けられるようになることが期待されます。今後、OpenAIがどのようにo3-miniを発展させ、AIの普及に貢献していくのか、注目です。