2025-05-14

OpenAI o3(ChatGPT o3)とは？使い方や料金、制限について解説！

この記事のポイント

o3は、複雑な推論、コーディング、数学、科学、特に視覚タスクで卓越した能力を発揮。多様なベンチマークで最高性能 (SOTA) を達成。
o4-miniは高速・高コスト効率**に最適化された小型モデル。サイズ比で優れたパフォーマンスを持ち、大量処理にも対応。
o3はo1と比較してエラー率が低減（特定のタスクで20%減）。コストパフォーマンスも向上。
o3、o4-mini共にChatGPTの有料プランやAPIで利用可能に（一部プランやモデルは順次提供）。無料ユーザーもo4-miniを試用可能。
新しい安全トレーニングデータやシステムレベルの緩和策を導入し、厳格な評価を実施。

監修者プロフィール

坂本将磨

フォローする

Microsoft MVP・AIパートナー。LinkX Japan株式会社代表取締役。東京工業大学大学院にて自然言語処理・金融工学を研究。NHK放送技術研究所でAI・ブロックチェーンの研究開発に従事し、国際学会・ジャーナルでの発表多数。経営情報学会優秀賞受賞。シンガポールでWeb3企業を創業後、現在は企業向けAI導入・DX推進を支援。

AIと先進技術への関心が高まる中、OpenAIが開発した新しいAIモデルシリーズ、「OpenAI o3 (オースリー)」と「o4-mini (オーフォーミニ)」が世界的な注目を集めています。
特にo3は、OpenAI史上最もスマートで高性能な推論モデルとして、AIの能力を新たな段階へと引き上げる可能性を秘めています。

本記事では、その驚異的な特徴から使い方、料金体系やアクセス方法、そして従来のモデルとの違いに至るまで、「OpenAI o3」に関する最新情報を徹底解説いたします。

さらに、かつて「o3-mini」として期待されていたモデルの後継であり、高速・高コスト効率を実現した「o4-mini」についても詳しくご紹介します。複雑な問題を解決するo3の深い思考力と、実用性に優れたo4-miniの可能性に迫り、AIが切り拓く未来を探ります。

OpenAIが発表した最新のAIエージェント、「OpenAI Deep Research」についてはこちら⬇️
【ChatGPT】OpenAI Deep Researchとは？使い方、料金体系を徹底解説！

OpenAI o3(ChatGPT o3)とは

【o3-mini後継】o4-miniとは？

OpenAI o3(ChatGPT o3)の料金

OpenAI o3(ChatGPT o3)の使い方

API経由

Azure OpenAI Service

GitHub Copilot

OpenAI o3(ChatGPT o3)を使ってみた

o3での画像生成

OpenAI o3(ChatGPT o3)の主な特徴

1. 最も強力な推論モデル

2. フルツールアクセス：エージェントとしてのAIへ

3. 高度な視覚的推論能力

4. o1を超えるコストパフォーマンス

OpenAI o3のベンチマーク性能と技術革新

コーディング・ソフトウェアエンジニアリング能力

Deliberative Alignmentの重要性

まとめ

OpenAI o3(ChatGPT o3)とは

OpenAI o3は、2024年末から2025年初頭にかけて発表・リリースされた、OpenAIの最新かつ最も強力なAI推論モデルです。

これは単なるアップデートではなく、AIの「考える」能力を根本的に進化させる可能性を持つ存在として開発されました。

o3の画期的な進化は複数ありますが、特に重要なのが以下の2点です。

フルツールアクセスとエージェント能力
ChatGPT内で利用可能なWeb検索、Pythonによるデータ分析やファイル操作、さらには画像生成といった複数のツールを、o3自身が「いつ」「どのように」使うべきかを推論し、初めてエージェント的に連携・組み合わせてタスクを実行できます（フルツールアクセス）。
高度な画像（視覚）推論能力
テキストだけでなく、画像やグラフといった視覚情報を深く理解し、推論プロセスに直接統合する能力が大幅に向上しました。
単に画像を見るだけでなく、「画像と共に考える」ことが可能になり、マルチモーダルな問題解決能力が飛躍的に高まっています。

これらの能力により、o3はコーディング、数学、科学、そして視覚タスクといった最先端分野で卓越した性能を発揮します。

【o3-mini後継】o4-miniとは？

o3と同時に発表された「o4-mini」は、かつて「o3-mini」として期待されていたモデルの後継にあたる、高速性とコスト効率に優れた小型AIモデルです。

o3が最高性能を追求する一方で、o4-miniはより多くのユーザーにとってアクセスしやすく、実用的なAIの利用を促進することを目指しています。

OpenAI o3(ChatGPT o3)の料金

o3は現状無料プランでは利用できませんが、o3-miniは以下のプランで利用可能です。

プラン	o3モデルの回数制限
Plus / Team / Enterprise	週に100メッセージまで
Proプラン	無制限

API料金（2025年4月時点）

モデル	入力（USD / 100万トークン）	キャッシュ入力	出力
o3	$10.00	$2.50	$40.00

👉 関連記事はこちら：Responses APIの使い方と料金解説

OpenAI o3(ChatGPT o3)の使い方

モデル選択のボタンから 「o4-mini」 を選択することで利用できます。

o4miniの利用画面
モデル選択画面

🔜 Enterprise / 教育機関（Edu）ユーザーには近日中にアクセス可能になる予定です。

API経由

利用可能なAPI：
Chat Completions API / Responses API
一部の利用には組織確認が必要な場合があります。
Responses APIでは、推論プロセスの一部（例：関数呼び出し付近の思考トークン）を保持する機能がサポート予定です。

Azure OpenAI Service

Microsoftが提供する Azure OpenAI Service 経由でも、o3モデル及びo4-miniが利用可能です。

o3-mini on Azure

GitHub Copilot

GitHubでもすでに利用が開始されています。

GitHubでの利用開始参考

OpenAI o3(ChatGPT o3)を使ってみた

ChatGPTにログインして、o3を使ってみました。
モデルの選択を行い、o3を選択します。

o3に画像を送りここはどこと聞いた画像

皆さんここはどこかわかりますか？

o3は35秒の思考の上、以下の回答を導き出しました。

回答画像


回答文：
この四角い“切り取られた空”を見上げる体験は、ジェームズ・タレルの《Open Sky》（2004）でほぼ間違いないと思います。作品は安藤忠雄が設計した **地中美術館（香川県・直島）** の一室に恒久設置された〈スカイスペース〉シリーズのひとつで、天井の正方形開口から自然光を直接室内に導き、時間帯ごとに壁面に映る光と影の幾何学を楽しめるのが特徴です。

#### なぜそう判断できるか
| 画像の手がかり | 《Open Sky》の特徴 |
|----------------|------------------|
| 正方形の無枠開口 | スカイスペースは「額縁のない空」をテーマにした完全な開放部を採用 |
| 白〜淡灰色の打ち放し壁 | 地中美術館は安藤忠雄のコンクリート建築。室内も同質素材で統一 |
| 壁面に映る鋭い三角形の光 | 直射日光により刻々と形が変わる「光の彫刻」効果 |
| 国内で同様の構成を持つ施設の希少性 | 日本でこの仕様を持つタレル作品は直島の《Open Sky》が代表的 |

#### もし現地で体験するなら
- **サンライズ／サンセットプログラム**  
  夜明けと夕暮れ時はLEDライティングと自然光が混ざり、空がキャンバスのように染まる特別演出が行われます（要事前予約）。
- **アクセス**  
  直島（香川県香川郡直島町）へは高松港または宇野港からフェリー。美術館は島の南部にあり、島内バスまたはレンタサイクルが便利です。

> **結論:** 写真は直島・地中美術館のジェームズ・タレル《Open Sky》。もし別のスカイスペースで撮影した可能性がある場合も、同シリーズの中でこの構図と壁面仕上げが合致するのは本作が最有力です。

ちなみに答えは「正解」です。
その回答理由や類似画像の提示、さらには「もし現地で体験するなら」として、サンライズやサンセットプログラムの情報まで教えてくれました。

o3での画像生成

ジブリ風画像生成で注目を浴びた「GPT-4o」を超える画像生成ができると話題になっています。

o3の画像生成

元々、GPT-4oでも文字生成はできましたが、o3ではさらに進化した画像生成が可能になっています。

このように素晴らしい性能のo3の性能ですがどのような特徴を持っているのでしょうか。

OpenAI o3(ChatGPT o3)の主な特徴

o3の抑えたいポイント3つ

OpenAI o3は、その卓越したパフォーマンスと多機能性により、これまでのAIの限界を打ち破ります。ここでは、o3が持つ主な特徴について詳しく見ていきましょう。

o3は、OpenAIが「これまでにリリースした中で最もスマートなモデル」と位置づける、最高峰の推論モデルです。その能力は、特に以下のような場面で真価を発揮します。

1. 最も強力な推論モデル

複雑なクエリへの対応:
多面的な分析が必要で、答えがすぐには明らかにならない難問に対し、詳細かつ思慮深い回答を生成します（通常1分以内）。
高度な専門分野での活用:
コーディング (Codeforces, SWE-bench)、数学 (AIME)、科学 (GPQA)、視覚 (MMMU, MathVista, ChartXiv) など、多くの権威あるベンチマークで新たな最高性能 (SOTA: State-of-the-Art) を記録。人間の専門家レベルの問題解決能力に迫ります。
o1からのエラー低減:
困難な実世界タスクにおいて、前世代の高性能モデルo1と比較して重大なエラーを20%削減。特にプログラミング、ビジネス/コンサルティング、創造的なアイデア出しの分野で優位性を示します。
思考パートナーとしての資質:
初期テスターからは、分析の厳密さや、新しい仮説を生成し批判的に評価する能力が高く評価されており、研究開発における強力なパートナーとなり得ます。

2. フルツールアクセス：エージェントとしてのAIへ

o3の画期的な点は、ChatGPT内のツール（Web検索、Pythonコードインタープリター、画像生成など）を初めてエージェント的に使用・組み合わせられるようになったことです。

自律的なツール選択と実行:
問題解決のために、どのツールをいつ、どのように使うべきかをo3自身が推論し、実行します。
例えば、最新情報をWebで検索し、得られたデータでPythonコードを書いて分析し、結果をグラフで可視化するといった一連の作業を自律的に行えます。
マルチステップ・ワークフロー:
複数のツール呼び出しを連鎖させ、途中で得られた情報に基づいて戦略的に次のステップを決定できます。
これにより、従来モデルでは困難だった複雑なタスクや、外部情報の活用が必須な問題に対応可能です。

このエージェント的な能力により、単一のモデル知識だけでは解決できない、より現実世界の複雑な問題に取り組むことが可能になります。

3. 高度な視覚的推論能力

o3による画像推論の例
図：ユーザーがアップロードした画像に対し、o3が内容を分析し、質問に答えようと推論している様子 (出典: OpenAI Blog)

o3は、テキストだけでなく視覚情報（画像）を深く理解し、推論プロセスに直接統合する能力が大幅に向上しました。

単なる画像認識を超えて:
画像を見るだけでなく、「画像と共に考える」ことができます。
ホワイトボードの写真、教科書の図、手書きのスケッチなどをアップロードすると、たとえ画像が不鮮明でも内容を解釈し、テキスト情報と組み合わせて問題を解決します。
画像操作との連携:
推論プロセスの一部として、画像を回転させたり、ズームしたりといった操作をツールを使って実行し、より深い分析を行うことが可能です。
マルチモーダルベンチマークでの最高性能: *
*視覚的推論とテキスト推論を融合させることで、MMMU（大学レベルの視覚問題解決）やMathVista（視覚的な数学推論）などのマルチモーダルベンチマークで最先端のパフォーマンス**を達成しています。

4. o1を超えるコストパフォーマンス

o3は、単に性能が向上しただけでなく、コスト効率の面でも前世代のモデルから改善が見られます。

1とo3のコストパフォーマンス比較
図：AIME 2025 (左) と GPQA Pass@1 (右) におけるコスト対性能比較。o3はo1と比較して、同じコストでより高い性能、または同じ性能をより低いコストで達成できる傾向がある (出典: OpenAI Blog)

上図が示すように、AIMEやGPQAといったベンチマークにおいて、o3はo1と比較してより優れたコストパフォーマンスフロンティア（性能とコストのバランス）を示しています。

これは、o3がより少ない計算コストで高い性能を引き出せるようになった、あるいは同じコストでより高いレベルのタスクを実行できるようになったことを意味します。
この効率性の向上により、高度なAI機能がより利用しやすくなることが期待されます。

o4-miniの詳細は以下のリンクからご覧いただけます。

OpenAI o3のベンチマーク性能と技術革新

OpenAI o3の能力は、様々なベンチマークテストの結果によって裏付けられています。ここでは、その一部をご紹介します。

コーディング・ソフトウェアエンジニアリング能力

o3はコーディング能力において目覚ましい進化を遂げています。

コーディング関連ベンチマークの結果t
図：SWE-Lancer (左上)、SWE-Bench (右上)、Aider Polyglot (下) の結果。o3-highは、実世界のソフトウェア開発タスクやコード編集において非常に高いパフォーマンスを示した (出典: OpenAI Blog)

Codeforces: 競技プログラミングサイトにおいて、トップレベルに匹敵するELOレーティング 2706 を記録。AIによる複雑なアルゴリズム問題解決能力の高さを示す。
SWE-Bench: 実世界のソフトウェアエンジニアリング問題において、69.1% という高い精度を達成。
SWE-Lancer: フリーランス開発者向けのタスクにおいて、$65,250相当のタスクを完了できる能力を発揮。
Aider Polyglot: 多言語でのコード編集能力において、高い精度（全体 81.3%）を実証。

この高いコーディング能力は、o3が単なる補助ツールに留まらず、ソフトウェア開発の現場で即戦力となり得る可能性を示しています。

数学・科学能力

高度な論理推論が求められる数学や科学の分野でも、o3は顕著な成果を上げています。

AIME (American Invitational Mathematics Examination): 高校生向けの難関数学コンペティションにおいて、2024年版で91.6%、2025年版で88.9%という非常に高い精度。
GPQA Diamond: 博士レベルの難解な科学問題において、ツールを使用しない場合でも83.3%の高い精度。
Humanity's Last Exam: 広範な専門分野の知識を問うエキスパートレベルの問題において、ツール（Python+Browsing）を活用することで26.6%の精度を達成し、従来モデルから大幅な向上。

o3が高度な抽象的概念の理解と厳密な論理展開能力を兼ね備え、科学技術分野での応用が期待されることを裏付けています。

マルチモーダル能力

o3はテキスト情報だけでなく、画像やグラフといった視覚情報を理解し、それらを活用した推論能力も大幅に向上しました。

マルチモーダル（視覚）関連ベンチマークの結果
図：MMMU (左)、MathVista (中央)、ChartXiv (右) の結果。o3は、画像やグラフを含む複雑な視覚的推論タスクにおいて、o1から大幅な性能向上を達成した (出典: OpenAI Blog)

MMMU (College-level visual problem-solving): 大学レベルの視覚的な問題解決能力を測るベンチマークで、82.9%の精度を達成。
MathVista (Visual Math Reasoning): 図やグラフを用いた数学的な推論能力において、87.5%という非常に高い精度。
ChartXiv (Scientific Figure Reasoning): 科学論文中の図表（グラフ）を解釈し推論する能力において、75.4%の精度。

これらのベンチマーク結果は、o3がテキストと視覚情報を統合して高度な推論を行うマルチモーダルAIとして、トップクラスの性能を持つことを明確に示しています。

指示追従とツール連携

o3の大きな特徴である、複雑な指示を理解し、ツールを連携させてタスクを実行するエージェント能力も、ベンチマークによって示されています。

指示追従とエージェント的ブラウジングのベンチマーク結果
図：Scale MultiChallenge (左) と BrowseComp (右) の結果。o3は複雑な指示追従やエージェント的なWebブラウジングタスクで高い精度を示した (出典: OpenAI Blog)

Scale MultiChallenge: 複数ターンにわたる複雑な指示を正確に実行する能力において、56.51%の精度を達成し、他のモデルを凌駕。
BrowseComp: 自律的にWebを閲覧して情報を収集・活用するエージェント的なタスクにおいて、Pythonとブラウジングツールを併用することで49.7%の精度を発揮。

複雑な指示への対応力と自律的なツール利用能力は、o3がユーザーの意図を深く理解し、能動的にタスクを遂行する高度なAIエージェントとしての側面を強く印象付けます。

ARC-AGI評価の衝撃

ARC-AGIは「人間には簡単だが、AIには難しい」新規問題を通じて、真の汎用知能（AGI）に近い思考能力を評価するベンチマークです。従来モデルは、このテストでほぼ苦戦を強いられてきましたが、o3はその常識を覆しました。

特に、ARC-AGIのセミプライベート評価セット（非公開の100問）と、公開評価セット（公開された400問）のスコアは、o3の性能を具体的な数値で示しています。以下は、そのテスト結果をまとめた表です。

Set	Tasks	Efficiency (効率性)	Score (正答率)	Retail Cost (推定費用)	Samples (サンプル数)	Tokens (トークン数)	Cost/Task (1問あたり費用)	Time/Task (1問あたり時間)
Semi-Private	100	High (高効率)	75.7%	$2,012	6	33M	$20	1.3分
Semi-Private	100	Low (低効率)	87.5%	-	1024	5.7B	-	13.8分
Public	400	High (高効率)	82.8%	$6,677	6	111M	$17	N/A
Public	400	Low (低効率)	91.5%	-	1024	9.5B	-	N/A

参考:https://arcprize.org/blog/oai-o3-pub-breakthrough

表の見方：

Set：評価対象の問題セット。「Semi-Private」は一般に非公開の問題群、「Public」は公開されている問題群を指します。
Tasks：問題数。
Efficiency：High（高効率）は少ないサンプル数で推論するモード、Low（低効率）は大量の計算資源を投入して成績を最大化するモードです。
Score：正答率（%）。
Retail Cost：推定計算費用。モデルを実行するためのクラウド計算リソースやエネルギーコストを金額に換算。
Samples：モデルが推論で用いるサンプル数や探索回数。多いほど計算量が増え、成績が向上する傾向がありますが、コストや時間も増えます。
Tokens：処理したテキストの最小単位（トークン）の総数。トークンが多いほど計算量が増えます。
Cost/Task：1問あたりのコスト。
Time/Task：1問あたりにかかった時間（分）。N/Aは計測不可または非公表。

この表から、効率性を犠牲にすれば（Low-Efficiencyモード）、より高いスコア（最高で91.5%）が得られるものの、膨大なトークン数（5.7億～9.5億）と高いコストが必要になることがわかります。

逆に、High-Efficiencyモードではコストを1問あたり20ドル程度に抑えつつも、75.7～82.8%という高水準を保つことが可能です。

この結果は、AIが計算資源を増やせば新規問題への適応度が向上すること、また現時点ではまだ人間を上回る経済性が確保できていないことを示しています。
しかし、技術の進歩によりコストは急速に下落すると予想されており、数年以内に人間と同等かそれ以下の費用で高難度タスクを処理できる可能性もあります。

o3とo1/o4-miniの比較

o3の性能と特徴をより明確にするため、前世代のo1および同時にリリースされたo4-miniと比較してみましょう。

特徴項目	OpenAI o1 (従来モデル)	OpenAI o3 (最新・最高性能)	OpenAI o4-mini (最新・高速/効率)
主な位置づけ	高性能モデル (o3登場以前)	最も強力・高性能な推論モデル	高速・コスト効率に優れた小型モデル (旧o3-mini後継)
推論能力	高度だがo3に劣る	最高レベル、複雑・多面的、思考が深い	高速、サイズ比で高性能
得意分野	テキスト生成、基本的なタスク	コーディング、数学、科学、視覚、複雑な分析	数学、コーディング、ビジュアルタスク、大量処理
ツールアクセス	限定的または不可	フルアクセス (エージェント的に連携)	フルアクセス (API経由でカスタムツールも)
画像処理	基本的な認識	画像と共に思考、高度な視覚推論	高度な視覚タスクに対応
エラー率	o3より高い	o1より20%減 (特定タスク)	(o1との直接比較データなし)
コスト効率	o3より低い傾向	o1より向上	最も高い
利用制限	標準的	標準的	o3より大幅に高い（制限が緩い）
ベンチマーク例	(各種ベンチマークでo3/o4-miniより低いスコア)	多様なベンチマークでSOTA	AIMEで最高性能、他でも高スコア

この表から、o3がo1からあらゆる面で進化し、特に複雑な推論、専門分野での応用、ツール連携、視覚能力において圧倒的な差をつけていることがわかります。

一方でo4-miniは、コスト効率と速度、大量処理能力に優れ、実用的な多くの場面で最適な選択肢となります。

OpenAI o3の安全性強化の取り組み

o3では、推論過程の透明性や説明可能性を高めるための「Deliberative Alignment」と呼ばれる新しい安全機能が導入されました。

Deliberative Alignmentの重要性

Deliberative Alignmentとは、AIがタスクを解決するために生成する「チェーン・オブ・ソート（Chain of Thought）」を監査・評価し、ユーザーがその根拠をある程度把握できるようにする取り組みです。

また、ARC Prizeの活動とも連携し、OpenAIは新たなベンチマーク「ARC-AGI-2」の設計にも協力する予定です。ARC-AGI-2では、さらに難度の高い問題を集めて人間とAIの能力の差を明確にし、真に汎用的な推論力を測定しようと試みるといいます。o3ですら苦戦が予想されており、これらのチャレンジを通じて安全性と性能の両面が一層磨かれていく見込みです。

まとめ

OpenAI o3の登場は、AI技術の歴史において大きな転換点となるでしょう。ARC-AGIでの高スコアは、その適応力と一般化能力を示す大きな証拠です。ただし、コスト面や未解決のタスクも少なからずあり、依然としてo3がすべての課題を完璧に解決できるわけではありません。実際に、ARC-AGIの問題のうち9%程度は、大量の計算を投入しても解けなかったケースがあり、そこには人間にとっては比較的容易な問題も含まれています。

このことから、「o3がAGI（汎用人工知能）になったわけではない」という慎重な見方も依然として根強いです。ただし、o3がこれまでのLLM（大規模言語モデル）の限界を破り、新たな問題解決能力を獲得したのは明らかです。特に注目すべきは、人間のように「その場でプログラムを再構成して未知の問題に取り組む」というアプローチに近づいている点でしょう。これは、単にデータを増やすだけでは達成できなかった成果であり、AI研究におけるパラダイムシフトを予感させます。

驚異的なのは、o1がリリースされた3ヶ月後に、o3がリリースされたこと であり、OpenAIの研究者もこのモデルの改善は今後も続くと予想しています。

Arc-AGI Score
モデルリリース日の推移