この記事のポイント
- o1との違いは、AGIベンチマークで劇的なモデル性能向上
- o3 miniが先行して2025年1月末頃に一般公開予定
- o3の公開は、モデルの安全性・信頼性を高めてから公開予定︎(未定)
- OpenAI o3は、複雑な推論を実行するために強化学習で訓練された新しいAIモデル
- o3-miniは、基本的能力を維持しつつ処理速度と効率性を向上させた軽量・高速モデル
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
AIと先進技術への関心が高まる中、OpenAIが開発した新しいAIモデルシリーズ、「OpenAI o3(オースリー)」が注目を集めています。
本記事では、その特徴から使い方、料金体系やOpenAI o1との違いに至るまで、「OpenAI o3」に関する情報を徹底解説いたします。
複雑な推論を高速に実行できる「o3-mini」をはじめ、深い思考力や高度な推論能力により学問の分野でもその力を発揮する「OpenAI o3」の可能性に迫ります。
「ARC-AGI」というAGIベンチマークで劇的な性能向上において劇的な性能向上を実現しており、AIを活用した未来を創造する新たな1ページとなるかもしれません。
目次
OpenAI o3とは
2024年12月21日、AI業界に大きな衝撃が走りました。
OpenAIが発表した最新モデル 「OpenAI o3」 は、既存のAIが抱えていた課題を大幅に乗り越え、人間と同等、あるいは人間の専門家を超える能力を様々な分野で示しました 。
これまでのAIはデータの「パターン認識」を主とした推論能力に依存していましたが、o3では段階的に推論を積み重ねる、いわば「思考プロセス」をシミュレートするアーキテクチャが採用されているとされています。
これはAIにおける「考える」という概念を根本から変えるものであり、人間の専門家レベルの問題解決を実現可能にする大きな進歩だといえます。
Today, we shared evals for an early version of the next model in our o-model reasoning series: OpenAI o3 pic.twitter.com/e4dQWdLbAD
— OpenAI (@OpenAI) December 20, 2024
OpenAI o3の主な特徴
中でも注目すべきは、o3が「ARC-AGI」というAGIへの北極星になることを目的 としてつくられたベンチマークで示した驚異的なスコアです。
ARC-AGIは、AIが「初めて見るタイプの問題」をどの程度解決できるかを測るための、いわば「人間並みの推論力」を評価する難易度の高いテストです。
これまでのGPTシリーズは、このテストでほとんど点数を伸ばせずにいました。たとえばGPT-3やGPT-4oは数%程度、GPT-4oでも5%程度にとどまっていたのです。
ところがo3は、少ない推論回数(いわゆる“Low-compute”モード)でも75.7%というスコアをたたき出し、さらに大量の計算資源を投入した“high-compute”モードでは87.5%にまで到達 しました。
この数字は、ヒトの平均的な成績(85%前後)をも上回っており、AIが人間を上回る可能性を示す一つの重要なマイルストーンと言えます。
従来、「AIをただ大規模化しても真の新規問題には対応しきれない」という指摘が多かったのですが、o3では「言語プログラムの探索と実行」を可能にする新しいアーキテクチャを取り入れたことが大きく影響していると見られています。
OpenAI o3 miniの意義
さらに、o3を軽量化した「o3 mini」の登場も、AIの民主化に大きく貢献すると期待されています。
高性能かつ柔軟な推論能力を持つAIを、より小規模な環境でも活用できるようにした点は一般的な使用者には魅力的です。
特に注目される機能は、「アダプティブ・シンキング・タイム」 です。これは、与えられた問題や文脈に応じて思考時間を調整することで、無駄な計算を減らしつつ、複雑な問題に対しては必要なステップを丁寧に踏むという、まさに人間の思考プロセスに近いアプローチを可能にしています。o3 miniはo1 miniと比較しても大幅な性能向上と評価されています
モデルごとの能力比較したグラフ
グラフに示された正確性を見たものでは、青色の箇所がo3シリーズを示し、グレーのものがo1シリーズを示しています。
OpenAI o3のベンチマーク性能と技術革新
ARC-AGI評価の衝撃
ARC-AGIは「人間には簡単だが、AIには難しい」新規問題を通じて、真の汎用知能(AGI)に近い思考能力を評価するベンチマークです。従来モデルは、このテストでほぼ苦戦を強いられてきましたが、o3はその常識を覆しました。
特に、ARC-AGIのセミプライベート評価セット(非公開の100問)と、公開評価セット(公開された400問)のスコアは、o3の性能を具体的な数値で示しています。以下は、そのテスト結果をまとめた表です。
Set | Tasks | Efficiency (効率性) | Score (正答率) | Retail Cost (推定費用) | Samples (サンプル数) | Tokens (トークン数) | Cost/Task (1問あたり費用) | Time/Task (1問あたり時間) |
---|---|---|---|---|---|---|---|---|
Semi-Private | 100 | High (高効率) | 75.7% | $2,012 | 6 | 33M | $20 | 1.3分 |
Semi-Private | 100 | Low (低効率) | 87.5% | - | 1024 | 5.7B | - | 13.8分 |
Public | 400 | High (高効率) | 82.8% | $6,677 | 6 | 111M | $17 | N/A |
Public | 400 | Low (低効率) | 91.5% | - | 1024 | 9.5B | - | N/A |
参考:https://arcprize.org/blog/oai-o3-pub-breakthrough
表の見方:
- Set:評価対象の問題セット。「Semi-Private」は一般に非公開の問題群、「Public」は公開されている問題群を指します。
- Tasks:問題数。
- Efficiency:High(高効率)は少ないサンプル数で推論するモード、Low(低効率)は大量の計算資源を投入して成績を最大化するモードです。
- Score:正答率(%)。
- Retail Cost:推定計算費用。モデルを実行するためのクラウド計算リソースやエネルギーコストを金額に換算。
- Samples:モデルが推論で用いるサンプル数や探索回数。多いほど計算量が増え、成績が向上する傾向がありますが、コストや時間も増えます。
- Tokens:処理したテキストの最小単位(トークン)の総数。トークンが多いほど計算量が増えます。
- Cost/Task:1問あたりのコスト。
- Time/Task:1問あたりにかかった時間(分)。N/Aは計測不可または非公表。
この表から、効率性を犠牲にすれば(Low-Efficiencyモード)、より高いスコア(最高で91.5%)が得られるものの、膨大なトークン数(5.7億~9.5億)と高いコストが必要になることがわかります。逆に、High-Efficiencyモードではコストを1問あたり20ドル程度に抑えつつも、75.7~82.8%という高水準を保つことが可能です。
この結果は、AIが計算資源を増やせば新規問題への適応度が向上すること、また現時点ではまだ人間を上回る経済性が確保できていないことを示しています。しかし、技術の進歩によりコストは急速に下落すると予想されており、数年以内に人間と同等かそれ以下の費用で高難度タスクを処理できる可能性もあります。
分野別の驚異的な成果
SWE Enginieeringのレベル
o3は、プログラミング能力や数学的推論力など、特定分野での応用力も強化しています。
たとえば、Codeforces(コードフォーシズ) はオンラインで開催される有名なアルゴリズム・プログラミングコンペティションサイトで、世界中のプログラマが参加しています。ここでトップレベル(世界上位175位相当)に匹敵する成績をo3が示したことは、AIがもはや「コード補助ツール」を超え、優秀なプログラマと肩を並べる存在になり得ることを示唆しています。
Codeforces Score
また、研究数学の領域では、従来のモデルが2%程度の正解率で低迷していたような困難な問題で、o3は25.2%にまでスコアを引き上げました。これはまだ人間の数学研究者には及ばないものの、未知問題への適応力が著しく改善していることは明らかで、今後の発展次第では専門家レベルに近づく可能性もあります。
OpenAI o3とo1の機能比較
以下に、OpenAI o3とo1の機能比較を行った表を示します。
モデル | 推論速度 | ARC-AGI スコア | コスト/問 | 思考プロセス |
---|---|---|---|---|
o1 | 中 | 7.8~32% | 中 | シンプルな連鎖推論 |
o3 | 高 | 75.7~87.5% | 高 | 探索型プログラム生成 |
この比較表から、o3がいかに飛躍的な進化を遂げたかが分かります。
ここで 「連鎖推論」 とは、与えられた問題文から順番に引き出せるヒントを辿りながら解答を導く仕組みを指します。
一方、o3が行う 「探索型言語プログラム生成」 は、問題解決のために「自然言語で記述された手続き的なステップ」(Chain of Thought: CoT)を探索・評価し、最適な解法プロセスを見つけることを指します。
この違いが、ARC-AGIスコアの劇的な向上につながったと考えられます。
o3 miniの特徴と活用法
o3 miniは、ハイエンドAIの民主化という観点から大きなインパクトを与える存在です。
企業や研究所が保有する大規模コンピューティング環境だけでなく、比較的小規模な環境や個人レベルでも活用できることを目指しています。
具体的には、アダプティブ・シンキング・タイムを用いることで、問題の難易度や種類に応じて柔軟に推論ステップ数を調整します。
これにより、計算コストを抑えつつも高い性能を発揮できるため、プロトタイプ開発から学習支援システムまで、幅広い応用が期待されます。
OpenAI o3の料金プランと利用方法
現在はまだ公開されていません。公開次第、本記事にも追記いたします。
段階的公開の意義
OpenAIは今回のo3リリースにあたり、まずは機能限定のmini版から提供し、利用者のフィードバックを得ながら徐々に本格展開する方針を打ち出しました。新技術には常にリスクが伴うため、段階的な公開は安全性や社会的受容性を考慮する上で重要な手段と言えるでしょう。
現行の料金プランでは、o3 miniはある程度利用しやすい価格帯で提供される見込みですが、大規模推論(“Low-Efficiency”モードなど)の利用にはまだ高い計算コストがかかります。特に高度な探索を必要とするタスクでは、1問あたり17〜20ドル程度のコストが発生するケースもあります。しかし、AI業界での研究開発が進むにつれて、これらのコストは急速に低下していくと考えられています。
o3の公開時期:
2025年1月末頃に一般公開予定。(具体的な日程は未定です。)
o3の段階的公開:
先行して、o3 miniを2025年1月末頃に一般公開後、順次「o3」モデルも一般公開される予定です。
モデルの安全性・信頼性を高めながら、公開環境を整え、より多くのユーザーがo3を活用できる環境を整えるとしています。
OpenAI o3の安全性強化の取り組み
o3では、推論過程の透明性や説明可能性を高めるための「Deliberative Alignment」と呼ばれる新しい安全機能が導入されました。
Deliberative Alignmentの重要性
Deliberative Alignmentとは、AIがタスクを解決するために生成する「チェーン・オブ・ソート(Chain of Thought)」を監査・評価し、ユーザーがその根拠をある程度把握できるようにする取り組みです。
また、ARC Prizeの活動とも連携し、OpenAIは新たなベンチマーク「ARC-AGI-2」の設計にも協力する予定です。ARC-AGI-2では、さらに難度の高い問題を集めて人間とAIの能力の差を明確にし、真に汎用的な推論力を測定しようと試みるといいます。o3ですら苦戦が予想されており、これらのチャレンジを通じて安全性と性能の両面が一層磨かれていく見込みです。
まとめと展望
OpenAI o3の登場は、AI技術の歴史において大きな転換点となるでしょう。ARC-AGIでの高スコアは、その適応力と一般化能力を示す大きな証拠です。ただし、コスト面や未解決のタスクも少なからずあり、依然としてo3がすべての課題を完璧に解決できるわけではありません。実際に、ARC-AGIの問題のうち9%程度は、大量の計算を投入しても解けなかったケースがあり、そこには人間にとっては比較的容易な問題も含まれています。
このことから、「o3がAGI(汎用人工知能)になったわけではない」という慎重な見方も依然として根強いです。ただし、o3がこれまでのLLM(大規模言語モデル)の限界を破り、新たな問題解決能力を獲得したのは明らかです。特に注目すべきは、人間のように「その場でプログラムを再構成して未知の問題に取り組む」というアプローチに近づいている点でしょう。これは、単にデータを増やすだけでは達成できなかった成果であり、AI研究におけるパラダイムシフトを予感させます。
驚異的なのは、o1がリリースされた3ヶ月後に、o3がリリースされたこと であり、OpenAIの研究者もこのモデルの改善は今後も続くと予想しています。
モデルリリース日の推移
最終的に、o3が示す方向性は 「道具としてのAI」から「協働者としてのAI」 へと一段進んだ姿であり、それに伴う社会的・経済的インパクトも計り知れません。私たち一人ひとりが、この急速に進化する技術をどのように活用し、どのようなリスク管理を行うかを考えることが求められています。