この記事のポイント
Responses APIは、OpenAIが開発した、AIモデルと組み込みツールを統合するための新しいAPI
単一のAPI呼び出しで、複数のツールとモデルターンを組み合わせて複雑なタスクを処理
ウェブ検索、ファイル検索、コンピュータ使用などの強力な組み込みツールをすぐに利用可能
Agents SDKと連携し、複数のエージェントを組み合わせたワークフローを簡単に構築
プロンプトインジェクション対策など、安全性と倫理的配慮を重視した設計

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
AIエージェントは、私たちの働き方やビジネスの進め方を大きく変える可能性を秘めています。しかし、その開発は容易ではありません。複数のAPIやツールを組み合わせ、複雑なワークフローを構築し、安全性まで考慮するとなると、高度な専門知識と多大な労力が必要でした。
そんな状況を打破するのが、OpenAIが新たに発表した「Responses API」です。この革新的なAPIは、エージェント開発の常識を覆し、AI活用の新たな地平を切り開く可能性を秘めています。
本記事では、この「Responses API」について、その全貌を徹底的に解説します。
Responses APIの基本概念から、具体的な仕組み、既存APIとの比較、主要な組み込みツール、料金体系、安全性への取り組み、そしてAgents SDKとの連携まで、詳細かつ網羅的に説明します。 AIエージェント開発に携わるエンジニア、AI技術の活用に関心のあるビジネスパーソン、そしてAIの未来に興味を持つすべての方に、必読の内容です。
Responses APIとは?
OpenAI Responses APIは、OpenAIが開発した、AIモデルと組み込みツールを簡単に組み合わせてエージェントを構築するための新しいAPIです。
Chat CompletionsのシンプルさとAssistants APIのツール使用機能を組み合わせているため、開発者は少ないコードで複雑なエージェント機能を実装できるようになりました。
主な特徴は以下の通りです。
特徴 | 詳細 |
---|---|
単一のAPI呼び出しでの複雑なタスク処理 | ・複数のツールとモデルを組み合わせて、複雑なタスクを一度のリクエストで解決 |
組み込みツールとの統合 | ・ウェブ検索、ファイル検索、コンピュータ使用など、様々なツールをすぐに利用可能 |
統一されたデザイン | ・より直感的なAPIデザインで、使いやすさが大幅に向上 |
便利なヘルパー機能 | ・複雑な処理を書かなくても、シンプルなコマンドだけでAIの出力結果を簡単に取得できる仕組み |
Responses APIの仕組み
Responses APIの中核となるのは、OpenAIの強力な言語モデルと組み込みツールの統合です。
このAPIは、開発者がエージェントを簡単に構築できるよう設計されており、複数のツールとモデルターンを使用して複雑なタスクを処理できます。
Responses APIの動作フロー
Responses APIは、以下のように動作します。
Responses APIの動作フロー
この一連のプロセスにより、開発者はわずか数行のコードで高度なエージェント機能を実装できるようになりました。
プロンプトエンジニアリングやカスタムオーケストレーションロジックの手間を大幅に削減できるのです。
Chat Completions APIとAssistants APIとの違い
OpenAIが提供する既存APIとResponses APIの関係について見ていきましょう。
Chat Completions API
- 最も広く採用されているAPIであり、今後も新機能のサポートは継続
- 組み込みツールが不要な場合は、引き続きChat Completionsを使用可能
- 新規開発ではResponses APIが推奨(Chat Completionsのスーパーセットとして機能)
Assistants API
- Responses APIはAssistants APIベータのフィードバックを基に多くの改善を実装
- より柔軟で、高速、そして使いやすく進化
- 2026年半ばに正式終了予定(それまでに完全な機能パリティとスムーズな移行パスを提供)
Responses APIは、OpenAIにおけるエージェント構築の将来の方向性を示しており、長期的にはAssistants APIに取って代わることになります。
OpenAIが考えるエージェント
OpenAIは「エージェント」を、ユーザーに代わって自律的にタスクを完了させるシステムと定義しています。
これは単なる質問応答を超え、複数のステップや異なるツールを組み合わせて目標を達成する能力を持つAIシステムです。
OpenAIのビジョンでは、エージェントは将来的に職場の生産性を大幅に向上させる不可欠な存在になると位置づけています。
企業がより複雑なタスクにAIを活用するなか、OpenAIは開発者とエンタープライズが効果的に自律システムを構築できるよう支援しています。
新しいエージェント構築ツールのラインナップ
OpenAIが今回発表した新しいエージェント構築ツールは以下の4つです。
- Responses API
Chat Completions APIのシンプルさとAssistants APIのツール使用機能を組み合わせた新しいAPI
- 組み込みツール
ウェブ検索: 最新の情報を取得し、明確で関連性の高い引用を提供
ファイル検索: 大量のドキュメントから関連情報を簡単に取得
コンピュータ使用: AIがコンピュータを操作して複雑なタスクを実行
- Agents SDK
単一エージェントおよびマルチエージェントのワークフローをオーケストレーションするための、オープンソースSDK
- 統合可観測性ツール
エージェントのワークフロー実行をトレースし、検査するためのツール
これらのツールを組み合わせることで、エージェントのコアロジック構築からオーケストレーション、デバッグまでをシームレスに行うことが可能になります。
エージェント開発における従来の課題と新ツールによる解決策
OpenAIによると、これまでのエージェント開発には以下のような課題がありました。
従来の主な課題
- 複雑なプロンプトエンジニアリングの必要性
- カスタムオーケストレーションロジックの開発と管理
- エージェントの行動の可視性の欠如
- 複数のAPIやツールの統合の複雑さ
これらの課題に対し、新しいツールは以下のような解決策を提供します。
- Responses API: 単一のAPI呼び出しで複数のツールとモデルターンを組み合わせ
- 組み込みツール: 追加の統合作業なしで高度な機能をすぐに利用可能
- Agents SDK: エージェントワークフローのオーケストレーションを簡素化
- 可観測性ツール: トレーシングでエージェントの動作を可視化し、デバッグを容易に
これらのツールによって、開発者はアイデアから実装までの時間を大幅に短縮できるようになりました。
組み込みツール①:ウェブ検索
Responses APIの主要な組み込みツールの一つがウェブ検索機能です。
これにより、AIエージェントは最新の情報を取得し、明確で関連性の高い引用付きの回答を提供できます。
ウェブ検索ツールの概要と性能
ウェブ検索ツールには以下のような特徴があります。
- GPT-4oおよびGPT-4o-miniモデルで利用可能
- 「ChatGPTの検索機能」と同じモデルによって提供
- 他のツールやファンクションコールと組み合わせ可能
- 明確で関連性の高い引用を含む回答を生成
- ニュース記事やブログ投稿などのソースへのリンクを提供
このツールの性能は非常に高く、事実的な質問に対する精度を評価するSimpleQAベンチマークでは、以下のようなスコアを達成しています。
SimpleQAスコア
SimpleQAは、科学技術、スポーツ、政治、音楽、テレビ番組、ビデオゲームなど、幅広いトピックにわたる4,326の短く明確な質問で構成される事実性評価ベンチマークです。
スコアが高いほど、、ウェブ検索ツールが事実情報の提供に非常に効果的であることを示しています。
ベンチマーク結果から見える強み
ウェブ検索機能を有効にすることで、モデルの事実的な質問への回答精度が大幅に向上します。
特に注目すべきは、GPT-4o miniのような比較的小さなモデルでも、検索機能を利用することで非常に高い精度を達成できる点です。
この高い精度の理由として、以下のような利点が挙げられます。
- 最新の情報へのアクセス(モデルの知識カットオフ日以降の情報)
- 複数のソースからの情報の検証能力
- 専門的なトピックに関する詳細な情報へのアクセス
- ニッチな質問に対する回答能力の向上
ウェブ検索ツールは、Chat Completions APIでも「gpt-4o-search-preview」および「gpt-4o-mini-search-preview」モデルとして直接アクセスすることもできます。
実際の活用事例
実際の導入事例として、Hebbiaというサービスがウェブ検索ツールを活用しています。
Hebbiaは資産管理者やプライベートエクイティ企業などが公開・非公開データから実用的な洞察を抽出できるよう支援しており、検索機能を活用して市場情報の精度と関連性を継続的に向上させています。
組み込みツール②:ファイル検索
ファイル検索ツールは、大量のドキュメントから関連情報を簡単に取得するための強力なツールです。
複数のファイルタイプに対応し、クエリ最適化やメタデータフィルタリングなどの機能により、高速で正確な検索結果を提供します。
ファイル検索ツールの機能と特徴
ファイル検索ツールには以下のような機能があります。
- 複数ファイルタイプのサポート: PDF、テキスト、Word文書など様々な形式に対応
- クエリ最適化: 検索精度を向上させる自動的なクエリ調整機能
- メタデータフィルタリング: 部門、作成日、著者などでの検索絞り込み
- カスタムランキング: 検索結果を関連性や重要度で並べ替え
- 高速検索処理: 大量のドキュメントも迅速に処理
これらの機能により、RAG(検索拡張生成)パイプラインを追加のチューニングや設定なしで構築できるため、以下のような開発が容易になります。
- 複数の文書から情報を統合した包括的な回答の生成
- 専門的な文書やテクニカルドキュメントからの正確な情報抽出
- 文脈を考慮した検索と応答生成
メタデータフィルタリングとカスタムランキング
ファイル検索ツールの強力な機能として、「メタデータフィルタリング」と「カスタムランキング」があります。
メタデータフィルタリングを使うと、以下のような絞り込みが可能です。
カスタムランキング機能では、検索結果の並び順をカスタマイズできます。
これらの機能を組み合わせることで、大規模なドキュメントコレクションからでも、高い精度で関連情報を抽出し、ユーザーの質問に適切に回答することが可能になります。
実際の活用事例
実際の導入例として、Navanという企業の事例を見てみましょう。
Navanはファイル検索ツールをAI旅行エージェントに統合し、ユーザーにナレッジベース記事(会社の旅行ポリシーなど)から正確な回答を迅速に提供しています。
Navanの事例からわかる主なメリットは以下の通りです。
- 追加のチューニングや設定なしで強力なRAGパイプラインを構築
- ユーザーグループごとに専用のベクトルストアを作成し、個々のアカウント設定やユーザーロールに合わせた回答をカスタマイズ
- 顧客とスタッフの時間を節約しながら正確でパーソナライズされたサポートを提供
組み込みツール③:Computer-Use
Computer-Useは、AIがコンピュータを操作して複雑なタスクを実行する革新的な機能です。
同じくOpenAIのAIエージェント、「Operator」で使われているのと同じ「Computer-Using Agent(CUA)モデル」によって動作し、コンピュータ操作タスクで新たな最先端の記録を達成しています。
CUAの主な機能
コンピュータ使用ツールには、以下のような機能があります。
- マウス・キーボード操作のキャプチャ: モデルが生成するマウスの動きやキーボード入力を記録
- アクションの実行: これらのアクションを環境内で実行可能なコマンドに変換
- ブラウザ操作の自動化: ウェブサイトでのフォーム入力や検索などのタスクを自動化
- OS操作: 基本的なオペレーティングシステム操作も実行可能
このツールの応用例としては、ウェブアプリのQAテスト、レガシーシステム間でのデータ入力、複雑なウェブワークフローの自動化などが挙げられます。
ベンチマーク結果と現在の性能
Computer-Using Agent(CUA)は、複数のベンチマークで印象的な結果を示しています。
Computer-Using Agent(CUA)のベンチマーク結果
OSWorld: 38.1%の成功率(以前の最高記録は22.0%)
- AIモデルがUbuntu、Windows、macOSなどのOSを制御する能力を評価
- 369の実用的なコンピュータタスクで構成
WebArena: 58.1%の成功率(以前の最高記録は36.2%) - AIがウェブブラウザで実際のタスクを実行する能力を評価
- eコマースやコンテンツ管理など様々なカテゴリのタスクを含む
WebVoyager: 87.0%の成功率(以前の最高記録は56.0%) - 実際のウェブサイト(Amazon、GitHub、Googleマップなど)で指示を完了する能力を評価
- 643のタスクで構成
これらのベンチマーク結果から、特にウェブブラウジングタスクでは高いパフォーマンスを示しています。
しかし、以下のような現在の限界もあります。
- 非ブラウザ環境での信頼性はまだ低い(OSWorldスコアが38.1%)
- 複雑なマルチステップワークフローではミスが発生する可能性
- OS操作タスクでは人間の監視が推奨
- 複雑なUIの理解に課題
安全性への取り組み
OpenAIは、コンピュータ使用ツールのリリースに先立ち、広範な安全性対策を実施しています。
安全性テスト
- 誤用、モデルエラー、フロンティアリスクに対処するテストを実施
- 追加の安全性評価とレッドチーミングで新たなリスクに対応
開発者向けリスク軽減策
- プロンプトインジェクション対策の安全性チェック
- センシティブなタスクに対する確認プロンプト
- 環境隔離のための開発者ツール
- ポリシー違反の検出強化
これらの対策はリスクを軽減しますが、特に非ブラウザ環境では不注意なミスが起こる可能性があるため、人間の監視が推奨されています。
実際の活用事例
コンピュータ使用ツールの実際の活用事例をいくつか紹介します。
Unifyの事例
Unifyは収益拡大のためのシステムとして、コンピュータ使用ツールを活用し、APIではアクセスできなかった情報を取得しています。
例えば、オンラインマップを通じて不動産管理会社の拠点拡大状況を確認し、それをカスタム信号としてパーソナライズされたアウトリーチに活用しています。
Luminaiの事例:
Luminaiはレガシーシステムを持つ大企業向けに複雑な運用ワークフローを自動化しています。あるコミュニティサービス組織とのパイロットプロジェクトでは、アプリケーション処理とユーザー登録プロセスを数日で自動化しました。
これは従来のRPAでは数ヶ月かかっていたタスクです。
各エージェントツールの料金体系
OpenAIのエージェント構築ツールの料金を理解することは、効率的な実装を計画する上で重要です。
各ツールの料金体系を見ていきましょう。
Responses API
- 別途料金は発生せず、使用するトークンとツールに基づいて標準レートで課金
- 基本的なトークン料金はChat Completionsと同様
ウェブ検索ツール
モデル料金
モデル | 入力料金 (100万トークンあたり) | 出力料金 (100万トークンあたり) |
---|---|---|
gpt-4o-search-preview | $2.50 | $10.00 |
gpt-4o-mini-search-preview | $0.15 | $0.60 |
検索コンテキスト料金
モデル | 検索コンテキストサイズ | 料金 (1000回の呼び出しあたり) |
---|---|---|
gpt-4o/gpt-4o-search-preview | 低 | $30.00 |
gpt-4o/gpt-4o-search-preview | 中(デフォルト) | $35.00 |
gpt-4o/gpt-4o-search-preview | 高 | $50.00 |
gpt-4o-mini/gpt-4o-mini-search-preview | 低 | $25.00 |
gpt-4o-mini/gpt-4o-mini-search-preview | 中(デフォルト) | $27.50 |
gpt-4o-mini/gpt-4o-mini-search-preview | 高 | $30.00 |
ファイル検索ツール料金表
サービス | 料金 |
---|---|
ファイル検索ツール呼び出し(Responses APIのみ*) | 1000回の呼び出しあたり$2.50(*Assistants APIには適用されません) |
ファイルストレージ | 1GB/日あたり$0.10(最初の1GBは無料) |
Computer-Use
モデル | 入力料金 (100万トークンあたり) | 出力料金 (100万トークンあたり) |
---|---|---|
computer-use-preview | $3.00 | $12.00 |
Agents SDK
オープンソースで無料で利用可能です。
ただし、使用するモデルとツールに対する標準料金は発生します。
▶︎openai-agents-python(GitHub)
これらの料金は各ツールの利用量に基づいて課金され、OpenAIの価格ページに記載された標準レートが適用されます。
エージェント開発における安全性と倫理的配慮
AIエージェントは強力なツールですが、その開発と展開には安全性と倫理的な配慮が必要です。OpenAIは安全性を最優先に考え、様々な対策を講じています。
OpenAIの安全性への取り組み
OpenAIはエージェント構築ツールのリリースに先立ち、以下のような安全性への取り組みを行っています:
- 安全性テストとレッドチーミング: 誤用、モデルエラー、フロンティアリスクに対処
- 安全性評価: APIを通じて機能を拡張する際の追加リスクに対応
- 継続的なモニタリング: モデルのパフォーマンスと安全性を監視し問題に対処
- システムカードの公開: 安全性に関する取り組みの詳細を透明に共有
コンピュータ使用ツールなどの特に強力な機能については、発表前に広範な安全性評価が実施されています。これにより、潜在的なリスクを特定し、適切な対策を講じることができています。
プロンプトインジェクション対策
プロンプトインジェクションは、悪意あるユーザーがAIモデルに不適切な指示を挿入して、意図しない動作を引き起こす攻撃です。
この対策として以下の方法が実装されています。
1. 入力検証の実装
- ユーザー入力を検証し、不審なパターンをフィルタリング
- Agents SDKのガードレール機能を活用
2. ロールと権限の明確な定義
- エージェントに明確なロールと権限の境界を設定
- エージェントが実行できるアクションの範囲を制限
3. サニタイズされた命令の使用
- エージェントへの指示をユーザー入力から分離
- ユーザー入力は常にユーザーコンテンツとして明示的にマーキング
4. 出力フィルタリング
- エージェントの出力を検査し、不審なパターンをフィルタリング
- 機密情報や不適切なコンテンツの漏洩を防止
これらの対策を組み合わせることで、プロンプトインジェクション攻撃のリスクを大幅に軽減できます。
まとめ
OpenAI Responses APIは、エージェント開発の世界に革命をもたらす可能性を秘めた強力なツールです。Chat CompletionsのシンプルさとAssistants APIのツール使用機能を組み合わせることで、開発者は少ないコードで複雑なエージェント機能を実装できるようになりました。
主要な組み込みツールである「ウェブ検索」「ファイル検索」「コンピュータ使用」と、エージェントワークフローをオーケストレーションするための「Agents SDK」を組み合わせることで、多様なユースケースに対応する高度なエージェントシステムが構築可能です。
特に注目すべきは、コンピュータ使用ツール(CUA)の可能性です。ウェブブラウザや基本的なOS操作を自動化できるこの技術は、今後のAIエージェント開発に大きな影響を与えるでしょう。
OpenAIは安全性と倫理的配慮を最優先に、これらのツールの開発を進めています。プロンプトインジェクション対策やセンシティブタスクの確認など、多層的な安全対策が実装されています。
Responses APIとそのエコシステムは、AIエージェントの新たな可能性を切り開き、私たちの働き方やデジタル世界との関わり方を大きく変革する可能性を秘めています。今後の進化から目が離せません。