この記事のポイント
- ChatGPTの最新モデル「GPT-4o(GPT-4 omni)」について紹介しています。
- ChatGPT-4oの読み方はChatGPT-4 omni(オムニ)です。
- チャットGPT4oでは、日本語を初めとする多言語の機能向上やAPIの費用削減など、性能と利便性の向上が図られています。
- アップデートにより、言語だけでなく、画像、音声全てにおいてより生成AIが身近に、実用的になることでしょう。
- GPT-4oはGoogle Drive・OneDriveとの連携やグラフの作成、音声会話も行えます。
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
ChatGPTの革新的な進化を追いかけたい人にとって、最新のアップデートは見逃せません。
本記事では、AIの技術的進展における重要なマイルストーンと言えるChatGPT-4oに焦点をあて、特に日本語を含む非英語言語の性能向上や返答スピードの高速化、そしてコスト削減といった、目に見える進化について実例もあげながら詳細に解説しています。
また今までChatGPTを無料でしか使っていなかった方も朗報です!料金は安くなっただけでなく無料の方に多くの機能を解放しました。
その詳細、使い方も詳しく解説していますのでぜひ最後までご覧ください!
最新モデル、OpenAI o1(o1-preview)について詳しく知りたい方は、こちらの記事もご覧ください⬇️
OpenAI o1(ChatGPT o1)とは?その特徴や使い方、料金体系を徹底解説!
目次
ChatGPT-4o(GPT-4o)とは
アップデートされたGPT-4oの画像
ChatGPT-4oとして報告された今回のアップデートはAI全体の技術的進展において極めて重要 です。
特に今回のアップデートでは注目すべきものがいくつもありました。
特に注目すべき3つのアップデート
- より返答が人間の返答スピードに近く なりました(音声入力に対して最短232ミリ秒、平均320ミリ秒で応答)。
- 性能は従来のGPT4-turboに匹敵し、日本語のような非英語言語の性能向上が報告されています。
- それだけでなくAPIの費用は50%安く もなっています。
このように性能が上がり、新たに視覚と聴覚、発声能力が向上したGPT4oおよびそのアップデートについて徹底的に解説していきます。
各アップデートにより人工知能の役割が増大し、教育、カスタマーサポート、コンテンツ生成などの分野に大きな影響を与えています(現に多くのサービスがすでにこのAPIを取り込みサービスをアップデートさせています)。
最新のChatGPT-4oの導入で、より多くのユーザーが最新のAI技術を利用できるようになり、組織や個人の生産性と創造性が向上することが期待されます。
GPT-4o miniとは
OpenAIは、最もコスト効率の高い小型モデル「GPT-4o mini」を発表しました。GPT-4を上回る性能を持ちながら、GPT-3.5 Turboよりも60%以上安価です。(API利用料金)
テキストとビジョン(マルチモーダル機能)をサポートし、将来的にはビデオやオーディオにも対応予定です。
数学、コーディング、マルチモーダル推論など様々なタスクで高いパフォーマンスを発揮し、安全対策も強化されています。
発表当初はAPI経由でのみ利用可能でしたが、現在はChatGPTの無料版・有料版(ChatGPT Plus)でも利用可能です。
モデル選択画面。(画像はChatGPT Plusの場合)
ChatGPT-4o(GPT-4o)の料金
ChatGPT-4oは、有料プランであるChatGPT Plusに加入する事で利用可能です。
ただし、Plusプランに加入していないユーザーも回数制限は有りますが無料でGPT4oを利用することが可能です。
【関連記事】
ChatGPT4とGPT-4oの料金、支払い方法を解説!無料で利用する方法も紹介!
以下の表は、無料ユーザーとPlusユーザーの利用可能な機能を示しています。
項目 | 無料ユーザー | Plusユーザー |
---|---|---|
利用可能なモデル | GPT-3.5,GPT-4o | GPT-3.5,GPT-4,GPT-4o |
GPT-4oの回数制限 | 5時間あたり10回まで | 3時間あたり80回まで |
ウェブからの情報取得 | ○ | ○ |
マルチモーダル機能 | ○ | ○ |
データ分析 | ○ | ○ |
ファイルのアップロード | ○ | ○ |
画像生成(DALL-E3) | × | ○ |
音声会話 | ○ | ○ |
GPTストアの利用 | ○ | ○ |
GPTsの作成 | × | ○ |
無料ユーザーでも多くの機能を楽しめるようになり、普及が進むことが予想されます。
ChatGPT4o(GPT-4o)のAPI料金
GPT-4oでは従来のGPT-4-turboと比較して、入力と出力ともに半分の金額になりました。
従来の流れを考えるとAzure OpenAI においても同等の費用になることが推測されます。
モデル | 入力 | 出力 |
---|---|---|
gpt-4o | $5 / 1M tokens | $15 / 1M tokens |
gpt-4o-2024-05-13 | $5 / 1M tokens | $15 / 1M tokens |
gpt-4-turbo | $10 / 1M tokens | $30 / 1M tokens |
gpt-4-turbo-2024-04-09 | $10 / 1M tokens | $30 / 1M tokens |
GPT-4o API 料金とGPT-4-turboの料金比較
ChatGPT4o(GPT-4o)の使い方
ChatGPTのブラウザに訪れることで利用が可能です。
しかし、有料版・無料版・スマホ版それぞれで切り替え方法が異なります。
GPT-4oの有料版(ChatGPT Plus)での使い方
左上のモデル選択の部分からGPT-4oをクリックしてください。
GPT4oの選択方法
従来のChatGPTの使い方通りに利用することが可能です。
GPT-4oの無料版での使い方
ChatGPT Plusに未加入のユーザーでも、一定の利用回数まではGPT3.5とGPT-4oを切り替えて使用できます。
ただし、「5時間あたり10件までの回数制限」が設けられており、制限に達した後はGPT-3.5モデルのみ利用可能になります。
GPT4oとGPT-3.5の切り替えが可能
GPT-4oのアプリでの使い方
ChatGPTスマホアプリの場合も、有料版と無料版でそれぞれ切り替え方法が異なります。
有料版の場合
ChatGPTとのトーク画面上部の、「ChatGPT 〇〇(モデル名)」の箇所をタップすると、モデルの切り替えが可能です。
無料版の場合
- ChatGPTトーク画面で何かしらメッセージを送り、ChatGPTの回答を長押しします。
- すると、GPT-4oとGPT-3.5のいずれかを選択可能です。
デスクトップアプリでの使い方
ChatGPTのデスクトップアプリは、ChatGPTの公式サイトからインストール可能です。
注意点として、Windowsユーザー向けにはまだ提供されていないこと、
AzureでのGPT4o利用方法
Azure OpenAI Studioの、「Early Access Playground」から利用可能です。
ただし、日本リージョンには対応していないこと、プレビュー段階であることにはご注意ください。
【 GPT-4o の発表:Azure 上でプレビュー開始】#OpenAI の新しいフラッグシップモデルである GPT-4o が、 #Azure #AI 上から利用できることを嬉しく思います。このマルチモーダルモデルは、テキスト、視覚、音声の機能を統合し、次世代の #生成AI 体験をもたらします。https://t.co/9Zsd5IcjyD
— 日本マイクロソフト株式会社 (@mskkpr) May 14, 2024
ChatGPT4oアップデートの特長
OpenAIは、新たなモデルであるGPT-4oを発表しました。このモデルは テキスト、音声、画像の入力をリアルタイムで処理 し、出力も生成できる次世代のAIです。
全ての入力と出力を同じニューラルネットワークで処理するため、情報の損失が少なく、より自然なインタラクションが可能です。
音声会話・音声入力機能の改良
以前の音声モードは音声をテキストに変換し、再び音声に変換するプロセスを3つのモデルで行っていました。
GPT-4oではこれが単一のモデルで行われるため、情報の損失が減少し、音声のトーンや背景音も含めた高度な処理が可能となります。
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
— OpenAI (@OpenAI) May 13, 2024
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
このXのツイートは、OenAIが今回のアップデートを模擬した動画です。
リアルタイムでの返事や、感情表現などその性能がおわかりになるかと思います。
画像生成の機能向上
GPT-4oは画像生成機能が大幅に向上しており、視覚的なストーリー生成にも対応しています。
従来の画像生成では、生成した画像に一貫性を持たせることが難しく、画像が崩壊してしまうことも多々ありました。
今回のアップデートにより一貫性が大幅に改善されています。
例えば、「ロボットがタイプライターで日記を記す様子」など、多様なビジュアルコンテンツを生成できます。
これにより、豊かな表現力を持つAIが実現されました。
表示物の一貫性を保った画像の生成
3Dの画像、およびそれが回転する動画の生成ができることも述べられています。
3Dの動画生成の画像
GPT-4oのモデル評価と性能
GPT-4oは、テキスト、音声、ビジョンの各分野で優れたパフォーマンスを発揮しており、その性能について数値的にも示しています。
特に音声認識や翻訳、視覚理解の分野で高い評価を受けています。
音声認識性能が大幅に向上し、低リソース言語でも高い精度を実現しました。マルチリンガルな評価でもGPT-4を上回る結果を示しています。
評価項目 | GPT-4oの性能 |
---|---|
テキスト処理 | GPT-4 Turboと同等、マルチリンガルで優れた性能 |
音声認識 | Whisper-v3を上回る性能、低リソース言語でも高精度 |
音声翻訳 | 最先端の性能、MLSベンチマークでWhisper-v3を上回る |
視覚理解 | 0-shot評価で高い性能、MathVistaやChartQAで優れた結果 |
回答速度においても非常に速い回答ができるようになっています。
こちらはX(旧Twitterで)投稿されたGPT-4oの回答速度を載せられた投稿ですが、回答スピードに驚きの声が多く寄せられています。
ChatGPT4o、爆速すぎて笑ってる。この速度でこの性能とか他の追随を許さない感じすごい pic.twitter.com/fxnpyzWeBD
— あるふ (@alfredplpl) May 13, 2024
テキスト評価
テキスト性能でも大きくGPT-4oの性能の良さについて評価されています。
項目 | GPT-4o | GPT-4T | GPT-4(初期リリース 23-03-14) | Claude 3 Opus | Gemini Pro 1.5 | Gemini Ultra 1.0 | Llama3 400b |
---|---|---|---|---|---|---|---|
MMLU (%) | 88.7 | 86.8 | 85.6 | 85.8 | 86.1 | 81.9 | 86.1 |
GPCQA (%) | 53.6 | 48.0 | 50.4 | N/A | 48.0 | 35.7 | N/A |
MATH (%) | 76.6 | 72.6 | 60.1 | 58.5 | 57.8 | 42.5 | 53.2 |
HumanEval (%) | 90.2 | 87.1 | 84.9 | 84.1 | 71.9 | 74.4 | 67.0 |
MGSM (%) | 90.5 | 88.7 | 90.7 | 79.0 | 80.9 | 74.5 | 82.4 |
DROP (f1) | 86.0 | 83.4 | 83.1 | 83.5 | 81.8 | 78.2 | 82.4 |
テキスト性能の評価グラフ
音声認識と翻訳
音声認識(ASR)の性能と翻訳精度を示しています。
音声認識の評価はWord Error Rate(WER%)を用いており、値が低いほど性能が優れています。比較されているモデルはWhisper-v3とGPT-4o(16-shot)です。
音声翻訳の方は高いほど精度が優れており、Geminiを超える翻訳精度であることが示されています。
地域 | Whisper-v3 WER(%) | GPT-4o 16-shot WER(%) |
---|---|---|
西ヨーロッパ | 約5.5 | 約4.5 |
東ヨーロッパ | 約11 | 約6 |
中央アジア/中東/北アフリカ | 約20 | 約14 |
サハラ以南のアフリカ | 約30 | 約22 |
南アジア | 約34 | 約27 |
東南アジア | 約9 | 約6.5 |
CJK(中国語、日本語、韓国語) | 約7 | 約5.5 |
音声認識(ASR)の性能のグラフ
音声翻訳性能のグラフ
新しいトークナイザー
トークン計算イメージ画像
新しいトークナイザーは、複数の言語でトークン数を大幅に削減し、より効率的なテキスト処理を可能にします。
これにより、多言語対応が強化され、様々な言語での使用が容易になりました。
日本語もトークン数は削減されています。また、日本語以外の言語でも大きくトークン効率が良くなっていることがわかります。
言語 | トークン数削減比率 | 例文 |
---|---|---|
日本語 | 1.4倍 | こんにちわ、私の名前はGPT−4oです。私は新しいタイプの言語モデルです、初めまして。 |
グジャラート語 | 4.4倍 | હેલો, મારું નામ GPT-4o છે। |
テルグ語 | 3.5倍 | నమస్కారము, నా పేరు GPT-4o. |
タミル語 | 3.3倍 | வணக்கம், என் பெயர் GPT-4o. |
マラーティー語 | 2.9倍 | नमस्कार, माझे नाव GPT-4o आहे। |
ヒンディー語 | 2.9倍 | नमस्ते, मेरा नाम GPT-4o है। |
他多数の言語もトークン数が削減されています。
【関連記事】
トークン数についての説明は、こちらの記事をご覧ください。
➡️ChatGPT APIの料金は?モデル別の比較や費用を抑えるコツを解説
画像の視覚認識
様々なAIモデルの視覚認識における性能を評価した結果を示しています。
各評価セットのテスト結果はパーセンテージで示されており、高い数値ほど良い性能を意味します。
GPT-4oの精度の高さがよくわかります。
Eval Sets | GPT-4o | GPT-4T 2024-04-09 | Gemini 1.0 Ultra | Gemini 1.5 Pro | Claude Opus |
---|---|---|---|---|---|
MMMU (%) (val) | 69.1 | 63.1 | 59.4 | 58.5 | 59.4 |
MathVista (%) (testmini) | 63.8 | 58.1 | 53.0 | 52.1 | 50.5 |
AI2D (%) (test) | 94.2 | 89.4 | 79.5 | 80.3 | 88.1 |
ChartQA (%) (test) | 85.7 | 78.1 | 80.8 | 81.3 | 80.8 |
DocVQA (%) (test) | 92.8 | 87.2 | 90.9 | 86.5 | 89.3 |
ActivityNet (%) (test) | 61.9 | 59.5 | 52.2 | 56.7 | 56.7 |
EgoSchema (%) (test) | 72.2 | 63.9 | 61.5 | 63.2 | 63.2 |
ChatGPT4o(GPT-4o)でできること
Google Drive・OneDriveとの連携
ChatGPTは、クラウドストレージサービスであるGoogle DriveとMicrosoft OneDriveと直接連携できるようになりました。
これらのサービスに保存されているスプレッドシート、ドキュメント、プレゼンテーションファイルを、ChatGPTに直接アップロードして分析することができます。
<<ChatGPTでデータ分析、データ入力の連携がスムーズに>>
— 坂本将磨@AI導入をもっと身近に (@LinkX_group) May 17, 2024
ドライブとの接続がスムーズで、ユーザ体験としてはめちゃくちゃ良いのでは。
個人的な利用用途としては、これでデータ分析を完結させるというより初期分析として活用すると生産性が向上する。… pic.twitter.com/SjZROEvdua
実際の手順
- ChatGPTの会話画面のアイコンをクリックし、「設定」を押します。
- 「接続するアプリ」を選択すると、次の様な画面が表示されます。
ここで、連携したいストレージアプリを選択してください。
接続先の選択
- 「接続する」を選択すると、以下の様な確認画面に遷移するので、続行を選択します。
接続確認
4. チャット画面のクリップマーク(画像矢印)を選択し、連携したアプリが表示されていれば設定完了です。
ファイルアップロードのボタン
リアルタイム翻訳
OpenAI demos real-time language translation with its latest GPT-4o model. pic.twitter.com/pXtHQ9mKGc
— TechCrunch (@TechCrunch) May 13, 2024
画像から作品の詳細を提供
GPT-4o凄いな、速いだけじゃなくて賢い。
— AIセバスちゃん (@SebasAi) May 14, 2024
1枚目 GPT-4
2枚目 GPT-4o
なんで分かるんだよ。まじかよ pic.twitter.com/2mJsujYk9c
ロゴの画像認識(OCR)
GPT-4o、OCR性能もえぐい‥‥この人間でも認識困難なAIカオスマップの内容を永遠に吐き出してくる pic.twitter.com/0DumgrPYFv
— 石川陽太 Yota Ishikawa (@ytiskw) May 13, 2024
データ分析
#GPT4o のデータ分析能力が凄い!
— IT navi (@itnavi2022) May 14, 2024
データを渡しただけで、一瞬で色々分析してくれる。 pic.twitter.com/n7m46F9nNe
手書きの画像から図を作成
スライド作成は人間の仕事ではなくなりそう…
— あやみ|マーケティング (@ayami_marketing) May 14, 2024
GPT-4oで、画像→図表作成→PowerPoint出力ができた!
(手書きが汚すぎるけど、ちゃんと書いたらそれなりにいけそう!) pic.twitter.com/nvnJWefsYh
グラフの作成
GPT-4oのデータビジュアライゼーションの機能が素晴らしい!
— KEITO💻AIディレクター (@keitowebai) May 23, 2024
基本的な使い方
CSVなどのファイルを送って「グラフを作成してください」と言えば良い感じのグラフを作成してくれる。その前に「このデータに最適なグラフを教えて下さい」と言うとこちらからある程度求めていたものを指定出来る。… pic.twitter.com/pdl5VI51IY
GPT-4oのセキュリティ
GPT-4oは、安全性を重視して設計されています。トレーニングデータのフィルタリングやモデルの行動の調整を通じて、安全性を確保しています。
また、外部の専門家によるリスク評価も行われており、モデルの安全性が高められていることが述べられています。
要約すると以下のように記載されています。
GPT-4oは、訓練データのフィルタリングや事後訓練で安全性を高め、音声出力に対する新しい安全システムを構築しました。評価では、サイバーセキュリティや自律性などのカテゴリーで「中」以上のリスクはありません。
70人以上の外部専門家と協力し、リスクを特定・軽減しました。
現在はテキストと画像の入力、テキスト出力を公開しており、数週間から数ヶ月以内に音声入力とテキスト出力も公開予定です。
急速に進化するAIとともに安全上のリスクと対策も進化していく必要があります。利用する側もリテラシーを持った対応が必要とされるでしょう。
まとめ
本記事では、最新のChatGPTアップデートの要点をまとめ、その重要性と影響を探りました。GPT-4omniという予想外の発表、新機能の導入、知識更新の拡大、開発者とエンドユーザーへの利便性向上など、これまでの進化とは一線を画する内容となっています。
GPT-4oはChatGPTの無料ティアとPlusユーザーに提供され、API経由でのアクセスも可能です。GPT-4oは従来のモデルに比べて2倍の速度で、半分のコストで利用でき、5倍のメッセージ制限を持ちます。
今後、音声とビデオの機能も提供される予定です。ChatGPTデスクトップ版ではコーディングのサポートも強まる見込みです。非常に楽しみですね!
アップデートされるごとに本記事もアップデートしていきますのでどうぞ参考にされてください。
参考文献: Hello GPT-4o