GPT-4Vとは

GPT4Vのイメージ
GPT-4Vのイメージ

2023年9月にOpenAIは新機能GPT-4V(GPT-4 Vision)を発表しました。

これは従来のGPT-4の機能に加え、画像解析機能と音声出力機能を統合したマルチモーダルAIです。
この記事では視覚と聴覚がついたGPT-4Vの使い方と、その活用法をご紹介します。

マルチモーダルの解説画像

GPT-4Vでできること

GPT-4Vにはこのような機能があります。

1.ChatGPTで画像入力ができる
2.ChatGPTで似ている画像の生成を行う
3.ChatGPTで音声入力ができる

GPT-4Vができること

1.ChatGPTで画像入力ができる

ChatGPTで画像入力ができる

画像入力機能を使うことで、アップロードした画像に関する質問をすることができます。例えば、画像内の物体を識別するよう依頼したり、画像のシーンを説明してもらったりすることが可能です。その画像を解析し、それに関連するテキスト情報を提供します。

例えば画像を入力してみます。

GPT画像説明

すると画像に写っている風景や状況を読み取り、それについて解説してくれます。

以下は、Xに投稿された活用事例です。

画像からソフトウェアを作成する

From now on I’m now going to be using AI to build software by simply drawing it. pic.twitter.com/qKovq5CJBA
— Mckay Wrigley (@mckaywrigley) September 27, 2023

画像から実際のコードを書く

ChatGPT、クラス図からクラス書いてくれる。
ニャー、ワンワンまで書いてくれるのヤバすぎだろー pic.twitter.com/8YbObkQduG
— きしだൠ(K1S) (@kis) September 27, 2023

複雑な政府資料を説明する

GPT-4V vs. 霞が関 pic.twitter.com/6im95nLZET
— めんだこ (@horromary) September 28, 2023

2.ChatGPTで似ている画像の生成を行う

類似画像の生成機能によって、様々なアイデア案を検討することや、画像の高画質化が可能になりました。

例えば、写真のイラスト化や類似画像の生成を頼むことが可能です。

類似画像生成例

以下では実際の活用例を紹介します。

ラフ画をロゴにする

The combination of Bing Chat vision with DALL•E 3 is amazing.

Bing not only understood my image but also brought my logo sketch to life using DALL•E 3.

Here is how you can do it too in a couple of minutes: pic.twitter.com/tby9IcqEd8
— Alvaro Cintas (@dr_cintas) October 2, 2023

デザインカンプの案を出す

DALL-E 3 can design website mockups in seconds.

This will change everything for designers — infinite ideas and inspiration. pic.twitter.com/wDb2wuMCk4
— Matt Shumer (@mattshumer_) October 4, 2023

【関連記事】
➡️【画像生成AI】DALL-E3とは？その魅力や使い方を徹底解説

3.ChatGPTで音声入力ができる

GPT-4Vの音声入力機能を使用する際のメリットは、手を使わずに操作ができる点、テキスト入力が苦手な人でも簡単に利用できる点です。

ChatGPT音声入力
ChatGPTの音声入力機能

以下で実際の活用例を見ていきましょう。

英会話の先生として振る舞う

えぐい！

えぐい、えぐい！

ハンズフリーでChatGPTと会話できる

どうなってんだこれ、本当に今日まで生きてきた世界か？

未来に来たのか？ pic.twitter.com/vulhoylWIy
— チキン（小橋川遥）＠マーケター (@HeroofChickens) September 27, 2023

キャラクターと会話する

AIキャラクターとの生活が実現してる！

スマホの中のキャラクターが、ChatGPTの視覚機能「GPT-4V」の機能を使い、冷蔵庫の中のものを把握して会話できてます。

全員にAIキャラがついて人生を伴走してくれる、新しい世界がきます✨pic.twitter.com/SHKPCkGrxx
— ひろちゅ～ (@hirochuu8) December 16, 2023

ハンズフリーでChatGPTと音声会話する

ついにやっちまった。
ChatGPTと音声で直接喋れる様になった。

これで、皿洗い中でもChatGPTに相談できる。。

勿論、誰でもできるように、一行もコード書かずに、全部無料でやる方法を模索しました。需要あれば後日解説出します。

以降、面倒な電話はこいつに対応してもらうか。。笑 pic.twitter.com/N5mG87bQFB
— 平岡 | 誰も置いていかない生成AI発明家 (@hiraoka_dx) February 25, 2023

GPT-4Vが苦手なこと

一般的に画像内の情報が非常に混み入っていたり難解な場合、GPT-4Vで推論することは難しくなります。
以下で事例を紹介します。

クロスワードを解く

クロスワード/gpt4V

2つの画像を比較するタスク（間違い探し）はある程度可能ですが、完璧な精度ではないようです。

参考：チャンネルガイド　漢字クイズ

専門知識が必要なタスク

この実験ではGPT-4Vの識別能力を測るために専門家の放射線科医として、この画像の放射線診断レポートの生成タスクを課しました。
診断結果として肺結節のおよそ正しい見解を示している一方、位置やサイズについてはハルシネーションを起こしています。

Here, the model correctly identified a suspicious pulmonary nodule but incorrectly described its location and explicitly hallucinated its size. Additionally, it inferred a lack of pathologically enlarged lymph nodes, which is impossible to determine from just one slice. pic.twitter.com/avQCbTmLVS
— Christian Bluethgen (@cxbln) October 4, 2023

参考：The Dawn of LMMs: Preliminary Explorations with GPT-4V(vision)

その他OpenAIによる制限

OpenAIにより、下記のような質問には応答しないよう設定されています。

個人情報の特定（例：ユーザーが人物の画像をアップロードしてその人物が誰かを尋ねる場合、または一対の画像をアップロードして同じ人物かどうかを尋ねる場合）
デリケートな話題（例：年齢、人種）
根拠のない結論を招きかねないもの

参考：GPT-4V(ision) System Card

GPT-4Vの料金体系

GPT-4Vは「ChatGPT Plus（月額20ドル）」に加入することで使用できます。
また、既に有料プランへ加入済みのユーザー（ChatGPT Team含む）はGPT-4Vが利用可能になっています。

GPT-Vの料金

ChatGPTPlusではGPT-4Vによる画像読み込みや音声入力・会話機能だけではなく、ブラウジング機能やGPTsなど様々な機能が使えるのでおすすめです。

【関連記事】
➡️ChatGPT Plusとは？その機能や無料版との違い、料金体系を徹底解説！

GPT-4VのAPI料金

GPT-4VのAPI料金は、入力1Mトークンあたり10.00ドル、出力1Mトークンあたり30.00ドルで提供されています。

トークンの計算方法やChatGPT APIの使い方について詳しく知りたい方は、以下の記事をご覧ください。

記事が見つかりません | AI総合研究所 | AI総合研究所

お探しの記事は見つかりませんでした。

https://www.ai-souken.com/article/exploring-chatgpt-api

GPT-4Vの使い方

GPT-4Vを使うにはまずChatGPTにログインし、モデルのバージョン「GPT-4o」もしくは「GPT-4」を選択してください。

画像入力機能の使い方

1.画像をアップロードするボタンをクリックし、画像を選択します。

2.画像を添付後、通常のChatGPTの使い方同様関する質問やタスクを入力します。

3.GPT-4Vが画像を解析し、適切な回答を生成します。

画像入力機能では以下のようなことができます。

画像の内容を説明させる
画像から位置情報を特定する
画像内のアイテムの用途を説明させる
手書きの文字や図を読み取らせる
チャートや図表を分析させる

音声機能の使い方

GPT-4Vの音声入力・音声会話機能は、無料版・有料版のいずれでも利用可能ですが、ブラウザ版(PC版)とスマホアプリ版で利用方法が異なります。

スマホ版ではアプリ内のマイクボタンを押すことで簡単に使えますが、ブラウザ版ではデフォルトで搭載されていません。
そのため、ブラウザ版で音声会話機能を利用したい場合は、Google Chromeの拡張機能をインストールする必要があります。

詳しい使い方については、以下の記事をご覧ください。

ChatGPTの音声入力・音声会話機能とは？設定方法や使い方を解説 | AI総合研究所

ChatGPTの音声入力機能と設定方法を丁寧に解説。PC・スマホそれぞれでの使い方や、ビジネスや英会話練習など多様なシーンでの活用をご紹介します。

https://www.ai-souken.com/article/voice-input-in-chatgpt

GPT-4Vは画像と音声の入力に対応したことで、従来のChatGPTよりも幅広い用途で活用できるようになりました。ぜひ実際に試して、その便利さを体感してみてください。

まとめ

GPT-4Vは、テキスト、画像、音声といった様々な入力形式を理解し、それに応じた応答やコンテンツ生成が可能な強力なAIモデルです。
この進化により、ChatGPTはテキストのみのの対話ツールから、視覚と聴覚を持つマルチモーダルAIへと変貌を遂げました。

ChatGPT Plusへの加入により、これらの機能を最大限に活用することができます。今後、教育・研究・データ分析・エンジニアリングなど、多岐にわたる分野での応用が期待されています。