この記事のポイント
- この記事はMicrosoft Azureで利用可能になったPhi-3 visionに関する解説です。
- Phi-3 visionはテキストと画像の理解・生成を行うマルチモーダルAIモデルです。
- Phi-3ファミリーにはPhi-3 visionのほか、小型言語モデルのPhi-3-mini、Phi-3-small、Phi-3-mediumがあります。
- これらのモデルはMicrosoftの責任あるAI基準に準拠し、安全性が高いです。
- 顧客はタスクの複雑さや計算リソースに合わせて最適なモデルを選択できます。
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
クラウドプラットフォームMicrosoft Azure上で、新たにPhi-3 visionが利用可能になりました。
このモデルは、テキストと画像を融合させたマルチモーダルAIであり、画像の理解からテキスト生成まで幅広いタスクをこなすことができる革新的な機能を備えています。
本記事では、Phi-3 visionを含むPhi-3モデルファミリーの特徴と各モデルの利点、また安全性への取り組みについて詳しくご紹介します。
こうした最先端の技術が、ビジネスや研究でいかに利活用されるか、具体的なユースケースを交えつつ掘り下げていきましょう。
Phi-3-vision:言語と視覚の機能を統合
Phi-3-visionは、Phi-3ファミリーの最初のマルチモーダルモデルであり、テキストと画像を統合し、現実世界の画像を推論し、画像からテキストを抽出して推論する機能を備えています。
また、チャートやダイアグラムの理解にも最適化されており、洞察の生成や質問への回答に使用できます。
Phi-3-visionのマルチモーダル機能
高性能で費用対効果の高いPhi-3モデルファミリー
Phi-3モデルは、高品質のトレーニングデータを使用してトレーニングされた、利用可能な最も高性能で費用対効果の高い小型言語モデル(SLM)です。
Phi-3モデルファミリーには、以下の4つのモデルが含まれます。
モデル | 説明 |
---|---|
Phi-3-vision | 言語とビジョン機能を備えた4.2Bパラメータのマルチモーダルモデル |
Phi-3-mini | 3.8Bパラメータの言語モデル(コンテキスト長128Kと4Kの2バリエーション) |
Phi-3-small | 7Bパラメータの言語モデル(コンテキスト長128Kと8Kの2バリエーション) |
Phi-3-medium | 14Bパラメータの言語モデル(コンテキスト長128Kと4Kの2バリエーション) |
これらのモデルは、Microsoft の責任ある AI、安全性、セキュリティ基準に従って開発され、すぐに使用できる状態になっています。
【関連記事】
➡️マイクロソフトが新AIモデルPhi-3シリーズを発表
小型サイズで画期的な性能
Phi-3モデルは、同じサイズの言語モデルだけでなく、はるかに大きな言語モデルよりも優れた性能を発揮します。
例えば、Phi-3-smallはGPT-3.5Tを上回り、Phi-3-mediumはGemini 1.0 Proを凌駕しています。Phi-3-visionも、一般的な視覚的推論タスクにおいて大型モデルよりも優れた性能を示しています。
Phi-3ファミリーのリーダーボード
安全性を最優先に
Phi-3モデルは、Microsoftの責任あるAI標準に従って開発され、厳格な安全性の測定と評価、レッドチーム、機密性の高い使用のレビュー、セキュリティガイダンスの遵守を経ています。
高品質のデータを使用してトレーニングされ、人間のフィードバックからの強化学習(RLHF)、自動テストと評価、手動のレッドチームなどによってさらに改善されています。
ユースケースに応じた適切なモデルの選択
小さな言語モデルは、より単純なタスクに適しており、リソースが限られている組織にとってよりアクセスしやすく、使いやすく、特定のニーズに合わせて微調整が可能です。
Phi-3-mini、Phi-3-small、Phi-3-mediumは、タスクの複雑さと利用可能な計算リソースに応じて選択できます。Phi-3-visionは、画像とテキストを一緒に推論する必要があるタスクに最適です。
Phi-3モデルは、Azure AI Studio上のAzure AI Playgroundからお試し可能です。
出典:Microsoft