AI総合研究所

Microsoft AzureでPhi-3 visionが利用可能に

この記事のポイント

  • この記事はMicrosoft Azureで利用可能になったPhi-3 visionに関する解説です。
  • Phi-3 visionはテキストと画像の理解・生成を行うマルチモーダルAIモデルです。
  • Phi-3ファミリーにはPhi-3 visionのほか、小型言語モデルのPhi-3-mini、Phi-3-small、Phi-3-mediumがあります。
  • これらのモデルはMicrosoftの責任あるAI基準に準拠し、安全性が高いです。
  • 顧客はタスクの複雑さや計算リソースに合わせて最適なモデルを選択できます。

監修者プロフィール

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

クラウドプラットフォームMicrosoft Azure上で、新たにPhi-3 visionが利用可能になりました。
このモデルは、テキストと画像を融合させたマルチモーダルAIであり、画像の理解からテキスト生成まで幅広いタスクをこなすことができる革新的な機能を備えています。

本記事では、Phi-3 visionを含むPhi-3モデルファミリーの特徴と各モデルの利点、また安全性への取り組みについて詳しくご紹介します。
こうした最先端の技術が、ビジネスや研究でいかに利活用されるか、具体的なユースケースを交えつつ掘り下げていきましょう。

Phi-3-vision:言語と視覚の機能を統合

Phi-3-visionは、Phi-3ファミリーの最初のマルチモーダルモデルであり、テキストと画像を統合し、現実世界の画像を推論し、画像からテキストを抽出して推論する機能を備えています。

また、チャートやダイアグラムの理解にも最適化されており、洞察の生成や質問への回答に使用できます。

phi-3-vison
Phi-3-visionのマルチモーダル機能

高性能で費用対効果の高いPhi-3モデルファミリー

Phi-3モデルは、高品質のトレーニングデータを使用してトレーニングされた、利用可能な最も高性能で費用対効果の高い小型言語モデル(SLM)です。

Phi-3モデルファミリーには、以下の4つのモデルが含まれます。

モデル 説明
Phi-3-vision 言語とビジョン機能を備えた4.2Bパラメータのマルチモーダルモデル
Phi-3-mini 3.8Bパラメータの言語モデル(コンテキスト長128Kと4Kの2バリエーション)
Phi-3-small 7Bパラメータの言語モデル(コンテキスト長128Kと8Kの2バリエーション)
Phi-3-medium 14Bパラメータの言語モデル(コンテキスト長128Kと4Kの2バリエーション)


これらのモデルは、Microsoft の責任ある AI、安全性、セキュリティ基準に従って開発され、すぐに使用できる状態になっています。

【関連記事】
➡️マイクロソフトが新AIモデルPhi-3シリーズを発表

小型サイズで画期的な性能

Phi-3モデルは、同じサイズの言語モデルだけでなく、はるかに大きな言語モデルよりも優れた性能を発揮します。

例えば、Phi-3-smallはGPT-3.5Tを上回り、Phi-3-mediumはGemini 1.0 Proを凌駕しています。Phi-3-visionも、一般的な視覚的推論タスクにおいて大型モデルよりも優れた性能を示しています。

Phi-3ファミリーのリーダーボード
Phi-3ファミリーのリーダーボード

安全性を最優先に

Phi-3モデルは、Microsoftの責任あるAI標準に従って開発され、厳格な安全性の測定と評価、レッドチーム、機密性の高い使用のレビュー、セキュリティガイダンスの遵守を経ています。

高品質のデータを使用してトレーニングされ、人間のフィードバックからの強化学習(RLHF)、自動テストと評価、手動のレッドチームなどによってさらに改善されています。

ユースケースに応じた適切なモデルの選択

小さな言語モデルは、より単純なタスクに適しており、リソースが限られている組織にとってよりアクセスしやすく、使いやすく、特定のニーズに合わせて微調整が可能です。

Phi-3-mini、Phi-3-small、Phi-3-mediumは、タスクの複雑さと利用可能な計算リソースに応じて選択できます。Phi-3-visionは、画像とテキストを一緒に推論する必要があるタスクに最適です。

Phi-3モデルは、Azure AI Studio上のAzure AI Playgroundからお試し可能です。

出典:Microsoft

AI活用のノウハウ集「AI総合研究所」サービスご紹介資料

「AI総合研究所 サービス紹介資料」は、AI導入のノウハウがないというお客様にも使いやすい最先端のAI導入ノウハウを知れる資料です。

資料ダウンロード
監修者

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

関連記事

AI導入の最初の窓口。

お悩み・課題に合わせて活用方法をご案内いたします。
お気軽にお問合せください。

ご相談
お問い合わせは
こちら!