AI総合研究所

マイクロソフト、CVPR 2024にてAIとコンピュータビジョンの最先端研究を発表

この記事のポイント

  • この記事では、マイクロソフトがCVPR 2024で発表したAI研究とコンピュータビジョンの最新進展について紹介しています。
  • 63件の研究論文が受理され、そのうち6件が口頭で発表されるなど、マイクロソフトがこの分野でのリーダーシップを証明しました。

監修者プロフィール

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

AI技術とコンピュータビジョン分野における最先端の研究を披露したマイクロソフトが、2024年のコンピュータビジョンとパターン認識の国際会議(CVPR 2024)で注目を集めました。

63件の研究論文が採択され、特に6件が口頭発表の機会を得るなど、この分野でのリーダーシップを証明。
実用化に焦点を当てたプロジェクトは、3D形象再現、感覚と対話の改善、精密免疫療法への貢献など多岐にわたります。

また、病理学、生物学的データの解析、現実的な動きの再現や汎用性の高い基盤モデルの開発など、幅広い領域での革新的取り組みが進められていることが明らかになりました。

本記事では、これら研究成果の概要と市場への影響を分析し、AIとコンピュータビジョンの最前線に立つマイクロソフトの力量を検証します。

thumbnail

マイクロソフトのAI進化: CVPR 2024でのコンピュータビジョンとAI研究の革新

2024年6月17日から21日にかけて開催されるコンピュータビジョンとパターン認識に関する国際会議(CVPR 2024)で、マイクロソフトは大きな革新を発表しました。
この会議では3D再建、動作分析、画像処理、合成データ生成、ニューラルネットワークなど、多岐にわたるトピックが取り上げられます。

マイクロソフトからは63件の論文が受理され、その中でも6件が口頭発表に選ばれました。これらの研究プロジェクトは、現実世界での応用を目指して、ARでの人間の3D形象再現や、よりリアルなシナリオの再現のための画像セグメンテーションと合成データの組み合わせ、環境との対話を可能にするモデル開発など、多様な分野での取り組みが進められています。

これらのプロジェクトは、機械の知覚を向上させ、世界とのより正確で反応の良いやり取りを実現することを目指しています。

GigaPath: デジタル病理学のための全スライド基盤モデル

まず、Providenceとワシントン大学との共同研究を通じて、デジタル病理学の分野で、腫瘍微小環境を解読し精密免疫療法に貢献するためのProv-GigaPathを発表しました。
これは、デジタル病理学のための初の全スライド基盤モデルであり、臨床研究の進展に役立つものです。

BioCLIP: 生命の樹のためのビジョン基盤モデル

また、マイクロソフトはドローンからスマートフォンまで、多様なソースから捉えられた画像の豊富な生物学的データを活用するために、BioCLIPという基盤モデルを紹介しました。

これは、多様な生物画像と構造化された知識の広範な配列を含む、生物学画像の最大かつ最も多様なML対応データセットであるTreeOfLife-10Mを活用しています。BioCLIPは、細かい生物分類で既存のモデルを大きく上回る性能を発揮し、強力な汎用性を示しています。

EgoGen: 主観的な合成データジェネレータ

ARでは、現実的な解剖学的動きを再現してカメラを誘導することが重要です。EgoGenは、主観的なタスクのための訓練データの精度を向上させるだけでなく、動きと知覚の統合を洗練する洗練された合成データジェネレータを開発しました。これは、主観的なコンピュータビジョン研究のための実用的なツールとしての役割を果たすことを目的としています。

Florence-2: 様々なビジョンタスクに対応する統一された表現の進歩

Florence-2は、キャプショニングからオブジェクト検出、セグメンテーションまで、多様なタスクを処理できる統一されたプロンプトベースのビジョン基盤モデルを紹介しました。
このモデルはテキストプロンプトをタスク指示として解釈し、ビジョンおよびビジョン言語タスク全体でテキスト出力を生成します。

モデルのトレーニングには、FLD-5Bデータセットが利用されており、これには1億2600万枚の画像に5.4億のアノテーションが含まれており、自動画像アノテーションと継続的なモデル改良の反復戦略を使用して開発されました。

LISA: 大規模言語モデルによる推論セグメンテーション

LISAは、複雑なクエリテキストを使用してセグメンテーションマスクを生成する新しいセグメンテーションタスクである推論セグメンテーションを紹介します。

著者らは、複雑な推論と世界知識を評価するために、千を超える画像指示マスクデータサンプルを含む新しいベンチマークを確立しました。

最後に、Large Language Instructed Segmentation Assistant(LISA)は、大規模言語モデルの言語能力とセグメンテーションマスクを生成する能力を組み合わせたツールを提示し、複雑なクエリを効果的に扱い、ゼロショット学習能力を示しています。

これは最小限のファインチューニングによってさらに強化されています。

出典:Microsoft

AI活用のノウハウ集「AI総合研究所」サービスご紹介資料

「AI総合研究所 サービス紹介資料」は、AI導入のノウハウがないというお客様にも使いやすい最先端のAI導入ノウハウを知れる資料です。

資料ダウンロード
監修者

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

関連記事

AI導入の最初の窓口。

お悩み・課題に合わせて活用方法をご案内いたします。
お気軽にお問合せください。

ご相談
お問い合わせは
こちら!