この記事のポイント
- この記事は、画像を使用せずに視覚知識を理解するコンピュータビジョンシステムの訓練に関するMITの研究者の成果を紹介しています。
- MITの研究者たちは、テキストのみを使用して複雑なビジュアルコンセプトを生成する大規模言語モデルの能力を発見しました。
- 言語モデルが生成したイラストを利用して、写真を一切見ないコンピュータビジョンシステムを訓練し、従来のシステムを上回る性能を示しました。
- この研究は、言語モデルが実際の視覚概念の「精神的イメージ」を持ち、画像編集支援の分野でのAIの役割を広げる可能性を示しています。
- 今後の展望として、研究チームは言語モデルを使用して視覚モデルを直接訓練する手法をさらに探求することを計画しております。
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
コンピュータビジョンの分野で、新たな成果が報告されました。
MITの研究者たちが、大規模な言語モデルを用いて画像に依存せずに、視覚世界を理解する方法を開発したのです。
例えば、画像ではなくテキストのみを通じて、オウムやジャングルなど複雑なビジュアルコンセプトを生成する能力を備えています。
さらに、この視覚知識を活用して、実際の写真を使わないコンピュータビジョンシステムの訓練に成功し、そのシステムは従来のものを凌駕する性能を見せました。
今回の成果は、画像編集支援の分野においてAIが担う役割を大きく広げる可能性があり、言語モデルと視覚モデルが直接連携していく未来を示唆しています。
この研究は、重要な学会で発表され、AIの進化において大きな一歩となることでしょう。
言語モデルが描く複雑なビジュアルコンセプト
MITの研究者たちは、大規模な言語モデル(LLM)が画像を直接学習していなくても、テキストに基づいて視覚的な世界を理解できることを発見しました。
これらのモデルは、画像描画のコードを生成して複雑なシーンや興味深いオブジェクト、構図などを作り出す能力を持っています。
例えば、「ジャングルにいるオウムを描け」という指示を受けた際、モデルはインターネット上での形や色の記述を通じて獲得した視覚知識を活用して描画します。
研究チームは「Visual Aptitude Dataset」というテストを作成し、モデルが描画や認識、自己修正のスキルを評価しました。
言語モデルの視覚知識を活用したコンピュータビジョンシステムの訓練
研究者たちは、言語モデルが生成したイラストを収集し、実際の写真の内容を識別するコンピュータビジョンシステムを訓練しました。
このビジョンシステムは、実際の画像を一切見たことがないにも関わらず、テキスト生成データのみを参考にして他のシステムよりも優れた性能を発揮しました。
さらに、LLMの隠された視覚知識と他のAIツールのアーティスティックな能力を組み合わせることで、より細かい画像の編集が可能になると考えられています。
言語モデルによる視覚知識の応用と今後の展望
この研究成果は、画像編集におけるAIの支援の可能性を示唆しています。
LLMは、描画する際に多様な角度や形、色を用いて概念を異なる方法で表現することから、実際の視覚概念の「精神的イメージ」を持っている可能性があります。
MITの研究チームは、このプロセスがコンピュータビジョンシステムを訓練するための基準となると考えており、今後は言語モデルが直接視覚モデルと連携して訓練を行うことを探求する予定です。
この研究はMIT-IBM Watson AI Labなどの支援を受けており、IEEE/CVF Computer Vision and Pattern Recognition Conferenceで発表されました。
出典:MIT