AI総合研究所

ビデオ観察から言語を学ぶ新アルゴリズムDenseAV: MIT研究チームが開発

この記事のポイント

  • この記事は、MITの研究チームが開発した「DenseAV」という新しいアルゴリズムに関するものです。
  • DenseAVは、視覚と聴覚のデータを統合し、ビデオを観察することで言語を学ぶ革新的なシステムです。
  • 従来のアルゴリズムよりも詳細な音声と画像の関連を理解することで、性能が向上しています。
  • この技術は、マルチメディア検索や未記録言語の解析など、多様な分野への応用が期待されます。
  • 研究支援は様々な機関から受けられており、学会での発表も予定されています。

監修者プロフィール

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

映像を見て音を聞くだけで言語を学ぶことができる新しいアルゴリズム「DenseAV」がMITの研究チームによって開発されました。
子供が言語を習得するように、視覚と聴覚のデータを融合し、細やかな音声と画像の関連を理解することで、従来の方法を超越する精度を実現しました。

この進展は、マルチメディア検索や未記録言語の解析、ロボティクス、インターネットビデオ分析など、多岐にわたる分野への応用が期待されます。
また、様々な機関からの支援を受け、今後の学会で発表される予定です。

MITthum

映像から言語を学ぶ新アルゴリズム

MITの研究者たちが開発した新しいアルゴリズムであるDenseAVは、人間が手を加えることなく、ビデオを見て聞くことで言語を学びます。
このアルゴリズムは、子供が言語を理解する過程に似ており、視覚と聴覚のデータを区別して処理します。

コントラスト学習を用いて、音とそれに対応する画像をつなげることで、言葉と音を分ける「二面性脳」を持ちます。
これは、従来の方法よりも、物体や音を識別する際に、細かい音声と視覚の関連を重視することで、パフォーマンスが向上しています。

約1年間の研究を経て、異なるデータタイプに対するシステムの性能向上や、他の信号ペアのパターンを探ることを目指しています。
DenseAVの進歩は、マルチメディア検索、言語学習、書かれていない言語の理解、さらにはロボティクスやインターネットビデオ分析など、様々な応用が考えられます。

この研究は、様々な機関からの支援を受けており、近い将来の会議で発表される予定です。

https://youtu.be/WaAaz49H-VU?si=tU5R-wD0onATQGj0

MITが開発したDenseAVの進化

DenseAVは、従来のアルゴリズムと比較して、より詳細な音声と画像のマッチングを実現しています。
例えば、「犬が芝生の上に座る」という音声クリップを犬の画像全体とマッチングするのではなく、言葉「芝生」と犬の下の芝生との関係のような、細かい詳細を発見することが可能です。

この新しいアプローチでは、音声クリップと画像のピクセルの可能な全てのマッチを検索し集約することで、従来のアルゴリズムでは実現できなかった音の正確な位置特定を可能にしました。

研究チームはDenseAVを2百万のYouTubeビデオが含まれるAudioSetで訓練し、モデルが音と画像をどのようにリンクするかをテストする新しいデータセットも作成しました。
これらのテストでDenseAVは、名前と音から物体を識別するタスクなどで他のトップモデルよりも優れた性能を示しました。

さらに、このアルゴリズムの進歩は、将来的には言語モデルからの知識を統合して性能を向上させることも検討されています。

視聴覚データで言語を理解

DenseAVの研究は、単に視覚と聴覚を通じて世界を観察することで、物体が音を立てることや、それについて話すために使用される言語を同時に解決する方法を学ぶことを目的としています。
このモデルは、話されている特定の言語についての仮定を設けず、原理としてどの言語のデータからも学ぶことができます。

研究は、視覚AIへの助成金、王立協会研究教授職、および米国国立科学財団などの支援を受けて行われました。また、研究結果はIEEE/CVFコンピュータビジョンおよびパターン認識カンファレンスで発表される予定です。

この新しいアプローチは、視覚オブジェクトの認識や音声の分節など、それぞれが独自の困難な問題である一方で、人間が提供するアノテーションに依存しなくても、これらのタスクを学ぶことを目指しています。

出典:MIT

AI活用のノウハウ集「AI総合研究所」サービスご紹介資料

「AI総合研究所 サービス紹介資料」は、AI導入のノウハウがないというお客様にも使いやすい最先端のAI導入ノウハウを知れる資料です。

資料ダウンロード
監修者

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

AI導入の最初の窓口。

お悩み・課題に合わせて活用方法をご案内いたします。
お気軽にお問合せください。

ご相談
お問い合わせは
こちら!