AI総合研究所

長時間のビデオ内で特定のアクションを見つけるAI技術、MITとMIT-IBMワトソンAIラボが開発

この記事のポイント

  • この記事は、MITとMIT-IBMワトソンAIラボが開発した長時間ビデオから特定アクションを自動検出するAIについて説明しています。
  • 新しいAI手法により、ラベリングが不要なビデオでのトレーニングが可能となりました。
  • 研究チームは、空間情報と時間情報の両方を利用してビデオを解析することで、高精度なアクション検出を実現しています。
  • この技術は、実際の長い未カットのビデオを使用して評価され、従来のAI手法よりも高い精度を達成しています。

監修者プロフィール

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

長時間にわたるビデオ内で特定のアクションを見つける作業は、従来多大な手間と時間を要してきましたが、MITとMIT-IBMワトソンAIラボの研究者たちが新たなAI技術の開発に成功しました。
この革新的な手法により、ビデオ内での特定の動作を自動的に特定し、ラベリングが不要なトレーニングモデルを採用しています。

従来の手法と比較しても高精度なアクション特定が可能となったこの研究は、将来的にテキストとビデオの不一致の自動検出や音声データへの応用も視野に入れています。
この記事では、その詳細と、どのようにしてこの手法が従来の課題を克服したのかを詳しく解説していきます。

AIがビデオ内アクションを特定

MITとMIT-IBM Watson AI Labの研究者たちは、長いビデオの中から特定のアクションを見つける新しいAI手法を開発しました。
この手法により、コンピュータはビデオ内で特定の動作が発生する時と場所を自動的に特定することが可能になります。

これまでの手法では、多くの手作業によるビデオデータのラベリングが必要だったのですが、MITのチームは自動生成されたテキストのトランスクリプトを用いたラベルのないビデオでモデルをトレーニングする新しいアプローチを採用しました。

この方法では、ビデオの小さな詳細に注目してオブジェクトの位置を理解する(空間情報)一方で、より大きな視野に立って動作がいつ発生するかを理解する(時間情報)という2つの異なる方法でビデオを解析します。

この手法は、複数のアクティビティが含まれる長いビデオでのアクションの特定において、他のAI手法よりも正確であることが実証されました。

ラベル不要の新手法開発

研究者たちは、YouTubeのようなウェブサイトから取得したラベルのない教育ビデオとそれに伴うテキストのトランスクリプトを使って、モデルをトレーニングしました。
このデータは特別な準備を必要とせず、モデルがビデオ全体を見て特定の時点でどんなアクションが起こるかを理解するためのグローバルな表現を学習します。

また、ビデオの特定の部分、例えばキッチンでのパンケーキを混ぜているシーンで木製のスプーンに集中するようなローカルな表現も学習します。
 
この2つの表現の組み合わせによって、モデルは空間的および時間的情報をより精確に把握することができるようになります。

さらに、ビデオとナレーションの間に発生する不一致を緩和するためのコンポーネントもこのフレームワークに組み込まれています。

MIT研究、精度向上に成功

この新手法の評価のために、研究者たちはこれまでにない長い未カットのビデオを使用する新しいベンチマークを作成しました。
既存のAI手法が数秒のクリップをトリミングして1つのアクションのみを示すものを使ってトレーニングするのに対し、リアルなソリューションを開発するために数分間の未カットビデオに焦点を当てました。

新しいアノテーション技術を使ってベンチマークデータセットを構築し、長いビデオでの多段階のアクションの特定に適した方法を見つけました。
この新しい手法を試験した結果、他のAI技術よりもアクションを特定する精度が高いことがわかりました。

今後、研究者たちはテキストとビデオの不一致を自動的に検出し、さらに音声データへのフレームワーク拡張も目指しています。

MITのCSAILおよびその他のMITの機関に関連するこの研究は、MIT-IBM Watson AI Labから部分的に資金提供を受けています。

出典:MIT

AI活用のノウハウ集「AI総合研究所」サービスご紹介資料

「AI総合研究所 サービス紹介資料」は、AI導入のノウハウがないというお客様にも使いやすい最先端のAI導入ノウハウを知れる資料です。

資料ダウンロード
監修者

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

関連記事

AI導入の最初の窓口。

お悩み・課題に合わせて活用方法をご案内いたします。
お気軽にお問合せください。

ご相談
お問い合わせは
こちら!