この記事のポイント
- この記事は、MITの研究者たちが開発した新しいロボットのナビゲーション技術について述べています。
- 言語に基づいた入力を用いてロボットを多段階のナビゲーション任務を通じて指導する手法です。
- 視覚データに替え、テキストキャプションを生成し、ロボットの行動を予測する大言語モデルを活用します。
- 合成訓練データを迅速に生成し、シミュレーションと実世界とのギャップを埋める可能性があるとされています。
- 言語の情報がナビゲーションにおける高レベルな情報処理に役立つことが示唆されています。
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
ロボットのナビゲーション技術に新たな進展がありました。
MITとMIT-IBM Watson AI Labの研究チームが、視覚データを使わない手法でロボットを導く方法を開発しました。
この技術は、高価な視覚データに代わって、テキストキャプションを生成し、大言語モデルがこれを基にロボットの行動を予測するものです。
合成訓練データの迅速な生成や、高レベルの情報を捕捉する能力が見込まれ、実世界とシミュレーション環境のギャップを埋める可能性を秘めています。
視覚データ不要の新手法
MITとMIT-IBM Watson AI Labの研究者たちは、高度な言語モデルを使って、ロボットのナビゲーションを助ける新技術を開発しました。
この技術は、高価な視覚データの代わりに言語ベースの入力を使ってロボットを多段階のナビゲーション任務を通じて導くものです。
従来の手法では、多くの手作業や専門知識を要する複数の機械学習モデルが使われており、膨大な量の視覚データが訓練に必要でした。
この新しい手法では、ロボットの周囲の画像から視覚的特徴をエンコードする代わりに、ロボットの視点を説明するテキストキャプションを生成します。
大きな言語モデルがこのキャプションを使って、ユーザーの言語ベースの指示を満たすためにロボットが取るべき行動を予測します。
このように言語ベースの表現のみを使うことで、合成訓練データを効率的に生成することができます。
テキストで理解可能な軌跡
研究チームは、ロボットの視覚観察をテキストの説明に変えるシンプルなキャプショニングモデルを利用しています。
この説明は言語ベースの指示と組み合わされ、大規模な言語モデルの入力となり、ロボットが次に取るべきナビゲーションステップを決定します。
この言語モデルは、ロボットがそのステップを完了した後に見るべきシーンのキャプションを出力し、これを使って軌跡の履歴を更新し、ロボットが自身の位置を把握できるようにします。
モデルはこれらのプロセスを繰り返し、一度に一ステップずつ、ロボットを目標地点へ導く軌跡を生成します。
この手法は、テキストが人間に理解しやすい自然言語で書かれているため、人間が理解しやすいという利点もあります。
合成訓練データを効率生成
このアプローチをテストしたとき、視覚ベースの技術よりも優れているわけではありませんでしたが、いくつかの利点があることがわかりました。
テキストは複雑な画像データよりも合成するのに必要な計算リソースが少ないため、この方法では合成訓練データを迅速に生成することができます。
たとえば、研究者たちは10個の実世界の視覚軌跡に基づいて10,000個の合成軌跡を生成しました。
また、言語がシンセティック画像と実画像を説明する際には、異なる点がほとんど見分けがつかないため、シミュレーション環境で訓練されたエージェントが実世界でうまく機能しないというギャップを埋めることができます。
視覚と言語の融合向上
研究者たちは、言語ベースの表現を視覚ベースの方法と組み合わせることで、エージェントのナビゲーション能力が向上することに驚きました。
「これは、言語が、純粋な視覚特徴では捉えられないような高レベルの情報を捉えることができることを意味しているかもしれません」と彼らは言います。
この分野の研究を続けることで、「言語がナビゲーションシステムのための高レベルの情報処理においてどのような役割を果たすことができるのか」をさらに探求したいと考えているそうです。
この研究は、MIT-IBM Watson AI Labの一部の資金によって支えられています。
出典:MIT