AI総合研究所

ロボティクスのためのゼロショットビジョンモデル統合インターフェース

この記事のポイント

  • この記事はロボティクスに革新をもたらす「Pollen-Vision」について解説しています。
  • 未知の物体を認識し操作する能力をロボットに付与するオープンソースライブラリです。
  • ユーザーフレンドリーであり、簡単なコードで3Dオブジェクト検出パイプラインを構築可能です。
  • さまざまなゼロショットビジョンモデルを統合し、リアルタイム動作にも対応しています。
  • 未知の物体をつかむロボティクスのユースケースでは有効で、現場での活用が期待されています。

監修者プロフィール

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

ロボット技術を今以上に進化させるため、未知の物体の認識を容易にする革新的なライブラリ「Pollen-Vision」が公開されました。本記事では、ゼロショットビジョンモデルを集積し、特にロボット工学向けに最適化されたこのオープンソースライブラリについて解説していきます。ユーザーフレンドリーな設計で、3Dオブジェクトの検出やピックアップ作業をより容易に行えるようになるこのツールは、ロボティクスの現場での応用が期待されます。具体的な利用方法や統合モデル、現時点での課題と今後の展望についてもご紹介するため、ロボティクスに関わる方々にとって有用な情報を提供することができることでしょう。

thumbnail

ロボットの視覚認識を革新するライブラリ「Pollen-Vision」

2024年3月25日に公開された「Pollen-Vision」は、ロボットが未知の物体を認識してつかむ能力を向上させるためのオープンソースライブラリです。このライブラリは視覚認識モデルを集めたもので、特にロボティクスの分野に直接適用可能なモデルを厳選しています。

Pollen-Visionは、わずか数行のコードで導入できるユーザーフレンドリーさを持ち、独立したモジュールを組み合わせて3Dオブジェクト検出パイプラインを作成することができます。初期リリースでは、物体の空間座標を推定する3Dオブジェクト検出に焦点を当てており、ロボティックスの基本的な操作タスクのための強固な基盤を築いています。

Paper_cupsの検出
Paper_cupsの検出

「Pollen-Vision」の核となるモデル群

Pollen-Visionライブラリは、複数のキーモデルを内蔵しており、これらのモデルはゼロショットであり、トレーニングなしですぐに使用できる柔軟性を持っています。さらに、リアルタイムで動作可能なことも求められており、消費者向けGPUでも数fpsで動作する必要があります。

選ばれた初期モデルには、Google ResearchによるOWL-VIT(Open World Localization - Vision Transformer)があり、これはRGBイメージ内でテキストに基づいたゼロショット2Dオブジェクトの位置を特定します。また、Meta AIのSAM(Segment Anything Model)の軽量版Mobile Samや、OPPO Research InstituteのRAM(Recognize Anything Model)などが含まれています。

未知の物体をつかむためのロボティクスのユースケース

Pollen-Visionライブラリは、制約のない環境で未知の物体をつかむためのロボティクスのユースケースにおいて使用されています。オブジェクトのセグメンテーションマスクを使って、ピクセル空間内での物体の位置(u, v)を計算します。このマスクを使うことで、背景も含む全体のバウンディングボックス内ではなく、マスク内の深度値を平均化することができ、より正確な3D位置推定が可能になります。深度情報を取り入れることで、カメラの内在行列を使ってメートル単位で物体の中心部の3D位置を推定でき、これによりロボットのエンドエフェクターを物体の位置に動かし、つかむことができるようになります。

次なるステップと「Pollen-Vision」の試用

現在「Pollen-Vision」は初期段階であり、一貫性のない検出や、より高度なつかみ技術の必要性などいくつかの課題があります。開発チームは、検出の一貫性を高めるためのポイント追跡ソリューションの統合に取り組んでおり、認識能力(6D検出)やつかみ姿勢生成などのつかみ能力を強化するための異なるアプローチにも取り組んでいます。また、全体的な速度の改善にも注力しています。Pollen-Visionを試したい方は、GitHubリポジトリをチェックしてください。

出典:https://huggingface.co/blog/pollen-vision

AI活用のノウハウ集「AI総合研究所」サービスご紹介資料

「AI総合研究所 サービス紹介資料」は、AI導入のノウハウがないというお客様にも使いやすい最先端のAI導入ノウハウを知れる資料です。

資料ダウンロード
監修者

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

AI導入の最初の窓口。

お悩み・課題に合わせて活用方法をご案内いたします。
お気軽にお問合せください。

ご相談
お問い合わせは
こちら!