姿勢推定AIとは

姿勢推定AIは、画像や動画から人の体のポーズや動きを推定する技術です。
画像認識やディープラーニングなどの技術を使って、人物の体の各部位（頭、肩、肘、手首、腰、膝、足など）の座標を特定し、それをもとに人物がどのような姿勢を取っているかを、リアルタイムで解析します。

姿勢推定AI

姿勢推定AIが今注目を集めているワケ

姿勢推定AIが注目を浴びている理由は、技術的進歩と幅広い応用可能性から、多くの分野で大きな利点をもたらしているためです。

これまで姿勢推定には、光の反射を利用したマーカーや対象に取り付けた慣性センサーなどの技術が用いられ、専用の設備や装備、カメラが必要とされてきました。
マーカーなしで画像や映像から人の動きをトラッキングするには精度が足りていなかったのです。

しかし、AIのディープラーニング（深層学習） が用いられるようになってから、その性能は飛躍的に向上しました。現
在ではWebカメラやスマートフォンでの撮影だけで、服の上から骨格情報を取得でき、スポーツやヘルスケア、セキュリティなどの分野で注目を浴びています。

姿勢推定AIの仕組み

姿勢推定AIには、大きく分けて「トップダウン型」と「ボトムアップ型」の2つのアプローチがあります。それぞれの特徴と利点、欠点を説明します。

画像認識

トップダウン型

トップダウン型では、まず画像内で人物の位置を検出し、その後、検出された人物に対して個別に姿勢を推定します。

画像内の人物を検出
検出された人物領域に対して、姿勢推定モデルを適用し、関節や肢体の位置を特定

トップダウン型では、個別に人物を検出してから姿勢を推定するため、精度が高く、特に複雑な背景や重なりが少ない場合に有効です。1人の人物に対する推定は比較的簡単で、既存の人物検出技術を活用できます。

一方で、複数の人物がいる場合、全員の位置を検出してからそれぞれに姿勢推定を行うため、処理コストが大きくなります。
また、多くの人物が写っている画像では、処理が遅くなる可能性があります。

ボトムアップ型

ボトムアップ型では、画像全体に対してすべての関節を検出し、それをもとに各人物の姿勢を構成します。
つまり、最初に関節を推定し、その後にどの関節がどの人物に属するかをグルーピングします。

画像全体に対してすべての関節（例：肘、膝など）を一度に検出
検出された関節をどの人物に属するかグループ化し、人物ごとの姿勢を構成

ボトムアップ型は、人物が密集しているシーンや複数の人物が関係している場合に有効です。
複数の人物がいる場合でも、一度にすべての関節を検出するため、計算コストが少なく、リアルタイムでの処理も可能です。

一方で、特に人物同士が重なっている場合、どの関節がどの人物に属するかを判断するグルーピングが難しくなり、誤差が生じることがあります。関節が正しくグループ化されない場合、誤った姿勢推定が行われることもあります。

代表的なAI姿勢推定サービス

AI姿勢推定サービスとは、AI技術を利用して画像や動画から人や物の姿勢を検出・解析するサービスのことです。
これらのサービスは、カメラなどで撮影された映像データから人間の関節や骨格の位置を特定し、その位置情報を基にポーズや動作を推定します。

以下で、主なAI姿勢推定サービスを6つ紹介します。

OpenPose

OpenPose

OpenPoseは、姿勢推定のためのオープンソースのリアルタイムシステムであり、複数の人物に対して、人体の関節や手の位置、顔のランドマークを同時に検出することができます。

2017年に報告された手法であり、Part Affinity Fields (PAFs) と呼ばれる技術を使用して、複数の人間の2D姿勢（ポーズ）をリアルタイムで推定する手法を提案しました。

!

PAFsとは、人体の部位と部位間の接続を同時に推定することで、高速かつ精度の高いポーズ推定を可能にしています。
::;

仕組みのご紹介

OpenPoseの姿勢推定の仕組みは、主にボトムアップ型のアプローチに基づいています。以下に、その詳細な仕組みを説明します。

処理イメージ

画像全体に対する特徴抽出
OpenPoseは、入力された画像に対して最初に**畳み込みニューラルネットワーク（CNN）**を使用して、画像全体の特徴を抽出します。
この特徴抽出段階では、どの人物がどこにいるかを特定する前に、全体的な画像の情報を取り出します。
部位(関節点)の検出
次に、抽出された特徴から、人体の主要な関節（肩、肘、膝、足首など）の候補となるポイントを検出します。この時、全ての人物の関節点が同時に検出されます。
この際に、関節点マップとパーツアフィニティフィールド（PAF） を生成します。

関節点のグルーピング（スケルトンの構築）
関節点マップとPAFをもとに、各関節がどの人物に属するかをグループ化します。
これは、各関節点間のベクトル（PAF）を使って、関節同士が接続される確率を評価し、同じ人物の関節点をつなぎ合わせてスケルトン（骨格）を構築するプロセスです。

この処理により、複数の人物が同時に画像内に存在していても、それぞれの姿勢を個別に推定することができます。
スケルトンの出力
最後に、各人物に対応するスケルトン（関節点をつないだ骨格構造）が生成されます。
これにより、各人物の姿勢が視覚的に表現され、リアルタイムでの解析やアニメーション生成に利用することが可能です。

Openposeの利点としては、ボトムアップ型の手法を採用しているため、複数人の姿勢推定が効率的に行われること、人体の関節のみならず、手の指の関節や顔のランドマークも同時に検出することができ、複雑な姿勢推定が可能なことがあげられます。

また、OpenPoseはGPUを使用した高速な処理が可能であり、リアルタイムでの姿勢推定ができるため、インタラクティブなアプリケーションに適しています。

PoseGPT

PoseGPT
PoseGPT

PoseGPTは、3Dヒューマンポーズの生成や予測を目的とした革新的なAI技術であり、複数の研究機関によって発展しています。こちらは2023年に報告された論文の抜粋です。

PoseGPTは、NAVER LABS EuropeとMPI-ISという異なる研究機関が、それぞれ独自のアプローチで開発を進めています。NAVER LABSは効率的な量子化モーションモデリングを追求し、実用性を重視したソリューションを提供しています。
一方、MPI-ISは生成AIと3Dポーズ推定の融合を図り、基礎研究を通じて新たな可能性を探求しています。

VisionPose

Vision Poseは、日本の企業である株式会社ネクストシステムによって開発された技術であり、コンピュータビジョン技術を活用して、画像や映像から人間や物体の姿勢を推定する技術です。

特に人体の関節や骨格を特定することで、動作やポーズを認識することを目的としています。Vision Poseは、AIやディープラーニング技術の進展により精度が向上し、スポーツ、医療、エンターテインメントなど多くの分野で活用されています。

(参考)VisonPose

人物分析AI

User Localの人物分析AIは、さまざまな人間の動作や表情を分析するために開発されたオールインワンAIシステムです。このAIは、ディープラーニング技術を活用し、複数の視点から人物を認識・解析することが可能です。

人物推定AIは、骨格推定(姿勢推定)の他にも、年齢推定、性別推定、表情推定、視線・顔の向き推定、本人認証、音声感情認識、テキスト感情認識を行うことが可能です。

(参考)人物分析AI

AIによる人物姿勢・動作認識ソリューション

日立産業制御ソリューションズのAIによる人物姿勢・動作認識ソリューションは、カメラで撮影した映像から人物の姿勢や動作を自動で検出・解析し、生産効率の向上や労働災害防止に役立てるシステムです。
骨格情報の抽出や姿勢分析を行い、作業の見える化、危険な動作の検知、作業者の安全確保をサポートします。また、作業効率の改善や統計的なデータ分析にも対応しています。

(参考)AIによる人物姿勢・動作認識ソリューション

MoveNet

TensorFlow MoveNetは、Googleが提供する軽量かつ高速な姿勢推定モデルです。MoveNetは2D画像やビデオから人間の骨格をリアルタイムで検出し、最大17の関節ポイントを追跡します。
主にMoveNet LightningとMoveNet Thunderの2つのバージョンがあり、Lightningはモバイルデバイス向けに最適化され、軽量で高速な処理が可能です。

一方、Thunderは高精度に焦点を当て、よりリッチな推定が可能です。これらは主にフィットネスアプリやインタラクティブコンテンツで活用されています。

(参考)MoveNet

姿勢推定AIの問題点

色々な場面で活用される姿勢推定ですが課題も存在します。

精度向上の難易度

誤ったデータの修正はAI自身が行うものの、光学式のモーションキャプチャーなどに比べて計測精度が劣る傾向にあります。

特にマーカーレスの場合は手動で映像データに変換したり、シルエットから自動でモデルを生成したりしますが、あくまでも見えている画像からの算出になるので精度を向上することが難点です。

コスト問題

姿勢推定AIの推論運用には、十分な設備が必要ですが、これにはコストがかかります。クラウドサーバーの利用料金や、エッジデバイスのハードウェア投資などで費用が膨らみます。

特に、リアルタイムでの高精度な推論を行うためには、高価なGPUなどの高性能なハードウェアが求められる場合があるため、コスト削減はAI推論の継続的な技術開発の一環として重要な議題です。

姿勢推定AIの活用事例

姿勢推定AIは、カメラやセンサーを通じて人物の体の関節や部位をリアルタイムで検出し、その位置や動きを解析する技術です。この技術の発展により、スポーツやヘルスケア、産業、エンターテインメント、さらには技能伝承など幅広い分野で活用されています。以下に、それぞれの分野での活用方法を詳しく説明します。

1. スポーツ分析への応用

soccer

スポーツ分野では、姿勢推定AIが選手の動きの分析を行い、パフォーマンスの改善を行います。例えば、水泳では、選手の腕や脚の動き、体の角度などを解析し、フォームの改善点を指摘します。
また、無理な体勢や過度な負荷がかかっている部分を特定し、怪我のリスクを減らすためのアドバイスを行います。

スポーツチームやトレーニング施設では、リアルタイムで選手の動作をモニタリングし、適切なフォームでのトレーニングを指導しています。
サッカーのVAR（ビデオアシスタントレフェリー）やテニスのホークアイなど、試合中の判定をサポートするためにもAI技術が使われています。

【関連記事】
➡スポーツ界におけるAIの活用事例19選！ジャンル毎の事例や将来展望を解説

2. ヘルスケアへの応用

Health Care

姿勢推定AIは、ヘルスケアやフィットネス分野でも多くの応用が見られます。リハビリテーションや姿勢矯正にも、姿勢推定が利用されています。
リハビリテーションでは、患者の動きをAIがモニタリングし、適切な回復トレーニングができているかを確認します。医師や理学療法士が遠隔で患者の動きをチェックし、指導することも可能になります。

姿勢矯正では、日常生活での不適切な姿勢や体の使い方を改善するためのサポートも行われています。
例えば、オフィスワーカー向けに、デスクワーク中の姿勢を自動で検知し、改善アドバイスを送るアプリケーションが登場しています。

3.産業への応用

Factory Worker

製造業や物流業においても、従業員の姿勢をリアルタイムで監視し、作業の効率性や安全性を高めるために姿勢推定AIが用いられています。
さらに、身近なところで言うと、スーパーでもこの技術は使われています。店内に設置したカメラから得られる映像を通じて、来店客の人数や属性、行動などのデータを分析・学習して、店舗運営者や従業員の行動・判断を幅広く支援しています。

人物行動検知技術を駆使して、商品選びに迷っている来店客を検知し、従業員に通知してタイムリーかつ的確な接客を実現することで、従業員の接客効率を高めつつ、顧客満足度の向上にもつなげています。

将来的には、来店客の人数や属性、店内での行動パターンなどを分析・学習することで、客観的なデータに基づく最適な品揃えや店内レイアウトの立案支援も期待されています。

【参考記事】
AIカメラシステムによるデータ解析で新時代の購買体験を創造

4.技能伝承への応用

職人の持つ熟練の技を後世に伝えるには、動作の正確な把握が不可欠です。
姿勢推定AIは、職人の細かい手仕事や体の使い方を詳細に記録し、その技能を未来の職人たちへと伝授するのに役立っています。

細かな手の動きから全体的な流れまで、AIはそれらのパターンを学び、可視化して人に伝えることで、技能の継承を可能にしています。

5.エンターテインメントへの応用

姿勢推定AIは、エンターテインメント業界で多岐にわたる応用が進んでおり、ゲーム開発などに役立てられています。

ゲーム開発においては、キャラクターの動きをリアルタイムで生成・制御するために姿勢推定AIが利用されています。モーションキャプチャシステムを補完・代替する形で、ゲームキャラクターの動きやプレイヤーのアクションをリアルタイムにトラッキングし、インタラクティブな体験を提供します。
特にVRやARゲームでは、プレイヤーの全身動作を反映したリアルなゲームプレイが可能となります。

また、映画やアニメーション制作においても活用されています。従来のモーションキャプチャ技術では多くのセンサーや専用設備が必要でしたが、姿勢推定AIにより、センサーなしで人間の動作をカメラ映像から推定し、デジタルキャラクターに自然な動きを付与することができます。これにより、制作コストの削減や効率的なキャラクターアニメーションの作成が可能になります。

まとめ

このように姿勢推定AIは、私たちの生活や働き方に革命をもたらす可能性を秘めています。この記事では、姿勢推定AIの概念から技術的側面、多岐にわたる応用例、そして今後の展望に至るまで、その全貌について理解を深めてきました。

姿勢推定AIはまだ発展途上の技術であり、コストの最適化、推論の高速化、新たな技術の統合など、多くの挑戦が待っていますが、将来的にはより実用的な技術となり、私たちの身の回りのさまざまな分野において活躍することが期待されています。