生成AIによるモーション生成技術の概観

こんにちは、エンジニアの渡辺（@mochi_neko_7）です。

昨今の生成系AIの発展のスピードが凄まじいのは言うまでもありませんが、GPT によるテキスト生成、Stable Diffusion による画像生成を発端に様々なデータの生成AIが開発されています。

本記事では 2023/07 の調査論文「Human Motion Generation: A Survey」を参照しながら、人間のモーションの生成技術の現状をざっくり紹介します。

モーション生成ではどのようなモデルが使用されるのか、条件付けによる利用イメージ、現状の課題などモーション生成AIの専門的な知識がなくても大まかなイメージが持てる内容になっているかと思います。

モーションデータを作成するコストは画像等の他のデータと比較しても大きいため、もし精度の高いモーションが Stable Diffusion や最近の DALL•E 3 のように自然言語で生成・編集できるようになると 3D アバター技術のより一層の発展が見込めるという点で注目しています。

1. モーションデータ

前提知識としてモーションのデータの表現方法は大きく２通りあります。

Blender などの 3D CG ソフトや Unity などのゲームエンジンでは骨格を階層構造で表現することが多いため、後者の Rotation-based のモーションを目にする機会が多いかもしれません。

生成AIを使用せずにモーションデータを作成する方法は大きく４通りあります。

1〜3 は人間（モーションアクター）の実際の動きを計測・推定する方法です。

2 と 3 の違いが自分もちゃんと理解できているわけではありませんが、おそらくカメラの数や深度等を使用するかによる精度の違い、それによる手軽さの違いを区別したいという意図でしょうか。（もし間違っていたらご指摘ください。）

精度の高い順に並べると 4 > 1 > 2 > 3 の順番で、精度が高い方法はコストも同時に高くなります。

そのため、精度の高いモーションが低コストで生成可能になることには実用的な価値があります。

モーションの生成に使用されるモデルは大きく５通りあります。

1 〜4 は一般的な生成モデルで、モーション生成においても同じアルゴリズムを利用することができます。

各モデルの詳細な説明は既に世の中に情報がありますのでここでは割愛します。

5 は複数のモーションをグラフ構造化して、それらを滑らかに遷移できるようにし、グラフ上でランダムウォークをさせることで新しいモーションを生成するものです。

詳細は論文の 3.2 の Motion Graph の段落を参照してください。

生成モデルを利用すればモーション生成ができることは想像に難くありませんが、Stable Diffusion が自然言語で生成画像の指示ができるように、モーション生成においても期待する条件付けができることが実用上重要になります。

ここでは論文で紹介されている条件付けのパターンを簡単に紹介します。

テキストによる条件付け
- Action to Motion
  - 特定のアクション（電話をかける、ジャンプなど）をするモーションを生成する
- Text to Motion
  - 自然言語で指定したモーションを生成する
音声による条件付け
- Music to Dance
  - 音楽に合わせたダンスのモーションを生成する
- Speech to Gesture
  - 話（音声、あるいは文字起こししたテキスト）からジェスチャーを生成する
シーンによる条件付け
- 特定の状況（映像や 3D オブジェクト、特定のゴール地点などの状況設定）に合わせたモーションを生成する