Phenaki、Make-A-Video プロンプトで動画を生成

AIによる動画生成

これまでAIで生成された画像を利用するアニメーションや動画の発表がされてきたが、プロンプトによる動画生成が行えるAIが登場した。

①Phenaki

Phenalkiの発表より：

今回、プロンプトでシーケンスを与えると現実的なビデオ合成が可能なモデルを提示した。通常テキストからビデオを生成することは、計算コストなどで困難だが、ビデオを離散トークンの小さな表現に圧縮するビデオ表現を学習の因果モデルを開発した。

テキストからビデオトークンを生成するには、事前に計算されたテキストトークンを条件とする双方向マスクトランスフォーマーを使用、生成されたビデオトークンを解除することで実際のビデオが作成される。Phenakiはオープンドメインで一連のストーリーからなるプロンプトから任意の長いビデオを生成できる。

私たちの知る限りでは、時間変数プロンプトからビデオを生成する論文を研究するのはこれが初めて。さらに、提案されているビデオエンコーダ - デコーダは、時空間品質とビデオあたりのトークン数の点で、現在文献で使用されているすべてのフレームごとのベースラインを上回る。

Phenakiサイトでプロンプトにより生成された２分間の動画を確認できる。

②Make-A-Video

Meta社も同様の発表を行った。

We’re pleased to introduce Make-A-Video, our latest in #GenerativeAI research! With just a few words, this state-of-the-art AI system generates high-quality videos from text prompts.

Have an idea you want to see? Reply w/ your prompt using #MetaAI and we’ll share more results. pic.twitter.com/q8zjiwLBjb
— Meta AI (@MetaAI) 2022年9月29日

Make-A-Videoは動画生成の課題を教師なし学習のレイヤーを追加することで解決したと説明。AIモデルのトレーニングにWebVid-10MとHD-VILA-100Mの2つのデータセット（数十万時間以上の動画）を用いている。現在のMake-A-Videoは、64×64ピクセル16フレームの動画を出力する程度だが、後段のプロセスで画像拡大や時間拡張など行えるようだ。