AIによる動画生成
これまでAIで生成された画像を利用するアニメーションや動画の発表がされてきたが、プロンプトによる動画生成が行えるAIが登場した。
①Phenaki
Phenalkiの発表より:
今回、プロンプトでシーケンスを与えると現実的なビデオ合成が可能なモデルを提示した。通常テキストからビデオを生成することは、計算コストなどで困難だが、ビデオを離散トークンの小さな表現に圧縮するビデオ表現を学習の因果モデルを開発した。
テキストからビデオトークンを生成するには、事前に計算されたテキストトークンを条件とする双方向マスクトランスフォーマーを使用、生成されたビデオトークンを解除することで実際のビデオが作成される。Phenakiはオープンドメインで一連のストーリーからなるプロンプトから任意の長いビデオを生成できる。
私たちの知る限りでは、時間変数プロンプトからビデオを生成する論文を研究するのはこれが初めて。さらに、提案されているビデオエンコーダ - デコーダは、時空間品質とビデオあたりのトークン数の点で、現在文献で使用されているすべてのフレームごとのベースラインを上回る。
Phenakiサイトでプロンプトにより生成された2分間の動画を確認できる。
②Make-A-Video
Meta社も同様の発表を行った。
We’re pleased to introduce Make-A-Video, our latest in #GenerativeAI research! With just a few words, this state-of-the-art AI system generates high-quality videos from text prompts.
— Meta AI (@MetaAI) 2022年9月29日
Have an idea you want to see? Reply w/ your prompt using #MetaAI and we’ll share more results. pic.twitter.com/q8zjiwLBjb
Make-A-Videoは動画生成の課題を教師なし学習のレイヤーを追加することで解決したと説明。AIモデルのトレーニングにWebVid-10MとHD-VILA-100Mの2つのデータセット(数十万時間以上の動画)を用いている。現在のMake-A-Videoは、64×64ピクセル16フレームの動画を出力する程度だが、後段のプロセスで画像拡大や時間拡張など行えるようだ。
今後の予測
両者ともまだ黎明期のような画質しか出せないが、Stable Diffusionの様にオープンな環境に世界中の知見が集まれば一気に進化するのではないだろうか。また演算能力もかなり必要になるだろう。