Stable Diffusion 2.0の5つのモデル
本日Stable Diffusionの最新版である2.0が、同時に5つのモデルを公開した。
5つのモデルの種類
- 512x512の標準モデル(base)
- 768x768の標準モデル
- X4拡張モデル
- depth2img:深度情報が扱えるモデル
- inpaintingに優れるモデル
5種類の各モデルのDLサイトはこちら:
①②標準モデル(512x512、768x768)
Stable Diffusion2.0は、StabilityAIのサポートを受けてLAIONが開発した新しいテキストエンコーダー(OpenCLIP)を使用してトレーニングされた堅牢なテキストから画像へのモデルが含まれており、以前のV1リリースと比較して生成された画像の品質が大幅に向上。このリリースのテキストから画像へのモデルでは、512 x 512 ピクセルと 768 x 768 ピクセルの両方の既定の解像度で画像を生成できる。
これらのモデルは、Stability AIのDeepFloydチームによって作成されたLAION-5Bデータセットの美的サブセットでトレーニングされ、LAIONのNSFWフィルターを使用してアダルトコンテンツを削除するためにさらにフィルタリングされる。
③超解像アップスケーラ拡散モデル
Stable Diffusion2.0には、画像の解像度を4倍に向上させるアップスケーラー拡散モデルも含まれている。以下は、低解像度の生成画像(128x128)を高解像度の画像(512x512)にアップスケーリングするモデルの例。テキストから画像へのモデルと組み合わせることで、Stable Diffusion2.0は2048x2048以上の解像度の画像を生成できるようになった。
④Depth-to-Imageの拡散モデル
depth2imgと呼ばれる新しい深度ガイド付き安定拡散モデルは、V1の以前の画像間機能を拡張して、クリエイティブアプリケーションのまったく新しい可能性を提供する。Depth2imgは、(既存のモデルを使用して) 入力画像の深度を推測し、テキストと深度情報の両方を使用して新しいイメージを生成。
⑤ インペインティング拡散モデル
Stable Diffusion.0ベースのテキストから画像への微調整された新しいテキストガイド付きインペインティングモデルも含まれており、画像の一部をインテリジェントかつ迅速に非常に簡単に切り替えることができる。