MarkdownとBullet Journal

いわゆるプログラマーのつぶやき

Stable Diffusion 2.0が5つのモデルで登場

Stable Diffusion 2.0の5つのモデル

本日Stable Diffusionの最新版である2.0が、同時に5つのモデルを公開した。

5つのモデルの種類

  • 512x512の標準モデル(base)
  • 768x768の標準モデル
  • X4拡張モデル
  • depth2img:深度情報が扱えるモデル
  • inpaintingに優れるモデル

5種類の各モデルのDLサイトはこちら:

huggingface.co

 

①②標準モデル(512x512、768x768)

Stable Diffusion2.0は、StabilityAIのサポートを受けてLAIONが開発した新しいテキストエンコーダー(OpenCLIP)を使用してトレーニングされた堅牢なテキストから画像へのモデルが含まれており、以前のV1リリースと比較して生成された画像の品質が大幅に向上。このリリースのテキストから画像へのモデルでは、512 x 512 ピクセルと 768 x 768 ピクセルの両方の既定の解像度で画像を生成できる。

これらのモデルは、Stability AIのDeepFloydチームによって作成されたLAION-5Bデータセットの美的サブセットでトレーニングされ、LAIONのNSFWフィルターを使用してアダルトコンテンツを削除するためにさらにフィルタリングされる。

768x768の画像解像度でStable Diffusion2.0を使用して生成された画像の例

超解像アップスケーラ拡散モデル

Stable Diffusion2.0には、画像の解像度を4倍に向上させるアップスケーラー拡散モデルも含まれている。以下は、低解像度の生成画像(128x128)を高解像度の画像(512x512)にアップスケーリングするモデルの例。テキストから画像へのモデルと組み合わせることで、Stable Diffusion2.0は2048x2048以上の解像度の画像を生成できるようになった。

左:128x128の低解像度画像。右:アップスケーラーで作成した解像度512x512の画像

④Depth-to-Imageの拡散モデル

depth2imgと呼ばれる新しい深度ガイド付き安定拡散モデルは、V1の以前の画像間機能を拡張して、クリエイティブアプリケーションのまったく新しい可能性を提供する。Depth2imgは、(既存のモデルを使用して) 入力画像の深度を推測し、テキストと深度情報の両方を使用して新しいイメージを生成。

左側の入力画像は、いくつかの新しい画像を生成できる(右側)。この新しいモデルは、構造を維持する画像から画像への合成と形状条件付きの画像合成に使用できる

深度から画像までの一貫性を維持

⑤ インペインティング拡散モデル

Stable Diffusion.0ベースのテキストから画像への微調整された新しいテキストガイド付きインペインティングモデルも含まれており、画像の一部をインテリジェントかつ迅速に非常に簡単に切り替えることができる。

インペインティングモデルは、Stable Diffusion2.0 txt2imgモデルで微調整された