Stable Diffusion 2.0が5つのモデルで登場

Stable Diffusion 2.0の５つのモデル

本日Stable Diffusionの最新版である2.0が、同時に5つのモデルを公開した。

５つのモデルの種類

512x512の標準モデル（base）
768x768の標準モデル
X4拡張モデル
depth2img：深度情報が扱えるモデル
inpaintingに優れるモデル

5種類の各モデルのDLサイトはこちら：

①②標準モデル（512x512、768x768）

Stable Diffusion2.0は、StabilityAIのサポートを受けてLAIONが開発した新しいテキストエンコーダー(OpenCLIP)を使用してトレーニングされた堅牢なテキストから画像へのモデルが含まれており、以前のV1リリースと比較して生成された画像の品質が大幅に向上。このリリースのテキストから画像へのモデルでは、512 x 512 ピクセルと 768 x 768 ピクセルの両方の既定の解像度で画像を生成できる。

これらのモデルは、Stability AIのDeepFloydチームによって作成されたLAION-5Bデータセットの美的サブセットでトレーニングされ、LAIONのNSFWフィルターを使用してアダルトコンテンツを削除するためにさらにフィルタリングされる。

768x768の画像解像度でStable Diffusion2.0を使用して生成された画像の例

③超解像アップスケーラ拡散モデル

Stable Diffusion2.0には、画像の解像度を4倍に向上させるアップスケーラー拡散モデルも含まれている。以下は、低解像度の生成画像(128x128)を高解像度の画像(512x512)にアップスケーリングするモデルの例。テキストから画像へのモデルと組み合わせることで、Stable Diffusion2.0は2048x2048以上の解像度の画像を生成できるようになった。