Stable Diffusion 1.5 inpainting版を試す

inpainting用StableDiffusion 1.5 モデル

先日突然Stable Diffusion1.5を公開したRunwayMLが、続いてStable Diffusion1.5のinpainting用モデルを公開した。

モデルの違いの説明

現在、次のチェックポイントを提供している。

sd-v1-1.ckpt: laion2B-en の解像度で 237k ステップ。レオン高解像度の解像度で194kステップ(解像度付きLAION-5Bの170Mの例)。256x256512x512>= 1024x1024
sd-v1-2.ckpt: 前記の継続学習。laion-aesthetics v2 5 +(推定美学スコアを持つlaion2B-enのサブセット)の解像度で515kステップ、さらに元のサイズの画像にフィルタリングされ、推定透かし確率。ウォーターマーク推定値はLAION-5Bメタデータからであり、美学スコアはLAION-美学予測変数V2)を用いて推定される。sd-v1-1.ckpt512x512> 5.0>= 512x512< 0.5
sd-v1-3.ckpt: 前記の継続学習。「laion-aesthetics v2 5+」の解像度で195kステップを踏み出し、テキストコンディショニングを10%削減して、分類子のないガイダンスサンプリングを改善します。sd-v1-2.ckpt512x512
sd-v1-4.ckpt: 前記の継続学習。「laion-aesthetics v2 5+」の解像度で225kステップ、テキストコンディショニングを10%ドロップして、分類子のないガイダンスサンプリングを改善します。sd-v1-2.ckpt512x512
sd-v1-5.ckpt: 前記の継続学習。「laion-aesthetics v2 5+」の解像度で595kステップ、テキストコンディショニングを10%ドロップして、分類子のないガイダンスサンプリングを改善します。sd-v1-2.ckpt512x512
sd-v1-5-inpainting.ckpt: 前記の継続学習。「laion-aesthetics v2 5+」の解像度でのインペイントトレーニングの440kステップと、分類子のないガイダンスサンプリングを改善するためのテキストコンディショニングの10%ドロップ。インペイントの場合、UNet には 5 つの追加入力チャンネル (エンコードされたマスク画像用に 4 つ、マスク自体に 1 つ) があり、その重みは非ペイントチェックポイントを復元した後にゼロに初期化されました。トレーニング中は、合成マスクを生成し、25%ですべてをマスクします。sd-v1-5.ckpt512x512