StabilityAI公開の新VAE（改良オートエンコーダー）

VAE（改良オートエンコーダー）

Stable Diffsion1.5、そのimpainitingVAE版の公開に続いて、StabilityAIからモデルのオートエンコーダ部を置換するVAE（改良オートエンコーダー）が公開された。

huggingface.co

公開されたのはモデルに含まれるオリジナルのkl-f8オートエンコーダから微調整された2つのkl-f8オートエンコーダバージョン。
ft-EMAは、元のチェックポイントから再開され、313198ステップのトレーニングを受け、EMAウェイトを使用
ft-MSEは、ft-EMAから再開され、EMA重みを使用し、MSE再構築(やや「より滑らかな」出力を生成する)に重点を置いて、再加重損失を使用してさらに280kステップのトレーニングを受けた。
既存のモデルとの互換性を保つために、デコーダ部分のみを微調整しており、チェックポイントは、既存のオートエンコーダのドロップイン置換として使用できる。

VAEの威力

目や指など細部の生成が安定する。

左から ft-EMA 、 ft-MSE 、 original の例（256x256）

実はVAEの活用はNovelAIDiffusionで行われているもので、NovelAIDiffusionでVAEを使わずに生成すると目や指がおかしくなる（AUTOMATIC1111による実証）。このVAE：改良オートエンコーダーで画質改善するアイディアを考えて実装したNovelAIは凄いし、その威力をStable Diffusion本家も認めて取り入れたものと言えよう。もっとも漏洩が無ければこのアイディアが世の中に出回らなかったと考えると少々複雑だ。（NovelAIはハイパーネットワークという別のアイディアも実装している）