MarkdownとBullet Journal

いわゆるプログラマーのつぶやき

Stable diffusion2.1〜、Waifu Diffusion1.4〜、Unstable Diffusion、Clean Diffusion

明確な意思の基に作られる大規模モデル

明らかな方向性を持つ大規模モデルが複数作られつつある。

  • 仕事で安心して使える様にSFW(safe for work)を徹底したStable Diffusion2.0
  • その生成画像がつまらないという批判を受けて改善を重ねるStable Diffusion2.1以降
  • 膨大なアニメデータを取り込むことで生成品質を上げようとするWaif Diffusion1.4
  • 芸術への制約を許さず自由な画像生成を実現しようとするUnstable Diffusion
  • 著作権フリーのクリーンなモデルで安全利用を図るClean Diffusion

画像生成を利用する側から見ると、それぞれのニーズに合致するモデルが登場することで2023年以降の制作範囲がより広がりそうだ。以下順に説明。

 

StalbeDiffusion2.1〜

SFWなモデル

Stability AIは、Stable Diffusion 2.0を11月24日に公開した。学習モデルは、LAIONが開発した新たなテキストエンコーダ「OpenCLIP」を使用して学習させたものになり、解像度は512×512、768×768を標準で生成する。超解像で2,048×2,048やそれ以上の解像度の画像生成も可能。また新たにDepth2imgモデルが追加されテキストと深度情報の両方を使った画像を生成できる。

しかし最も大きな特徴はより安全なモデルとしてNSFWや著名人の顔情報を削除した点にある。おそらくAppleなど様々な顧客との調整でSFWなモデルの提供が求められたことにより決断と思われる。しかしこれに反発するUnstable Diffusionなどの動きが出てきた(後述)。

 

Waifu Diffusion1.4〜

膨大なアニメデータを含むモデル作り

Waifu DIffusionは当初からアニメなど二次元データを得意とするモデルだったが、NovelAIDiffusionやNIJIJourneyの登場により劣勢に立たされており、それを挽回すべく膨大な画像データを学習させたモデルを登場させようとしているる。モデルはStable Diffusion1.5ベース(まもなく登場予定)、Stable Diffusion2.1ベース(クリスマス頃登場)の二つを用意する模様。

 

Unstable Diffusion

制約のない自由なモデル作り

NSFWや著名人の画像データを意図的に削除したStable Diffusionの進め方に明確に反旗を翻して、NSFWなどの大規模データを学習させるUnstable Diffusion。以下彼らのサイトより。

最近、オープンソースのAI画像モデルをリリースした最後の会社が投資家の圧力に屈し、以前のモデルの大幅に去勢されたバージョンをリリースしました(Stable Diffusion2.0のこと)。

AIのトレーニングから人間とアーティストが大幅に削除されたことで、モデルがそれ以前のバージョンよりも悪いと普遍的に考えられており、その知識を取り戻すためにモデルを微調整しようとすると、数百または数千の画像では意味がありません。画像モデルに享受し期待する機能を取り戻すには、何百万もの画像が必要です。これは高価です。元のモデルの作成には数十万ドルの費用がかかり、ほとんどのモデル作成グループは月に1000ドルも費やすことができません。

主要なオープンソースモデルであるStable Diffusion 1.5(SD1.5)の以前のイテレーションは、強固な基盤として機能し、多くの知識を焼き付けて構築されているため、わずか5ドルで必要なアートスタイルを作成するために微調整できました。現在のモデルは著しく悪化したモデルであり、根本的な問題を解決するために桁違いに多くのコストがかかり、カスタムAIモデルの繁栄しているコミュニティエコシステムを破壊します。

 

Clean Diffusion

クリーンで著作権フリーなモデル作り

著作権の切れたパブリックドメインの画像データだけを用いた学習モデルを新たに作ることで、誰でも安心して使用できるクリーンなモデルを提供しようとされている。以下は開発元のあるふさんのサイトより。

  • 画像生成AIの流行でクリエイターの社会が混乱
  • 画像生成AIは他人の著作物を一方的に学習して真似をできてしまう
  • 著作権者の利益を不当に害することに繋がりかねない
  • mimicや CLIP STUDIO PAINTへの画像生成AI搭載が見送られるなどの支障が出ている
  • そこで学習しても問題ないパブリックドメイン (CC-0) の著作物だけを用いたモデルを作ることで問題を解決したい

alfredplpl.hatenablog.com