LawrenceTurner のブログ

ゲームとかAIとかVRとか 文章を書くのって難しいね

Stable Diffusionのimg2imgを使って推しの画像を生成してみる

はじめに

2022年8月24日にStable Diffusionがリリースされました。
Stable Diffusion は画像生成AIとして名を馳せる中、文章から画像を生成する部分に焦点を当てられる事が多いですが、
Stable Diffusion には"文章から画像を生成する"機能と"画像から画像を生成する機能"があります。
今回はStable Diffusionのimg2img(画像から画像を生成する機能)を使って推しの画像を生成してみました。

0.作成環境

Windows10
RTX3060(VRAM12GB)
VRAM12GBでは本家 StableDiffusion は動作しなかったため、フォークされた
github.com
を使用しました。少ないVRAMでも動くように最適化されたものです。

環境構築は丸々省きますが、グラボを積んでいないPCの方でもGoogle Collabの無料枠で動かせるようです。

1.元画像生成

皆さんはOИEちゃんを知っていますでしょうか
VOCALOIDのIAは(多少は)有名ですが、その妹です。
one-aria.com
かわいいですね

誰でもが知っている、という存在ではないので界隈の絵師様や創作者様などを糧に生きています。ありがたいことです。
それは置いておきまして、自分は絵が得意な方ではないのですが公式画像などを参考に書いていきます。

うーん、不安になってきました。大丈夫でしょうか?
後から感じたことですが、この画像をもう少し凝るべきでした。腕とか口とか。
512*512のキャンバスで作りました。

2.画像変換①

StableDiffusionに入れてみます。

python optimizedSD/optimized_img2img.py --prompt "cute girl, concept idea, pixiv, kawaii" --init-img (画像指定) --strength (変化度) --n_iter 2 --n_samples (サンプル数) --H 512 --W 512

(画像指定)は参照先です。今回はtestone/one1.png としました(stable-diffusion/testone/one1.pngといったファルダ構成になっています。)
(変化度)はそのまま変化度です。0~1の値で指定でき、値が小さければ小さいほど元絵の影響力が大きくなります。今回は0.5としました。
(サンプル数)は指定した値の数画像が出力されるようになります。
変換後、サンプル数の数だけ画像が出力されます。



思ったより上手く変換してくれて驚きです。
この後、変化度を変えたりして幾つか生成してみましたが、上記4枚目の画像が気に入ったのでそれを使っていきます

3.画像修正

既にかなりいい出来ですが、胸のあたりの謎の模様や左右の目の大きさなどを修正します。

もう一回画像変換にかけます。

4.画像変換②

あまり変化してほしくないので変化度は0.3程度にしてみました

python optimizedSD/optimized_img2img.py --prompt "cute girl, concept idea, pixiv, kawaii" --init-img testone/one2-fix.png --strength 0.3 --n_iter 2 --n_samples 10 --H 512 --W 512





どれも良い出来なのではないでしょうか
個人的には4枚目がお気に入りです。

5.サクッと2枚目

画風の変化を見たかったのでペンを変えて2枚目
自分の絵を描くのが一番時間がかかります。今度は胸下まで書いてみました。
サンプル画像が多いかなと思い学生服をイメージして書き、アルゴリズムにもschool uniformを追加しました。


python optimizedSD/optimized_img2img.py --prompt "a cute girl, school uniform, pixiv, kawaii" --init-img testone/2-one.png --strength 0.5 --n_iter 2 --n_samples 5 --H 512 --W 512


あまり良い画像が生成されなかったので変化度パラメーターを弄ったり出力数を増やしたりして選んだのがこれ


背景がおかしいのですが、黒を取り除くのが面倒そうだったので背景を黒く塗りました()
あとは口や髪を修正、突然生えたアホ毛はAI君の性癖を尊重して残しました。


学生服っぽさはなくなったのでuniformだけに変更するなどして2回目
あんまり良い画像が得られなかったので妥協してなんとなくこれを選びました。

目がうるっとしてて拗ねてるみたいだなって

6.最後に

Stable Diffusion のtext2imgでは思ったような2次元キャラクターを作成する事ができなかったのであまり期待をしていなかったのですが、img2imgは思ったより簡単に、まあまあなクオリティの画像を作ることができました。
クオリティや取り回しなどは語句指定や適切なパラメータ等で向上させていきたいですね。

近々Stable Diffusion のアニメ版が出るようなので、出たらアニメ画像生成を試してみようと思います。


画像生成AIに関して、特に絵の創作界隈ではアーティストの権利侵害への懸念が強くあるように感じています。
しかし一方、VOCALOIDを使ったボカロPのような新しい形のミュージシャンが出現したように、技術は新しい才能を開花させる力があると思っています。
技術自体を遠ざけてしまうのではなく、ルールやモラルを守り、世の中が良くなるように使っていきたいですね。