Stable Diffusion WebUI – Teil 2

Im zweiten Teil meines kleinen Exkurses in die Stable Diffusion WebUI werde ich mich mit den Parametern zur Bildgenerierung beschäftigen. Die Steuerzentrale findet sich auf der linken Seite der WebUI und ist hier noch einmal dargestellt.

 

Zur Demonstration werde ich einige Beispielbilder generieren. Das Ausgangsbild für alle Variationen ist das nachfolgende. Die Parameter packe ich in eine Spoiler-Box.

"Startparameter" one astronaut is looking at a colorful flower at the moon Negative prompt: stock image, blocks, jpeg, jpg, dusty particles, blurry, smooth, smudges, frame, words, text, signature, watermark, paint brush, drawing pad Steps: 20, Sampler: Euler a, CFG scale: 7, Seed: 3096444021, Size: 512x512, Model hash: e1441589a6, Model: v1-5-pruned

Widmen wir uns nun zuerst der Sampling Methode. Hier gibt es mittlerweile eine Vielzahl von Algorithmen. Technisch kann man sich das so vorstellen: Stable Diffusion braucht ein Startbild aus dem es unter Berücksichtigung des Prompts Rauschen entfernt. Dazu werden sogenannte VAE (variational autoencoder) verwendet. Diese stellen neuronale Netze dar, die aus Datensätzen nützliche Informationen extrahieren sollen. VAE finden daher nicht nur bei der Bildgenerierung Anwendung (für manche Modelle muß man auch die passenden VAE mit laden). StabilityAI, die Macher von stable Diffusion, haben sich für die Bilderstellung für die Verwendung von sampling Methoden entschieden. Sie sind daher eine große Spielwiese zum Probieren. Und man kann nicht wirklich sagen, welche Methode die Beste ist. Die folgende große Abbildung zeigt eine Vielzahl verschiedener Bilder, die mit unterschiedlichen Sampling Methoden erzeugt wurden. Die linke Spalte enthält dabei den Seed unseres Startbildes. Ich habe noch weitere zufällig erzeugte Seeds mit aufgenommen, damit man auch einen Eindruck erhält, wieweit die Seeds (die die Generierung des Startrauschens beeinflussen) sich auf das erzeugte Bild auswirken.

Was mir dabei auffällt ist, das wir sehr viele Astronauten haben, mit Gesicht, ohne Gesicht, männliche und weibliche Astronauten. Dazu sehr oft auch der Mond, aber Blumen erscheinen nur auf einem Bild. Das ist jetzt auch nicht unbedingt verwunderlich, denn es wird sicher nicht viele Bilder geben, die einen Astronauten auf dem Mond zeigen, der eine Blume anschaut. Wer will, kann gerne einmal die Suchmaschine seines geringsten Misstrauens mit einer Bildersuche betrauen. Das ist übrigens auch eine gute Idee, um generell mal einen Prompt zu testen. Vor allem wenn er nicht das liefert, was man sich so vorstellt. Der nächste und für diesen Teil letzte Parameter ist der cfg- Wert. Er bestimmt, wie exakt sich das Modell an den Prompt halten soll. Ein niedriger Wert bietet dem Modell mehr Freiheiten, ein hoher Wert liegt dann halt näher am Prompt. Das folgende Bild zeigt dies wieder für verschiedene Seeds und cfg- Werte.

Bei unterschiedlichen Seeds mit unterschiedlichen cfg- Werten generierte Bilder.

Deutlich erkennbar ist eigentlich nur ein qualitativer Abfall bei einem cfg- Wert von 3 und 5. Danach sind die Unterschiede wenig signifikant. Und wir finden erstmals ein Bild, bei dem ein Astronaut ein Blume betrachtet. Und zum Abschluss noch eine Darstellung mit den 5 seeds u7nd unterschiedlichen Modellen. Man erkennt schon einen großen Einfluss der Modell auf das Resultat wobei keine Anpassung der Prompts vorgenommen wurde. Hier finden sich dann durchaus Ergebnisse die dem von mir erhofften nahe kommen.

Stable Diffusion WebUI (Automatic1111) – Teil 1

Ich hatte mich ja schon kurz über AI Art und Urheberrecht ausgelassen. Und nun  will ich mal ein bisschen zu den praktischen Seiten bloggen. Schon allein um mich mal näher mit den Hintergründen zu befassen aber auch um meine Erfahrungen mit mehreren tausend erstellten Bildern.

Gekommen bin ich zu AI Art über die Software Visions Of Chaos. Damit habe ich viel Fraktalbilder gemacht und auch andere Simulationen. Und es gibt dort halt auch ein Kapitel „Machine Learning“. Und da mein damaliger PC nicht in der Lage war (zu alte Grafikkarte) damit zu arbeiten, habe ich nach anderen Möglichkeiten gesucht und diese auch gefunden. Midjourney und Nightcafestudio sind solche Möglichkeiten. Mittlerweile habe ich mich modernisiert und kann zumindest eine Vielzahl der Programme aus Visions of Chaos lokal ausführen. Und ein Hauptwerkzeug ist die Stable Diffusion WebUI von Automatic1111 (die auch in Vision of Chaos enthalten ist). Und ich werde mich in mehreren Beiträgen in loser Folge mit dieser Oberfläche und Ihren Möglichkeiten beschäftigen.

Das erste Bild zeigt die WebUI mit dem aktivierten text2image Tab. Links oben findet sich die Auswahl des Modells, welches man für die Bildgenerierung benutzen möchte.

Die Modelle (technisch Checkpoints) findet man in seiner lokalen Installation im Verzeichnis stable-diffusion-webui\models\Stable-diffusion. Man kann sowohl Dateien der Form .ckpt als auch .safetensors verwenden. Viele solcher Modelle (basierend auf den Originalmodellen von stability.ai) findet man unter anderem auf Civitai. Wichtig: Lädt man Modelle bei geöffneter WebUI dann muß man den Reload-Button rechts neben dem aktuell gewählten Modell drücken. Dann wird die Liste der verfügbaren Modelle neu geladen.

Als nächstes kommen zwei große Eingabefelder für den Prompt und einen negativen Prompt. Hier wird im Prinzip einerseits beschrieben, was das Bild zeigen soll und was es nicht zeigen soll. Dabei können von Modell zu Modell unterschiedliche Tag Systeme (Danbooru oder CLIP) zum Einsatz kommen. Hier bin ich selber noch am Lernen, ich will jedoch mal versuchen die Unterschiede an einem Beispiel aufzuzeigen. Dazu habe ich  das folgende von mir generierte Bild genommen:

Im Tab img2img kann man Bilder hochladen und sich entsprechende Prompts generieren lassen.

Für das CLIP Modell ergibt sich dabei folgender Prompt: a loaf of bread with a bite taken out of it on a table next to a window with a green wall, Brian Snøddy, product photo, a pastel, precisionism

Für das DeepBooru Model erhält man dagegen: food, no_humans

"verwendete Still life with bread roll,(Heidelberg School:1.3) Negative prompt: stock image, blocks, jpeg, jpg, dusty particles, blurry, smooth, smudges, frame, words, text, signature, watermark, paint brush, drawing pad,watermark,signature Steps: 50, Sampler: DPM++ SDE, CFG scale: 12.5, Seed: 4111621769, Size: 910x512, Model hash: 0fc198c490, Model: AbyssOrangeMix2_hard, aesthetic_score: 5.9

Nun kann man eigentlich schon mit den voreingestellten Parametern loslegen.

Im nächsten teil werde ich dann ein wenig (soweit mir möglich) auf eben jene Parameter eingehen.

Wer will, kann ja auch mal bei mir auf Discord vorbeischauen.

AI- Art

AI- Art ist zur Zeit ein großes Thema. Bilder werden von unzähligen Nutzern erstellt und das mit durchaus anspruchsvollen Motiven. Die breite Verfügbarkeit hat natürlich auch zu Diskussionen zum Für und Wider dieser Kunstform geführt. Und so ist es nicht verwunderlich, dass es halt auch viel Ablehnung gibt. Ich möchte mal behaupten, das nicht jeder der diese Form der Kunst ablehnt, sich schon einmal daran versucht hat. Man kann natürlich schnell Erfolge erzielen. Aber, so zumindest beobachte ich es an mir, wird man mit der Zeit anspruchsvoller. Und man beginnt damit zu probieren, wie weit man die AI steuern kann. Man experimentiert halt mit den verschiedenen Schlagwort, und derer gibt es viele. Ein bisschen so, wie der klassische Maler mit Pinseln und Farben experimentiert. Und somit kann ich nachvollziehen, das der „klassische“ Künstler skeptisch dieser Kunstform gegenüber steht, sich sogar teilweise in seiner Existenz bedroht fühlt. Und so kommt es nun auch in der Malerei zu ähnlichen Diskussionen wie man sie unter Musikern hatte, als die Tauschbörsen aufkamen. Aber man muß auch klar sagen, AI- Art erlaubt vielen Menschen auch den Zugang zur Schaffung von Kunst, die es auf traditionellen Werk nie hinbekommen würden. Und ich gehöre definitiv dazu. Also kann man zwar versuchen, AI-Art zu verbieten und verbannen. Ich halte das für kleingeistig und ich bin überzeugt, das AI-Art Bestandteil unserer Kultur wird. Genauso wie andere Formen digitaler Kunst.

Und wer mal sehen will, was ich so mache, der kann das auf kunst.sthomas.de als auch auf deviant-Art tun.