Im zweiten Teil meines kleinen Exkurses in die Stable Diffusion WebUI werde ich mich mit den Parametern zur Bildgenerierung beschäftigen. Die Steuerzentrale findet sich auf der linken Seite der WebUI und ist hier noch einmal dargestellt.

 

Zur Demonstration werde ich einige Beispielbilder generieren. Das Ausgangsbild für alle Variationen ist das nachfolgende. Die Parameter packe ich in eine Spoiler-Box.

Widmen wir uns nun zuerst der Sampling Methode. Hier gibt es mittlerweile eine Vielzahl von Algorithmen. Technisch kann man sich das so vorstellen: Stable Diffusion braucht ein Startbild aus dem es unter Berücksichtigung des Prompts Rauschen entfernt. Dazu werden sogenannte VAE (variational autoencoder) verwendet. Diese stellen neuronale Netze dar, die aus Datensätzen nützliche Informationen extrahieren sollen. VAE finden daher nicht nur bei der Bildgenerierung Anwendung (für manche Modelle muß man auch die passenden VAE mit laden). StabilityAI, die Macher von stable Diffusion, haben sich für die Bilderstellung für die Verwendung von sampling Methoden entschieden. Sie sind daher eine große Spielwiese zum Probieren. Und man kann nicht wirklich sagen, welche Methode die Beste ist. Die folgende große Abbildung zeigt eine Vielzahl verschiedener Bilder, die mit unterschiedlichen Sampling Methoden erzeugt wurden. Die linke Spalte enthält dabei den Seed unseres Startbildes. Ich habe noch weitere zufällig erzeugte Seeds mit aufgenommen, damit man auch einen Eindruck erhält, wieweit die Seeds (die die Generierung des Startrauschens beeinflussen) sich auf das erzeugte Bild auswirken.


Was mir dabei auffällt ist, das wir sehr viele Astronauten haben, mit Gesicht, ohne Gesicht, männliche und weibliche Astronauten. Dazu sehr oft auch der Mond, aber Blumen erscheinen nur auf einem Bild. Das ist jetzt auch nicht unbedingt verwunderlich, denn es wird sicher nicht viele Bilder geben, die einen Astronauten auf dem Mond zeigen, der eine Blume anschaut. Wer will, kann gerne einmal die Suchmaschine seines geringsten Misstrauens mit einer Bildersuche betrauen. Das ist übrigens auch eine gute Idee, um generell mal einen Prompt zu testen. Vor allem wenn er nicht das liefert, was man sich so vorstellt.
Der nächste und für diesen Teil letzte Parameter ist der cfg- Wert. Er bestimmt, wie exakt sich das Modell an den Prompt halten soll. Ein niedriger Wert bietet dem Modell mehr Freiheiten, ein hoher Wert liegt dann halt näher am Prompt. Das folgende Bild zeigt dies wieder für verschiedene Seeds und cfg- Werte.

Bei unterschiedlichen Seeds mit unterschiedlichen cfg- Werten generierte Bilder.

Deutlich erkennbar ist eigentlich nur ein qualitativer Abfall bei einem cfg- Wert von 3 und 5. Danach sind die Unterschiede wenig signifikant. Und wir finden erstmals ein Bild, bei dem ein Astronaut ein Blume betrachtet.
Und zum Abschluss noch eine Darstellung mit den 5 seeds u7nd unterschiedlichen Modellen. Man erkennt schon einen großen Einfluss der Modell auf das Resultat wobei keine Anpassung der Prompts vorgenommen wurde. Hier finden sich dann durchaus Ergebnisse die dem von mir erhofften nahe kommen.