Ich hatte mich ja schon kurz über AI Art und Urheberrecht ausgelassen. Und nun will ich mal ein bisschen zu den praktischen Seiten bloggen. Schon allein um mich mal näher mit den Hintergründen zu befassen aber auch um meine Erfahrungen mit mehreren tausend erstellten Bildern.
Gekommen bin ich zu AI Art über die Software Visions Of Chaos. Damit habe ich viel Fraktalbilder gemacht und auch andere Simulationen. Und es gibt dort halt auch ein Kapitel „Machine Learning“. Und da mein damaliger PC nicht in der Lage war (zu alte Grafikkarte) damit zu arbeiten, habe ich nach anderen Möglichkeiten gesucht und diese auch gefunden. Midjourney und Nightcafestudio sind solche Möglichkeiten. Mittlerweile habe ich mich modernisiert und kann zumindest eine Vielzahl der Programme aus Visions of Chaos lokal ausführen. Und ein Hauptwerkzeug ist die Stable Diffusion WebUI von Automatic1111 (die auch in Vision of Chaos enthalten ist). Und ich werde mich in mehreren Beiträgen in loser Folge mit dieser Oberfläche und Ihren Möglichkeiten beschäftigen.
Das erste Bild zeigt die WebUI mit dem aktivierten text2image Tab. Links oben findet sich die Auswahl des Modells, welches man für die Bildgenerierung benutzen möchte.
Die Modelle (technisch Checkpoints) findet man in seiner lokalen Installation im Verzeichnis stable-diffusion-webui\models\Stable-diffusion. Man kann sowohl Dateien der Form .ckpt als auch .safetensors verwenden. Viele solcher Modelle (basierend auf den Originalmodellen von stability.ai) findet man unter anderem auf Civitai. Wichtig: Lädt man Modelle bei geöffneter WebUI dann muß man den Reload-Button rechts neben dem aktuell gewählten Modell drücken. Dann wird die Liste der verfügbaren Modelle neu geladen.
Als nächstes kommen zwei große Eingabefelder für den Prompt und einen negativen Prompt. Hier wird im Prinzip einerseits beschrieben, was das Bild zeigen soll und was es nicht zeigen soll. Dabei können von Modell zu Modell unterschiedliche Tag Systeme (Danbooru oder CLIP) zum Einsatz kommen. Hier bin ich selber noch am Lernen, ich will jedoch mal versuchen die Unterschiede an einem Beispiel aufzuzeigen. Dazu habe ich das folgende von mir generierte Bild genommen:
Im Tab img2img kann man Bilder hochladen und sich entsprechende Prompts generieren lassen.
Für das CLIP Modell ergibt sich dabei folgender Prompt: a loaf of bread with a bite taken out of it on a table next to a window with a green wall, Brian Snøddy, product photo, a pastel, precisionism
Für das DeepBooru Model erhält man dagegen: food, no_humans
Nun kann man eigentlich schon mit den voreingestellten Parametern loslegen.
Im nächsten teil werde ich dann ein wenig (soweit mir möglich) auf eben jene Parameter eingehen.
Wer will, kann ja auch mal bei mir auf Discord vorbeischauen.