Onholidayprints

18.1.2023

Ein regentauglicher Pfahlbau in St. Peter Ording

Wer bereits meinen letzten Blog-Beitrag gelesen hat, der mag sich auch für ein paar weitere Gedanken zu dem Thema, „Bilder erzeugen mit künstlicher Intelligenz“, interessieren.

Meine ersten Erfahrungen mit einem KI-Software-Tool haben gezeigt, dass es auch an den Nutzer spezielle Anforderungen gibt. Um mit einem KI-Tool ein zufriedenstellendes Bildergebnis zu generieren, bedarf es einer genauen Beschreibung, was man erhalten möchte.

Das die Detaildarstellung, mit dem von mir benutzten OpenAI-Tool, noch nicht mit Foto realistischen Bildern mithalten kann, sollte nach dem letzten Blogbeitrag klar sein.

Auch die Bildgestaltung nach den üblichen Fotoregeln lässt manchmal zu wünschen übrig, obwohl man schon sagen kann, das doch Teile sehr ansprechend gestaltet (Komponiert) sind.

Mich hat aber noch einmal interessiert, wie ich Bilder weiter in die Richtung trimmen kann, so dass sie meinen Vorstellungen genauer entsprechen. Dazu habe ich mir ein Thema überlegt, mit dem man die KI gezielt ausprobieren kann.

Der Pfahlbau bekommt Gummistiefel

Meine Idee im Kopf war, ein doch eher unrealistisches Bild von einem Pfahlbau, der auf gelben Gummistiefeln, am Strand von St. Peter Ording steht. Realistische Bilder von St. Peter-Ording kann ich ja mit meiner Kamera fotografieren dafür benötige ich keine KI. Warum also nicht mit der KI eine teils künstliche Welt erschaffen, die jedoch immer noch bestimmten Bild-/Landschaftstypen entspricht.

Man beginnt den Vorgang, in dem man die Vorgabebegriffe für die Bildanfrage zusammenstellt. In einem der Software-Tools startet man z.B. mit /imagin ... was die darauf folgenden Wortbeschreibung ganz gut einleitet. Im ersten Schritt habe ich relativ einfache, separierte Suchbegriffe wie Gummistiefel, gelbe Farbe und Pfahlbau zusammengestellt.

Die genaue Zusammenstellung kann ich auch hier wieder nicht dokumentieren, da sie mit den Bildrechten zusammenhängt, wie in meinem letzten Blogbeitrag bereits beschrieben.

Das erste Bildergebnis (erste vierer Bildreihe) entspricht noch nicht dem „Look“ den ich mit dem Ort St. Peter-Ording verbinde. Aus diesem Grund wurde für die nächste Suche noch einmal der Ort als Referenz hinzugefügt.

Das weitere Bildergebnis hatte jetzt schon etwas „SPO-Feeling“. Allerdings passten die Farben teilweise nicht. Das Gelb, welches eigentlich für die Gummistiefel gedacht war wurde auch anderen Objekten wie zum Beispiel dem Pfahlbau zugewiesen.

Also wurde im nächsten Schritt noch einmal die Farbe zugewiesen. Es wurde "gelb" nicht nur einzeln gelistet, sondern "gelbe Gummistiefel" beschrieben.

Wie man an den Bildergebnissen sehen kann, hatte das Ganze keinen Erfolg. Auch wenn man Farben Objekten zuweist, scheint die KI die Farbinformationen manchmal allgemein zu verarbeiten. Das macht eine Umsetzung nach den eigenen Vorstellungen für Objekte durchaus schwierig.

Im nächsten Schritt wurden also unterschiedlichen Objekten nochmal Farben zugewiesen. In diesem Fall ein "brauner Pfahlbau" und "gelbe Gummistiefel".

Bei der jetzigen Suche gab es zumindest einen Treffer, der etwas SPO-Feeling aufkommen lässt. Ein brauner Pfahlbau und gelbe Gummistiefel die im Watt stehen. Von der Qualität des Fotos sprechen wir jetzt mal nicht (ein Doppelklick aufs Bild sagt alles).

Das Ganze ist jedoch noch weit entfernt von meiner, eigentlich lustigen Idee mit dem Pfahlbau, der auf gelben Gummistiefeln steht. Die Herausforderung ist es also per Text die Objekte genauso miteinander zu verbinden, dass man das richtige Ergebnis erhält. Im nächsten Versuch probierte ich es - der Pfahlbau „trägt“ gelbe Gummistiefel

Das „tragen“ (English „Wearing“) scheint die KI jedoch nicht richtig verstanden zu haben.“

Also einen neuen zweiten Versuch mit - Pfahlbau „auf“ Gummistiefeln

Auch dieser Versuch ist nicht gerade glücklich verlaufen. Deshalb der dritte Versuch mit -
Pfahlbau mit Füßen wie Gummistiefel

OK – wir kommen der Sache näher. Der Pfahlbau hat gelbe Füße bekommen. Allerdings scheint die dominante Beschreibung des Objektes jetzt andere Attribute zur Seite zu drängen. Der Stil St. Peter-Ording (Ort) findet sich jetzt im Bild nicht mehr wirklich wieder.

Bei meinen Suchanfragen hatte ich immer wieder das Gefühl, dass zu viele Attribute und Objekte für das Bild nicht hilfreich sind.

Das zweite was auffällt ist, dass das Objekt jetzt sehr Groß im Bild erscheint und die Weite etwas verloren geht. Um dieser Tatsache entgegenzuwirken, wurden bei der nächsten Suche noch weitere Attribute wie Horizont und Wellen hinzugefügt.

Mit der jetzt dargestellten Weite nähern wir uns etwas dem Ziel. Jedoch werden die Farben wieder schlechter zugewiesen. Die Bilder nehmen allerdings schon eher die Idee auf, die ich ursprünglich hatte.

Würde man versuchen diese Bilder als Montage selber z.B. mit Photoshop zu erstellen dann würde das schon einige Zeit in Anspruch nehmen. Einmal ganz davon abgesehen, dass man die unterschiedlichen Fotos als Rohmaterial verfügbar sein müssten. Hier ist einer der großen Vorteile der KI zu sehen. Wobei auch weiterhin die Bildqualität zu wünschen übrig lässt.

Da ich vormals auch ein Attribut Kunst hinzugefügt hatte, erschienen mir die Bilder jetzt auch nicht mehr wirklich fotorealistisch, sondern mehr grafisch. Im nächsten Schritt habe ich also noch einmal das Ganze wieder in Richtung Foto getrimmt.

Das Ergebnis, welches jetzt entstanden ist, hat mich nicht wirklich nach vorne gebracht.

Wie wär's also mit einem weiteren Attribut, dass den Stil unterstützt nämlich den Begriff „lustig“.

Die Bilder wurden jetzt definitiv lustiger. Aber mit immer mehr Attributen ging immer mehr von meinem Kernziel verloren. Mit Bildern aus Sankt Peter-Ording-Ording bringt man die Bildreihe nicht mehr in Verbindung. Und das Objekt aus Pfahlbau und Gummistiefeln erscheint wieder sehr dominant.

Also ein weiterer Versuch, mit dem Begriff „kleiner“ Pfahlbauten, das Objekt im Bild wieder kleiner erscheinen zu lassen.

Jetzt sind wir wieder auf einem richtigen Weg. Dazu viele Attribute ja nicht unbedingt hilfreich waren Punkt, habe ich im nächsten Schritt wieder ein paar Attribute wie Horizont und Wellen herausgenommen.

In der Bildreihe ist das rechte Bild schon sehr nah an meinen ursprünglichen Vorstellungen. Der Pfahlbau sieht zwar nicht genauso wie in St. Peter-Ording aus, aber mit der Weite und der Sandbank ist das Bildergebnis schon ganz gut.

Von dem ausgewählten Bildergebnis kann man sich mit der Software noch weitere Variationen erstellen lassen, indem man das Bild auswählt und einfach die KI noch einmal weitere Bilder, gemäß dem Stil, berechnen lässt. Mal sehen, was das ergibt?

Viel besser sind die neuen Variationen auch nicht geworden. Allerdings hat man eine etwas größere Auswahl.

Fazit

Es wird sicherlich schwierig ein Bild zu erstellen welches noch genauer meinen Vorstellungen entspricht. Je genauer die Vorstellungen im Kopf sind, umso mehr wird das Ergebnis der KI abweichen.

Hinzu kommt, dass Erfahrung und Kreativität beim Vorgeben der jeweiligen Bildbeschreibung notwendig sind. Das geht ebenfalls einher mit einem größeren Zeitaufwand, der trotzdem benötigt wird, um das Bild in die richtige Richtung zu trimmen.

So muss man bei der erzielten Bildqualität, weiterer die Frage nach den zukünftigen Anwendungsbereichen stellen. Um kreative Welten entstehen zu lassen, ist es sicherlich ein schöner Zeitvertreib und es werden sich daraus professionelle Anwendungen enwickelt. Vom Umsetzen realistischer Landschaftsaufnahmen ist der aktuelle Stand der Technik noch einen weiten Weg entfernt, denke ich.

Was ist Deine Meinung dazu? Ich bin gespannt auf Deine Antworten.

Zurück zum Blog