In seiner Funktionalität auf die Lehre in gestalterischen Studiengängen zugeschnitten... Schnittstelle für die moderne Lehre
In seiner Funktionalität auf die Lehre in gestalterischen Studiengängen zugeschnitten... Schnittstelle für die moderne Lehre
Surrealisten, KI-Bildgeneratoren und Designer*innen, die nur noch beschreiben. Collective imagery or collective imagination?
In diesem einwöchigen Expertise-Projekt ging es darum, sich durch den fotographischen Zugang mit den Themenfeldern „Stillleben“ und „Surrealismus“ auseinanderzusetzen. Ziel sollte es sein, am Ende der Woche eine eigene Arbeit kreiert zu haben, die einem oder beiden dieser Themen zuzuordnen ist.
Den Montag nutzten wir zur Recherche. Was ist überhaupt Surrealismus? Wer sind klassische Vertreter*innen? Ist Surrealismus heute noch relevant?
Ich wollte das Expertisemodul vorwiegend nutzen, um mich tiefergehend und angewandt mit dem Surrealismus zu beschäftigen. In Studiofotographie habe ich schon einige Erfahrungen, weshalb ich meinen Fokus auf die konzeptuelle Ebene legte.
Zu Dienstag galt es dann erste Bildkonzepte mitzubringen. Skizzen zur Bildkomposition, sowie dem Aufbau der Studiobeleuchtung. Ich skizzierte ein paar erste Ideen und fand in meinem Skizzenheft eine alte Bildidee von vor einem Jahr, die ich ebenfalls als sehr reizvoll und passend empfand. Leider allerdings im Studio und der Kürze der Zeit nicht wirklich umsetzbar.
Am Abend schaute ich noch etwas in der Arte Mediathek rum und sah diesen 12-minütigen Beitrag zum Thema KI-generierte Kunst: https://www.arte.tv/de/videos/110342-003-A/mit-offenen-augen/
Der Künstler wurde interviewt und nannte auch die freie Software die er genutzt hat: „Midjourney“. Ich hab sie gleich ausprobiert, um zu sehen, ob ich damit vielleicht meine Bildidee umsetzen könnte…und kam schon sehr schnell auf einen guten Weg dahin.
Ich war begeistert von den schier endlosen Möglichkeiten, der Geschwindigkeit und diesem Prozess des Bildergenerierens. Das wollte ich weiter vertiefen und sehen, wo man damit letztlich hinkommen kann.
Also brachte ich am Dienstag 2 konventionelle Konzepte für Fotoideen mit und meine ersten Versuche mit dem KI-Bildgenerator. Ich habe selten eine so angeregte, polarisierte und zum Teil auch emotionale Debatte innerhalb eines Kurses erlebt. Die Redebeiträge reichten von „Wow, du bist ja im Grunde schon fertig.“ bis zu „Das geht nicht! Das hast nicht du gemacht! Das ist Betrug!“…und vielem dazwischen.
Die Software 'MidJourney' ist als Bot in Discord ansteuerbar und arbeitet mit Textinput, so genannten „Prompts“.
Ein Prompt kann ein Wort sein, eine Wortgruppe, ein Satz, auch beliebig ergänzt durch Schlagworte…bis hin zur minutiösen Beschreibung einer Szene inklusive verwendetem Objektiv, ISOwerten und Blenden-Verschlusszeiten. Am besten funktioniert das Ganze auf englisch.
Es dauert dann ca. eine Minute und die KI gibt einem vier Vorschläge von einem Bild in relativ geringer Detailtiefe aus. Nun kann man entscheiden und sich von einzelnen Bildern neue Varianten generieren lassen und/oder detaillierte Versionen berechnen lassen. Mit den Ergebnissen daraus kann man in derselben Weise fortfahren, wobei es nur 2 Upscaling-Stufen gibt für mehr Detailtiefe.
Der Prompt zu dem Bild der Frau im Wasser mit Sonnenblumen, wurde von mir mehrfach überarbeitet und lautete für die obrige Version schließlich in etwa so:
„woman in long dress standing in a lake, hanging laundry on a clothes horse, the scene is illuminated by a giant sunflower, in far distance doors with wings are flying through the air like birds“
dann folgte der kurative Teil des Prozesses und ich generierte Bildvarianten, bis mir eine als hinreichend spannend und kompositorisch interessant erschien.
Wer gern mehr zu den technischen Details wissen möchte, wie die Algorithmen arbeiten und auf welchen Modellen das ganze basiert, dem kann ich zum Einstieg diese Podcastfolge wärmstens empfehlen: https://open.spotify.com/episode/78ALX9frvUPpvpzguc7Gwr?si=e3lzagb0QVScFvnW-gWZXQ
Ich war begeistert und wollte vieles ausprobieren. Die Ideen überschlugen sich förmlich…gut, dass das Generieren nur eine Minute dauert!
Ich probierte einfachste Prompts wie:
„bauhaus dessau placed in a desert“
bis hin zu komplexen Prompts wie:
the old man in the photo is captured from a close-up angle, he is looking into the camera, he is smiling and seems very happy, the light is soft accenturing his deep facial wrinkles, exquisite detail, 30-megapixel, 4k, 85-mm-lens, sharp-focus, intricately-detailed, long exposure time, f/8, ISO 100, shutter-speed 1/125, diffuse-back-lighting, award-winning photograph, facing-camera, looking-into-camera, monovisions, elle, small-catchlight, low-contrast, High-sharpness, facial-symmetry, depth-of-field, golden-hour, ultra-detailed photography
Ich probierte Liedtexte von Pink Floyd, die Werkbezeichnungen von Rene Magritte, non-assoziative Wortketten, Textfragmente und Aussprüche der historischen Surrealisten, verschiedenste Stile, …
und irgendwann ist man richtig satt gesehen und weiß nicht mehr, was noch Qualität hat und was überhaupt (sur)real ist.
Man kann also phantastischste Meisterwerke innerhalb von wenigen Minuten generieren lassen. Allerdings gibt es zwei große Herausforderungen:
1// Der richtige Prompt.
Es ist eben jene Herausforderung, der viele Design*innen oft ungern begegnen: das Schreiben. Es geht darum eine Szene oder Bildidee sehr präzise zu beschreiben und gleichzeitig eine gewisse Poesie in der Sprache zu wahren. Zumindest kam ich so zu den besten Ergebnissen. Man kann wirklich Stunden, ja einen ganzen Abend (und noch viel länger) damit verbringen den richtigen Prompt zu schreiben. Immer wieder habe ich einzelne Worte ausgetauscht, umgestellt, hinzugefügt, gestrichen, Synonyme ausprobiert, Zeichensetzungen und die Satzstellung geändert. Und jedes mal ergibt sich ein neues Bild.
2// Die Selektion.
Man sieht immer dutzende Varianten ein und desselben Bildes und doch sind alle ein bisschen oder manchmal auch drastisch anders. Man verfolgt verschiedene Varianten weiter und erhält wieder das Vierfache an neuen Auswahlmöglichkeiten. Am Ende des Tages muss man sich aber nicht nur immer wieder auf dem Weg für und gegen Varianten entscheiden, sondern sich auf ein einziges Bild festlegen.
Bei den vielen Experimenten sind so manche interessante Ergebnisse entstanden. Schließlich durfte ich ja aber nur ein einziges Motiv in nur einer Variante als Kursergebnis in den Druck geben. Es war ein wirklich schwieriger Auswahlprozess und ich habe mir viel Feedback von außen eingeholt, was sehr geholfen hat.
Die Bilder habe ich alle noch in unterschiedlichem Umfang nachbearbeitet. Sei es einfach um ein paar störende Bildartefakte oder Fehler zu korrigieren; um noch etwas mehr Struktur und Kontraste herauszukitzeln; oder mit der Photoshop-AI für inhaltsbasierte Bilderweiterung das Format zu ändern und vom Quadrat in ein Landscape zu kommen.
Auswahl der Top-6:
Entschieden habe ich mich letztlich für das, in dieser Bildgalerie als zweites aufgeführte Bild.
Es bekam den Titel: »When a stitching machine was introduced to the scene the flying whale remained unborn«
Es entsprach den Kriterien Stillleben, Surrealismus und Foto am meisten. Außerdem zeigt es nicht nur eine ansprechende Komposition, sondern auch eine nahezu fotorealistische Darstellung von Oberflächen, die jedoch größtenteils, egal wie lange man sie betrachtet, nicht einzuordnen sind. So gegenständlich und gleichzeitig abstrakt zu sein, ist eine Qualität die KI-Bildgeneratoren bewerkstelligen können und sonst m.E. in diesem Maße nur schwer bis gar nicht zu erreichen ist.
Diese und weitere Fragen kommen natürlich auf und sind es mehr als wert momentan diskutiert zu werden.
// Wer ist jetzt Urheber? Ich oder die KI?
Die KI arbeitet nicht ohne Prompt und als Urheber gilt, wer den Prompt erdacht hat.
Tatsächlich fühlt es sich aber wie eine Zusammenarbeit an. Ich empfinde mich beim Erstellen im Dialog mit der KI und es ist ein PingPong von Input und Output, welcher letztlich zu dem Ergebnis führt. Weder ich, noch die KI hätten allein das Werk produzieren können.
// Aber werden nicht die unzähligen Urheberrechte der Bilder verletzt, aus denen sich die KI speist?
Nein, denn sie kopiert nicht stumpf Bildelemente existierender Werke ineinander, sondern generiert tatsächlich originär neue Werke. Das ist ein massiver Unterschied. Die Ergebnisse können natürlich hin und wieder Ähnlichkeiten zu existierenden Werken aufweisen, aber so ist es doch schließlich auch bei jedem Menschen der Kunst schafft. Jede/r Meister*in speist doch, wenn sie lernt zu malen, ihr neuronales Netz ebenso mit existierenden Werken und studiert diese, um schließlich darauf aufbauend neues zu schaffen.
// Aber du gibst ja nur Text ein, das Bild kommt doch vom Rechner!
So wie jede/r Drehbuchautor*in „nur“ Text schreibt und die Bilder von anderen produziert werden. Dennoch bezeichnen wir diese Leute als Künstler*innen.
Zudem kann ein guter Prompt wirklich viel Arbeit bedeuten und es ist momentan in Diskussion, ob diese urheberrechtlich schützenswert sind, wenn sie eine gewisse Komplexität aufweisen. Denn die Bilder sind nicht in gleicher Weise schützenswert wie konventionell erstellte, was zu massiven Komplikationen in der Filmindustrie führen wird, wenn in naher Zukunft KIs auch bewegte Bilder generieren werden.
Darüber hinaus ist der Prompt, der Text, ja meine eigene Kreation. In der Literatur, beim Gedicht, beim Haiku erkennen wir eine Schöpfungshöhe und künstlerische Leistung an. Warum nicht, wenn es um einen Input an eine bildgenerierende Maschine geht?
//Aber du drückst ja nur einen Knopf.
Ist es beim Fotoapparat anders? Auch der Fotograf der eine Straßenszene ablichtet, hat diese nicht geschaffen. Er selbst produziert auch nicht das Bild. Er sieht es, erdenkt es und drückt einen Knopf.
// Aber du wählst ja nur aus.
Und diese Diskussion haben wir vor über 100 Jahren schon geführt, als Marcel Duchamp die Readymades einführte. Er platzierte ein ordinäres Urinal im Museum und sagte, es sei Kunst. Wie provokativ. Aber was er damit meinte: Der Prozess des „richtigen“ Auswählens ist der künstlerische Prozess. Egal ob man nun die Farben auf der Farbpalette auswählt und den Ort auf der Leinwand; oder eben ein existierendes Objekt und den Ort der Präsentation. Es ist genau dieser Prozess des „richtigen“ Auswählens, der auch hier bei KI-generierten Bildern stattfindet. Die Dadaisten, genau wie die Surrealisten, wollten die Kunst heraus holen aus den Akademien und in das echte Leben integrieren, da wo sie hingehört. Duchamp war es auch, der die Zeit herbeisehnte, da die Maschinen ohne menschliches Zutun Kunst schaffen würden. Ganz sind wir noch nicht dort, aber schon nah dran. Und ich denke, dass es eine enorme Demokratisierung der Kunst bedeutet, dass nun jede Person mit Internet, Zugang zu diesem mächtigen Werkzeug hat, um Kunst produzieren zu können – die Qualität wird sich am Input und der Selektion bemessen.
Sicherlich nicht im klassischen Sinne der Photo-Graphie: Licht einzufangen und abzubilden. Doch auch der Surrealist Man Ray dehnte hier schon die Grenzen der Fotographie, als er einfache Alltagsgegenstände auf photosensitivem Papier platzierte und direkt belichtete. Keine Kamera mehr, kein natürliches Licht. Die so entstandenen Fotogramme sind damals wie heute hochgehandelte Kunstwerke und wahrscheinlich am ehesten der Fotographie zuzuordnen.
Auch bei KI-Bildgeneratoren können die Ergebnisse aussehen wie Fotographien und speisen sich letztlich aus solchen. Wo liegt die Grenze? Macht es beispielsweise einen Unterschied, ob ich ein extremes Compositing aus dutzenden Fotos erstelle, zum Teil oder gänzlich Stockfotos verwende oder eben eine KI benutze, welche ihr Verständnis eines Fotos aus Milliarden von Fotos bezieht? Ist es das Ergebnis, welches als Foto identifiziert wird oder der Prozess der Entstehung?
Ich bin dennoch dankbar, dass ich diesen Weg im Fotomodul beschreiten durfte und wo, wenn nicht an einer Hochschule, ist der Ort genau solche Experimente zu wagen und die Grenzen vielleicht auch zu überdehnen?
Einige vielleicht schon, ja. Doch wir sind immer noch an dem Punkt, wo die KI nicht komplett selbst kreiert und nicht entscheiden kann, welches Bild das passendere ist. In so fern brauchen wir auch zukünftig visuell-ästhetisch und konzeptionell geschulte Menschen, die fähig sind, Ideen zu visualisieren. Immer mehr von ihnen werden dabei wahrscheinlich zunehmend die Rolle des Creative-Directors einnehmen. Vielleicht wird es Prompt-Designer*innen geben. Sicher ist aber, dass es eine nützliche Kompetenz sein wird, vage Bildideen in konkreten Text zu übersetzen. Man schreibt im Grunde ein Briefing, nur eben nicht für einen Fotographen oder externen Kommunikationsdesigner, sondern für eine Maschine.
Während der Expertisewoche habe ich mich mit vielen Menschen am Campus über diese ganzen Fragen unterhalten und zum Teil sehr emotionale und abwehrende Positionen gehört. Ich glaube, dass sich einige Menschen stark von dieser Technologie bedroht fühlen, weil sie sie zum einen vielleicht nicht verstehen und viel stärker aber noch, weil sie ganz real fürchten von einem auf den anderen Tag ersetzbar zu sein. Das ist eine existenzielle Unsicherheit, auf die wahrscheinlich niemand gelassen und open-minded reagieren kann.
Einige mit denen ich gesprochen habe, die selbst nicht ihren Lebensunterhalt mit dem Visualisieren verdienen, waren fasziniert von den Ergebnissen, aber gleichzeitig ebenfalls skeptisch bis ängstlich („…das ist schon gruslig, was das alles kann“). Woher diese Angst kommt, darüber kann auch ich nur Vermutungen anstellen, aber was mir auffiel war, dass dies vor allem bei Bildern auftrat, die nicht klar einer AI zuzuordnen waren. Wenn ein Bild also aussah wie ein Foto oder ein klassisches Gemälde. Ich denke hier spielt zum einen die Überbrückung des Uncanny Valley eine Rolle, da es stark verunsichernd wirkt, wenn man nicht mehr mit Sicherheit weiß, ob man es mit einem Menschen oder einer Maschine zu tun hat. Zum Anderen aber auch die Sorge, dass dem Menschen hier ein vermeintliches Alleinstellungsmerkmal, Kreativität und ein Teil seiner hochgeschätzten Kultur „verloren“ geht.
Im Endeffekt sind KI-Bildgeneratoren im derzeitigen Zustand doch vor allem eines: ein sehr mächtiges und zugängliches Werkzeug. Ja, die Bildgeneratoren erleben gerade einen wahnsinnigen Hype, aber ich denke diese Technologie ist gekommen, um zu bleiben. Ihre Bilder fluten seit geraumer Zeit die sozialen Netzwerke und gewinnen zum Teil schon Kunstpreise. Was wir hier erleben ist auch eine enorme Demokratisierung des Kunstschaffens. Auch ohne die Privilegien eines jahrelangen Studiums, eines eigenen Ateliers, massiver Zeit- und finanzieller Ressourcen, können nun Bildideen in sehr hoher ästhetischer Qualität ausgeführt werden. Die Kunst wird damit weniger elitär und rückt ein ganzes Stück in die Mitte der Gesellschaft. Was wir jetzt erleben, ist genau der Paradigmenwechsel, den die Dadaisten und Surrealisten vor über 100 Jahren mit ihrer Kunst- und Kulturrevolution angestoßen haben.