Künstliche Bilder – gibt es das?

Letztes Mal habe ich über ChatGPT geschrieben, eine Software, mit der man sich über dies und das „intelligent“ unterhalten kann. ChatGPT ist ein Bot, der auf Künstlicher Intelligenz (KI oder AI) basiert, ähnlich wie die mittlerweile gut etablierten Übersetzungsprogramme.

Reinforcing Loop

Nachdem ChatGPT für die Öffentlichkeit zugänglich war, taten einige Menschen, als würde ihnen der Bot viel Arbeit abnehmen und überschwemmten die Sozialen Medien mit Erfolgsmeldungen. Das machte ein grösseres Publikum neugierig. Einige plapperten einfach nach, was die ersten in den Sozialen Medien geschrieben haben, ohne selbst die Software je ausprobiert zu haben. Dabei wäre es so einfach und kostenlos, wie z.B. Wikipedia. Andere probierten den Bot selbst aus und machten vermutlich ernüchternde Erfahrungen. Sie wagten sich jedoch nicht, darauf aufmerksam zu machen, dass der Kaiser ja gar keine neuen Kleider trägt, wie sie alle sagten, sondern nackt sei. Denn wer die Fähigkeiten heutiger generativer KI-Systeme relativiert, kann leicht als Ignorant etikettiert werden. Das führt dazu, dass alle lieber in die Lobhudelei der neuen KI-Software einstimmen, als Gefahr zu laufen, ausgelacht zu werden. Dieser aufkommende Hype zieht weitere Kreise an und entwickelt sich zu einem selbstverstärkenden und sich aufwiegelnden Trend. Je mehr Menschen behaupten, dass ChatGPT nützlich sei, desto mehr Menschen übernehmen diese Meinung und plappern sie nach. Das ist ein Loop mit positiver Polarität, wie ich ihn u.a. in meinem Artikel über die Kunst, Causal Loop Diagrams zu zeichnen, beschrieben habe. Schliesslich rühmen alle die Fähigkeiten von ChatGPT, obwohl alle im Geheimen wissen, dass es damit nicht so weit her ist, aber keiner wagt’s zu sagen. Mich interessierte in meinem Artikel dieses gesellschaftliche Phänomen. Es nennt sich Groupthink. Ich habe in einem anderen Artiel schon darüber geschrieben.

Die AI kann auch Bilder

Diesmal geht es mir um eine echte Anwendung künstlicher Intelligenz, nämlich um text-to-image-Anwendungen. Das sind Systeme, die aufgrund einer verbalen Bildbeschreibung ein Bild künstlich erzeugen, das auf die Beschreibung passt (oder passen sollte). Oft ist die Software grammatikalisch unempfindlich, so dass die Bildbeschreibung einfach aus einer Anhäufung von einzelnen Schlüsselbegriffen bestehen kann. Das macht es aber nicht einfacher, das richtige Bild zu treffen. Das Unternehmen, das ChatGPT entwickelt hat, bietet auch eine text-to-image-Software namens „Dall-E“ an. Leider habe ich sie nie ausprobiert. Die momentan wohl populärste text-to-image Software heisst Midjourney. Ich habe mir einen Account eröffnet und begonnen, mit Midjourney zu experimentieren. Dabei interessieren mich zwei Fragen: 1. Was kann diese Software und 2. wie soll ich als Fotograf einer solchen Bilderzeugungstechnik gegenübertreten.

Bildliches Geplapper

Damit Midjourney ein Bild erzeugt, müssen Sie in einer Art Zeileninterface das Bild beschreiben. Das ist schwieriger, als Sie gerade denken. Zunächst besteht das Bild entweder bloss in Ihrer Phantasie oder als Vorlage. Ich nahm mir eine nächtliche Aufnahme vor, die ich kurz zuvor in Bern schoss und versuchte, Midjourney dazu zu bewegen, meine Aufnahme nachzumachen.

Eine meiner Fotos, die Midjourney nachmachen soll

Ich wählte absichtlich eine einfache Vorlage mit einer Silhouette im Vordergrund und einem Grossstadt-Bokeh-Hintergrund. Den Kopfhörer liess ich der Einfachheit halber weg. Zwei der Resultate, die ich herausbekam, schauen so aus:

Was Midjourney daraus machte

Es ist recht schwierig, Midjourney dazu zu bewegen, genau das Bild zu generieren, das ich im Sinn habe. Midjourney ist wie ChatGPT: mitteilsam. Auch der Bilderbot will möglichst spektakuläre Bilder machen, in denen viel Krimskrams vorkommt. Ich brauche für meine fotografische Arbeit oft z.B. einen weiten leeren Platz, der vielleicht mit Kopfpflaster belegt ist. Ich möchte also ein Bild, das rechts und links unbegrenzt ist und nach hinten in’s Leere ausläuft. 

Ich versuche es mal mit dem Prompt „unendlich weiter leerer Platz mit Kopfsteinpflaster belegt“.

Unterm anderem kam das dabei heraus:

unendlich weiter leerer Platz mit Kopfsteinpflaster belegt

Vermutlich kann der Bot das deutsche Wort „Kopfsteinplaster“ nicht richtig übersetzen und hat bloss etwas von „Kopf“ verstanden. Ich probierte es dann in Englisch und sagte dem Bot auch, dass ich keine anderen Objekte als den Platz wünsche. Aber stets liefert er mir eher eine Strasse, statt einen Platz und ignorierte die Aufforderung, keine Häuser darzustellen oder häufte einfach Steine auf.

infinite space covered with cobblestones –no houses persons
infinite cobbled square –no houses persons

Der Bodenbelag sieht ja auch ziemlich mittelalterlich aus! Das ist typisch zumindest für Midjourney. Der Bot liebt es, mittelalterliche Szenen zu produzieren oder phantastische Szenen, in denen mittelalterliche Kämpfer gegen ausserirdische Wesen kämpfen.

Sehr oft beachtet Midjourney gewisse Schlüsselwörter überhaupt nicht. Vielleicht spielt die Reihenfolge der Schlüsselbegriffe im Prompt auch eine Rolle. 

Wie Sie sehen, ist auch hier, genau wie bei ChatGPT, das Prompt Engineering, also das Herausfinden des „richtigen“ Prompts, eine sehr aufwändige Geschichte. Von wegen, dass die KI viel Arbeit abnimmt! Im Gegenteil: sie macht viel Arbeit!

Selbst ist die AI

Will man kein bestimmtes Bild erzeugen und überlässt es dem Bot, selbst etwas zu einem Thema zusammen zu stellen, so kommen ganz erstaunliche Resultate daher. 

Mit dem einfachen Prompt „mist“ ergeben sich Bilder, wie z.B. dieses:

Kurz und bündig: mist

Und aus dem unverbindlichen Prompt „fog“ mach Midjourney z.B.:

Einfach nur: fog

Selbstverständlich kann Midjourney auch Camera Painting. Der Prompt „Einsamer Baum auf einem Hügel stehend ICM verschwommen“ führt zu diesem ansehlichen Resultat, das viel schöner ist, als die meisten Fotografien von „echten“ Fortografen.

Einsamer Baum auf einem Hügel stehend ICM verschwommen

Meine Prompts sind sehr einfach gehalten. Es gibt Anwender, deren Prompts locker eine A4-Seite füllen. Aber ich habe nicht den Eindruck, dass das Resultat viel besser ist, als bei kurzen, prägnanten Prompts.

Einfluss der AI auf die Fotografie

Nachdem wir gesehen haben, was eine text-to-image-AI kann, fragen wir uns, ob wir nicht besser solche Bilder generieren (lassen), als zu fotografieren. Ich vergleiche das Verhältnis von AI zur Fotografie, wie weiland das Verhältnis der Fotografie zur Malerei. Damals machten sich alle bildenden Künstler grosse Sorgen, ob ihre Kunst nun obsolet werde. Das Gegenteil war der Fall: anstatt dass die Malerei verschwand, gab ihr die Fotografie neue Impulse. Ab der Mitte des 19. Jahrhunderts, mit dem Aufkommen der Fotografie, tauchten ganz neue Malstile auf: Impressionismus, Expressionismus, Surrealismus, Kubismus, abstrakte Kunst, etc.

Etwa so ähnlich erwarte ich einen Impuls der AI für die Fotografie. Auch die Fotografie wird sich neu erfinden. Schon seit längerer Zeit sind sogenannte ICM-Fotos im Umlauf. ICM bedeutet „Intentional Camera Movement“. Man bewegt die Kamera wie einen Malerpinsel, während man mit einer langen Belichtungszeit aufnimmt. Das führt zu sehr ansprechenden, das Auge schmeichelnden Bildern.

Die Technik ist nicht ganz einfach. Man kann nicht nur mit der Kamera in der Luft herumfuchteln, sondern braucht etwas Übung, um zu wissen, wie schnell und in welcher Richtung man die Kamera bewegen soll, um gute Resultate zu erzielen.

Wie in der Malerei ist auch die Fotografie für abstrakte Kunst offen. Es gibt Fotografien, z.B. eine Nahaufnahme einer schäbigen Hausmauer, in denen der Betrachter überhaupt nichts mehr Konkretes wahrnehmen kann, die aber dennoch oder trotzdem als schön empfunden werden. Auf der anderen Seite werden wir von sogenannten Postkartenaufnahmen schon lange regelrecht überschwemmt, so dass wir sie mittlerweile schon als langweilig empfinden. Auf den vielen Fotoplattformen im Internet veröffentlichen mindestens drei Viertel aller selbsternannten Fotografen neben Ferien-, Familien- und Selbstbildnissen solche langweiligen Fotos von Blumen, Landschaften oder Zooimpressionen. Dann sind mir AI-erzeugte Bilder schon noch lieber.

Stellenwert der text-to-image AI

Wie ich in meinem Artikel Was wollen die Bilder schrieb, geht es in erster Linie darum, spektakuläre Bilder zu machen, die den Betrachter mit ihrem Symbolismus in den Bann ziehen. Dabei sehe ich von Reportagenfotos ab, die Journalisten machen, um News und Nachrichten zu illustrieren. Dort sind authentische Fotos gefragt, die die „Wahrheit“ zeigen. Doch uns geht es hier um künstlerische Bildgestaltung. Ich will weder eine Reportage machen, noch irgend etwas dokumentieren. Ich will Bilder machen, die Sie mindestens eine Sekunde lang zum Innehalten verführen. Und dafür gibt es verschiedene Techniken.

Zeichnen und malen

Das ist wohl das „Echteste“, aber auch das Schwierigste. Sie müssen ein inneres Bild mit Ihren Händen und Finger auf einen Träger bringen oder wahlweise eines von einer Vorlage kopieren. Die Vorlage kann ein anderes Bild sein, eine Naturszene oder ein Modell. Auch ein abstraktes Bild trägt immer eine Symbolik, die in den Tiefen der Texturen erkennt werden kann.  

(Analoge) Fotografie

Mit „analog“ meine ich, dass Sie das, was aus der Kamera kommt, kaum wesentlich verändern können. Sie können beschneiden, vielleicht ein wenig abwedeln oder aus Farbe schwarz-weiss machen, aber damit hat es sich dann schon. Viele Menschen fotografieren mit einer Digitalkamera „analog“, indem sie ein Sujet aus der momentanen Stimmungslage heraus knipsen, die der Betrachter nicht nachvollziehen kann. Sie publizieren das Bild unbearbeitet und übernehmen sogar den Titel von der Kamera, z.B. DSC_3426. Wie lieblos so etwas doch ist! Ein guter Fotograf benutzt ausgeklügelte Techniken, wie z.B. Beschränkung auf ein Detail, sogenannter Minimalismus, oder Camera Painting (die Kamera wie einen Pinsel benutzen), was zu völlig verschwommenen Bildern führt, die das Sujet nur andeuten.

Digitale Manipulation

Digitale Fotografie erlaubt mehr oder weniger intensive Nachbearbeitung. Solche Nachbearbeitung erinnert stark an die Malerei. Sehen Sie sich z.B. einmal dieses Bild auf Instagram an! (Falls Sie die Seite nicht erreichen, können Sie in Instagram einfach einmal die Galerie @bnw.minimalism studieren). Das Bild zeigt drei kahle Bäume auf drei entfernten Hügeln stehen. Es scheint so einfach, drei kahle Bäume zu fotografieren, sie auszuschneiden und mit einem Bildbearbeitungsprogramm in einer hügeligen Landschaft zu verteilen. Aber so einfach ist das nicht! Es braucht Mut, Geduld und Ausdauer, solche Bilder zu produzieren. Ich kämpfe jedesmal förmlich mit dem Prozess und verwerfe nicht selten alles bisherige, um ganz neu anzufangen. Solche Bilder tragen meines Erachtens wesentlich mehr „Handschrift“, als eine (analoge) Fotografie, die „bloss“ geknipst ist, auch wenn das Knipsen stundenlanges Suchen nach der besten Perspektive, dem besten Lichteinfall und dem besten Schattenspiel einschliesst. 

Prompting

Das Erzeugen von Bildern mittels AI nenne ich Prompting. Dabei kann der Prompter, also der Urheber eines AI-generierten Bildes, versuchen, ein inneres Bild durch die AI realisieren zu lassen oder die Gestaltung weitgehend der AI überlassen. Meistens ist das Prompt Engineering ebenso ein Kampf mit dem Bild wie beim Malen.

In jedem der vier Fälle geht es um das Produzieren von spektakulären, Geschichten erzählenden Bildern, die berühren. Das ist in jedem Fall ein kreativer Prozess und vermittelt eine tiefe Befriedigung. Wohl ist das Malen und Zeichnen die ursprünglichste Art, Bilder zu vermitteln. Die drei anderen Arten bedienen sich High Tech Methoden. AI ist schon in der Kamera mit dabei, erst recht bei Bildbearbeitungsprogrammen. Die grundsätzliche Ablehnung von AI in der Bilderzeugung erachte ich daher als heuchlerisch. 

Ist Prompting schlecht?

Oft hört man von Fotografen das Argument, dass die Kunst des Fotografierens darin bestünde, „ein gutes Auge“ zu haben und spektakuläre Lichtstimmungen zu sehen, um sie dann festzuhalten. Eine AI, die dasselbe Bild mache, simuliere die Lichtstimmung bloss. Der Fotograf fängt aber eine „wahre“ Lichtstimmung ein. Mir kommen dabei die Bilder eines William Turners in den Sinn. Er hat in seinen Bildern spektakuläre Lichstimmungen gemalt. Vielleicht ging er anfänglich mit seiner Staffelei zum Hafeneingang und wartete auf ein aufziehendes Gewitter. Mit seinem legendären Weiss kolorierte er die Gischtkronen der aufgewühlten See, wie sie in den letzten Sonnenstrahlen vor dunklem Himmel aufleuchten, kurz bevor die Sonne endgültig vom Gewitter aufgefressen wird. Mit der Zeit kannte er die Szenen und konnte sie im Atelier auch ohne natürliche Vorlage malen. Turners Bilder sind bloss Simulation von Lichtstimmungen! Die Fortografie triumphiert über die Malerei, weil nur die Fotografie das Wahre festhält und nicht simuliert. Ein mir bekannter Fotograf, der Prompting auf’s Schärfste ablehnt, schrieb:

AI spielt Schach, aber ist kein Schachspieler. AI parkt Autos, ist aber kein Fahrer. AI übersetzt Sätze, ist aber kein Übersetzer. AI macht ein Foto, ist aber kein Fotograf, auch kein Retouchierer und schon gar kein Künstler!

Nun, das Auto ist erfolgreich geparkt. Was schert es mich, ob es von einem Menschen mit einer Fahrlizenz geparkt wurde? Fotografen überschätzen ihren Anteil bei der Produktion eines fotografischen Bildes. Zwar müssen sie unter Umständen eine weite Reise auf sich nehmen, um zum Sujet zu gelangen, sie müssen die richtige Perspektive auskundschaften, die richtige Ausrüstung wählen und das richtige Licht abwarten. Sie haben einen grossen Aufwand und benötigen viel Expertise, Erfahrung und vielleicht auch Talent. Aber das effektive Bild macht letztendlich eine Maschine, Kamera genannt.

Noch ist text-to-image AI in den Kinderschuhen, wie jede AI. In 10, 50 oder 100 Jahren werden AI Entitäten sogar von sich aus Bilder produzieren und ausstellen. Es wird dazu keine Menschen als Verursacher brauchen. Es wird aber immer noch menschliche Maler, Fotografen und Digital Creators geben, die ihre Bilder machen. Alle Bilder, egal wie sie entstanden sind, werden immer wieder auf Bewunderung stossen und Preise gewinnen. Was soll also dieses Konkurrenzgehabe? Ich erfreue mich an gelungenen Fotografien ebenso wie an AI-generierten Bilder und werde beide aIs Inspiration für meine weitere fotografische Arbeit benutzen.

4 Antworten auf „Künstliche Bilder – gibt es das?“

    1. Hallo Ralf!

      Tolles Museum! Ich bin deinem Link gefolgt und mich in diesem Museum etwas umgesehen. Vielen Dank dafür und für deinen Kommentar!

      Die „seriöse“ Fotografie franst einerseits immer mehr aus, während sie immer mehr zu einer Nische wird. Mit „ausfransen“ meine ich, dass mit dem Mobilephone eine Art Demokratisierung stattfindet. Alle schiessen täglich mehrere Fotos und Videos mit ihrem Handy und verschicken sie mehrmals. Die Medien „Foto“ und „Video“ werden kaum mehr getrennt, es ist einerlei, ob man auf den Fotoauslöser drückt oder eine paar Sekunden kurze Videoaufnahme startet. Dazwischen gibt es noch die animierten Bilder, von denen ich nicht weiss, was ich davon halten soll. Auf der anderen Seite der seriösen Fotografie stehen die ausgeklügelten Bildbearbeitungsprogramme, mit denen alles machbar ist, sofern man sich in zeitaufwändiger Arbeit damit beschäftigt. Wegen diesen beidseitigen Ausdehnungen ziehen sich seriöse Fotografen in eine kleine Nische zurück und werden auch nur noch von einem spezifischen Publikum wahrgenommen und geschätzt.

      Das breite Publikum schaut ohnehin nur noch AI-generierte Bilder an. Ich habe kürzlich auf flickr ein Bild veröffentlicht, das aus Elementen selbst geschossener Fotos und aus AI-generierten Elementen besatnd. Viele Follower kritisierten den Gebrauch von AI in der Fotografie. Einige Zeit später habe ich ein Bild publiziert, das vollständig durch Midjourney generiert wurde. Ich habe das in der Bildbeschreibung auch deutlich deklariert. Dennoch erhielt das Bild eine sehr hohe Anzahl an Favs. Sogar die Leute, die sich explizit gegen AI ausgesprochen hatten, favten (oder likten) ungeniert drauf los! Man kann einem AI-generierten Bild einfach nicht widerstehen!

      Herzliche Grüsse,
      Peter

    1. Vielen Dank, Silmas, für den Kommentar! Ja, eigentlich ist es traurig. Die Menschen scheinen nur „reisserische“ Bilder zu lieben und keinen Blick mehr zu haben für eine wohlkomponierte Fotografie.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.