„KI-Bilder idealisieren die Vergangenheit“

Interview mit Prof. Dr. Roland Meyer

Künstliche Intelligenz fördert parallele Wirklichkeiten auf Social Media, sagt der Bild- und Medienwissenschaftler Roland Meyer: Ihre Bildwelten werden insbesondere von rechten Kräften zur Schaffung von „Gefühlsgemeinschaften“ missbraucht. Das klappt auch deshalb so gut, weil die Software zu Stereotypen neigt – und von weißen, nordamerikanischen Männern programmiert wird.

Herr Professor Meyer, in dem berühmten Film „Die Truman Show“ lebt der Versicherungsangestellte Truman Burbank in einer gefakten Klischeewelt. Bewegen wir uns mit generativer KI ebenfalls auf einen Alltag zu, der von falschen Bildern geprägt ist?

Roland Meyer: Ich sehe eher die Situation, dass unterschiedliche Interpretationen von Wirklichkeit immer unversöhnlicher aufeinanderprallen, vor allem in den sozialen Medien. Nicht nur bei KI-generierten Inhalten, sondern auch bei authentischen Bildern, wie bei der Erschießung von Renée Good durch ICE-Beamte in Minneapolis: Obwohl, oder gerade weil es zahlreiche Videoaufnahmen gab, haben sich nicht wenige Amerikaner daraus ihre eigene Version der Wirklichkeit zusammengebaut. Diese unterschiedlichen Wirklichkeitsbeschreibungen werden von interessierter Seite auch bewusst gegeneinander in Stellung gebracht. KI-generierte Inhalte können da die Funktion eines Brandbeschleunigers übernehmen.

Worin liegt, gesellschaftlich gesehen, das Risiko dieser Entwicklung?

Das Risiko ist, dass man sich am Ende womöglich gar nicht mehr auf eine gemeinsame Wirklichkeit einigen kann. Zugleich verlieren Institutionen wie Medien oder die Wissenschaft an Gewicht, die der Gesellschaft lange ein gemeinsames Fundament geliefert haben.

Ist es das, was funktionierende Gesellschaften ausmacht: dass sie sich auf gemeinsame Geschichten einigen können?

Ja, aber diese Konsensbildung passiert eben auch in Gruppen innerhalb von Gesellschaften. Und da werden neuerdings gezielt synthetische Bilder und Videos als Propaganda eingesetzt, nicht nur von Russland, sondern auch durch die US-Regierung oder von Donald Trump persönlich. Nicht immer ist Desinformation das Ziel. Oft geht es darum, Gefühle von Gemeinschaft zu stiften und Bilder zu produzieren, hinter denen sich die eigenen Anhänger versammeln können.

Was sind das für Bilder?

Sie inszenieren Idyllen einer vermeintlich besseren, weiß und männlich geprägten Vergangenheit. Sie feiern Staatsgewalt und Brutalität gegenüber Einwanderinnen und Einwandern. Der Kulturwissenschaftler Simon Strick hat genau diese Produktion von virtuellen „Gefühlsgemeinschaften“ als zentrales Moment von rechter Online-Propaganda ausgemacht. Die Wahlwerbung der AfD mit KI-generierten Bildern von Stadtbildern, in denen nur weiße Deutsche auftauchen, entspricht dieser Logik.

Inwieweit reproduziert KI auch von sich aus Klischees, die Weltbilder der politischen Rechten bedienen?

Es gibt da eine Affinität. Ich sehe dafür drei Gründe. Der erste ist dieses Moment von Nostalgie. KI-Bildgenerierung ist strukturell konservativ, weil die Maschine mit Bildern und Daten aus der Vergangenheit gefüttert wurde und zugleich die Tendenz hat, diese Vergangenheit zu idealisieren.

KI wird mit riesigen Datensätzen trainiert. Da müssten sich Extreme doch ausgleichen?

Eine KI-Vergangenheit ist ein Kondensat aus verschiedensten Quellen, von historischen Dokumenten über populäre Fiktionen bis zu Szenen aus Computerspielen. Aus diesem ungeordneten Archiv lassen KI-Bildgeneratoren das Klischee einer vergangenen Zeit erstehen. Diese Klischees, das wäre der zweite Punkt, verstärken dominante Muster in den Trainingsdaten, etwa bei Geschlechterrollen und rassistischen Zuschreibungen. Die KI generiert zu jedem Begriff, den man eingibt, das eindeutigste visuelle Äquivalent.

Zum Beispiel?

Wenn ich beim Bildgenerator Midjourney eine deutsche Familie anfordere, werde ich in vielen Fällen ein Bild erhalten, wie es der AfD gefiele: eine blonde heterosexuelle Kleinfamilie, womöglich in bayerischer Tracht, vielleicht mit einer Deutschlandflagge im Hintergrund. Es gibt immer diese vereindeutigenden Marker, und es sind Bildwelten, in denen Abweichung und Differenz nicht vorgesehen sind.

Und der dritte Grund?

Kommerzielle KI-Bildgeneratoren werden darin trainiert, ästhetische Erwartungen zu erfüllen. Die Bilder sollen direkte, affektive und messbare Reaktionen auf Social Media auslösen. Dazu müssen sie auf Smartphone-Bildschirmen unmittelbar attraktiv wirken, aber auch bestimmte inhaltliche Erwartungen erfüllen. Die Nutzerdaten, die für dieses Feintuning ausgewertet und algorithmisch verstärkt werden, stammen in erster Linie von weißen, technikaffinen nordamerikanischen Männern. Entsprechend unausgewogen sind die ästhetischen Vorlieben der KI-Modelle.

Sind Verfälschungen durch Vorurteile vielleicht sogar Absicht?

Das müsste man sich für jede einzelne Software anschauen. Aber natürlich gibt es über die grundsätzliche Logik von Klischeebildung hinaus kommerzielle Interessen von Firmen, die bestimmte Märkte bedienen. Ein krasses Beispiel dafür ist Elon Musks Chatbot Groq. Anfang des Jahres wurde er massenhaft dazu genutzt, um pornografische Bilder von Frauen und Minderjährigen zu produzieren. Da wird sehr klar, für wen diese Technologie optimiert ist und wen sie ausschließen oder sogar buchstäblich angreifen soll. Das ist kein Zufall.

Allerdings gibt es auch Unternehmen, denen man nicht von vornherein rechte Tendenzen unterstellen würde, wie Google Gemini.

Das ist ein interessantes Beispiel. Vor zwei Jahren brachte Google Gemini einen Bildgenerator auf den Markt, der den Bias ausgleichen sollte, mit einer Technik, die man „Shadow Prompting“ nennt: Die Prompts der Userinnen und User wurden dabei im Hintergrund zufällig durch bestimmte Begriffe wie „black“, „female“ oder „asian“ ergänzt. Das Ziel war Diversität. Dass also, wenn man einen Professor promptet, nicht immer ein Bild von einem weißen Mann mit Brille erscheint, sondern auch mal eine schwarze Frau. Das hat große Wellen geschlagen.

Weshalb?

Die Lösung war technisch nicht durchdacht. Reichweitenstarke rechte Accounts produzierten mit ihr Bilder von schwarzen Wehrmachtsoldaten oder indischen Päpstinnen. Das wurde aber nicht als skurriler Fehler betrachtet, sondern als vermeintlich „woke“ Indoktrinierung angeprangert. Und zwar so erfolgreich, dass Google die Software innerhalb weniger Tage deaktivierte. Das Beispiel illustriert sehr gut, wie viel in den Kampf darum investiert wird, wie KI-Bilder ausschauen, und wessen Interessen dabei vor allem berücksichtigt werden.

Wenn rechte Bewegungen KI als Wunschmaschine für Wahrheiten gebrauchen, warum gibt es kaum ähnliche Versuche der Linken?

Erkennbare KI-Ästhetik wird als Markenzeichen eines autoritären Politikstils von progressiver Seite massiv abgelehnt. Dazu kommen grundsätzliche Bedenken gegenüber der Technologie, von der Aneignung kreativer Arbeit über die Ausbeutung von Datenarbeiterinnen und -arbeitern im globalen Süden bis zum Ressourcenverbrauch. Wenn einzelne Akteure wie der kalifornische Gouverneur Gavin Newsom versuchen, sich die Trumpsche KI-Slop-Ästhetik ironisch anzueignen, funktioniert das nur bedingt, weil sie im Grunde die gleichen Klischees von Hypermaskulinität reproduzieren.

Gilt Ihre Analyse auch für Texterstellung durch KI?

Es gibt in beiden Bereichen Probleme, Text und Bild. Das Spezielle der Bildgenerierung ist, dass die Modelle für mehrdeutige sprachliche Bezeichnungen ein konkretes Bild finden müssen. Wenn ich „Familie“ sage, können Sie sich was vorstellen, ich kann mir was vorstellen, und keiner merkt, dass wir unterschiedliche Bilder im Kopf haben. Wenn ich Familie visualisiere, werden diese Unterschiede offenbar.

Aber wenn man eine KI mit einer Geburtstagsrede für eine 50-Jährige Mutter beauftragte, würden da nicht auch Stereotype einfließen?

Oh, ganz bestimmt.

Wie stark leidet das Vertrauen von Menschen in Medien oder Wissenschaft, wenn Verfälschungen durch KI allgegenwärtig sind?

Vertrauen ist eine Ressource, mit der Menschen sehr selektiv umgehen. Sie vertrauen gerne Darstellungen, die sie in dem bestätigen, was sie immer schon dachten und fühlten. Und sie misstrauen Informationen, die sie in ihren Annahmen verunsichern. Man sieht das an der großen Energie, die Nutzerinnen und Nutzer von sozialen Medien aufwenden, um Bilder als manipuliert zu entlarven, wenn sie den eigenen Erwartungen widersprechen. Während sie andere Bilder schnell und ungeprüft akzeptieren.

Die Dynamik von Social Media trägt dazu bei, dass man sich in Debatten schnell auf Einschätzungen festlegt und sich dann gezwungen fühlt, diese zu verteidigen. Überdies bringen die digitalen Öffentlichkeiten mit sich, dass die Akteure, ob wissenschaftlich oder nicht, ob klassische Medien oder sogenannte „Alternativmedien“, nahezu auf Augenhöhe operieren.

Auch für die Marktforschung wird die Parallelität von Realitäten zur Herausforderung. In manchen Fokusgruppen können sich Menschen schon jetzt nicht mehr auf grundlegende Sachverhalte verständigen.

Ich glaube, eine Einigung auf eine gemeinsame Realität ist möglich, aber mit Arbeit verbunden. Unser digitales Ökosystem bietet dafür nicht die besten Bedingungen. Schon eher, indem Menschen in konkreten Kontexten persönlich zusammenkommen.

Gemeinsame Erlebnisse im physischen Raum?

Das mag konservativ klingen und ist auch nicht wissenschaftlich abgesichert. Ich habe aber den Eindruck, dass sich Menschen aufeinander einlassen, wenn sie konkret mit anderen Menschen zusammenkommen. Es gibt dafür Vorbilder, Bürgerräte zum Beispiel. Vielleicht kann es das auch im Digitalen geben.

So oder so sind die Meinungen von Probanden zunehmend durch Weltbilder der KI geprägt. Sollten Marktforscher versuchen, diese Verzerrungen herauszurechnen? Oder müssen wir sie als neue Wirklichkeit akzeptieren?

Die Vervielfältigung von Wirklichkeitsbeschreibungen beeinflusst individuelle Entscheidungen, auch im Konsum. Daher würde es aus meiner Sicht keinen Sinn ergeben, sie herauszurechnen.

Zugleich machen wir uns in der Marktforschung Gedanken über Daten, die ausschließlich über synthetische Zwillinge generiert werden. Ihre Ansicht?

Auf Machine Learning basierende Prognosemodelle können letztlich immer nur eine Verlängerung der Vergangenheit in die Zukunft projizieren. Die Frage ist, wie valide die Ergebnisse sind, wenn es zu Umschwüngen im öffentlichen Meinungsbild kommt. Die Wirklichkeit von Menschen, und sei es nur ihre individuell erlebte, ändert sich vielleicht doch zu schnell, als dass man mit synthetischen Daten hinterherkäme.

Für wie realistisch halten Sie es, dass KI-Anbieter perspektivisch zu einer stärkeren Ausgewogenheit kommen?

Mögliche Ansätze wären kleinere, vielleicht auch spezifischere Anwendungen. Zum Beispiel gibt es – weniger bei der bildgenerativen KI, aber bei den großen Sprachmodellen – lokale Initiativen, etwa in der Schweiz. Insofern: Ja, da gibt es eine Ausdifferenzierung. Ich bin aber insgesamt nicht übertrieben optimistisch.

Anbieter von KI haben doch aber kommerzielle Interessen im B2B-Bereich. Was wäre, wenn die Kunden sagen: „Wenn euer Angebot so verzerrt ist, können wir damit nichts anfangen. Sorgt dafür, dass der Bias rauskommt"?

Es ist zumindest interessant, wie die Reaktionen auf die kommerzielle Nutzung bildgenerativer KI derzeit ausfallen, etwa in der Werbung. Coca-Cola hatte einen KI-generierten Weihnachtswerbespot eingesetzt, der beim Publikum nicht gut ankam. Umgekehrt hat Porsche explizit einen von Menschen gezeichneten Anime-Werbespot produziert, als Ausweis von Wertigkeit und ästhetischem Anspruch.

Die Marktforschung könnte für KI-generierte Bilder in Produkttests Generatoren fordern, die näher dran sind an einer länderspezifischen Wirklichkeit.

Ich würde einen Schritt zurückgehen und die Frage stellen, warum braucht die Marktforschung synthetische Bilder? Was gewinnt sie dadurch an Schnelligkeit und preiswerter Verfügbarkeit, und was verliert sie an Qualität und Wahrhaftigkeit?

Wie also lautet Ihre Empfehlung für die Marktforschung zum Arbeiten mit KI: Guckt dreimal hin? Tut es nicht?

Sie sollte sich sehr genau klarmachen, was diese Technologien können und was nicht. Die Tendenz der KI-Industrie geht dahin, Large Language Models als Lösung für alle möglichen Probleme zu verkaufen. Das sind sie keinesfalls. Daher mein Rat: Überlegt euch gut, wozu ihr was einsetzt.

Die Fragen stellten Christine Mattauch und Christian Thunig

Erleben Sie Prof. Dr. Roland Meyer auf dem Kongress der Deutschen Marktforschung am 20. Mai 2026 in Berlin:
In seinem Vortrag spricht er darüber, wie KI-generierte Bildwelten die Realität verzerren. Mehr Informationen

Prof. Dr. Roland Meyer, Jahrgang 1977, ist Bild- und Medienwissenschaftler und seit dem 1. Juli 2024 DIZH-Brückenprofessor für Digitale Kulturen und Künste an der Universität Zürich und der Zürcher Hochschule der Künste (ZHdK). Beim DIZH handelt es sich um eine gemeinsame Digitalisierungsinitiative der Züricher Hochschulen. Zu Meyers Forschungsschwerpunkten zählen Geschichte und Theorie operativer Bilder, Ästhetik synthetischer Medien und algorithmisch vernetzter Bildkulturen. Auf der Digitalkonferenz re:publica hielt er im vergangenen Jahr einen vielbeachteten Vortrag über generative KI und die Ästhetik des digitalen Faschismus.

Meyer studierte Kunstwissenschaft und Medientheorie an der Staatlichen Hochschule für Gestaltung Karlsruhe, wo er 2017 mit der Arbeit „Operative Porträts. Eine Bildgeschichte der Identifizierbarkeit“ promoviert wurde. Nach Stationen an der Universität der Künste Berlin, dem Deutschen Hygiene-Museum Dresden und der Humboldt-Universität zu Berlin forschte er zuletzt als wissenschaftlicher Mitarbeiter im Sonderforschungsbereich „Virtuelle Lebenswelten“ der Ruhr-Universität Bochum.