Seitenanfang

"Die Gefahr ist, dass wir uns zu sehr auf KI verlassen" Interview mit Prof. Dr. Dr. h.c. Marko Sarstedt

Auch wenn Künstliche Intelligenz die Marktforschung durch Automatisierung und synthetische Personas revolutionieren wird – menschliche Probanden bleiben vorerst unverzichtbar, sagt Marko Sarstedt, Professor für Marketing an der Ludwig-Maximilians-Universität in München. Um sachgerecht mit der neuen Technik umzugehen, brauchen Marktforschende mehr Datenkompetenz.

Herr Professor Sarstedt, was überrascht Sie beim Einsatz von KI in der Marktforschung am meisten?

Marko Sarstedt: Wie schnell sie sich als Standard etabliert. Die Entwicklung ist durchaus disruptiv für die Marktforschung, weil sich – zumindest theoretisch – viele Tätigkeiten gut automatisieren lassen.

Die Branche gilt als aufgeschlossen gegenüber technischen Innovationen. Ist auch bei KI die Neugier größer als die Angst?

Die Neugier ist auf jeden Fall extrem groß. Trotzdem fehlt momentan vielen Leuten die Fantasie dafür, was KI alles beeinflussen kann. Auf die Frage nach dem Use Case kommen aus der Marktforschung zwei Standardantworten: Call-Center-Automatisierung und Assistenz durch ChatGPT, etwa um qualitative Interviews zu transkribieren oder größere Datensätze zu analysieren. Aber wenn wir uns vergegenwärtigen, wie rasant die Entwicklung seit dem Aufkommen der Sprachmodelle verlaufen ist, ist das Potenzial für die Zukunft viel größer.

 

Zum Beispiel?

In meinem Forschungsbereich experimentieren wir damit, synthetische Personas abzubilden, mit denen man sich unterhalten und denen man AB-Tests vorlegen kann: Welche Anzeige ist schöner, welches Produkt spricht eine bestimmte Zielgruppe stärker an?

Die Vision sind Panels ohne menschliche Probanden. Sie warnen jedoch vor den Risiken des so genannten Silicon Sampling. Warum?

Derzeit spiegeln die Ergebnisse nicht ausreichend das Antwortverhalten von Menschen wider. Wir sehen oft ähnliche Tendenzen, aber nicht immer, und wir wissen vor allem nicht, wann die Ergebnisse vom menschlichen Antwortverhalten abweichen. Die Gefahr ist, dass wir uns, zum Beispiel im Pretest-Bereich, zu sehr auf KI-generierte Ergebnisse verlassen, obwohl die im Vergleich mit echten Datensätzen ziemlich durchwachsen sind.

Bei einem Vergleich zwischen synthetischen Daten und echten Befragungen haben Sie festgestellt, dass fast zwei Drittel der Antworten voneinander abwichen.

Das war eine Übersichtsstudie, die wir vor einem Jahr publiziert haben. Für mich als Forscher lautet die eigentlich spannende Frage: Welche Systematik verbirgt sich hinter diesen Abweichungen? Den Entwicklern von Sprachmodellen geht es darum, dass ein möglichst hoher Prozentsatz der Antworten richtig ist, wie bei einem Mathetest. Das menschliche Entscheidungsverhalten ist aber in vielen Situationen nur beschränkt rational, manchmal sogar irrational.

Menschen wählen eine Option, obwohl sie von den harten Parametern her nicht die Beste ist, sondern weil uns Marke und Design gefällt. Oder weil das Produkt in einer bestimmten Weise präsentiert wird: Bei der Wahl zwischen einem billigen, einem durchschnittlichen und einem teuren Produkt haben Kunden beispielsweise eine Tendenz zur Mitte. Im Gegensatz hierzu versucht die KI immer zu beurteilen, welches Produkt den höchsten quantifizierbaren objektiven Nutzen besitzt. Im Marketing ist das natürlich ein großes Problem, weil wir auch ein nicht immer rationales Verhalten vorhersagen wollen.

Ist es denkbar, dass Personas künftig ähnlich viele Dimensionen haben wie Menschen? Was Institute bisher vorstellen, ist in dieser Hinsicht wenig überzeugend.

Das ist eine Frage des Modells und der Trainingsdaten. Prinzipiell sollte es möglich sein, durch eine geeignete Datenstruktur für Heterogenität zu sorgen. Gegenwärtig zeigen die Personas aber meist ein eingeschränktes Spektrum. Sie können nicht von der vorgegebenen Einstellung abstrahieren oder sich in die Lage anderer versetzen. Auch Assoziationen sind schwierig.

Ein weiteres Problem: KI gibt immer eine Antwort, egal ob sie sinnvoll ist oder nicht. Ich habe einmal eine Persona um Empfehlungen für eine Werbekampagne für einen neuen Softdrink in Rumänien gebeten. Sie hat alle möglichen Ratschläge erteilt, ohne jemals in Rumänien gewesen zu sein. Ein Mensch würde auch mal ehrlich sagen: Das weiß ich jetzt nicht.

In Belgien entwickelten Forscher der Katholischen Universität Leuven mit Hilfe von KI-Analysen neue Biersorten. Bei Verkostungen kamen sie besser an als Alternativen, die bereits auf dem Markt sind. Ein Vorbote für das, was kommt?

Ich denke schon. Wobei gerade die Produktentwicklung auch ein gutes Beispiel dafür ist, was KI nicht kann, weil es dabei nicht nur um standardisierte Prozesse geht. Sicherlich lässt sich mit Hilfe von Algorithmen optimieren, welche Geschmacksrezeptoren angesprochen werden. Aber Markterfolg hat ja auch viel mit der Inszenierung eines Produkts zu tun. Trotz des hohen Automatisierungspotenzials von KI wird es deshalb viele Bereiche geben, in denen weiterhin der Mensch gefragt ist.

Wird es gelingen, das Antwortverhalten der KI dem menschlichen anzupassen?

Kollegen arbeiten daran, aber es ist schwierig. Eine Kaufentscheidung im Supermarkt beispielsweise wird von unfassbar vielen Faktoren beeinflusst: Licht, Gerüche, Gangrichtung, Regalhöhen, Preise, Lautsprecheransagen... Das müsste man eigentlich alles abbilden.

Also kriegt man es in Wahrheit nie hin?

Ich glaube, Tendenzen bekommt man hin. Was wir aber brauchen würden, um damit arbeiten zu können, wären Aussagen darüber, ob signifikante, also statistisch nicht nur zufällige Abweichungen von einem rationalen Verhalten vorliegen.

Eine interessante Beobachtung ist, dass die Diskrepanz zwischen synthetischem und menschlichem Entscheidungsverhalten wächst, je mehr sich die Kultur eines Landes von der amerikanischen unterscheidet. Weil die KI überproportional mit US-Trainingsmaterial gelernt hat?

Ja, das ist die Erklärung. Programmierer haben kulturell geprägte Wertevorstellungen und Normen, die implizit in das Algorithmus-Design einfließen. Forscher kritisieren das seit Jahren, einige sprechen sogar von einem neuen KI-Imperialismus. Wer entscheidet, was richtig ist? Welche Inhalte sollen zulässig sein? Ganz ähnliche Fragen kennen wir aus den jüngsten Diskussionen über Faktenchecks bei Facebook und X.

Wie steht es mit der Reproduzierbarkeit? Ist Silicon Sampling wissenschaftlich valide?

Auch das ist aktuell eine Herausforderung. Wenn ich ChatGPT wiederholt dieselbe Frage stelle, erhalte ich mehr oder weniger die gleiche Antwort, nämlich die einer durchschnittlichen Person in den Trainingsdaten. Für eine größere Spannbreite kann ich an den Parametern des Modells drehen. Dann lassen sich aber die Ergebnisse nicht mehr reproduzieren. Varianz geht zu Lasten der Reproduzierbarkeit und umgekehrt.

In der klassischen Statistik versucht man die Methoden so zu generieren, dass dieser Trade-off gut ausbalanciert ist und im Mittel eine richtige Antwort herauskommt, ohne die Varianz ausufern zu lassen. Bei den KI-Implementierungen wissen wir momentan noch nicht, ob das reliabel klappt.

Liegt das auch daran, dass die KI gelegentlich halluziniert?

Ja, das spielt durchaus eine Rolle. Wenn man mehr Varianz zulässt, wird auf Instanzen in den Trainingsdaten zugegriffen, die weniger populär sind. Zwar gibt es Ausreißer auch im richtigen Leben, wenn man Menschen befragt. Diese Fälle sind aber relativ einfach zu identifizieren – ich kann in der quantitativen Datenanalyse schnell sehen, dass es nicht stimmen kann, wenn jemand 20 Milliarden Euro Monatseinkommen angibt. Aber wenn sich KI auf eine Quelle beruft, die es gar nicht gibt, fällt das womöglich zunächst nicht auf.

KI ist vergangenheitsorientiert, weil sie trainiert werden muss. In der Gegenwart kommt es aber zu disruptiven Trends, zu raschen Meinungsumschwüngen. Kann ein synthetisches Panel diese schnellen Entwicklungen einbeziehen?

Man kann mit Szenarien arbeiten: Man füttert die KI beispielsweise mit der aktuellen Verteilung von Wählerstimmen und fragt, wie sich das Ergebnis im Fall eines bestimmten Ereignisses verändert.

Aber das ist hoch spekulativ.

In der Tat. Die Antwort auf Ihre Frage lautet also: Nein, aktuell können wir schnelle Entwicklungen mit KI nicht so abbilden, wie das mit richtigen Probanden möglich wäre. Das liegt auch an der Gewichtung von Information: Menschen nehmen Ereignisse, die sehr präsent in den Medien sind, als überdurchschnittlich relevant wahr. Nach einem Flugzeugabsturz zum Beispiel haben viele ein schlechtes Gefühl dabei zu fliegen, obwohl im Flugverkehr viel weniger Menschen sterben als im Straßenverkehr. Diese Irrationalität wird eine KI auf absehbare Zeit nicht simulieren können.

Der Einsatz synthetischer Daten in der Marktforschung wird also immer von begrenztem Wert sein?

Ich vergleiche das eher mit einem Trichter: Ich fange oben an mit synthetischen Daten, sortiere mit ihrer Hilfe zum Beispiel Konzepte oder identifiziere eine Stoßrichtung für eine Befragung. Je weiter ich in den Trichter hineingehe, desto größer wird die Notwendigkeit, menschliche Probanden an Bord zu holen.

Müssen Marktforschende künftig zu KI-Experten werden, und sei es nur, um die Ergebnisse der Maschine überprüfen zu können?

Finde ich nicht. Man kann ja auch Auto fahren, ohne dass man weiß, wie der Motor funktioniert. Was aber nötig sein wird, ist eine generelle Datenkompetenz – die Fähigkeit, in Datenstrukturen zu denken, und das Wissen darüber, welche Daten erforderlich sind, um vernünftige Entscheidungen zu treffen. Die Schnittstelle zwischen Programmierern und Entscheidern, die müssen Marktforschende künftig besser bedienen.

Sie sollten auch den KI-Baukasten kennen und wissen, welche Tools es gibt. Wir haben bisher viel über die Sprachmodelle geredet, zu denen ich forsche, aber es gibt ja auch viele andere KI-Anwendungen. Ich kann heute schon sehr gut einfache Werbevideos oder Produkterklärungen mit KI generieren.

Die Frage bleibt, ob wir uns bei KI wie bei einem Automotor darauf verlassen können, dass er vernünftig funktioniert. KI gilt als Blackbox; man weiß nicht, wie sie zu ihren Ergebnissen gelangt.

Es gibt ein neues Forschungsfeld mit dem schönen Namen „Machine Psychology“. Es versucht zu ergründen, wie Maschinen „denken“, inwiefern sie Überzeugungen und Wertemuster von den Programmierern abbilden und wie die sich durch Interaktion mit Menschen weiterentwickeln. Sehr spannend, allerdings stehen wir da noch ganz am Anfang. Ein anderer Ansatz arbeitet mit der Modellierung von Prozessen, mit dem Ziel, Einflussfaktoren abzuleiten und daraus kausale Effekte zu extrahieren. So oder so ist für eine breite Akzeptanz von KI wichtig, dass ihre Funktionsweise transparenter wird.

Werden Unternehmen künftig verstärkt eigene, KI-gestützte Marktforschung betreiben?

Auch wenn ich jetzt einen Blick in die Glaskugel wage – ich denke, dass diejenigen Unternehmen am ehesten auf diesen Zug aufspringen werden, die unter extremem Magendruck leiden und auf Einsparungen hoffen. Das interessantere Potenzial sehe ich aber bei kleinen Unternehmen, gerade im B2B-Sektor, die bisher keine strukturierte Marktforschung betreiben. Für sie wäre ein synthetisches Panel besser als nichts, auch wenn die Ergebnisse nicht zu hundert Prozent akkurat sind.

Und welche Rolle sehen Sie für die Marktforschung als Branche?

Unternehmen haben die Relevanz von Daten erkannt, um Customer Insights zu generieren, über alle Abteilungsgrenzen hinweg. Der Marktforschung wird zunehmend die Aufgabe zuteil werden, diese Daten zu konsolidieren, zu analysieren und passgenau für die Einzelabteilungen aufzubereiten. Marktforschung wird also reaktiver und, was die Prozesse angeht, stärker nach innen gewandt. Davon unberührt sind grundlegende Themen wie Markenführung und Markenmonitoring. Insofern: Kein Abgesang auf die Marktforschung, aber ihre Rolle wird sich verändern.

Zum Schluss: Was raten Sie denen, die sich noch nicht an das Thema KI gewagt haben?

Einfach loslegen. Mit Sprachmodellen wie ChatGPT, Perplexity und Claude experimentieren. Im Videobereich ist HeyGen mein Favorit. Strategisch sinnvoll ist es auch, den Markt zu beobachten und Innovationen auf dem Radar zu haben. Es könnte ja sein, dass ein neues Tool das eigene Kerngeschäft betrifft. Bei der Bannerwerbung hat die Automatisierung das Geschäftsmodell der Agenturen in Bedrängnis gebracht, die zuvor die Platzierung gemacht hatten. Augen auf!

 

Das Interview führten Christine Mattauch und Christian Thunig.