Stichprobe der Zukunft: KI, Kosten und der Kampf um Repräsentativität

In Zeiten sinkender Teilnahmebereitschaft, boomender Online-Panels und KI-generierter Daten rückt die Qualität von Stichproben in der Marktforschung in den Fokus. Experte Holger Liljeberg und Chef der INFO GmbH plädiert für Mixed-Mode-Designs und eine Rückbesinnung auf klassische Methoden, warnt vor synthetischen Verzerrungen und skizziert die hybriden Stichproben von 2030 – dynamisch, multichannel und wertebasiert.

Holger Liljeberg, wie würden Sie den aktuellen Zustand der Stichprobenforschung in der Marktforschung beschreiben?

Liljeberg: Sehr differenziert: Wir beobachten in den letzten Jahren gerade im Bereich der Marktforschung einen Trend der Abkehr von im engeren Sinne repräsentativen Stichprobendesigns. Dafür gibt es mehrere Gründe: Einerseits steigt der Kostendruck auf die Umfrageforschung. Dem kommt entgegen, dass unterschiedliche Onlinestichproben schnell und kostengünstig generiert werden können. Repräsentativität kann auf diesen Wegen in vielen Fällen jedoch kaum oder nur mit erheblichem zusätzlichem Aufwand erreicht werden. Das wird m.E. einerseits von einigen Anbietern zu wenig kommuniziert und spielt für viele Auftraggeber leider auch nur noch eine untergeordnete Rolle. In vielen Fällen ist dieser Aspekt jedoch tatsächlich weniger relevant, z.B. bei einfachen A-B-Tests. Sorge sollte vor diesem Hintergrund auch die aktuelle Diskussion um synthetische Daten und die damit verbundene „Verlockung“ bereiten, Daten möglichst ohne (oder zumindest mit deutlich geringeren) Feldkosten generieren zu können.

Vor allem in den Bereichen Media- und Sozialforschung sehen wir hingegen einen entgegengesetzten Trend zur Sicherung von Repräsentativität der Stichproben, ungeachtet der damit verbundenen (deutlich) höheren Kosten. Face-to-face- und CATI-Befragungen mit Zufallsauswahlverfahren sind hier nach wie vor der „Goldstandard“, auch häufig wieder ergänzt durch ganz klassische Verfahren wie schriftlich-postalische oder Push-to-Web-Befragungen auf Basis von Einwohnermeldeamtsstichproben. Aber auch dieser Bereich ist natürlich nicht sicher vor „Quick & Dirty“-Angeboten und -Studien, gerade im Bereich universitärer Forschungsprojekte mit geringem Budget.

Vor welchen größten Herausforderungen stehen in diesem Zusammenhang Panel-Anbieter, Institute und Auftraggeber heute bei der Stichprobenziehung?

Wo soll ich anfangen? Wir sehen zum einen eine deutlich geringere Teilnahmebereitschaft junger Menschen an Befragungen. Sie telefonieren nicht mehr gerne, sind jedoch auch über Online-Accesspanels immer schwerer erreichbar. Ein weiterer Aspekt ist die weitere Diversifizierung der bevorzugten Kommunikationskanäle quer durch die Gesellschaft – telefonisch per Festnetz oder Mobiltelefon, persönlich, online, schriftlich. Allerdings sind mit jeder Methode inzwischen bestimmte (spezifische) Gruppen schlechter und bestimmte (spezifische) Gruppen besser erreichbar. Jeder Erhebungskanal birgt damit für sich genommen das Risiko von (teilweise nicht beherrschbaren und auch nicht im Nachhinein ausgleichbaren) Stichprobenverzerrungen. Diesen Verzerrungen kann man zwar auf struktureller Ebene (Alter, Geschlecht, Bildung, Wohnort usw.) gegensteuern, jedoch kaum auf inhaltlicher Ebene. Deshalb bieten wir sehr häufig Multi-Method oder Mixed-Mode-Designs an, um möglichst alle Bevölkerungsgruppen auf ihrem jeweils präferierten Kanal erreichen zu können und um systematische Verzerrungen zu vermeiden. Die meisten Auftraggeber folgen unseren entsprechenden Empfehlungen sehr gern.

Für Panelanbieter stellt sich die Situation noch einmal ganz anders dar. Offline-Panelrekrutierungen sind sehr teuer und im heutigen wirtschaftlichen Umfeld kaum refinanzierbar. Deshalb gibt es nur sehr wenige Institute bzw. Panelangebote, die diese hohen methodischen Standards anbieten, meist nur für „handverlesene“ Erhebungen mit hohen Qualitätsansprüchen. Bei den üblichen Onlinerekrutierungen wird die Gefahr der Anmeldung von Bots immer größer. Bei River-Sampling-Rekrutierungen ist dieses Risiko noch einmal exorbitant höher. In diesem Zusammenhang steigt gegenwärtig auch das Risiko KI-generierter Antworten immer stärker an. Wie gut sowohl die Panelbetreiber als auch die Panelkunden dies durch eigene Kontroll- und Qualitätssicherungsmaßnahmen verhindern können, bleibt abzuwarten.

Technologische Entwicklungen

Welche Rolle spielen hier neue Technologien wie KI, Big Data oder Machine Learning bei der Stichprobengenerierung?

KI spielt sowohl im positiven wie im negativen Bereich eine wichtige Rolle. Sie ist einerseits hilfreich bei der Ausarbeitung und Strukturierung von Stichprobenkonzepten, wie z.B. der Festlegungen von Quoten oder der Definition von Flächenstichproben. Andererseits wird KI zunehmen für die Generierung synthetischer Probanden bzw. Stichproben genutzt. In Abhängigkeit von den zugrundeliegenden (bestenfalls sauber empirisch erhobenen) Trainingsdaten birgt dies die (bereits mehrfach belegte) Gefahr systematischer Ergebnisverzerrungen. Dieser Trend würde sich fortsetzen, wenn irgendwann nur noch synthetische Trainingsdaten vorhanden wären. Noch weitergehend ist die geschilderte Gefahr durch Bots und KI-generierte Antworten in vermeintlich „echten“ Stichproben. Aus meiner Sicht muss die gesamte Branche vor diesem Hintergrund geeignete Maßnahmen treffen, um nicht selbst ihr eigenes Geschäftsmodell abzuschaffen.

Glauben Sie, dass klassische Zufallsstichproben bald durch algorithmische oder hybride Modelle ersetzt werden?

Nein, das glaube ich nicht, auch wenn ich die Befürchtungen in dieser Hinsicht durchaus teile. Vor allem werden wohl die Aspekte Zeit und Kosten die wesentlichsten Treiber für solche Entwicklungen sein. Dem muss aus meiner Sicht vor allem unter Qualitätsaspekten gegengesteuert werden, um auch künftig unserer gesellschaftlichen Verantwortung im Hinblick auf wissenschaftlich fundierte Forschungsergebnisse gerecht werden zu können.

Datenqualität und Repräsentativität

Apropos Qualität: Ist die Idee einer „rein statistischen Repräsentativität“ angesichts digitaler Datenwelten noch zeitgemäß?

Dies ist nur vor dem Hintergrund zu beantworten, was man unter einer „rein statistischen“ Repräsentativität versteht. Ich denke, die Anforderungen gehen inzwischen darüber hinaus. Der ausschließliche Blick auf Alters-. Geschlechts-, Bildungs- und ähnlichen Verteilungen greift bereits zu kurz und lässt außer Acht, dass mit jeder Methode spezifische Zielgruppen angesprochen oder nicht angesprochen werden. Es kommt beim Begriff der Repräsentativität seit jeher darauf an, jenseits der (hilfsweisen) Betrachtung von Befragtenstrukturen die Hochrechenbarkeit der Befragungsergebnisse auf die jeweilige Grundgesamtheit zu gewährleisten. Dafür ist statistische Repräsentativität sicher weiterhin ein wichtiger Indikator, aber eben nicht der einzige. Grundsätzliche Verteilungen bestimmter Merkmale kann man inzwischen sicher auch aus verschiedenen KI-Modellen generieren. Diese basieren jedoch stets auf bereits vorhandenen Daten. Sofern es sich dabei um aktuelle Primärdaten handelt, kann man damit schon etwas anfangen. Wenn die Datenwelten sich jedoch perspektivisch selbst aus KI-generierten Daten speisen, trainieren sich die Modelle quasi selbst, die Ergebnisse werden entsprechend unzuverlässig oder auch gänzlich falsch und damit für Entscheidungen jeglicher Art unbrauchbar. Es wird also auch zukünftig keinesfalls ohe die Erhebung statistisch repräsentativer Daten gehen – wahrscheinlich jedoch in einem etwas geringeren Umfang als bisher.

Wagen wir einen Ausblick: Wie sieht die Stichprobe der Zukunft aus? Wie sieht die Stichprobe im Jahr 2030 oder 2040 aus – formatübergreifend, dynamisch, verhaltensbasiert?

Es wird sicher weitere Anpassungen in den Erhebungsmethoden geben. Um eine hohe Coverage der Gesamtbevölkerung bei empirischen Erhebungen sicherzustellen, werden künftig wahrscheinlich noch mehr Erhebungskanäle in unterschiedlichen Anteilen miteinander kombiniert werden müssen. Um dennoch verlässliche Rückschlüsse auf die jeweiligen Grundgesamtheiten sicherstellen zu können, ist weitere Grundlagenforschung unabdingbar. Wie bereits geschildert, braucht es für die Beurteilung der Güte von Stichproben weitere Anhaltspunkte und Merkmale jenseits der bislang üblichen soziodemografischen Angaben. Welche das jeweils sind, hängt sehr stark von den jeweiligen Studienzielen ab. Verhaltensbasierte Ansätze sind sicher für die Markt- und Absatzforschung sehr relevant, wertebasierte Ansätze möglicherweise stärker für die Sozialforschung. Milieus, Persönlichkeitsmerkmale, unterschiedliche Segmentierungen oder Typologien helfen, die jeweiligen Befragungsergebnisse zu gewichten und ein zuordnen.

Wird es künftig noch Feldarbeit im klassischen Sinne geben zum Beispiel im Hinblick auf Online-Panels oder Telefonie?

Ja, da bin ich mir sicher. Ohne die bewährten klassischen Methoden werden auch künftig keine verlässlichen Stichproben und Forschungsergebnisse generiert werden können. Ich gehe auch davon aus, dass es hier wieder zu einer Rückbesinnung kommen wird, bevor die entsprechenden Feldkapazitäten in Deutschland zu stark geschrumpft sind.

Gesellschaftliche und ethische Aspekte

Wie können Forscher sicherstellen, dass algorithmische Stichproben keine gesellschaftlichen Gruppen ausschließen oder benachteiligen?

Dafür bedarf es einer durchgängigen genauen Prüfung und des kontinuierlichen Trainings und Abgleichs mit Primärdaten. Wenn dies nicht erfolgt, werden die Algorithmen erfahrungsgemäß in eine bestimmte Richtung tendieren.

Und dann noch ein Blick in die Zukunft der Berufsrolle: Welche Kompetenzen werden Forschende brauchen?

Wir werden neben der klassischen Stichprobenkompetenz vor allem Fähigkeiten im Verständnis, in der Steuerung und in der Kontrolle algorithmischer Verfahren benötigen. Fundierte Kenntnisse in probabilistischen Stichprobenverfahren bleiben die Grundlage, ohne die auch synthetische Daten nicht beurteilt werden können. Darüber hinaus muss es ein Grundverständnis der verwendeten Algorithmen und die Fähigkeit geben, die Funktionslogiken von KI‑basierten Samples und deren Datenquellen zu verstehen und nachvollziehen zu können.

Vor allem ist erforderlich, stets kritisch zu hinterfragen, welche möglichen Fehlerquellen es gibt und wie man diesen begegnen kann. Eine unreflektierte Übernahme KI-basierter Stichproben und Ergebnisse wird sicher dazu führen, dass die Branche ihre Glaubwürdigkeit verliert.

Die Fragen stellte Christian Thunig.

Dr. Holger Liljeberg, Gründer und Geschäftsführer der INFO GmbH Markt- und Meinungsforschung in Berlin (seit 1989), ferner der IFM Berlin GmbH und LILJEBERG Research International. Nach einem Studium der Rechtswissenschaften, Kriminologie und Psychologie mit Promotion zur sozialwissenschaftlichen Jugendforschung war er neun Jahre im BVM-Bundesvorstand aktiv, zuletzt als Vorsitzender bis 2005. Heute ist er Mitglied im BVM-Fachbeirat und im Fachgremium Standesregeln/Qualität. Er wirkte entscheidend an der DIN ISO 20252 mit und agiert als Gutachter für Marktforschungsstudien.