KI-generierte Umfrageantworten: Herausforderungen für die Datenqualität in der Online-Marktforschung

KI-Tools wie ChatGPT, Gemini oder Claude können den Arbeitsalltag von Marktforschenden erleichtern. Vor gut drei Jahren haben wir uns an dieser Stelle bereits mit diesen neuen Möglichkeiten von KI in der Marktforschung beschäftigt (siehe Beitrag vom Februar 2023). Seitdem hat sich das Feld rasant weiterentwickelt: Die Modelle sind leistungsfähiger geworden und die Einsatzmöglichkeiten vielfältiger. Doch KI hat in der Marktforschung auch eine Schattenseite, die in der Praxis schon spürbare Auswirkungen zeigt: Was passiert, wenn nicht Menschen, sondern KI-Systeme die Umfragen ausfüllen?

Der Befund aus der aktuellen Forschung

KI-Robot füllt Online-Umfrage aus

Eine 2025 in den Proceedings of the National Academy of Sciences (PNAS) veröffentlichte Studie von Sean Westwood zeigt, wie weit das Problem bereits fortgeschritten ist. Westwood entwickelte einen KI-Agenten, der nahezu durchgehend konsistente Antworten produziert, dabei seine vorangegangenen Antworten berücksichtigt und eine kohärente demografische Persönlichkeit beibehält. In über 6.000 Testläufen bestand der KI-Agent 99,8 % der gängigen Aufmerksamkeitstests, die eingesetzt werden, um Antworten minderer Qualität herauszufiltern.

 

Das System imitiert dabei nicht nur inhaltlich plausible Antworten, sondern auch menschliche Verhaltensdetails: Es passt die Lesezeit dem angegebenen Bildungsniveau an, erzeugt realistische Mausbewegungen und tippt mit gelegentlichen Tippfehlern – wodurch es aktuelle, verbreitete Attention- und Qualitätschecks zuverlässig überwindet (vgl. https://www.pnas.org/doi/10.1073/pnas.2518075122).

Ergänzend dazu kommt eine weniger spektakuläre, aber in der Praxis wohl häufigere Variante: Laut einer Stanford-Studie aus dem Jahr 2024 gab rund ein Drittel der Befragten an, bei der Beantwortung offener Fragen in Online-Umfragen auf KI-Tools wie ChatGPT zurückgegriffen zu haben (vgl. https://journals.sagepub.com/doi/10.1177/00491241251327130).

Was bedeutet das für die Datenqualität?

Beide Phänomene – vollautomatisierte Bots und KI-unterstützte Antworten – verzerren Befragungsergebnisse auf ähnliche Weise: Die Antworten spiegeln nicht mehr die tatsächlichen Meinungen, Einstellungen und Erfahrungen echter Menschen wider, sondern das, was ein Sprachmodell für eine plausible oder erwünschte Antwort hält. Das betrifft besonders offene Textfragen, bei denen inhaltliche Tiefe und Individualität eigentlich den Mehrwert ausmachen.

Maßnahmen auf der Projektebene

Es gibt keine einfache Lösung, aber eine Reihe von Maßnahmen, die das Risiko reduzieren:

 

Auf inhaltlicher und technischer Ebene helfen unter anderem gut durchdachte Attention-Check-Fragen, Zeitstempel-Analysen, spezielle visuelle Kontrollaufgaben, die Identifikation verdächtiger Antwortmuster und die gezielte Prüfung offener Antworten auf sprachliche Auffälligkeiten. Spezialisierte Tools wie ReDem (https://redem.io/) oder Research Defender (https://repdata.com/solutions/research-defender/) setzen selbst KI ein, um verdächtige Antwortmuster zu identifizieren. Wie die Studie von Westwood zeigt, stoßen diese Maßnahmen bei hochentwickelten Bots aber an ihre Grenzen. Wirksamere Hebel liegen deshalb vor allem in der Wahl des Felddienstleisters. Seriöse Panelanbieter betreiben aktives Qualitätsmanagement auf Plattformebene, prüfen Teilnehmeridentitäten und schließen auffällige Panelisten konsequent aus – auch wenn das in der Regel mit höheren Kosten verbunden ist. Es bleibt aber unverzichtbar, die Rohdaten vor der eigentlichen Auswertung systematisch auf Anomalien zu überprüfen. Das ist kein bürokratischer Mehraufwand, sondern Teil einer sorgfältigen Marktforschungspraxis. 

 

Kein einzelnes Verfahren bietet absolute Sicherheit, aber eine Kombination aus technischen und inhaltlichen Qualitätsschecks bereits während der laufenden Umfrage, die Nutzung eines seriösen Panelanbieters und eine intensive Datenkontrolle sowie -bereinigung reduziert das Risiko verfälschter Ergebnisse erheblich.

Fazit

Online-Befragungen sind nach wie vor ein leistungsfähiges Instrument – aber die Qualitätsanforderungen an ihre Durchführung steigen. Wer die Robustheit seiner Daten sicherstellen will, kommt nicht umhin, das Thema Respondentenqualität aktiv zu adressieren.

Quellen:

S.J. Westwood (2025). The potential existential threat of large language models to online survey research, Proc. Natl. Acad. Sci. U.S.A. 122 (47). https://doi.org/10.1073/pnas.2518075122

 

Zhang, S., Xu, J., & Alvero, A. (2025). Generative AI Meets Open-Ended Survey Responses: Research Participant Use of AI and Homogenization. Sociological Methods & Research, 54(3), 1197-1242. https://doi.org/10.1177/00491241251327130