Welche Wahlumfrage schneidet besser ab? a) eine mit 2,3 Mio. Antworten oder b) eine mit 0,05 Mio.? Überraschenderweise gewann 1936 eindeutig die kleine Umfrage, also b).
Hier der Fall, der Fehler, die Folgen und ein Fazit zu Big Data vs. Smart Data:
Der Fall: Die Wahlumfragen von 1936
1936 stand die US-Präsidentschaftswahl an. Alf Landon trat für die Republikaner gegen Franklin D. Roosevelt (FDR) für die Demokraten an. FDR war dabei amtierender Präsident und stand mit seinem New Deal für große Wirtschafts- und Sozialreformen, denn wenige Jahre vorher brachte die Große Depression 1933 die Wirtschaft aus dem Gleichgewicht. Landon hingegen war ein gemäßigter Republikaner, der die Politik des New Deal als bürokratisch ablehnte.
Um das Wahlergebnis vorherzusagen, fragte das beliebte Wochenmagazin Literary Digest bei 10 Mio. Amerikanern nach deren Wahlverhalten – per Brief und per Telefon. In Anbetracht von nur ca. 80 Mio. Wahlberechtigten eine erstaunliche Zahl. Zudem konnte The Literary Digest sich damit schmücken, seit Einführung ihrer Wahlumfrage 1916 in allen fünf abgehaltenen Präsidentschaftswahlen den Sieger korrekt zu prognostizieren zu können. In ihrer Befragung 1936 konnte die Zeitschrift insgesamt über 2,3 Millionen tatsächliche Antworten sammeln. Das Ergebnis war die Prognose, dass Landon mit 57 % zu 38 % bei FDR gewinnen wird.
Gleichzeitig führte George Gallup, der erst 34 Jahre alt war und just im Vorjahr sein American Institute of Public Opinion gegründet hatte, regelmäßige Interviews mit Wahlberechtigten durch, bei denen er sich auf aussagekräftige Staaten und eine möglichst gute Repräsentation der dortigen Gesellschaft konzentrierte (heute würde man es wohl “Quotenstichprobe” nennen). Insgesamt konnte er so 50.000 Antworten sammeln, aus denen er einen Sieg für Roosevelt mit 56 % vorhersagte.
Und wie ging es aus?
FDR gewann deutlich mit 60,8 % bei 36,5 % für Landon. Gallups Prognose für den Wahlsieger wich also nur ca. 5 % ab, während der Literary Digest mit über 20 % deutlich daneben lag. Mit 523 zu 8 Wahlleuten erhielt nur George Washington (zwei einstimmige Siege) und James Monroe (ohne Gegenkandidat, aber trotzdem mit einer Gegenstimme) ein besseres Wahlergebnis im Electoral College als Roosevelt.
Der Fehler: Verzerrung in der Stichprobe
Der zentrale Fehler des Literary Digest lag darin, dass die Stichprobe durch und durch verzerrt war. Um die 10 Millionen US-Amerikaner zu erreichen, behalf sich das Magazin, indem es Adressen aus dem Automobilregister anschrieb und Telefonnummern aus dem Telefonbuch anrief. In den 30er-Jahren besaßen allerdings nur wohlhabendere Wähler ein Auto oder ein Telefon. Ein Großteil der Bevölkerung wurde also nicht in der Umfrage beachtet. Vor allem wurden dabei die Bürger und Bürgerinnen unterrepräsentiert, die besonders von FDRs New Deal profitierten, und so wahrscheinlich auch eine starke Tendenz hatten, für ihn zu stimmen.
Die Folgen: Pleite und Welterfolg
The Literary Digest wurde anderthalb Jahre später (nach 48 Jahren Existenz) vom Time Magazine übernommen. Die dazugehörige Mitteilung von 1938 (“Digest Digested”) würdigt das Debakel, dessen Glaubwürdigkeitsverlust die Zeitschrift aus der Bahn warf.
Die Gallup Organization, die aus dem American Institute of Public Opinion hervorging, ist heute ein führendes Institut für Meinungs- und Marktforschung, das Büro an über 30 Standorten weltweit betreibt.
Das Fazit: Smart Data aus Big Data
Es zählt auch hier der alte Sinnspruch: Garbage in, garbage out. Bei Big Data geht es nicht nur darum, Datenanalyse mit möglichst vielen Daten durchzuführen, sondern auch mit guten. Das oberste Ziel ist es, aus Daten Informationen und daraus Wissen zu gewinnen. Der Wert der Daten orientiert sich also mehr an Qualität der Aussage als an reiner Quantität der Daten, d. h. wir benötigen nicht nur Big Data, sondern vor allem auch Smart Data. Im Konzept des Smart Data steht also das akquirierte Wissen im Mittelpunkt und nicht alleine die Menge an Rohdaten.
Die gute Nachricht ist, dass man diesen Wert durch intelligente Analyst:innen und Analyseverfahren beeinflussen kann: Hätte The Literary Digest ihre Antworten smart auf die Grundgesamtheit bzw. die Bevölkerung hochgerechnet, wäre es sicherlich kein so großes Debakel gewesen. Übertragen in die heutige Zeit liegt der Schlüssel von Big Data zu Smart Data also nicht im Computer, sondern sitzt davor und bedient den Computer…