2.3.6 Nicht repräsentativ

Nicht repräsentative Daten sind schlecht für Verallgemeinerungen außerhalb der Stichprobe, können aber für Vergleiche innerhalb von Stichproben sehr nützlich sein.

Einige Sozialwissenschaftler sind es gewohnt, mit Daten zu arbeiten, die aus einer probabilistischen Zufallsstichprobe einer wohldefinierten Population stammen, wie beispielsweise alle Erwachsenen in einem bestimmten Land. Diese Art von Daten wird als repräsentative Daten bezeichnet, da die Stichprobe die größere Population darstellt. Viele Forscher schätzen repräsentative Daten, und für einige repräsentative Daten steht Synonym für rigorose Wissenschaft, während nicht repräsentative Daten synonym mit Schlamperei sind. Im Extremfall scheinen einige Skeptiker zu glauben, dass nichts von nicht repräsentativen Daten gelernt werden kann. Wenn das stimmt, würde dies das, was aus großen Datenquellen gelernt werden kann, stark einschränken, da viele von ihnen nicht repräsentativ sind. Glücklicherweise haben diese Skeptiker nur teilweise Recht. Es gibt bestimmte Forschungsziele, für die nicht repräsentative Daten eindeutig nicht gut geeignet sind, aber es gibt andere, für die es tatsächlich recht nützlich sein könnte.

Um diesen Unterschied zu verstehen, betrachten wir einen wissenschaftlichen Klassiker: John Snow's Studie über den Choleraausbruch von 1853-54 in London. Zu dieser Zeit glaubten viele Ärzte, dass Cholera durch "schlechte Luft" verursacht wurde, aber Snow glaubte, dass es sich um eine Infektionskrankheit handelte, die vielleicht durch Abwasser aus Abwasser verbreitet wurde. Um diese Idee zu testen, nutzte Snow das, was wir jetzt als natürliches Experiment bezeichnen könnten. Er verglich die Cholera-Raten der Haushalte, die von zwei verschiedenen Wasserunternehmen versorgt wurden: Lambeth und Southwark & ​​Vauxhall. Diese Unternehmen dienten ähnlichen Haushalten, aber sie unterschieden sich auf eine wichtige Weise: 1849 - wenige Jahre vor Beginn der Epidemie - verlegte Lambeth seinen Einlasspunkt stromaufwärts von der Hauptentwässerungsleitung in London, während Southwark & ​​Vauxhall ihre Ansaugleitung stromabwärts der Abwasserentsorgung. Als Snow die Todesraten aus der Cholera in den Haushalten der beiden Unternehmen verglich, stellte er fest, dass Kunden von Southwark & ​​Vauxhall - dem Unternehmen, das Kunden Abwasser anbot - zehnmal häufiger an Cholera erkrankten. Dieses Ergebnis liefert starke wissenschaftliche Beweise für die Argumentation von Snow über die Ursache der Cholera, obwohl sie nicht auf einer repräsentativen Stichprobe von Menschen in London basiert.

Die Daten dieser beiden Unternehmen wären jedoch nicht ideal, um eine andere Frage zu beantworten: Wie war die Prävalenz der Cholera in London während des Ausbruchs? Für diese zweite Frage, die ebenfalls wichtig ist, wäre es viel besser, eine repräsentative Stichprobe von Menschen aus London zu haben.

Wie die Arbeit von Snow zeigt, gibt es einige wissenschaftliche Fragen, für die nicht repräsentative Daten sehr effektiv sein können und andere, für die sie nicht gut geeignet ist. Ein einfacher Weg, um diese beiden Arten von Fragen zu unterscheiden, besteht darin, dass einige Fragen sich auf Vergleiche zwischen Stichproben beziehen und einige auf Verallgemeinerungen außerhalb der Stichprobe abzielen. Diese Unterscheidung kann durch eine weitere klassische Studie in der Epidemiologie weiter veranschaulicht werden: Die British Doctors Study, die eine wichtige Rolle beim Nachweis, dass Rauchen Krebs verursacht, spielte. In dieser Studie verfolgten Richard Doll und A. Bradford Hill mehrere Jahre lang etwa 25.000 männliche Ärzte und verglichen ihre Todesraten auf der Grundlage der Menge, die sie zu Beginn der Studie geraucht hatten. Doll and Hill (1954) fanden eine starke Expositions-Wirkungs-Beziehung: Je mehr Menschen rauchten, desto höher war die Wahrscheinlichkeit, an Lungenkrebs zu sterben. Natürlich wäre es unklug, die Prävalenz von Lungenkrebs bei allen Briten basierend auf dieser Gruppe von männlichen Ärzten zu schätzen, aber der Vergleich innerhalb der Stichprobe zeigt immer noch, dass Rauchen Lungenkrebs verursacht.

Jetzt, da ich den Unterschied zwischen Vergleichen innerhalb von Stichproben und Verallgemeinerungen außerhalb der Stichprobe illustriert habe, sind zwei Vorbehalte angebracht. Erstens gibt es natürlich Fragen darüber, inwieweit eine Beziehung, die in einer Stichprobe männlicher britischer Ärzte besteht, auch in einer Stichprobe weiblicher, britischer Ärzte oder männlicher britischer Fabrikarbeiter oder weiblicher deutscher Fabrikarbeiter oder vieler anderer Gruppen besteht. Diese Fragen sind interessant und wichtig, aber sie unterscheiden sich von Fragen über das Ausmaß, in dem wir von einer Stichprobe auf eine Population verallgemeinern können. Beachten Sie zum Beispiel, dass Sie wahrscheinlich vermuten, dass die Beziehung zwischen Rauchen und Krebs, die bei männlichen britischen Ärzten gefunden wurde, in diesen anderen Gruppen wahrscheinlich ähnlich sein wird. Ihre Fähigkeit, diese Extrapolation durchzuführen, kommt nicht von der Tatsache, dass männliche britische Ärzte eine probabilistische Zufallsstichprobe von irgendeiner Bevölkerung sind; Es kommt vielmehr aus dem Verständnis des Mechanismus, der Rauchen und Krebs verbindet. Somit ist die Verallgemeinerung von einer Stichprobe auf die Population, aus der gezogen wird, weitgehend ein statistisches Problem, aber Fragen zur Transportierbarkeit von Mustern in einer Gruppe zu einer anderen Gruppe sind weitgehend ein nicht-statistisches Problem (Pearl and Bareinboim 2014; Pearl 2015) .

An diesem Punkt könnte ein Skeptiker darauf hinweisen, dass die meisten sozialen Muster wahrscheinlich über Gruppen hinweg weniger transportierbar sind als die Beziehung zwischen Rauchen und Krebs. Und ich stimme zu. Das Ausmaß, in dem wir erwarten können, dass Muster transportabel sind, ist letztlich eine wissenschaftliche Frage, die auf der Grundlage von Theorie und Beweisen entschieden werden muss. Es sollte nicht automatisch angenommen werden, dass Muster transportierbar sind, aber es sollte auch nicht davon ausgegangen werden, dass sie nicht transportierbar sind. Diese etwas abstrakten Fragen zur Transportierbarkeit werden Ihnen bekannt sein, wenn Sie die Debatten darüber verfolgt haben, wie viel Forscher das menschliche Verhalten durch das Studium von Studenten lernen können (Sears 1986, [@henrich_most_2010] ) . Trotz dieser Debatten wäre es jedoch unvernünftig zu sagen, dass Forscher nichts vom Studium von Studenten lernen können.

Der zweite Vorbehalt ist, dass die meisten Forscher mit nicht repräsentativen Daten nicht so vorsichtig sind wie Snow oder Doll and Hill. Um zu zeigen, was schiefgehen kann, wenn Forscher versuchen, aus nicht repräsentativen Daten eine generelle Verallgemeinerungsform zu machen, möchte ich Ihnen von einer Studie über die Bundestagswahl 2009 von Andranik Tumasjan und Kollegen (2010) . Bei der Analyse von mehr als 100.000 Tweets stellte sich heraus, dass der Anteil der Tweets, die eine politische Partei erwähnen, dem Stimmenanteil entsprach, den die Partei bei den Parlamentswahlen erhalten hatte (Abbildung 2.3). Mit anderen Worten, es schien, dass Twitter-Daten, die im Wesentlichen frei waren, traditionelle Meinungsumfragen ersetzen konnten, die wegen ihrer Betonung auf repräsentativen Daten teuer sind.

Angesichts dessen, was Sie wahrscheinlich bereits über Twitter wissen, sollten Sie dieses Ergebnis sofort skeptisch sehen. Die Twitter-Deutschen im Jahr 2009 waren keine probabilistische Zufallsstichprobe deutscher Wähler, und Anhänger einiger Parteien twitterten viel häufiger über die Politik als Anhänger anderer Parteien. Daher erscheint es überraschend, dass alle möglichen Vorurteile, die Sie sich vorstellen könnten, irgendwie aufgehoben würden, so dass diese Daten direkt die deutschen Wähler widerspiegeln würden. Die Ergebnisse von Tumasjan et al. (2010) erwies sich als zu schön, um wahr zu sein. In einem Nachfolgepapier von Andreas Jungherr, Pascal Jürgens und Harald Schoen (2012) darauf hingewiesen, dass die ursprüngliche Analyse die Partei ausgeschlossen hatte, die bei Twitter die meisten Erwähnungen erhalten hatte: die Piratenpartei, eine kleine Partei, die gegen staatliche Regulierung kämpft des Internets. Als die Piratenpartei in die Analyse einbezogen wurde, werden Twitter-Erwähnungen zu einem schrecklichen Prädiktor für Wahlergebnisse (Abbildung 2.3). Wie dieses Beispiel zeigt, kann die Verwendung von nicht repräsentativen Big Data-Quellen für Generalisierungen außerhalb der Stichprobe sehr schief gehen. Sie sollten auch bemerken, dass die Tatsache, dass es 100.000 Tweets gab, im Grunde irrelevant war: viele nicht repräsentative Daten sind immer noch nicht repräsentativ, ein Thema, auf das ich in Kapitel 3 zurückkomme, wenn ich Umfragen diskutiere.

Abbildung 2.3: Twitter-Erwähnungen scheinen die Ergebnisse der deutschen Wahlen von 2009 vorherzusagen (Tumasjan et al. 2010), aber dies schließt die Partei mit den meisten Erwähnungen aus: Piratenpartei (Jungherr, Jürgens und Schoen 2012). Siehe Tumasjan et al. (2012) für ein Argument zugunsten des Ausschlusses der Piratenpartei. Angepasst an Tumasjan et al. (2010), Tabelle 4 und Jungherr, Jürgens und Schoen (2012), Tabelle 2.

Abbildung 2.3: Twitter-Erwähnungen scheinen die Ergebnisse der deutschen Wahlen von 2009 vorherzusagen (Tumasjan et al. 2010) , aber dies schließt die Partei mit den meisten Erwähnungen aus: Piratenpartei (Jungherr, Jürgens, and Schoen 2012) . Siehe Tumasjan et al. (2012) für ein Argument zugunsten des Ausschlusses der Piratenpartei. Angepasst an Tumasjan et al. (2010) , Tabelle 4 und Jungherr, Jürgens, and Schoen (2012) , Tabelle 2.

Schlussendlich sind viele große Datenquellen keine repräsentativen Stichproben aus einer wohldefinierten Population. Bei Fragen, die generalisierte Ergebnisse von der Stichprobe an die Population erfordern, aus der sie gezogen wurde, ist dies ein ernstes Problem. Bei Fragen zu Vergleichen innerhalb von Stichproben können nicht repräsentative Daten jedoch sehr aussagekräftig sein, solange die Forscher sich über die Merkmale ihrer Stichprobe im Klaren sind und Behauptungen zur Transportierbarkeit mit theoretischen oder empirischen Belegen stützen. In der Tat hoffe ich, dass große Datenquellen es Forschern ermöglichen werden, mehr Vergleiche innerhalb von Stichproben in vielen nicht repräsentativen Gruppen zu machen, und ich schätze, dass Schätzungen aus vielen verschiedenen Gruppen mehr zur Förderung der Sozialforschung beitragen als eine einzige Schätzung aus einem probabilistischen Zufall Probe.