2.4.1 Zählen Dinge

Einfaches Zählen kann interessant sein , wenn Sie eine gute Frage mit guten Daten zu kombinieren.

Obwohl es in einer hochentwickelten Sprache geschrieben ist, zählt eine Menge sozialer Forschung wirklich nur Dinge. Im Zeitalter der Big Data können Forscher mehr zählen als je zuvor, aber das heißt nicht, dass sie einfach willkürlich zu zählen beginnen. Stattdessen sollten Forscher fragen: Welche Dinge sind es wert, gezählt zu werden? Dies mag wie eine völlig subjektive Angelegenheit erscheinen, aber es gibt einige allgemeine Muster.

Oft motivieren Schüler ihre Zählforschung, indem sie sagen: Ich zähle etwas, das noch nie jemand gezählt hat. Zum Beispiel könnte ein Student sagen, dass viele Menschen Migranten studiert haben und viele Menschen Zwillinge studiert haben, aber niemand hat Zwillingsmigranten studiert. Nach meiner Erfahrung führt diese Strategie, die ich Motivation durch Abwesenheit nenne, normalerweise nicht zu guter Forschung. Motivation durch Abwesenheit ist so, als würde man sagen, dass da drüben ein Loch ist, und ich werde sehr hart arbeiten, um es zu füllen. Aber nicht jedes Loch muss ausgefüllt werden.

Anstatt durch Abwesenheit zu motivieren, denke ich, dass es eine bessere Strategie ist, nach Forschungsfragen zu suchen, die wichtig oder interessant sind (oder idealerweise beides). Beide Begriffe sind schwer zu definieren, aber eine Möglichkeit, über wichtige Forschung nachzudenken, ist, dass sie messbare Auswirkungen hat oder in eine wichtige Entscheidung der politischen Entscheidungsträger einfließt. Zum Beispiel ist die Messung der Arbeitslosenquote wichtig, weil sie ein Indikator für die Wirtschaft ist, die politische Entscheidungen antreibt. Generell denke ich, dass Forscher ein ziemlich gutes Gespür dafür haben, was wichtig ist. Im Rest dieses Abschnitts werde ich zwei Beispiele vorstellen, bei denen das Zählen interessant ist. In jedem Fall zählten die Forscher nicht zufällig; Vielmehr zählten sie in ganz besonderen Situationen, die wichtige Einsichten in allgemeinere Vorstellungen über die Funktionsweise von Sozialsystemen enthüllten. Mit anderen Worten, eine Menge von dem, was diese bestimmten Zählübungen interessant macht, sind nicht die Daten selbst, es kommt von diesen allgemeineren Ideen.

Ein Beispiel für die einfache Zählkraft kommt aus Henry Farbers (2015) Studie über das Verhalten von Taxifahrern in New York City. Obwohl diese Gruppe nicht von Natur aus interessant klingt, ist sie eine strategische Forschungsstelle, um zwei konkurrierende Theorien der Arbeitsökonomie zu testen. Für die Zwecke von Farbers Forschung gibt es zwei wichtige Merkmale bezüglich des Arbeitsumfelds von Taxifahrern: (1) ihr Stundenlohn schwankt von Tag zu Tag, teilweise basierend auf Faktoren wie dem Wetter und (2) der Anzahl von Stunden Arbeit kann aufgrund ihrer Entscheidungen jeden Tag schwanken. Diese Merkmale führen zu einer interessanten Frage nach dem Verhältnis zwischen Stundenlohn und Arbeitsstunden. Neoklassische Modelle in der Wirtschaft sagen voraus, dass Taxifahrer mehr an Tagen arbeiten, an denen sie höhere Stundenlöhne haben. Alternativ dazu sagen Modelle aus der Verhaltensökonomie genau das Gegenteil voraus. Wenn Fahrer ein bestimmtes Einkommensziel festlegen - etwa 100 Dollar pro Tag - und arbeiten, bis das Ziel erreicht ist, arbeiten die Fahrer am Tag, an dem sie mehr verdienen, weniger Stunden. Zum Beispiel, wenn Sie ein Zielverdiener waren, könnten Sie am Ende vier Stunden an einem guten Tag ($ 25 pro Stunde) und fünf Stunden an einem schlechten Tag ($ 20 pro Stunde) arbeiten. Arbeiten Fahrer also an Tagen mit höheren Stundenlöhnen (wie von den neoklassischen Modellen vorhergesagt) oder an Tagen mit niedrigeren Stundenlöhnen (wie von verhaltensökonomischen Modellen vorhergesagt) mehr Stunden?

Um diese Frage zu beantworten, hat Farber Daten über jede Taxifahrt von New York City Cabs von 2009 bis 2013 erhalten, die nun öffentlich verfügbar sind. Diese Daten, die von elektronischen Zählern gesammelt wurden, die von der Stadt benötigt werden, enthalten Informationen über jede Fahrt: Startzeit, Startort, Endzeit, Endort, Fahrpreis und Trinkgeld (wenn der Trinkgeldbetrag mit einer Kreditkarte bezahlt wurde). . Anhand dieser Taxameterdaten stellte Farber fest, dass die meisten Fahrer mehr an Tagen arbeiten, an denen die Löhne höher sind, was mit der neoklassischen Theorie übereinstimmt.

Zusätzlich zu diesem Hauptergebnis konnte Farber die Größe der Daten für ein besseres Verständnis von Heterogenität und Dynamik nutzen. Er stellte fest, dass neuere Fahrer im Laufe der Zeit allmählich lernen, an Hochlohntagen mehr zu arbeiten (z. B. lernen sie, sich so zu verhalten, wie das neoklassische Modell vorhersagt). Und neue Fahrer, die sich eher wie Zielverdiener verhalten, werden eher Taxifahrer sein. Diese beiden subtileren Ergebnisse, die das beobachtete Verhalten aktueller Treiber erklären, waren nur aufgrund der Größe des Datensatzes möglich. In früheren Studien konnten sie nicht feststellen, dass Papierreiseblätter von einer kleinen Anzahl von Taxifahrern in kurzer Zeit verwendet wurden (Camerer et al. 1997) .

Farbers Studie entsprach fast einem Best-Case-Szenario für eine Forschung mit einer großen Datenquelle, da die Daten, die von der Stadt erhoben wurden, ziemlich nahe bei den Daten waren, die Farber gesammelt hätte (ein Unterschied wäre, dass Farber Daten über insgesamt wollte) Lohntarife plus Trinkgelder - aber die Stadtdaten enthielten nur Tips, die per Kreditkarte bezahlt wurden. Die Daten allein waren jedoch nicht genug. Der Schlüssel zu Farbers Forschung bestand darin, den Daten eine interessante Frage zu stellen, eine Frage, die über diese spezifische Umgebung hinaus weitreichende Auswirkungen hat.

Ein zweites Beispiel für das Zählen von Dingen stammt aus Recherchen von Gary King, Jennifer Pan und Molly Roberts (2013) über Online-Zensur durch die chinesische Regierung. In diesem Fall mussten die Forscher jedoch ihre eigenen Big Data sammeln und mussten sich damit auseinandersetzen, dass ihre Daten unvollständig waren.

King und seine Kollegen waren von der Tatsache motiviert, dass Social-Media-Stellen in China von einem riesigen Staatsapparat zensiert werden, in dem Zehntausende von Menschen vermutet werden. Forscher und Bürger haben jedoch wenig Sinn dafür, wie diese Zensoren entscheiden, welche Inhalte gelöscht werden sollen. Wissenschaftler aus China haben tatsächlich widersprüchliche Erwartungen darüber, welche Arten von Beiträgen am wahrscheinlichsten gelöscht werden. Einige denken, dass Zensoren sich auf staatskritische Beiträge konzentrieren, während andere denken, dass sie sich auf Beiträge konzentrieren, die kollektives Verhalten fördern, wie zum Beispiel Proteste. Herauszufinden, welche dieser Erwartungen richtig ist, hat Auswirkungen darauf, wie Forscher China und andere autoritäre Regierungen verstehen, die Zensur betreiben. Daher wollten King und seine Kollegen veröffentlichte Beiträge vergleichen und anschließend mit veröffentlichten und nie gelöschten Beiträgen löschen.

diese Beiträge sammeln beteiligt die erstaunliche Ingenieurleistung von mehr als 1.000 chinesische Social-Media-Webseiten-mit jeweils unterschiedlichen Seitenlayouts Findungs ​​relevante Beiträge kriechen, und dann diese Beiträge erneuten Besuch zu sehen, welche anschließend gelöscht wurden. Zusätzlich zu den normalen technischen Problemen mit großem Maßstab Web-Crawling verbunden ist, hatte dieses Projekt die zusätzliche Herausforderung, die es benötigt extrem schnell sein, weil viele zensiert Beiträge in weniger als 24 Stunden werden heruntergenommen. Mit anderen Worten würde ein langsamer Crawler viele Beiträge verpassen, die zensiert wurden. Weiterhin hatte die Crawler alle diese Datensammlung zu tun, während Erkennung zu umgehen, damit die Social-Media-Websites den Zugriff blockieren oder auf andere Weise als Reaktion auf die Studie ihre Politik ändern.

Als diese gewaltige Ingenieursaufgabe abgeschlossen war, hatten King und seine Kollegen etwa 11 Millionen Beiträge zu 85 verschiedenen vordefinierten Themen erhalten, von denen jedes ein gewisses Maß an Sensibilität besaß. Ein Thema von hoher Sensibilität ist zum Beispiel Ai Weiwei, der Dissident-Künstler; Ein Thema mittlerer Sensibilität ist die Aufwertung und Abwertung der chinesischen Währung. Ein Thema mit geringer Sensitivität ist die WM. Von diesen 11 Millionen Posten wurden etwa 2 Millionen zensiert. Überraschenderweise fanden King und Kollegen heraus, dass Beiträge zu hochsensiblen Themen nur geringfügig häufiger zensiert wurden als Beiträge zu Themen mit mittlerer und geringer Sensitivität. Mit anderen Worten, chinesische Zensoren sind in der Lage, einen Beitrag zu zensieren, der Ai Weiwei als einen Posten erwähnt, der die Weltmeisterschaft erwähnt. Diese Ergebnisse unterstützen nicht die Idee, dass die Regierung alle Beiträge zu sensiblen Themen zensiert.

Diese einfache Berechnung der Zensurrate nach Thema könnte jedoch irreführend sein. Zum Beispiel könnte die Regierung Posten zensieren, die Ai Weiwei unterstützen, aber Beiträge hinterlassen, die ihn kritisieren. Um Posts genauer unterscheiden zu können, mussten die Forscher die Stimmung jedes Posts messen. Leider sind trotz vieler Arbeiten vollautomatische Methoden zur Erkennung von Gefühlen mit Hilfe bereits vorhandener Wörterbücher in vielen Situationen immer noch nicht sehr gut (denken Sie an die Probleme beim Erstellen einer emotionalen Zeitleiste vom 11. September 2001, die in Abschnitt 2.3.9 beschrieben wird). Daher benötigten King und seine Kollegen eine Möglichkeit, ihre 11 Millionen Social-Media-Beiträge zu kennzeichnen, ob sie (1) staatskritisch, (2) staatsunterstützend oder (3) irrelevant oder sachlich über die Ereignisse waren. Das hört sich nach einem massiven Job an, aber sie haben es mit einem mächtigen Trick gelöst, der in der Datenwissenschaft üblich ist, aber in den Sozialwissenschaften relativ selten ist: überwachtes Lernen ; Siehe Abbildung 2.5.

Zuerst konvertierten die Forscher in einem Schritt, der typischerweise als Vorverarbeitung bezeichnet wird , die Social-Media-Beiträge in eine Dokument-Term-Matrix , wo es für jedes Dokument eine Zeile gab und eine Spalte, die aufzeigte, ob der Beitrag ein bestimmtes Wort enthielt (zB Protest oder Verkehr). . Als Nächstes benannte eine Gruppe von wissenschaftlichen Mitarbeitern die Stimmung einer Auswahl von Beiträgen mit der Hand. Dann verwendeten sie diese von Hand beschrifteten Daten, um ein maschinelles Lernmodell zu erstellen, das basierend auf seinen Eigenschaften auf die Stimmung eines Posts schließen ließ. Schließlich verwendeten sie dieses Modell, um die Stimmung aller 11 Millionen Posts einzuschätzen.

Anstatt also 11 Millionen Posts manuell zu lesen und zu etikettieren - was logistisch unmöglich wäre - beschrifteten King und Kollegen manuell eine kleine Anzahl von Posts und benutzten dann überwachtes Lernen, um die Stimmung aller Posts einzuschätzen. Nach Abschluss dieser Analyse konnten sie zu dem Schluss kommen, dass die Wahrscheinlichkeit, dass ein Posten gelöscht wird, etwas überraschend nicht damit zusammenhängt, ob er den Staat kritisiert oder den Staat unterstützt.

Abbildung 2.5: Vereinfachte schematische Darstellung des von King, Pan und Roberts (2013) verwendeten Verfahrens zur Schätzung der Stimmung von 11 Millionen chinesischen Social-Media-Posts. In einem Vorverarbeitungsschritt wandelten die Forscher die Social-Media-Beiträge in eine Dokumenten-Term-Matrix um (siehe Grimmer and Stewart (2013) für weitere Informationen). Zweitens codierten sie die Gefühle einer kleinen Auswahl von Posts von Hand. Drittens trainierten sie ein überwachtes Lernmodell, um das Gefühl von Posts zu klassifizieren. Viertens verwendeten sie das überwachte Lernmodell, um die Stimmung aller Posts einzuschätzen. Eine detailliertere Beschreibung finden Sie in King, Pan und Roberts (2013), Anhang B.

Abbildung 2.5: Vereinfachte schematische Darstellung des von King, Pan, and Roberts (2013) verwendeten Verfahrens zur Schätzung der Stimmung von 11 Millionen chinesischen Social-Media-Posts. In einem Vorverarbeitungsschritt wandelten die Forscher die Social-Media-Beiträge in eine Dokumenten-Term-Matrix um (siehe Grimmer and Stewart (2013) für weitere Informationen). Zweitens codierten sie die Gefühle einer kleinen Auswahl von Posts von Hand. Drittens trainierten sie ein überwachtes Lernmodell, um das Gefühl von Posts zu klassifizieren. Viertens verwendeten sie das überwachte Lernmodell, um die Stimmung aller Posts einzuschätzen. Eine detailliertere Beschreibung finden Sie in King, Pan, and Roberts (2013) , Anhang B.

Am Ende stellten King und seine Kollegen fest, dass nur drei Arten von Stellen regelmäßig zensiert wurden: Pornographie, Kritik an der Zensur und solche mit kollektivem Aktionspotenzial (dh die Möglichkeit, zu großen Protesten zu führen). Durch die Beobachtung einer großen Anzahl von Posts, die gelöscht wurden, und Posts, die nicht gelöscht wurden, konnten King und seine Kollegen lernen, wie die Zensoren nur durch das Beobachten und Zählen arbeiten. Darüber hinaus wird der Ansatz des überwachten Lernens, mit dem einige Ergebnisse handgeschrieben und dann ein Modell des maschinellen Lernens erstellt werden, um den Rest zu kennzeichnen, in der Sozialforschung im digitalen Zeitalter sehr verbreitet sein . In den Kapiteln 3 (Fragen stellen) und 5 (Erstellen einer Massenkooperation) werden Sie Bilder sehr ähnlich sehen wie in Abbildung 2.5; Dies ist eine der wenigen Ideen, die in mehreren Kapiteln erscheinen.

Diese Beispiele - das Arbeitsverhalten von Taxifahrern in New York und das Social-Media-Zensurverhalten der chinesischen Regierung - zeigen, dass das relativ einfache Zählen großer Datenquellen in einigen Situationen zu interessanten und wichtigen Forschungsarbeiten führen kann. In beiden Fällen mussten die Forscher jedoch interessante Fragen an die große Datenquelle stellen; Die Daten allein waren nicht genug.