2.4.3 Unter Annäherung an Experimente

Diese Übersetzung wurde von einem Computer erstellt. ×

2.4.3 Unter Annäherung an Experimente

Wir können Experimente annähern, die wir nicht haben oder nicht machen können. Zwei Ansätze, die besonders von großen Datenquellen profitieren, sind natürliche Experimente und Matching.

Einige wichtige wissenschaftliche und politische Fragen sind kausal. Wie wirkt sich beispielsweise ein Ausbildungsprogramm auf die Löhne aus? Ein Forscher, der versucht, diese Frage zu beantworten, könnte die Einnahmen von Personen, die sich für ein Training angemeldet haben, mit denen vergleichen, die dies nicht getan haben. Aber wie groß ist der Lohnunterschied zwischen diesen Gruppen wegen der Ausbildung und wie hoch ist der Unterschied zwischen den Menschen, die sich anmelden, und denen, die das nicht tun? Dies ist eine schwierige Frage, die nicht automatisch mit mehr Daten einhergeht. Mit anderen Worten, die Sorge über mögliche bereits bestehende Unterschiede entsteht, egal wie viele Arbeiter in Ihren Daten sind.

In vielen Situationen ist der beste Weg, um den kausalen Effekt einer Behandlung zu beurteilen, wie zum Beispiel eine Berufsausbildung, ein randomisiertes kontrolliertes Experiment durchzuführen, bei dem ein Forscher die Behandlung nach dem Zufallsprinzip an einige Menschen und nicht an andere weitergibt. Ich werde das gesamte Kapitel 4 den Experimenten widmen, daher werde ich mich hier auf zwei Strategien konzentrieren, die mit nicht-experimentellen Daten verwendet werden können. Die erste Strategie hängt von der Suche nach etwas ab, das in der Welt geschieht, die zufällig (oder fast zufällig) die Behandlung einigen Leuten und nicht anderen zuordnet. Die zweite Strategie hängt von der statistischen Anpassung nicht-experimenteller Daten ab, um vorher bestehende Unterschiede zwischen denen, die die Behandlung erhalten haben und nicht erhalten haben, zu berücksichtigen.

Ein Skeptiker könnte behaupten, dass beide Strategien vermieden werden sollten, weil sie starke Annahmen erfordern, die schwer zu bewerten sind und in der Praxis häufig verletzt werden. Während ich dieser Behauptung wohlwollend gegenüberstehe, denke ich, dass es ein bisschen zu weit geht. Es ist sicherlich wahr, dass es schwierig ist, kausale Schätzungen aus nicht-experimentellen Daten zuverlässig zu machen, aber ich denke nicht, dass dies bedeutet, dass wir es niemals versuchen sollten. Nicht-experimentelle Ansätze können insbesondere dann hilfreich sein, wenn Sie aufgrund logistischer Beschränkungen nicht an einem Experiment teilnehmen können oder ethische Einschränkungen bedeuten, dass Sie kein Experiment durchführen möchten. Nicht-experimentelle Ansätze können hilfreich sein, wenn Sie bereits vorhandene Daten nutzen möchten, um ein randomisiertes, kontrolliertes Experiment zu entwickeln.

Bevor wir fortfahren, ist es auch erwähnenswert, dass die Erstellung kausaler Schätzungen eines der komplexesten Themen in der Sozialforschung ist, das zu einer intensiven und emotionalen Debatte führen kann. Im Folgenden werde ich eine optimistische Beschreibung jedes Ansatzes geben, um Intuition darüber zu entwickeln, und dann einige der Herausforderungen beschreiben, die bei der Verwendung dieses Ansatzes auftreten. Weitere Details zu jedem Ansatz finden Sie in den Materialien am Ende dieses Kapitels. Wenn Sie (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) einen dieser Ansätze in Ihrer eigenen Forschung zu verwenden, empfehle ich Ihnen, eines der vielen ausgezeichneten Bücher über kausale Inferenz zu (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

Ein Ansatz, um kausale Schätzungen aus nicht-experimentellen Daten zu machen, besteht darin, nach einem Ereignis zu suchen, das nach dem Zufallsprinzip einigen Personen und nicht anderen eine Behandlung zugewiesen hat. Diese Situationen werden natürliche Experimente genannt . Eines der deutlichsten Beispiele für ein natürliches Experiment stammt aus der Forschung von Joshua Angrist (1990) , der die Wirkung von Militärdienstleistungen auf das Einkommen misst. Während des Krieges in Vietnam erhöhten die Vereinigten Staaten die Größe ihrer Streitkräfte durch einen Entwurf. Um zu entscheiden, welche Bürger in den Dienst gerufen werden, veranstaltete die US-Regierung eine Lotterie. Jedes Geburtsdatum wurde auf ein Stück Papier geschrieben, und wie in Abbildung 2.7 gezeigt, wurden diese Papierstücke nacheinander ausgewählt, um die Reihenfolge zu bestimmen, in der junge Männer zum Dienst berufen wurden (junge Frauen waren nicht unterwürfig) zum Entwurf). Basierend auf den Ergebnissen wurden Männer, die am 14. September geboren wurden, zuerst genannt, Männer, die am 24. April geboren wurden, wurden als zweite bezeichnet, und so weiter. Letztendlich wurden in dieser Lotterie Männer geboren, die an 195 verschiedenen Tagen geboren wurden, während Männer, die an 171 Tagen geboren wurden, nicht waren.

Abbildung 2.7: Kongressabgeordneter Alexander Pirnie (R-NY) zeichnete am 1. Dezember 1969 die erste Kapsel für den Selective Service Entwurf. Joshua Angrist (1990) kombinierte den Lotterieentwurf mit Verdienstdaten der Social Security Administration, um die Wirkung des Militärdienstes abzuschätzen auf das Ergebnis. Dies ist ein Beispiel für Forschung mit einem natürlichen Experiment. Quelle: US Selective Service System (1969) / Wikimedia Commons .

Obwohl es nicht sofort offensichtlich ist, hat ein Entwurf einer Lotterie eine kritische Ähnlichkeit mit einem randomisierten kontrollierten Experiment: In beiden Fällen werden die Teilnehmer nach dem Zufallsprinzip einer Behandlung zugewiesen. Um die Wirkung dieser randomisierten Behandlung zu untersuchen, nutzte Angrist ein Always-On-Big-Data-System: die US-amerikanische Social Security Administration, die Informationen über praktisch jeden amerikanischen Arbeitseinkommen sammelt. Durch die Kombination der Informationen darüber, wer im Entwurf der Lotterie zufällig ausgewählt wurde, mit den Verdienstdaten, die in Regierungsverwaltungsunterlagen gesammelt wurden, kam Angrist zu dem Schluss, dass die Einnahmen von Veteranen etwa 15% unter denen vergleichbarer Nicht-Veteranen lagen.

Wie dieses Beispiel zeigt, ordnen manchmal soziale, politische oder natürliche Kräfte Therapien so zu, dass sie von Forschern genutzt werden können, und manchmal werden die Auswirkungen dieser Behandlungen in immer vorhandenen großen Datenquellen erfasst. Diese Forschungsstrategie kann wie folgt zusammengefasst werden: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

Um diese Strategie im digitalen Zeitalter zu veranschaulichen, betrachten wir eine Studie von Alexandre Mas und Enrico Moretti (2009) , in der versucht wurde, die Auswirkungen der Arbeit mit produktiven Kollegen auf die Produktivität eines Arbeiters abzuschätzen. Bevor Sie die Ergebnisse sehen, sollten Sie darauf hinweisen, dass Sie widersprüchliche Erwartungen haben. Auf der einen Seite könnte man erwarten, dass die Arbeit mit produktiven Kollegen dazu führen würde, dass eine Arbeiterin aufgrund von Gruppenzwang ihre Produktivität steigert. Andererseits könnten Sie erwarten, dass hart arbeitende Peers dazu führen, dass ein Arbeiter nachlässt, weil die Arbeit ohnehin von Gleichaltrigen erledigt wird. Der eindeutigste Weg zur Untersuchung der Auswirkungen von Gleichaltrigen auf die Produktivität wäre ein randomisiertes, kontrolliertes Experiment, bei dem Arbeiter zufällig Schichten mit Arbeitern mit unterschiedlichen Produktivitätsniveaus zugeordnet werden und dann die daraus resultierende Produktivität für alle gemessen wird. Forscher kontrollieren jedoch nicht den Zeitplan der Arbeiter in irgendeinem wirklichen Geschäft, und so waren Mas und Moretti auf ein natürliches Experiment mit Kassierer in einem Supermarkt angewiesen.

In diesem speziellen Supermarkt hatte jeder Kassierer aufgrund der Art der Terminplanung und der Art, wie sich die Schichten überschnitten, zu verschiedenen Tageszeiten unterschiedliche Mitarbeiter. Außerdem war in diesem speziellen Supermarkt die Zuordnung von Kassierern unabhängig von der Produktivität ihrer Kollegen oder wie beschäftigt der Laden war. Mit anderen Worten, obwohl die Planung der Kassierer nicht durch eine Lotterie bestimmt wurde, war es so, als ob Arbeiter manchmal zufällig mit hohen (oder niedrigen) Produktivitäts-Peers arbeiten würden. Glücklicherweise hatte dieser Supermarkt auch ein Check-in-System im digitalen Zeitalter, das die Artikel verfolgte, die jeder Kassierer zu jeder Zeit scannte. Anhand dieser Checkout-Daten konnten Mas und Moretti ein präzises, individuelles und jederzeit messbares Maß an Produktivität erstellen: die Anzahl der pro Sekunde gescannten Artikel. Durch die Kombination dieser beiden Dinge - die natürlich auftretende Schwankung der Peer-Produktivität und des immer vorhandenen Maßes an Produktivität - schätzten Mas und Moretti, dass, wenn eine Kassiererin 10% produktiver als der Durchschnitt wäre, ihre Produktivität um 1,5% steigen würde. . Außerdem nutzten sie die Größe und den Reichtum ihrer Daten, um zwei wichtige Probleme zu untersuchen: die Heterogenität dieses Effekts (für welche Arten von Arbeitern ist der Effekt größer?) Und die Mechanismen hinter dem Effekt (Warum führt das zu hochproduktiven Peers? höhere Produktivität?). Wir werden auf diese beiden wichtigen Themen - Heterogenität der Behandlungseffekte und -mechanismen - in Kapitel 4 zurückkommen, wenn wir die Experimente detaillierter diskutieren.

Verallgemeinernd aus diesen beiden Studien fasst Tabelle 2.3 andere Studien zusammen, die dieselbe Struktur aufweisen: Verwendung einer Always-on-Datenquelle zur Messung der Auswirkungen von Zufallsvariationen. In der Praxis verwenden Forscher zwei verschiedene Strategien, um natürliche Experimente zu finden, die beide fruchtbar sein können. Einige Forscher beginnen mit einer ständig aktiven Datenquelle und suchen nach zufälligen Ereignissen in der Welt. Andere starten ein zufälliges Ereignis in der Welt und suchen nach Datenquellen, die ihre Auswirkungen erfassen.

Tabelle 2.3: Beispiele für natürliche Experimente mit großen Datenquellen
Substantieller Fokus	Quelle des natürlichen Experiments	Always-on-Datenquelle	Referenz
Peer-Effekte auf die Produktivität	Planungsprozess	Daten auschecken	Mas and Moretti (2009)
Freundschaft Bildung	Hurrikane	Facebook	Phan and Airoldi (2015)
Verbreitung von Emotionen	Regen	Facebook	Lorenzo Coviello et al. (2014)
Peer-to-Peer-Wirtschaftstransfers	Erdbeben	Mobile Gelddaten	Blumenstock, Fafchamps, and Eagle (2011)
Persönliches Konsumverhalten	2013 Herunterfahren der US-Regierung	Persönliche Finanzdaten	Baker and Yannelis (2015)
Wirtschaftliche Auswirkungen von Empfehlungssystemen	Verschiedene	Daten bei Amazon durchsuchen	Sharma, Hofman, and Watts (2015)
Auswirkung von Stress auf ungeborene Babys	2006 Israel-Hisbollah Krieg	Geburtsaufzeichnungen	Torche and Shwed (2015)
Leseverhalten auf Wikipedia	Snowden Enthüllungen	Wikipedia-Protokolle	Penney (2016)
Peer-Effekte beim Training	Wetter	Fitness-Tracker	Aral and Nicolaides (2017)

In der bisherigen Diskussion über natürliche Experimente habe ich einen wichtigen Punkt weggelassen: Es kann manchmal ziemlich schwierig sein, von dem, was die Natur zur Verfügung gestellt hat, zu gehen, was Sie wollen. Kommen wir zum Beispielentwurf für Vietnam zurück. In diesem Fall war Angrist daran interessiert, die Auswirkungen des Militärdienstes auf das Einkommen zu schätzen. Leider wurde der Militärdienst nicht zufällig zugewiesen; eher wurde es entworfen, das nach dem Zufallsprinzip zugewiesen wurde. Aber nicht jeder, der eingezogen wurde, diente (es gab eine Vielzahl von Ausnahmen), und nicht jeder, der diente, wurde eingezogen (die Leute konnten sich freiwillig bedienen). Da der Entwurf nach dem Zufallsprinzip vergeben wurde, kann ein Forscher den Effekt abschätzen, der für alle Männer im Entwurf vorgesehen ist. Aber Angrist wollte den Effekt der Einberufung nicht wissen; Er wollte die Wirkung des Dienstes im Militär wissen. Um diese Schätzung zu machen, sind jedoch zusätzliche Annahmen und Komplikationen erforderlich. Erstens müssen die Forscher davon ausgehen, dass der einzige Weg, auf dem die Abfassung des Gesetzes Auswirkungen auf das Einkommen hat, der Militärdienst ist, eine Annahme, die als Ausschlussbeschränkung bezeichnet wird . Diese Annahme könnte falsch sein, wenn zum Beispiel Männer, die eingezogen wurden, länger in der Schule blieben, um nicht zu dienen, oder wenn Arbeitgeber seltener Männer einstellten. Im Allgemeinen ist die Ausschlussbeschränkung eine kritische Annahme und in der Regel schwer zu überprüfen. Selbst wenn die Ausschlussbeschränkung korrekt ist, ist es immer noch unmöglich, die Auswirkung des Dienstes auf alle Männer abzuschätzen. Stattdessen stellt sich heraus, dass Forscher nur den Effekt auf eine spezifische Untergruppe von Männern, die Compliers genannt werden, einschätzen können (Männer, die bei der Einberufung dienen würden, aber nicht dienen würden, wenn sie nicht verfasst werden) (Angrist, Imbens, and Rubin 1996) . Compliers waren jedoch nicht die ursprüngliche Population von Interesse. Beachten Sie, dass diese Probleme auch im relativ sauberen Fall des Lotterieentwurfs auftreten. Ein weiterer Komplex von Komplikationen tritt auf, wenn die Behandlung nicht durch eine physische Lotterie zugewiesen wird. Zum Beispiel ergeben sich in Mas und Morettis Studie über Kassierer zusätzliche Fragen über die Annahme, dass die Zuweisung von Peers im Wesentlichen zufällig ist. Wenn diese Annahme stark verletzt würde, könnte dies ihre Schätzungen verzerren. Zusammenfassend lässt sich sagen, dass natürliche Experimente eine wirkungsvolle Strategie darstellen können, um kausale Schätzungen aus nicht-experimentellen Daten zu erstellen. Große Datenquellen erhöhen unsere Fähigkeit, natürliche Experimente zu nutzen, wenn sie auftreten. Es wird jedoch wahrscheinlich große Sorgfalt erfordern - und manchmal starke Annahmen -, um von dem zu gehen, was die von Ihnen gewünschte Schätzung geliefert hat.

Die zweite Strategie, über die ich kausale Schätzungen aus nicht-experimentellen Daten machen möchte, hängt von der statistischen Anpassung nicht-experimenteller Daten ab, um bereits bestehende Unterschiede zwischen denen, die die Behandlung nicht erhalten haben, zu berücksichtigen. Es gibt viele solcher Anpassungsansätze, aber ich konzentriere mich auf einen Abgleich . Beim Abgleich sucht der Forscher durch nicht experimentelle Daten nach Paaren, die ähnlich sind, außer dass einer die Behandlung erhalten hat und einer nicht. Im Prozess der Anpassung, Forscher Beschneidung tatsächlich auch; das heißt, Fälle zu verwerfen, in denen es keine offensichtliche Übereinstimmung gibt. Daher würde diese Methode genauer als Matching-and-Pruning bezeichnet werden, aber ich bleibe bei dem traditionellen Begriff: Matching.

Ein Beispiel für die Stärke von Matching-Strategien mit massiven nicht-experimentellen Datenquellen stammt aus der Forschung zum Verbraucherverhalten von Liran Einav und Kollegen (2015) . Sie waren an Auktionen auf eBay interessiert, und bei der Beschreibung ihrer Arbeit konzentriere ich mich auf die Auswirkungen des Auktions-Startpreises auf Auktionsergebnisse, wie den Verkaufspreis oder die Wahrscheinlichkeit eines Verkaufs.

Die naivste Art, die Auswirkung des Anfangspreises auf den Verkaufspreis abzuschätzen, wäre, einfach den Endpreis für Auktionen mit unterschiedlichen Startpreisen zu berechnen. Dieser Ansatz wäre in Ordnung, wenn Sie den Verkaufspreis anhand des Startpreises vorhersagen möchten. Aber wenn Ihre Frage die Auswirkung des Startpreises betrifft, dann wird dieser Ansatz nicht funktionieren, da er nicht auf fairen Vergleichen basiert; Die Auktionen mit niedrigeren Startpreisen können sich von denen mit höheren Startpreisen (z. B. für verschiedene Arten von Gütern oder verschiedene Arten von Verkäufern) durchaus unterscheiden.

Wenn Sie bereits wissen, welche Probleme bei kausalen Schätzungen aus nicht-experimentellen Daten auftreten können, können Sie den naiven Ansatz überspringen und ein Feldexperiment in Erwägung ziehen, bei dem Sie einen bestimmten Gegenstand - etwa einen Golfschläger - mit einem festen Gegenstand verkaufen würden Set von Auktionsparametern - sagen wir, kostenloser Versand und Auktion für zwei Wochen - aber mit zufällig zugewiesenen Startpreisen. Durch den Vergleich der resultierenden Marktergebnisse würde dieses Feldexperiment ein sehr klares Maß für die Auswirkung des Anfangspreises auf den Verkaufspreis bieten. Diese Messung würde jedoch nur für ein bestimmtes Produkt und einen Satz von Auktionsparametern gelten. Die Ergebnisse können beispielsweise für verschiedene Produkttypen unterschiedlich sein. Ohne eine starke Theorie ist es schwierig, von diesem einzigen Experiment auf die gesamte Bandbreite möglicher Experimente, die durchgeführt werden könnten, zu extrapolieren. Darüber hinaus sind Feldexperimente ausreichend teuer, so dass es unmöglich wäre, jede Variation auszuführen, die Sie ausprobieren möchten.

Im Gegensatz zu den naiven und experimentellen Ansätzen haben Einav und Kollegen einen dritten Ansatz gewählt: das Matching. Der wichtigste Trick in ihrer Strategie ist es, Dinge zu entdecken, die Feldversuchen ähneln, die bereits bei eBay stattgefunden haben. Zum Beispiel zeigt Abbildung 2.8 einige der 31 Auflistungen für genau den gleichen Golfschläger - ein Taylormade Burner 09 Driver - der von genau dem gleichen Verkäufer verkauft wird - "budgetgolfer". Diese 31 Angebote haben jedoch leicht unterschiedliche Eigenschaften, wie zum Beispiel unterschiedliche Starts Preis, Enddaten und Versandkosten. Mit anderen Worten, es ist, als ob "budgetgolfer" Experimente für die Forscher durchführt.

Diese Auflistungen des Treibers "Taylormade Burner 09", die von "budgetgolfer" verkauft werden, sind ein Beispiel für einen übereinstimmenden Satz von Auflistungen, wobei derselbe Artikel von genau demselben Verkäufer verkauft wird, aber jedes Mal mit leicht unterschiedlichen Eigenschaften. Innerhalb der massiven Logs von eBay gibt es buchstäblich Hunderttausende aufeinander abgestimmter Sets mit Millionen von Listings. Anstatt also den Endpreis für alle Auktionen mit einem bestimmten Startpreis zu vergleichen, wurden Einav und Kollegen in übereinstimmenden Mengen verglichen. Um die Ergebnisse der Vergleiche in diesen Hunderttausenden übereinstimmender Sets zu kombinieren, haben Einav und Kollegen den Startpreis und den Endpreis in Bezug auf den Referenzwert jedes Artikels (z. B. den durchschnittlichen Verkaufspreis) neu formuliert. Wenn zum Beispiel der Treiber Taylormade Burner 09 einen Referenzwert von $ 100 (basierend auf seinen Verkäufen) hatte, dann würde ein Startpreis von $ 10 als 0,1 und ein Endpreis von $ 120 als 1,2 ausgedrückt werden.

Abbildung 2.8: Ein Beispiel für einen übereinstimmenden Satz. Dies ist der exakt gleiche Golfschläger (ein Taylormade Burner 09 Driver), der von genau derselben Person (Budgetgolfer) verkauft wird, aber einige dieser Verkäufe wurden unter verschiedenen Bedingungen (z. B. unterschiedlichen Startpreisen) durchgeführt. Reproduziert mit Genehmigung von Einav et al. (2015), Abbildung 1b.

Abbildung 2.8: Ein Beispiel für einen übereinstimmenden Satz. Dies ist der exakt gleiche Golfschläger (ein Taylormade Burner 09 Driver), der von der gleichen Person ("budgetgolfer") verkauft wird, aber einige dieser Verkäufe wurden unter verschiedenen Bedingungen (zB unterschiedliche Startpreise) durchgeführt. Reproduziert mit Genehmigung von Einav et al. (2015) , Abbildung 1b.

Daran erinnern, dass Einav und Kollegen an der Wirkung des Startpreises auf Auktionsergebnisse interessiert waren. Zunächst verwendeten sie eine lineare Regression, um zu schätzen, dass höhere Ausgangspreise die Wahrscheinlichkeit eines Verkaufs verringern und dass höhere Anfangspreise den endgültigen Verkaufspreis (abhängig von einem Verkauf) erhöhen. Für sich genommen sind diese Schätzungen - die eine lineare Beziehung beschreiben und über alle Produkte gemittelt werden - nicht sonderlich interessant. Dann verwendeten Einav und Kollegen die enorme Größe ihrer Daten, um eine Vielzahl subtilerer Schätzungen zu erstellen. Zum Beispiel haben sie durch eine separate Schätzung des Effekts für verschiedene Startpreise festgestellt, dass das Verhältnis zwischen Startpreis und Verkaufspreis nichtlinear ist (Abbildung 2.9). Insbesondere für Startpreise zwischen 0,05 und 0,85 hat der Startpreis nur sehr geringe Auswirkungen auf den Verkaufspreis, ein Ergebnis, das bei der ersten Analyse völlig übersehen wurde. Darüber hinaus schätzten Einav und Kollegen den Durchschnittspreis für 23 verschiedene Kategorien von Gegenständen (z. B. Heimtierbedarf, Elektronik und Sport-Memorabilien), anstatt über alle Gegenstände zu mitteln (Abbildung 2.10). Diese Schätzungen zeigen, dass für markantere Artikel - wie Erinnerungsstücke - der Startpreis eine geringere Auswirkung auf die Wahrscheinlichkeit eines Verkaufs und einen größeren Effekt auf den endgültigen Verkaufspreis hat. Darüber hinaus hat der Startpreis für eher kommodifizierte Produkte wie DVDs kaum Auswirkungen auf den Endpreis. Mit anderen Worten, ein Durchschnitt, der Ergebnisse von 23 verschiedenen Kategorien von Elementen kombiniert, verbirgt wichtige Unterschiede zwischen diesen Elementen.

Abbildung 2.9: Verhältnis zwischen Auktionspreis und Verkaufswahrscheinlichkeit (a) und Verkaufspreis (b). Es besteht in etwa eine lineare Beziehung zwischen dem Startpreis und der Verkaufswahrscheinlichkeit, aber eine nicht lineare Beziehung zwischen dem Startpreis und dem Verkaufspreis; bei Startpreisen zwischen 0,05 und 0,85 hat der Startpreis nur sehr geringe Auswirkungen auf den Verkaufspreis. In beiden Fällen sind die Beziehungen grundsätzlich unabhängig vom Wert des Elements. Einav et al. (2015) , Abbildungen 4a und 4b.

Abbildung 2.10: Schätzungen aus jeder Kategorie von Artikeln; Der Solid Dot ist die Schätzung für alle zusammengefassten Kategorien (Einav et al. 2015) . Diese Schätzungen zeigen, dass für markantere Artikel - wie Erinnerungsstücke - der Startpreis eine geringere Auswirkung auf die Wahrscheinlichkeit eines Verkaufs ( $x$ -Achse) und einen größeren Effekt auf den endgültigen Verkaufspreis ( $y$ -Achse). Einav et al. (2015) , Abbildung 8.

Auch wenn Sie an Auktionen bei eBay nicht besonders interessiert sind, müssen Sie die Tatsache, dass Figur 2.9 und Abbildung 2.10 ein besseres Verständnis von eBay bieten, bewundern als einfache Schätzungen, die eine lineare Beziehung beschreiben und viele verschiedene Kategorien von Artikeln kombinieren. Obwohl es wissenschaftlich möglich wäre, diese subtileren Schätzungen mit Feldexperimenten zu erstellen, würden die Kosten solche Experimente im wesentlichen unmöglich machen.

Wie bei natürlichen Experimenten gibt es eine Reihe von Möglichkeiten, wie Matching zu schlechten Schätzungen führen kann. Ich denke, das größte Problem bei übereinstimmenden Schätzungen besteht darin, dass sie durch Dinge beeinflusst werden können, die beim Abgleich nicht verwendet wurden. Zum Beispiel haben Einav und Kollegen in ihren Hauptergebnissen genau auf vier Merkmale abgestimmt: Verkäufer-ID-Nummer, Artikelkategorie, Artikeltitel und Untertitel. Wenn sich die Elemente in einer Weise unterscheiden, die nicht zum Abgleich verwendet wird, kann dies zu einem unfairen Vergleich führen. Wenn zum Beispiel "budgetgolfer" im Winter die Preise für den Taylormade Burner 09 Driver senkt (wenn Golfschläger weniger beliebt sind), könnte es so aussehen, dass niedrigere Startpreise zu niedrigeren Endpreisen führen, obwohl dies tatsächlich ein Artefakt von saisonale schwankung der nachfrage. Ein Ansatz, um dieses Problem anzugehen, besteht darin, viele verschiedene Arten von Übereinstimmungen zu versuchen. Zum Beispiel wiederholten Einav und Kollegen ihre Analyse, während sie das Zeitfenster variierten, das für das Matching verwendet wurde (übereinstimmende Sets beinhalteten Artikel, die innerhalb eines Jahres, innerhalb eines Monats und zeitgleich verkauft wurden). Zum Glück fanden sie ähnliche Ergebnisse für alle Zeitfenster. Ein weiteres Problem mit dem Matching ergibt sich aus der Interpretation. Schätzungen aus dem Abgleich gelten nur für übereinstimmende Daten. Sie gelten nicht für die Fälle, die nicht erreicht werden konnten. Zum Beispiel konzentrieren sich Einav und seine Kollegen auf professionelle und semiprofessionelle Verkäufer, indem sie ihre Forschung auf Artikel beschränken, die mehrfach gelistet sind. Daher müssen wir bei der Interpretation dieser Vergleiche daran denken, dass sie nur für diese Teilmenge von eBay gelten.

Matching ist eine leistungsstarke Strategie, um faire Vergleiche in nicht-experimentellen Daten zu finden. Für viele Sozialwissenschaftler ist Matching das zweitbeste für Experimente, aber das ist ein Glaube, der leicht überarbeitet werden kann. Das Matching in massiven Daten könnte besser sein als eine kleine Anzahl von Feldexperimenten, wenn (1) Heterogenität in den Effekten wichtig ist und (2) die wichtigen Variablen, die für das Matching benötigt werden, gemessen wurden. Tabelle 2.4 enthält einige weitere Beispiele für die Verwendung von Übereinstimmungen mit großen Datenquellen.

Tabelle 2.4: Beispiele für Studien, die die Übereinstimmung mit großen Datenquellen verwenden
Substantieller Fokus	Große Datenquelle	Referenz
Wirkung von Schießereien auf Polizeigewalt	Stop-and-Frisk-Aufzeichnungen	Legewie (2016)
Wirkung vom 11. September 2001 auf Familien und Nachbarn	Abstimmung von Aufzeichnungen und Spendenaufzeichnungen	Hersh (2013)
Soziale Ansteckung	Daten zur Kommunikation und Produktakzeptanz	Aral, Muchnik, and Sundararajan (2009)

Zusammenfassend lässt sich sagen, dass die Schätzung kausaler Effekte aus nicht-experimentellen Daten schwierig ist, aber Ansätze wie natürliche Experimente und statistische Anpassungen (z. B. Matching) können verwendet werden. In manchen Situationen können diese Ansätze schiefgehen, aber wenn sie sorgfältig eingesetzt werden, können diese Ansätze eine nützliche Ergänzung zu dem experimentellen Ansatz sein, den ich in Kapitel 4 beschreibe. Außerdem scheinen diese beiden Ansätze besonders von dem Wachstum von auf, große Datensysteme.