2.4.1.1 Taxis in New York City

Ein Forscher verwendeten großen Daten aus dem Taxi Meter Entscheidungsfindung der Taxifahrer in New York zu studieren. Diese Daten wurden auch für diese Forschung geeignet.

Ein Beispiel für die einfache Macht , das Richtige zu zählen stammt von Henry Farber (2015) Studie über das Verhalten von New York City Taxifahrer. Obwohl diese Gruppe von Natur interessant nicht klingen könnte , ist es eine strategische Forschungsstandort für die Prüfung zwei Theorien in der Arbeitsökonomie konkurrieren. Für die Zwecke der Farbers Forschung gibt es zwei wichtige Eigenschaften über die Arbeitsumgebung der Taxifahrer: 1) ihren Stundenlohn schwankt von Tag zu Tag, teilweise basierend auf Faktoren wie das Wetter und 2) die Anzahl der Stunden, die sie arbeiten kann jeden Tag schwanken basierend auf Entscheidungen des Fahrers. Diese Eigenschaften führen zu einer interessanten Frage nach dem Verhältnis zwischen Stundenlohn und Arbeitsstunden. Neoklassischen Modelle in der Wirtschaft sagen voraus, dass Taxifahrer an den Tagen mehr funktionieren würde, wo sie höhere Stundenlöhne haben. Alternativ-Modelle aus der Verhaltensökonomie vorhersagen, genau das Gegenteil. Wenn Fahrer ein bestimmtes Einkommen gesetzt ziel sagen $ 100 pro Tag und arbeiten bis das Ziel erreicht, dann würden Fahrer am Ende weniger Stunden an den Tagen arbeiten, dass sie mehr verdienen. Zum Beispiel, wenn Sie ein Ziel Verdiener waren, könnten Sie sich arbeiten 4 Stunden an einem guten Tag ($ 25 pro Stunde) und 5 Stunden an einem schlechten Tag ($ 20 pro Stunde) zu beenden. So funktionieren Fahrer mehr Stunden an den Tagen mit höheren Stundenlohn (wie durch die neoklassischen Modelle vorhergesagt) oder mehr Stunden am Tag mit niedrigeren Stundenlohn (wie durch Verhaltens ökonomische Modelle vorhergesagt)?

Um diese Frage zu beantworten Farber erhaltenen Daten auf jeder Taxifahrt genommen von New York City KBS 2009 - 2013 Daten, die sind jetzt öffentlich zugänglich . Diese Daten, die durch elektronische Zähler gesammelt, die die Stadt Taxis-includes verwenden für jede Reise mehrere Informationen zu erfordert: Startzeit, Start Lage, Endzeit, Endstelle, Tarif- und Spitze (wenn die Spitze mit einem bezahlt Kreditkarte). Insgesamt enthielt Farbers Dateninformationen auf rund 900 Millionen Fahrten während rund 40 Millionen Verschiebungen genommen (eine Verschiebung ist etwa ein Tag Arbeit für einen Fahrer). In der Tat war es so viele Daten, daß Farber, nur eine Stichprobe davon für seine Analyse verwendet. Mit dieser Taxameter Daten gefunden Farber, dass die meisten Fahrer mehr Arbeitstage auf, wenn die Löhne höher sind, im Einklang mit der neoklassischen Theorie. Neben dieser Hauptergebnis, Farber konnte die Größe der Daten für ein besseres Verständnis der Heterogenität und Dynamik zu nutzen. Farber festgestellt, dass im Laufe der Zeit neuere Treiber lernen, nach und nach mehr Stunden auf hohen Lohn Tage arbeiten (zum Beispiel lernen, sie verhalten sich wie die neoklassischen Modelle prognostiziert). Und neue Fahrer, die eher wie Zielempfänger verhalten eher zu sein ein Taxifahrer zu beenden. Beide subtilere Ergebnisse, die das beobachtete Verhalten der aktuellen Treiber erklären helfen, waren nur möglich, weil die Größe des Datensatzes. Sie wäre unmöglich gewesen , in früheren Studien zu erkennen , die Papierblätter Reise verwendet , um aus einer geringen Anzahl von Taxifahrer über einen kurzen Zeitraum (beispielsweise Camerer et al. (1997) ).

Farbers Studie war in der Nähe einer Best-Case für eine Studie unter Verwendung von großen Daten. Erstens waren die Daten nicht nicht repräsentativ, weil die Stadt Treiber benötigt digitale Zähler zu verwenden. Und die Daten nicht unvollständig waren, weil die Daten, die von der Stadt gesammelt wurde, war ziemlich nah an den Daten, die Farber gesammelt hätte, wenn er die Wahl hätte (ein Unterschied ist, dass Farber wollte Daten über Lohnsumme-Tarife haben würde und Tips- aber die Stadt Daten enthalten nur Tipps per Kreditkarte zu zahlen). Der Schlüssel zum Farbers Forschung war eine gute Frage mit guten Daten zu kombinieren. Die Daten sind allein nicht genug.