2.4.1.1 Taxi sa New York City

A researcher ginagamit malaking data mula taxi metro sa pag-aaral paggawa ng desisyon ng mga driver ng ​​taxi sa New York. Ang mga data ay well-ugma para sa pananaliksik na ito.

Ang isang halimbawa ng mga simpleng kapangyarihan ng pagbibilang ng mga tamang bagay ay nagmumula sa Henry Farber ni (2015) pag-aaral ng pag-uugali ng New York City driver ng ​​taxi. Kahit grupong ito ay maaring hindi tunog inherently kagiliw-giliw na ito ay isang strategic pananaliksik site para sa pagsubok ng dalawang pakikipagkumpitensya theories sa labor economics. Para sa mga layunin ng Farber pananaliksik, mayroong dalawang mahalagang mga tampok tungkol sa mga trabaho na kapaligiran ng mga driver ng taxi: 1) ang kanilang mga oras-oras na pasahod ay nagbabago mula sa pang-araw-araw, batay sa bahagi sa mga kadahilanan tulad ng mga taya ng panahon at 2) ang bilang ng mga oras ng kanilang paggawa maaaring magbago sa bawat araw ayon sa mga desisyon sa pagmamaneho. Ang mga tampok na humantong sa isang kawili-wiling tanong tungkol sa mga relasyon sa pagitan ng oras-oras na sahod at oras na nagtrabaho. Neoclassical modelo sa economics mahuhulaan na taxi driver ay gumagana nang higit pa sa araw kung saan mayroon silang mas mataas na oras-oras na sahod. Bilang kahalili, mga modelo mula sa pang-asal economics mahulaan nang eksakto ang kabaligtaran. Kung driver magtakda ng isang partikular na income target-sabihin $ 100 bawat araw-at trabaho hanggang sa target ay nakamit, pagkatapos driver ay end up nagtatrabaho mas kaunting oras sa kaarawan na kanilang ay kita higit pa. Halimbawa, kung ikaw ay isang target earner, maaari mong end up nagtatrabaho sa 4 na oras sa isang magandang araw ($ 25 kada oras) at 5 oras sa isang masamang araw ($ 20 kada oras). Kaya, huwag driver gumana nang mas na oras sa araw na may mas mataas na oras-oras na sahod (bilang hinulaang sa pamamagitan ng neoclassical modelo) o higit pang mga oras sa araw ng na may mas mababang oras-oras na sahod (bilang hinulaang sa pamamagitan ng pag-uugali pang-ekonomiyang mga modelo)?

Upang sagutin ang tanong Farber nakuha data sa bawat taxi trip kinuha sa pamamagitan ng New York City cabs mula sa 2009 - 2013, ang data na ngayon ay magagamit na pampublikong . Ito data-kung saan ay nakolekta sa pamamagitan ng electronic metro na ang lungsod ay nangangailangan ng taxi gamitin-kasama ang ilang mga piraso ng impormasyon para sa bawat trip: oras ng pagsisimula, simulan lokasyon, oras ng pagtatapos, pagtatapos lokasyon, pamasahe, at tip (kung ang tip ay binayaran na may isang credit card). Sa kabuuan, ni Farber data na nakapaloob impormasyon sa humigit-kumulang 900 milyong mga biyahe na kinuha sa panahon ng humigit-kumulang 40 milyong shifts (a shift ay tinatayang trabaho isang araw para sa isang driver). Sa katunayan, may ay kaya magkano ang data, na Farber lamang gumamit ng isang random sample ng mga ito para sa kanyang pag-aaral. Gamit ang taxi meter data, Farber natagpuan na ang karamihan driver gumana nang higit pa sa mga araw na kapag sahod ay mas mataas, pare-pareho sa neoclassical teorya. Sa karagdagan sa mga ito pangunahing paghahanap, Farber ay able sa pagkilos ang laki ng mga data para sa isang mas mahusay na-unawa ng heterogeneity at dynamics. Farber natagpuan na sa paglipas ng panahon mas bagong driver ay unti-unting malaman upang gumana nang mas oras sa mataas na araw wage (eg, matuto sila upang kumilos bilang ang neoclassical modelo hinuhulaan). At, ang mga bagong driver na kumilos nang mas katulad target earners ay mas malamang na mag-quit sa pagiging isang taxi driver. Pareho sa mga mas pino mga natuklasan, na makatulong sa ipaliwanag ang sinusunod pag-uugali ng kasalukuyang mga driver, ay posible lamang dahil sa ang laki ng mga dataset. Sila ay maaaring naging imposible upang makita sa mga naunang pag-aaral na ginagamit papel trip sheet mula sa isang maliit na bilang ng mga driver ng ​​taxi sa loob ng isang maikling panahon ng oras (eg, Camerer et al. (1997) ).

pag-aaral Farber ay malapit sa isang pinakamahusay na-case para sa isang pag-aaral gamit big data. Una, ang data ay hindi non-kinatawan dahil ang lungsod kinakailangang driver na gumamit ng digital meters. At, ang data ay hindi kumpleto dahil ang data na nakolekta sa pamamagitan ng mga lungsod ay medyo malapit sa ang data na Farber sana ay nakolekta kung siya ay ang pagpili (isa pagkakaiba ay na Farber ay magkakaroon pinaghahanap data sa kabuuang sahod-fares plus tips- ngunit ang data lungsod lamang kasama tips binabayaran ng credit card). Ang susi sa Farber pananaliksik ay pagsasama-sama ng isang mahusay na tanong na may mahusay na data. Ang data na nag-iisa ay hindi sapat.