2.4.3.1 Naturlige eksperimenter

Denne oversettelsen ble skapt av en datamaskin. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

2.4.3.1 Naturlige eksperimenter

Naturlige eksperimenter dra nytte av tilfeldige hendelser i verden. tilfeldig hendelse + alltid-på datasystem = naturlig eksperiment

Nøkkelen til randomiserte kontrollerte eksperimenter slik at rettferdig sammenligning er randomisering. Men skjer av og til noe i verden som i hovedsak tildeler folk tilfeldig eller nesten tilfeldig til ulike behandlinger. En av klareste eksemplene på strategien med å bruke naturlige eksperimenter kommer fra forskning av Angrist (1990) som måler effekten av militære tjenester på inntjening.

Under krigen i Vietnam, økte USA størrelsen på sine væpnede styrker gjennom et utkast. For å avgjøre hvilke borgere ville bli kalt inn i tjeneste, den amerikanske regjeringen holdt et lotteri. Hver fødsels var representert på et stykke papir, og disse papirene ble plassert i en stor glasskrukke. Som vist i figur 2.5, ble disse papirlapper trukket fra glasset en om gangen for å bestemme rekkefølgen at unge menn ville bli kalt til å tjene (unge kvinner var ikke underlagt utkastet). Basert på resultatene, ble menn født 14. september ringte først, menn født 24. april ble kalt andre, og så videre. Til syvende og sist, i dette lotteriet, menn født på 195 ulike dager ble kalt til tjeneste mens menn født på 171 dager ikke ble kalt.

Figur 2.5: Kongressmann Alexander Pirnie (R-NY) tegning første kapsel for Selektiv Tjenesten utkast 1. desember 1969. Joshua Angrist (1990) kombinerte utkastet lotteri med inntektsdata fra Social Security Administration å anslå effekten av militærtjeneste på inntjening. Dette er et eksempel på forskning ved hjelp av en naturlig eksperiment. Kilde: Wikimedia Commons

Selv om det kanskje ikke er umiddelbart åpenbare, har et utkast lotteri en kritisk likhet med en randomisert kontrollert forsøk: i begge situasjoner deltakerne er randomisert til å få en behandling. I tilfelle av utkastet lotteriet, hvis vi er interessert i å lære om virkningene av utkast-valgbarhet og militærtjeneste på påfølgende arbeidsmarkeds inntjening, kan vi sammenligne resultatene for folk som fødsels var under lotteriet cutoff (f.eks 14. september april 24, etc.) med resultatene for folk som bursdager var etter cutoff (f.eks, februar 20, 2. desember, etc.).

Gitt at denne behandling for å bli skrevet er randomisert, kan vi deretter måle effekten av denne behandling for alle utfall som er blitt målt. For eksempel Angrist (1990) kombinerte opplysninger om hvem som ble tilfeldig valgt i utkastet med inntektsdata som ble samlet inn av Social Security Administration for å konkludere med at inntektene av hvite veteraner var ca 15% mindre enn inntjeningen i sammenlignbare ikke-veteraner . Andre forskere har brukt en lignende triks også. For eksempel, Conley and Heerwig (2011) kombinerte opplysninger om hvem som ble tilfeldig valgt i utkastet med husholdnings innsamlede data fra folketellingen i 2000 og 2005 American Community Survey og funnet ut at så lenge etter utkastet, var det lite langsiktig effekt av militærtjeneste på ulike utfall som bolig tenure (eie kontra leie) og bolig stabilitet (sannsynligheten for å ha flyttet i foregående fem årene).

Som dette eksemplet viser, noen ganger sosiale, politiske, eller naturkrefter lage eksperimenter eller nesten eksperimenter som kan utnyttes av forskere. Ofte naturlige eksperimenter er den beste måten å anslå årsak og virkning relasjoner i miljøer hvor det ikke er etisk eller praktisk å kjøre randomiserte kontrollerte eksperimenter. De er en viktig strategi for å oppdage rettferdige sammenligninger i ikke-eksperimentelle data. Dette forskningsstrategi kan oppsummeres ved denne ligningen:

\ [\ tekst {tilfeldig (eller som om tilfeldig) hendelse} + \ tekst {alltid-på datastrømmen} = \ tekst {naturlig eksperiment} \ qquad (2,1) \]

Men analysen av naturlige eksperimenter være ganske vanskelig. For eksempel, i tilfelle av Vietnam utkastet, ikke alle som var utkast-kvalifisert endte opp med servering (det var en rekke unntak). Og på samme tid, noen mennesker som ikke var Draft-kvalifisert frivillig for service. Det var som i en klinisk studie av et nytt legemiddel, gjorde noen mennesker i behandlingsgruppen ikke ta sin medisin og noen av personene i kontrollgruppen eller annen måte fikk stoffet. Dette problemet, kalt to-sidig noncompliance, så vel som mange andre problemer er beskrevet i større detalj i noen av de anbefalte avlesninger ved slutten av dette kapittelet.

Strategien med å utnytte naturlig forekommende tilfeldige oppdrag foran den digitale tidsalder, men utbredelsen av store data gjør denne strategien mye enklere å bruke. Når du innser noen behandling er blitt tildelt tilfeldig, kan store datakilder gir resultatet dataene du trenger for å sammenligne resultatene for folk i behandlings- og kontrollforhold. For eksempel i sin studie av effektene av utkastet og militærtjeneste, Angrist gjort bruk av inntektspostene fra Social Security Administration; uten dette utfallet data, ville hans studie ikke har vært mulig. I dette tilfellet er det Social Security Administration alltid-på store datakilde. Etter hvert som flere og flere automatisk innsamlet datakilder finnes, vil vi ha mer utfall data som kan måle effekten av endringene som er opprettet av eksogene variasjonen.

For å illustrere denne strategien i den digitale tidsalder, la oss vurdere Mas og Moretti er (2009) elegant forskning på effekten av jevnaldrende på produktiviteten. Selv på overflaten kan det se annerledes ut enn Angrist studie om effekten av Vietnam Draft, i struktur de begge følger mønsteret i eq. 2,1.

Mas og Moretti målte hvor jevnaldrende påvirke produktiviteten til arbeiderne. På den ene side kan ha en hard arbeider peer føre arbeidstakere til å øke sin produktivitet på grunn av gruppepress. Eller, på den annen side kan en hardtarbeidende peer føre andre arbeidstakere å slakk av enda mer. Den klareste måten å studere peer effekter på produktiviteten ville være et randomisert kontrollert forsøk hvor arbeiderne er tilfeldig plassert i turnus med arbeid i ulike produktivitetsnivået og deretter resulterer produktivitet måles for alle. Forskere har imidlertid ikke kontrollere tidsplanen for arbeidere i noen reell virksomhet, og så Mas og Moretti måtte stole på en naturlig eksperiment som fant sted i et supermarked.

Akkurat som ekv. 2,1, deres studie hadde to deler. Først brukte de stokkene fra supermarkedet kassa system å ha en presis, individuell, og alltid-på mål på produktivitet: antall elementer skannet per sekund. Og for det andre, på grunn av måten som planlegging ble utført ved denne supermarkedet, har de nær tilfeldig sammensetning av likemenn. Med andre ord, selv om planlegging av kasser ikke er bestemt av et lotteri, var det i hovedsak tilfeldig. I praksis tilliten vi har i naturlige eksperimenter hengsler ofte på troverdigheten i denne "som hvis" tilfeldig krav. Benytte seg av dette tilfeldig variasjon, Mas og Moretti funnet at det å jobbe med høyere produktivitet jevnaldrende øker produktiviteten. Videre Mas og Moretti brukte størrelse og rikdom av deres datasett til å gå utover estimering av årsak-virkning å utforske to mer viktige og subtile problemstillinger: heterogenitet av denne effekten (for hvilke typer arbeidstakere er effekten større) og mekanismen bak effekten (hvorfor har høy produktivitet jevnaldrende føre til høyere produktivitet). Vi kommer tilbake til disse to viktige saker-heterogenitet av behandlingseffekter og mekanismer-i kapittel 5 når vi diskuterer eksperimenter i mer detalj.

Generalisere fra studier på effekten av Vietnam Draft på inntjening og studiet av effekten av jevnaldrende på produktivitet, Tabell 2.3 oppsummerer andre studier som har dette nøyaktig samme struktur: ved hjelp av en alltid-på datakilde for å måle effekten av noen hendelse . Som Tabell 2.3 gjør det klart, naturlige eksperimenter er overalt hvis du bare vet hvordan du skal lete etter dem.

Tabell 2.3: Eksempler på naturlige forsøk under anvendelse av store datakilder. Alle disse studiene følger samme grunnleggende oppskriften: tilfeldig (eller som om tilfeldig) event + alltid-på datasystem. Se Dunning (2012) for flere eksempler.
Saklig fokus	Kilde av naturlig eksperiment	Alltid-på datakilde	Sitering
Peer effekt på produktiviteten	planlegge prosessen	kassa data	Mas and Moretti (2009)
vennskap formasjon	orkaner	Facebook	Phan and Airoldi (2015)
Spredning av følelser	regn	Facebook	Coviello et al. (2014)
Peer to peer økonomiske overføringer	jordskjelv	mobile penger data	Blumenstock, Fafchamps, and Eagle (2011)
Personlig forbruk atferd	2013 amerikanske regjeringen nedleggelse	personlig økonomi data	Baker and Yannelis (2015)
Økonomiske konsekvensene av recommender systemer	diverse	nettleserdata på Amazon	Sharma, Hofman, and Watts (2015)
Effekt av stress på ufødte babyer	krig 2006 Israel-Hizbollah	fødselsattester	Torche and Shwed (2015)
Lesing oppførsel på Wikipedia	Snowdon åpenbaringer	Wikipedia logger	Penney (2016)

I praksis forskere bruker to ulike strategier for å finne naturlige eksperimenter, som begge kan være fruktbart. Noen forskere starte med alltid-på datakilde og søke etter tilfeldige hendelser i verden; andre begynner med tilfeldige hendelser i verden og ser etter datakilder som fanger deres innflytelse. Til slutt, legg merke til at styrken av naturlige eksperimenter kommer ikke fra raffinement av statistisk analyse, men fra omsorg i å oppdage en rettferdig sammenligning skapt av en heldig tilfeldighet av historien.