2.4.3.1 Naturlige eksperimenter

Denne oversættelse blev skabt af en computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

2.4.3.1 Naturlige eksperimenter

Naturlige eksperimenter drage fordel af tilfældige begivenheder i verden. tilfældig begivenhed + altid-på data-system = naturlig eksperiment

Nøglen til randomiserede kontrollerede eksperimenter, der muliggør rimelig sammenligning er randomisering. Dog sker lejlighedsvis noget i verden, der hovedsagelig tildeler folk tilfældigt eller næsten tilfældigt til forskellige behandlinger. En af klareste eksempler på strategien om at bruge naturlige eksperimenter kommer fra forskning Angrist (1990) der måler effekten af militære tjenester på indtjeningen.

Under krigen i Vietnam, USA steg størrelsen af sine væbnede styrker gennem et udkast. For at afgøre, hvilke borgere vil blive kaldt i brug, den amerikanske regering afholdt et lotteri. Hver fødselsdato var repræsenteret på et stykke papir, og disse papirer blev anbragt i en stor glaskrukke. Som vist i figur 2.5, blev disse sedler trukket fra krukken en ad gangen for at bestemme den rækkefølge, de unge mænd ville blive kaldet til at tjene (unge kvinder ikke var omfattet af udkastet). Baseret på resultaterne, blev mænd født den 14. september kaldte først, mænd født den 24. april blev kaldt andet, og så videre. I sidste ende, i dette lotteri, mænd født på 195 forskellige dage blev kaldt til service, mens mænd er født på 171 dage ikke blev kaldt.

Figur 2.5: kongresmedlem Alexander Pirnie (R-NY) trække den første kapsel for Selective Service udkast den 1. december, 1969. Joshua Angrist (1990) kombineret udkastet lotteriet med indtjening data fra Social Security Administration at vurdere effekten af værnepligt på indtjeningen. Dette er et eksempel på forskning, der anvender et naturligt eksperiment. Kilde: Wikimedia Commons

Selv om det ikke kunne være umiddelbart indlysende, et udkast lotteri har en kritisk lighed med et randomiseret kontrolleret eksperiment: i begge situationer deltagerne randomiseret til en behandling. I tilfælde af udkastet lotteriet, hvis vi er interesseret i at lære om virkningerne af udkast-berettigelse og militærtjeneste tilbagevendende arbejdsmarkedet indtjening, kan vi sammenligne resultater for mennesker, hvis fødselsdage lå under lotteri cutoff (f.eks den 14. september, April 24, etc.) med resultaterne for mennesker, hvis fødselsdage var efter cutoff (f.eks 20 februar 2. december etc.).

I betragtning af, at denne behandling for at blive udarbejdet er blevet randomiseret, kan vi så måle effekten af denne behandling for eventuelle udfald, der er blevet målt. For eksempel Angrist (1990) kombineret oplysninger om, hvem tilfældigt blev valgt i udkastet med indtjening data, der blev indsamlet af Social Security Administration at konkludere, at indtjeningen i hvide veteraner var omkring 15% mindre end indtjening sammenlignelige ikke-veteraner . Andre forskere har anvendt en lignende trick samt. For eksempel, Conley and Heerwig (2011) kombineret oplysninger om, hvem tilfældigt blev valgt i udkastet med husholdningsartikler data indsamlet fra 2000 Census og 2005 American Fællesskabet Survey og fandt, at så længe efter udkastet, der var lidt langsigtede effekt af militærtjeneste på forskellige udfald såsom boliger embedstid (eje kontra leje) og boligområder stabilitet (sandsynligheden for at have flyttet i foregående fem år).

Som dette eksempel illustrerer, undertiden sociale, politiske eller naturkræfter skaber eksperimenter eller nær-eksperimenter, der kan udnyttes af forskere. Ofte naturlige eksperimenter er den bedste måde at estimere årsag og virkning relationer i miljøer, hvor det ikke er etisk eller praktisk at køre randomiserede kontrollerede eksperimenter. De er en vigtig strategi for at opdage retfærdige sammenligninger i ikke-eksperimentelle data. Denne forskning strategi kan opsummeres ved denne ligning:

\ [\ tekst {random (eller som om tilfældig) begivenhed} + \ tekst {altid-på datastrømmen} = \ tekst {naturlige eksperiment} \ qquad (2.1) \]

analyse af naturlige eksperimenter, kan dog være ganske vanskelig. For eksempel i tilfældet med Vietnam udkast, ikke alle, der var udkast støtteberettigede endte betjener (der var en række undtagelser). Og på samme tid, nogle mennesker, der ikke var Draft-berettiget meldte sig frivilligt til tjeneste. Det var som om i et klinisk forsøg med et nyt lægemiddel, har nogle mennesker i behandlingsgruppen ikke tage deres medicin, og nogle af de mennesker i kontrolgruppen eller anden måde fik lægemidlet. Dette problem, der kaldes tosidet noncompliance, såvel som mange andre problemer, er beskrevet mere detaljeret i nogle af de anbefalede aflæsninger ved afslutningen af dette kapitel.

Strategien med at drage fordel af naturligt forekommende tilfældig opgave forud den digitale tidsalder, men forekomsten af big data gør denne strategi meget lettere at bruge. Når du er klar over nogle behandlingen er blevet tildelt tilfældigt, kan store datakilder giver resultatet data, som du har brug for at sammenligne resultaterne for folk i behandling og kontrol betingelser. For eksempel i hans undersøgelse af virkningerne af udkastet og militærtjeneste, Angrist gjort brug af indtjeningen poster fra Social Security Administration; uden dette resultat data, ville hans undersøgelse ikke har været muligt. I dette tilfælde, Social Security Administration er den altid-på store datakilde. Som findes flere og mere automatisk indsamlet datakilder, vil vi have mere udfald data, der kan måle effekterne af ændringer skabt af eksogen variation.

For at illustrere denne strategi i den digitale tidsalder, lad os overveje Mas og Moretti s (2009) elegant forskning om effekten af jævnaldrende på produktiviteten. Selv på overfladen kan det se anderledes ud end Angrist undersøgelse om virkningerne af Vietnam Udkast, i struktur de begge følger mønsteret i eq. 2.1.

Mas og Moretti målte hvordan jævnaldrende påvirker produktiviteten af arbejdstagere. På den ene side kan have en hårdtarbejdende peer føre arbejdstagere for at øge deres produktivitet på grund af gruppepres. Eller på den anden side kan en hårdtarbejdende peer føre andre arbejdstagere til at slække ud endnu mere. Det tydeligste måde at studere peer effekter på produktiviteten ville være et randomiseret kontrolleret forsøg, hvor arbejdstagerne er randomiseret til skift med arbejdstagere af forskellige produktivitet og derefter følge produktiviteten måles for alle. Forskere, dog ikke kontrollere tidsplanen for arbejdstagere i enhver reel forretning, og så Mas og Moretti måtte påberåbe sig en naturlig eksperiment, som fandt sted i et supermarked.

Ligesom eq. 2.1, deres undersøgelse havde to dele. Først, de brugte logfiler fra supermarkedet kassen system til at have en præcis, individuel, og altid-on måling af produktivitet: antallet af elementer scannet per sekund. Og for det andet, på grund af den måde, at planlægningen blev gjort på dette supermarked, de har nær tilfældig sammensætning af jævnaldrende. Med andre ord, selv om planlægningen af kasserere ikke bestemmes af et lotteri, det var hovedsagelig tilfældig. I praksis tillid, vi har i naturlige eksperimenter ofte afhænger sandsynligheden af denne "som-om" tilfældig påstand. Drage fordel af denne tilfældig variation, Mas og Moretti fandt, at arbejdet med højere produktivitet jævnaldrende øger produktiviteten. Endvidere Mas og Moretti brugte størrelse og rigdom af deres datasæt til at bevæge sig ud over den vurdering af årsag og virkning til at udforske to mere vigtige og subtile spørgsmål: heterogenitet af denne effekt (for hvilke typer af arbejdstagere er effekten større) og mekanismen bag effekten (hvorfor gør at have høj produktivitet jævnaldrende fører til højere produktivitet). Vi vender tilbage til disse to vigtige spørgsmål-uensartede behandling effekter og mekanismer-i kapitel 5, når vi diskuterer eksperimenter nærmere.

Generalisere fra undersøgelser af virkningen af Vietnam Udkast på indtjening og studiet af effekten af jævnaldrende på produktivitet, tabel 2.3 opsummerer andre undersøgelser, der har netop dette samme struktur: ved hjælp af en altid-on datakilde for at måle effekten af en hændelse . Som tabel 2.3 gør det klart, naturlige eksperimenter er overalt, hvis du bare ved, hvordan man lede efter dem.

Tabel 2.3: Eksempler på naturlige eksperimenter ved hjælp af store datakilder. Alle disse undersøgelser følger de samme grundlæggende opskrift: random (eller som om tilfældig) begivenhed + altid-på data-system. Se Dunning (2012) for flere eksempler.
Materiel fokus	Kilde til naturlige eksperiment	Altid-på datakilde	Citation
Peer effekter på produktiviteten	planlægningsproces	kassen data	Mas and Moretti (2009)
dannelse Venskab	orkaner	Facebook	Phan and Airoldi (2015)
Spredning af følelser	regn	Facebook	Coviello et al. (2014)
Peer-to-peer økonomiske overførsler	jordskælv	mobil penge data	Blumenstock, Fafchamps, and Eagle (2011)
Personlig adfærd forbrug	2013 US regering lukning	privatøkonomi data	Baker and Yannelis (2015)
Økonomiske konsekvenser af rekommendatør systemer	forskellige	browserdata på Amazon	Sharma, Hofman, and Watts (2015)
Effekt af stress på ufødte babyer	2006 Israel-Hizbollah krig	Fødsel optegnelser	Torche and Shwed (2015)
Læsning adfærd på Wikipedia	Snowden afsløringer	Wikipedia logs	Penney (2016)

I praksis forskere bruge to forskellige strategier for at finde naturlige eksperimenter, som begge kan være frugtbar. Nogle forskere starte med altid-on datakilde og se efter tilfældige begivenheder i verden; andre begynder med tilfældige begivenheder i verden og se efter datakilder der fanger deres virkning. Endelig bemærker, at styrken af naturlige eksperimenter kommer ikke fra det sofistikerede den statistiske analyse, men fra pleje i at opdage en rimelig sammenligning skabt af en heldig ulykke af historien.