2.4.3 tilnærmet eksperimenter

Denne oversettelsen ble skapt av en datamaskin. ×

2.4.3 tilnærmet eksperimenter

Vi kan omtrentlige eksperimenter som vi ikke har eller ikke kan gjøre. To tilnærminger som særlig nyter godt av store datakilder, er naturlige eksperimenter og samsvarende.

Noen viktige vitenskapelige og politiske spørsmål er årsakssammenhengende. For eksempel, hva er effekten av et opplæringsprogram på lønn? En forsker som forsøker å svare på dette spørsmålet, kan sammenligne inntektene til folk som registrerte seg for opplæring til de som ikke gjorde det. Men hvor mye av lønnsforskjellene mellom disse gruppene er på grunn av trening og hvor mye er på grunn av eksisterende forskelle mellom de som registrerer seg og de som ikke gjør det? Dette er et vanskelig spørsmål, og det er en som ikke automatisk går bort med flere data. Med andre ord oppstår bekymringen for mulige tidligere eksisterende forskjeller uansett hvor mange arbeidere som er i dataene dine.

I mange situasjoner er den sterkeste måten å estimere årsakseffekten av noen behandling, for eksempel jobbtrening, å drive et randomisert kontrollert eksperiment hvor en forsker tilfeldigvis leverer behandlingen til noen og ikke andre. Jeg skal bruke alle kapittel 4 til eksperimenter, så her skal jeg fokusere på to strategier som kan brukes med ikke-eksperimentelle data. Den første strategien er avhengig av å se etter noe som skjer i verden som tilfeldig (eller nesten tilfeldig) tildeler behandlingen til noen mennesker og ikke andre. Den andre strategien er avhengig av statistisk justering av ikke-eksperimentelle data i et forsøk på å redegjøre for tidligere eksisterende forskjeller mellom de som gjorde og ikke mottok behandlingen.

En skeptiker kan hevde at begge disse strategiene bør unngås fordi de krever sterke forutsetninger, forutsetninger som er vanskelige å vurdere, og som i praksis ofte blir krenket. Mens jeg er sympatisk med denne påstanden, tror jeg det går litt for langt. Det er sikkert sant at det er vanskelig å pålidelig gi årsakssammendrag fra ikke-eksperimentelle data, men jeg tror ikke det betyr at vi aldri bør prøve. Spesielt kan ikke-eksperimentelle tilnærminger være nyttige hvis logistisk begrensning hindrer deg fra å gjennomføre et eksperiment, eller hvis etiske begrensninger betyr at du ikke vil kjøre et eksperiment. Videre kan ikke-eksperimentelle tilnærminger være nyttige hvis du vil utnytte data som allerede eksisterer for å designe et randomisert kontrollert eksperiment.

Før du fortsetter, er det også verdt å merke seg at å lage kausal estimater er et av de mest komplekse emnene i sosial forskning, og en som kan føre til intens og emosjonell debatt. I det følgende vil jeg gi en optimistisk beskrivelse av hver tilnærming for å bygge intuisjon om det, da vil jeg beskrive noen av utfordringene som oppstår ved bruk av denne tilnærmingen. Ytterligere detaljer om hver tilnærming er tilgjengelige i materialene på slutten av dette kapittelet. Hvis du planlegger å bruke noen av disse tilnærmingene i din egen forskning, anbefaler jeg på det sterkeste å lese en av de mange gode bøkene om årsakssammenheng (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

En tilnærming til å ta årsakssammenheng fra ikke-eksperimentelle data er å lete etter en hendelse som tilfeldigvis har tildelt en behandling til noen mennesker og ikke til andre. Disse situasjonene kalles naturlige eksperimenter . Et av de klareste eksemplene på et naturlig eksperiment kommer fra Joshua Angrists undersøkelse (1990) måler effekten av militære tjenester på inntekter. Under krigen i Vietnam økte USA størrelsen på sine væpnede styrker gjennom et utkast. For å avgjøre hvilke borgere som skulle bli kalt til tjeneste, holdt den amerikanske regjeringen et lotteri. Hver fødselsdato ble skrevet på et stykke papir og, som vist i figur 2.7, ble disse stykkene valgt en om gang for å bestemme rekkefølgen der unge menn ville bli kalt til å tjene (unge kvinner var ikke underlagt til utkastet). Basert på resultatene ble menn født 14. september kalt først, menn født 24. april ble kalt andre og så videre. Til slutt, i dette lotteriet ble menn født på 195 forskjellige dager utarbeidet, mens menn født på 171 dager ikke var.

Figur 2.7: Kongressleder Alexander Pirnie (R-NY) tegner den første kapselen til Selective Service-utkastet 1. desember 1969. Joshua Angrist (1990) kombinerte utkastet til lotteri med inntjeningsdata fra Social Security Administration for å estimere effekten av militærtjenesten på inntjening. Dette er et eksempel på forskning ved hjelp av et naturlig eksperiment. Kilde: US Selective Service System (1969) / Wikimedia Commons .

Selv om det kanskje ikke er umiddelbart klart, har et utkast til lotteri en kritisk likhet med et randomisert kontrollert eksperiment: i begge situasjonene er deltakerne tilfeldig tildelt for å motta en behandling. For å undersøke effekten av denne randomiserte behandlingen tok Angrist fordel av et kontinuerlig stort datasystem: US Social Security Administration, som samler inn informasjon om praktisk talt alle amerikaners inntjening fra sysselsetting. Ved å kombinere informasjonen om hvem som ble tilfeldig valgt i utkastet til lotteri med inntjeningsdataene som ble samlet inn i offentlige registre, konkluderte Angrist at inntektene til veteraner var omtrent 15% mindre enn inntektene til sammenlignbare ikke-veteraner.

Som dette eksemplet illustrerer, tilordner noen ganger sosiale, politiske eller naturlige krefter behandlinger på en måte som kan håndteres av forskere, og noen ganger blir effekten av disse behandlingene fanget i alltid store store datakilder. Denne forskningsstrategien kan oppsummeres som følger: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

For å illustrere denne strategien i den digitale tidsalderen, la oss vurdere en studie av Alexandre Mas og Enrico Moretti (2009) som forsøkte å estimere effekten av å jobbe med produktive kolleger på arbeidstakerens produktivitet. Før du ser resultatene, er det verdt å påpeke at det er motstridende forventninger du måtte ha. På den ene siden kan du forvente at arbeidet med produktive kolleger vil føre til at en arbeidstaker øker produktiviteten på grunn av peer press. Eller på den annen side kan du forvente at det å ha hardt arbeidende jevnaldrende kan føre til at en arbeidstaker slår seg av fordi arbeidet vil bli gjort av sine jevnaldrende uansett. Den klareste måten å studere peer-effekter på produktivitet, ville være et randomisert kontrollert eksperiment hvor arbeidere tilfeldigvis ble tildelt skift med arbeidstakere med ulike produktivitetsnivåer, og den resulterende produktiviteten ble målt for alle. Forskere kontrollerer imidlertid ikke timeplanen for arbeidere i noen reell virksomhet, og Mas og Moretti måtte derfor stole på et naturlig eksperiment som involverer kasserere ved et supermarked.

I dette bestemte supermarkedet, på grunn av måten planleggingen ble gjort og måten som skiftet overlappes, hadde hver kasserer forskjellige medarbeidere på forskjellige tider av dagen. Videre i dette bestemte supermarkedet var oppdraget av kasserere ikke knyttet til produktiviteten til sine kolleger eller hvor opptatt butikken var. Med andre ord, selv om planleggingen av kasserere ikke var bestemt av et lotteri, var det som om arbeidstakere noen ganger ble tilfeldig tildelt arbeid med høye (eller lave) produktivitetskvivalenter. Heldigvis hadde dette supermarkedet også et digitalt alderskassesystem som spore elementene som hver kasserer skannet til enhver tid. Fra disse loggdataene kunne Mas og Moretti skape et presist, individuelt og kontinuerlig mål for produktivitet: antall gjenstander skannet per sekund. Kombinere disse to tingene - den naturlig forekommende variasjonen i peerproduktivitet og det kontinuerlige målet på produktivitet - Mas og Moretti anslått at hvis en kassereren ble tildelt medarbeidere som var 10% mer produktive enn gjennomsnittet, ville produktiviteten øke med 1,5% . Videre brukte de størrelsen og rikheten i dataene sine for å utforske to viktige problemer: heterogeniteten av denne effekten (For hvilke typer arbeidere er effekten større?) Og mekanismene bak effekten (Hvorfor har høye produktivitet jevnaldrende fører til høyere produktivitet?). Vi kommer tilbake til disse to viktige problemene - heterogenitet av behandlingseffekter og mekanismer - i kapittel 4 når vi diskuterer eksperimenter nærmere.

Generaliserer fra disse to studiene, oppsummerer tabell 2.3 andre studier som har samme struktur: Bruk en kontinuerlig datakilde for å måle effekten av noen tilfeldig variasjon. I praksis bruker forskere to forskjellige strategier for å finne naturlige eksperimenter, som begge kan være fruktbare. Noen forskere starter med en kontinuerlig datakilde og ser etter tilfeldige hendelser i verden; andre starter en tilfeldig hendelse i verden og ser etter datakilder som fanger innslaget.

Tabell 2.3: Eksempler på naturlige eksperimenter ved bruk av store datakilder
Stort fokus	Kilde for naturlig eksperiment	Alltid-på datakilde	Henvisning
Peer effekter på produktivitet	Planleggingsprosess	Checkout data	Mas and Moretti (2009)
Vennskapsformasjon	Hurricanes	Facebook	Phan and Airoldi (2015)
Spredning av følelser	Regn	Facebook	Lorenzo Coviello et al. (2014)
Peer-to-peer økonomiske overføringer	Jordskjelv	Mobil penger data	Blumenstock, Fafchamps, and Eagle (2011)
Personlig forbruksadferd	2013 amerikanske regjeringen nedleggelse	Personlige finansdata	Baker and Yannelis (2015)
Økonomisk innvirkning av anbefalingssystemer	Diverse	Bla gjennom data på Amazon	Sharma, Hofman, and Watts (2015)
Effekt av stress på ufødte barn	2006 Israel-Hizbollah krig	Fødselsrekord	Torche and Shwed (2015)
Leseradferd på Wikipedia	Snowden åpenbaringer	Wikipedia logger	Penney (2016)
Peer effekter på trening	Vær	Treningssporere	Aral and Nicolaides (2017)

I diskusjonen så langt om naturlige eksperimenter har jeg lagt ut et viktig poeng: Å gå fra hva naturen har gitt til det du vil, kan noen ganger være ganske vanskelig. La oss gå tilbake til Vietnam-utkastet. I dette tilfellet var Angrist interessert i å estimere effekten av militærtjeneste på inntjening. Dessverre var ikke militærtjenesten tilfeldig; heller det ble utarbeidet som ble tilfeldig tildelt. Men ikke alle som ble utarbeidet tjente (det var en rekke unntak), og ikke alle som serverte ble utarbeidet (folk kunne frivillig til å tjene). Fordi det var tilfeldig utpekt, kan en forsker estimere effekten av å bli utarbeidet for alle menn i utkastet. Men Angrist ville ikke vite effekten av å bli utarbeidet; han ønsket å vite effekten av å tjene i militæret. For å gjøre dette anslaget er det imidlertid nødvendig med ytterligere forutsetninger og komplikasjoner. For det første må forskerne anta at den eneste måten som blir utarbeidet påvirket inntektene, er gjennom militær tjeneste, en antagelse som kalles ekskluderingsbegrensningen . Denne antakelsen kan være feil hvis for eksempel menn som ble utarbeidet, oppholdt seg lengre på skolen for å unngå å tjene, eller hvis arbeidsgivere var mindre tilbøyelige til å ansette menn som ble utarbeidet. Generelt er ekskluderingsbegrensningen en kritisk antagelse, og det er vanligvis vanskelig å verifisere. Selv om ekskluderingsbegrensningen er riktig, er det fortsatt umulig å estimere effekten av tjenesten på alle menn. I stedet viser det seg at forskere bare kan estimere effekten på en bestemt delmengde av menn som kalles komplikatorer (menn som ville tjene når utarbeidet, men ikke ville tjene når de ikke ble utarbeidet) (Angrist, Imbens, and Rubin 1996) . Komplikatorer var imidlertid ikke den opprinnelige befolkningen av interesse. Legg merke til at disse problemene oppstår selv i det relativt rene tilfellet av utkastet til lotteri. Et ytterligere sett med komplikasjoner oppstår når behandlingen ikke er tildelt av et fysisk lotteri. For eksempel, i Mas og Morettis studie av kasserere, oppstår flere spørsmål om antakelsen om at oppdrag av jevnaldrende er vesentlig tilfeldig. Hvis denne antakelsen var sterkt krenket, kan det forutse deres estimater. Til slutt kan naturlige eksperimenter være en kraftig strategi for å lage kausal estimater fra ikke-eksperimentelle data, og store datakilder øker vår evne til å kapitalisere på naturlige eksperimenter når de oppstår. Det vil imidlertid trolig kreve stor omsorg - og noen ganger sterke forutsetninger - å gå fra hva naturen har gitt til det estimatet du vil ha.

Den andre strategien jeg vil fortelle deg om å lage årsaksoverslag fra ikke-eksperimentelle data, avhenger av statistisk justering av ikke-eksperimentelle data i et forsøk på å ta hensyn til tidligere eksisterende forskjeller mellom de som gjorde og ikke mottok behandlingen. Det er mange slike justeringsmetoder, men jeg vil fokusere på en kalt matchende . I samsvarende ser forskeren gjennom ikke-eksperimentelle data for å skape par av mennesker som er like, bortsett fra at man har mottatt behandlingen og man ikke har det. I samarbeidsprosessen er forskerne også beskjære ; det vil si kaste tilfeller der det ikke er noen åpenbar kamp. Således vil denne metoden mer nøyaktig kalles matching-and-trimming, men jeg holder fast ved det tradisjonelle uttrykket: matching.

Et eksempel på kraften i samsvarende strategier med massive ikke-eksperimentelle datakilder kommer fra forskning om forbrukeradferd fra Liran Einav og kollegaer (2015) . De var interessert i auksjoner som foregikk på eBay, og i å beskrive deres arbeid vil jeg fokusere på effekten av auksjonsprisen på auksjonsresultatene, som salgsprisen eller sannsynligheten for et salg.

Den mest naive måten å estimere effekten av startpris på salgspris, ville være å bare beregne sluttprisen for auksjoner med forskjellige startpriser. Denne tilnærmingen ville være bra hvis du ønsket å forutsi salgsprisen gitt startprisen. Men hvis spørsmålet ditt gjelder effekten av startprisen, vil denne tilnærmingen ikke fungere fordi den ikke er basert på rettferdige sammenligninger. Auksjonene med lavere startpriser kan være ganske forskjellige fra de med høyere startpriser (f.eks. de kan være for ulike typer varer eller inkludere forskjellige typer selgere).

Hvis du allerede er klar over problemene som kan oppstå når du lager årsakssammenheng fra ikke-eksperimentelle data, kan du hoppe over den naive tilnærmingen og vurdere å kjøre et felteksperiment hvor du vil selge en bestemt gjenstand - si en golfklubb - med en fast sett med auksjonsparametere - si, gratis frakt og auksjon åpen i to uker - men med tilfeldig tildelte startpriser. Ved å sammenligne de resulterende markedsresultatene, ville dette felteksperimentet gi en veldig klar måling av effekten av startprisen på salgsprisen. Men denne måling vil bare gjelde for et bestemt produkt og sett av auksjonsparametere. Resultatene kan være forskjellige, for eksempel for ulike typer produkter. Uten en sterk teori er det vanskelig å ekstrapolere fra dette enkelteksperimentet til hele spekteret av mulige eksperimenter som kunne ha blitt kjørt. Videre er felteksperimenter tilstrekkelig dyre at det ville være umulig å kjøre alle variasjoner som du kanskje vil prøve.

I motsetning til de naive og eksperimentelle tilnærmingene tok Einav og kolleger en tredje tilnærming: matching. Hovedtricket i strategien er å oppdage ting som ligner på felteksperimenter som allerede har skjedd på eBay. For eksempel viser figur 2.8 noen av de 31 oppføringene for akkurat den samme golfklubben - en Taylormade Burner 09 Driver-blir solgt av nøyaktig samme selger - "budgetgolfer." Disse 31 oppføringene har imidlertid litt forskjellige egenskaper, for eksempel forskjellig start pris, sluttdato og fraktkostnader. Det er med andre ord som om "budsjettgolf" kjører eksperimenter for forskerne.

Disse oppføringene av Taylormade Burner 09-driveren som selges av "budgetgolfer" er et eksempel på et kombinert sett med oppføringer, der nøyaktig samme gjenstand blir solgt av nøyaktig samme selger, men hver gang med litt forskjellige egenskaper. Innenfor de massive loggene til eBay er det bokstavelig talt hundretusener av matchede sett som involverer millioner av oppføringer. I stedet for å sammenligne sluttprisen for alle auksjoner med en gitt startpris, sammenlignet Einav og kolleger innenfor matchede sett. For å kombinere resultater fra sammenligningene i disse hundretusenvis av matchede sett, uttrykte Einav og kolleger startpris og sluttpris i forhold til referanseverdien for hvert element (f.eks. Gjennomsnittlig salgspris). For eksempel, hvis Taylormade Burner 09 Driver hadde en referanseverdi på $ 100 (basert på salg), vil en startpris på $ 10 bli uttrykt som 0,1 og en sluttpris på $ 120 som 1,2.

Figur 2.8: Et eksempel på et matchet sett. Dette er akkurat den samme golfklubben (en Taylormade Burner 09 Driver) som selges av nøyaktig samme person (budgetgolfer), men noen av disse salgene ble utført under forskjellige forhold (f.eks. Forskjellige startpriser). Gjengitt med tillatelse fra Einav et al. (2015), figur 1b.

Figur 2.8: Et eksempel på et matchet sett. Dette er akkurat den samme golfklubben (en Taylormade Burner 09 Driver) som selges av den samme personen ("budgetgolfer"), men noen av disse salgene ble utført under ulike forhold (f.eks. Forskjellige startpriser). Gjengitt med tillatelse fra Einav et al. (2015) , figur 1b.

Husk at Einav og kolleger var interessert i effekten av startpris på auksjonsresultatene. Først brukte de lineær regresjon til å anslå at høyere startpriser reduserer sannsynligheten for et salg, og at høyere startpriser øker sluttprisen (betinget av et salg som oppstår). I seg selv er disse estimatene, som beskriver et lineært forhold og gjennomsnittlig over alle produkter, ikke så interessante. Deretter brukte Einav og kollegaer den enorme størrelsen på deres data for å lage en rekke mer subtile estimater. For eksempel ved å estimere effekten separat for en rekke forskjellige startpriser, fant de at forholdet mellom startpris og salgspris ikke er lineær (figur 2.9). Spesielt for å starte priser mellom 0,05 og 0,85, har startprisen svært liten innvirkning på salgsprisen, et funn som ble helt savnet ved sin første analyse. Videre, i motsetning til gjennomsnitt over alle elementer, anslår Einav og kolleger effekten av startprisen for 23 forskjellige kategorier av gjenstander (f.eks. Kjæledyr forsyninger, elektronikk og sportsminner) (figur 2.10). Disse estimatene viser at for mer karakteristiske elementer, som for eksempel memorabilia-startpris, har en mindre effekt på sannsynligheten for et salg og en større effekt på sluttprisen. Videre, for mer commodified elementer - for eksempel DVDer - har startprisen nesten ingen innvirkning på sluttprisen. Med andre ord, et gjennomsnitt som kombinerer resultater fra 23 forskjellige kategorier av elementer skjuler viktige forskjeller mellom disse elementene.

Figur 2.9: Forholdet mellom auksjonens startpris og sannsynligheten for salg (a) og salgspris (b). Det er omtrent et lineært forhold mellom startpris og salgssannsynlighet, men et ikke-lineært forhold mellom startpris og salgspris; for å starte priser mellom 0,05 og 0,85, har startprisen svært liten innvirkning på salgsprisen. I begge tilfeller er relasjonene i utgangspunktet uavhengige av elementverdi. Tilpasset fra Einav et al. (2015) , figur 4a og 4b.

Figur 2.10: Estimater fra hver kategori av varer; Den faste prikken er estimatet for alle kategorier samlet sammen (Einav et al. 2015) . Disse estimatene viser at for mer særegne ting, for eksempel memorabilia, har startprisen en mindre effekt på sannsynligheten for et salg ( $x$ -aks) og en større effekt på sluttprisen ( $y$ -akser). Tilpasset fra Einav et al. (2015) , figur 8.

Selv om du ikke er spesielt interessert i auksjoner på eBay, må du beundre måten som figur 2.9 og figur 2.10 gir en rikere forståelse av eBay enn enkle estimater som beskriver et lineært forhold og kombinerer mange forskjellige kategorier av elementer. Videre, selv om det ville være vitenskapelig mulig å generere disse mer subtile estimatene med felteksperimenter, ville kostnaden gjøre slike eksperimenter i det vesentlige umulige.

Som med naturlige eksperimenter, er det en rekke måter som matcher kan føre til dårlige estimater. Jeg tror at den største bekymringen med tilsvarende estimater er at de kan være partisk av ting som ikke ble brukt i matchingen. For eksempel, i sine hovedresultater, gjorde Einav og kollegaer eksakt samsvar på fire egenskaper: selger ID-nummer, elementskategori, varetittel og undertekst. Hvis varene var forskjellige på måter som ikke ble brukt til samsvarende, kan dette skape en urettferdig sammenligning. For eksempel, hvis "budgetgolfer" senket prisene til Taylormade Burner 09 Driver om vinteren (når golfklubber er mindre populære), kan det virke som lavere startpriser fører til lavere sluttpriser, da dette faktisk ville være en gjenstand for sesongvariasjon i etterspørsel. En tilnærming til å takle denne bekymringen, er å prøve mange forskjellige typer samsvarende. For eksempel gjentok Einav og kollegaer sin analyse mens de varierte tidsvinduet som ble brukt for å samsvare (matchede sett inkludert varer på salg innen ett år, innen en måned og samtidig). Heldigvis fant de lignende resultater for alle tidsvinduer. En ytterligere bekymring med tilpasning oppstår ved tolkning. Estimater fra samsvar gjelder bare for samsvarende data; De gjelder ikke de sakene som ikke kunne matches. For eksempel, ved å begrense sin forskning til elementer som hadde flere oppføringer, fokuserer Einav og kollegaer på profesjonelle og semi-profesjonelle selgere. Når vi tolker disse sammenligningene, må vi derfor huske at de bare gjelder for denne delen av eBay.

Matching er en kraftig strategi for å finne rettferdige sammenligninger i ikke-eksperimentelle data. For mange samfunnsvitenskapsmenn føler matchingen det nest beste for eksperimenter, men det er en tro som kan revideres, litt. Matchende i massive data kan være bedre enn et lite antall felteksperimenter når (1) heterogenitet i effekter er viktig, og (2) de viktige variablene som er nødvendige for samsvarende, er blitt målt. Tabell 2.4 gir noen andre eksempler på hvordan samsvarende kan brukes med store datakilder.

Tabell 2.4: Eksempler på studier som passer til store datakilder
Stort fokus	Stor datakilde	Henvisning
Effekt av skyting på politivold	Stopp-og-frisk poster	Legewie (2016)
Effekt av 11. september 2001 på familier og naboer	Stemmeregister og donasjonsrekorder	Hersh (2013)
Sosial smitte	Kommunikasjons- og produkt adopsjonsdata	Aral, Muchnik, and Sundararajan (2009)

Som konklusjon er det vanskelig å estimere årsakseffekter fra ikke-eksperimentelle data, men tilnærminger som naturlige eksperimenter og statistiske justeringer (f.eks. Matching) kan brukes. I noen situasjoner kan disse tilnærmingene gå veldig galt, men når de brukes nøye, kan disse tilnærmingene være et nyttig supplement til den eksperimentelle tilnærmingen som jeg beskriver i kapittel 4. Videre ser disse to tilnærmingene ut til å være til nytte av veksten av alltid- på, store datasystemer.