2.4.3 tilnærme eksperimenter

Denne oversættelse blev skabt af en computer. ×

2.4.3 tilnærme eksperimenter

Vi kan tilnærme eksperimenter, som vi ikke har eller ikke kan gøre. To tilgange, der især nyder godt af store datakilder, er naturlige eksperimenter og matchning.

Nogle vigtige videnskabelige og politiske spørgsmål er årsagssammenhængende. For eksempel, hvad er effekten af et jobtræningsprogram på lønninger? En forsker, der forsøger at besvare dette spørgsmål, kan sammenligne indtjeningen hos personer, der tilmeldte sig uddannelse til dem, der ikke gjorde det. Men hvor meget af lønforskellen mellem disse grupper er på grund af træningen og hvor meget er på grund af eksisterende forskelle mellem de mennesker, der tilmelder sig og dem, der ikke gør det? Dette er et svært spørgsmål, og det er en, der ikke automatisk går væk med flere data. Med andre ord opstår bekymringen over mulige allerede eksisterende forskelle, uanset hvor mange arbejdstagere der er i dine data.

I mange situationer er den stærkeste måde at estimere årsagssammenhængen af en eller anden behandling som f.eks. Jobtræning at drive et randomiseret kontrolleret eksperiment, hvor en forsker tilfældigt leverer behandlingen til nogle mennesker og ikke andre. Jeg vil bruge alle kapitel 4 til eksperimenter, så her skal jeg fokusere på to strategier, der kan bruges med ikke-eksperimentelle data. Den første strategi er afhængig af at lede efter noget der sker i verden, som tilfældigt (eller næsten tilfældigt) tildeler behandlingen til nogle mennesker og ikke andre. Den anden strategi afhænger af statistisk justering af ikke-eksperimentelle data i et forsøg på at redegøre for tidligere eksisterende forskelle mellem dem, der gjorde og ikke fik behandlingen.

En skeptiker kan hævde, at begge disse strategier bør undgås, fordi de kræver stærke forudsætninger, antagelser, der er vanskelige at vurdere, og som i praksis ofte krænkes. Mens jeg er sympatisk over for denne påstand, tror jeg, det går lidt for langt. Det er helt sikkert rigtigt, at det er svært at pålideligt lave årsagssammenligninger fra ikke-eksperimentelle data, men jeg tror ikke, det betyder, at vi aldrig bør prøve. Især kan ikke-eksperimentelle tilgange være nyttige, hvis logistisk begrænsning forhindrer dig i at gennemføre et forsøg, eller hvis etiske begrænsninger betyder, at du ikke ønsker at køre et forsøg. Yderligere kan ikke-eksperimentelle tilgange være nyttige, hvis du vil udnytte data, der allerede eksisterer for at designe et randomiseret, kontrolleret eksperiment.

Før det fortsætter, er det også værd at bemærke, at årsagssammenhæng er et af de mest komplekse emner inden for social forskning, og som kan føre til intens og følelsesmæssig debat. I det følgende vil jeg give en optimistisk beskrivelse af hver tilgang for at opbygge intuition om det, så vil jeg beskrive nogle af de udfordringer, der opstår, når du bruger denne tilgang. Yderligere oplysninger om hver tilgang findes i materialerne i slutningen af dette kapitel. Hvis du planlægger at bruge en af disse metoder i din egen forskning, anbefaler jeg stærkt at læse en af de mange fremragende bøger om årsagssammenhæng (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

En tilgang til at fremstille kausal estimater fra ikke-eksperimentelle data er at lede efter en begivenhed, der tilfældigt har tildelt en behandling til nogle mennesker og ikke til andre. Disse situationer kaldes naturlige eksperimenter . Et af de klareste eksempler på et naturligt eksperiment kommer fra Joshua Angrists undersøgelse (1990) måler effekten af militærtjenester på indtjeningen. Under krigen i Vietnam øgede USA størrelsen på sine væbnede styrker gennem et udkast. For at afgøre, hvilke borgere der skulle tages i brug, havde den amerikanske regering et lotteri. Hver fødselsdato blev skrevet på et stykke papir, og som vist i figur 2.7 blev disse stykker papir valgt en ad gangen for at bestemme rækkefølgen, hvor unge mænd ville blive kaldt til at tjene (unge kvinder var ikke underlagt til udkastet). På baggrund af resultaterne blev mænd født den 14. september først kaldt, mænd født den 24. april blev kaldt andet og så videre. I sidste ende blev i dette lotteri udarbejdet mænd på 195 forskellige dage, mens mænd født på 171 dage ikke var.

Figur 2.7: Kongressleder Alexander Pirnie (R-NY) tegner den første kapsel til Selective Service-udkastet den 1. december 1969. Joshua Angrist (1990) kombinerede udkastet til lotteri med indtjeningsdata fra Social Security Administration for at vurdere effekten af militærtjeneste på indtjening. Dette er et eksempel på forskning ved hjælp af et naturligt eksperiment. Kilde: US Selective Service System (1969) / Wikimedia Commons .

Selvom det måske ikke umiddelbart kan ses, har et udkast til lotteri en kritisk lighed med et randomiseret, kontrolleret eksperiment: I begge situationer er deltagerne tilfældigt tildelt til behandling. For at undersøge effekten af denne randomiserede behandling udnyttede Angrist et permanent stort datasystem: US Social Security Administration, som indsamler oplysninger om stort set alle amerikaners indtjening fra beskæftigelse. Ved at kombinere informationen om hvem der blev tilfældigt valgt i udkastet til lotteri med indtjeningsdataene, der blev indsamlet i statslige administrative poster, konkluderede Angrist, at veteranernes indtjening var ca. 15% mindre end indtjeningen hos sammenlignelige ikke-veteraner.

Som dette eksempel illustrerer tildeler sommetider sociale, politiske eller naturlige kræfter behandlinger på en måde, der kan udnyttes af forskere, og undertiden er virkningerne af disse behandlinger fanget i altid store store datakilder. Denne forskningsstrategi kan opsummeres som følger: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

For at illustrere denne strategi i den digitale tidsalder, skal vi overveje en undersøgelse af Alexandre Mas og Enrico Moretti (2009) der forsøgte at vurdere virkningen af at arbejde med produktive kolleger om arbejdstagerens produktivitet. Før du ser resultaterne, er det værd at påpege, at der er modstridende forventninger, som du måske har. På den ene side kan du forvente, at arbejde med produktive kolleger ville medføre en arbejdstager at øge produktiviteten på grund af peer press. Eller på den anden side kan du forvente at have hårdtarbejdende jævnaldrende kan føre til, at en arbejdstager slår af, fordi arbejdet vil blive udført af sine jævnaldrende alligevel. Den klareste måde at studere peer-effekter på produktivitet ville være et randomiseret, kontrolleret eksperiment, hvor medarbejdere tilfældigt tildeles skift med arbejdstagere med forskellige produktivitetsniveauer, og derefter måles den resulterende produktivitet for alle. Forskere kontrollerer imidlertid ikke tidsplanen for arbejdere i nogen reel forretning, og Mas og Moretti måtte derfor stole på et naturligt eksperiment, der involverer kasserere i et supermarked.

I dette særlige supermarked var der på grund af den måde, hvorpå planlægningen blev foretaget, og den måde, hvorpå skiftene overlappede hinanden, hver kassereren forskellige medarbetere på forskellige tidspunkter. I dette særlige supermarked var tildelingen af kasserere ikke forbundet med produktiviteten hos deres kolleger eller hvor travlt butikken var. Med andre ord, selvom planlægningen af kasserere ikke var bestemt af et lotteri, var det som om arbejdere undertiden tilfældigt blev tildelt arbejde med høj (eller lav) produktivitetskammerater. Heldigvis havde dette supermarked også et digital-age checkout system, der spores de ting, som hver kasserer scannede til enhver tid. Fra disse checkout-logdata kunne Mas og Moretti skabe en præcis, individuel og altid-på måling af produktivitet: antallet af genstande scannet per sekund. Ved at kombinere disse to ting vurderede den naturligt forekommende variation i peerproduktivitet og den kontinuerlige måling af produktivitet, Mas og Moretti, at hvis en kasserer blev tildelt kolleger, der var 10% mere produktive end gennemsnittet, ville produktiviteten øges med 1,5% . Desuden anvendte de størrelsen og rigten af deres data for at undersøge to vigtige spørgsmål: heterogeniteten af denne effekt (for hvilke slags arbejdstagere er effekten større?) Og mekanismerne bag effekten (hvorfor har højproduktive jævnaldrende ført til højere produktivitet?). Vi vil vende tilbage til disse to vigtige spørgsmål - heterogenitet af behandlingseffekter og mekanismer - i kapitel 4, når vi diskuterer eksperimenter mere detaljeret.

Generelt ud fra disse to undersøgelser opsummerer tabel 2.3 andre undersøgelser, der har samme struktur: ved hjælp af en permanent datakilde for at måle effekten af en tilfældig variation. I praksis bruger forskere to forskellige strategier til at finde naturlige forsøg, som begge kan være frugtbare. Nogle forskere starter med en permanent datakilde og ser efter tilfældige begivenheder i verden; andre starter en tilfældig begivenhed i verden og kigger efter datakilder, der fanger dens indflydelse.

Tabel 2.3: Eksempler på naturlige eksperimenter ved hjælp af store datakilder
Vigtigt fokus	Kilde for naturligt eksperiment	Alltid-på datakilde	Reference
Peer-effekter på produktiviteten	Planlægningsproces	Checkout data	Mas and Moretti (2009)
Venskabsdannelse	Hurricanes	Facebook	Phan and Airoldi (2015)
Spredning af følelser	Regn	Facebook	Lorenzo Coviello et al. (2014)
Peer-to-peer økonomiske overførsler	Jordskælv	Mobil penge data	Blumenstock, Fafchamps, and Eagle (2011)
Personlig forbrugsadfærd	2013 US Government shutdown	Personlige finansdata	Baker and Yannelis (2015)
Økonomiske virkninger af recommender-systemer	Forskellige	Gennemse data på Amazon	Sharma, Hofman, and Watts (2015)
Effekt af stress på ufødte babyer	2006 Israel-Hizbollah krig	Fødselsregistre	Torche and Shwed (2015)
Læsning adfærd på Wikipedia	Snowden åbenbaringer	Wikipedia logs	Penney (2016)
Peer effekter på motion	Vejr	Fitness trackers	Aral and Nicolaides (2017)

I den hidtidige diskussion om naturlige eksperimenter har jeg udeladt et vigtigt punkt: At gå ud fra, hvad naturen har givet til, hvad du vil, kan nogle gange være ret vanskelig. Lad os vende tilbage til Vietnam-udkastet eksempel. I dette tilfælde var Angrist interesseret i at estimere virkningen af militærtjeneste på indtjeningen. Desværre blev militærtjeneste ikke tilfældigt tildelt; Det blev snarere udarbejdet, der blev tilfældigt tildelt. Men ikke alle, der blev udarbejdet, tjente (der var en række undtagelser), og ikke alle, der tjente, blev udarbejdet (folk kunne frivilligt tjene). Fordi udformningen blev tilfældigt tildelt, kan en forsker vurdere virkningen af at blive udarbejdet for alle mænd i udkastet. Men Angrist ønskede ikke at vide effekten af at blive udarbejdet; han ønskede at kende virkningen af at tjene i militæret. For at gøre dette skøn er der dog behov for yderligere antagelser og komplikationer. For det første skal forskere antage, at den eneste måde, hvorpå der udarbejdes påvirket indtjening, er gennem militær tjeneste, en antagelse kaldet udelukkelsesbegrænsningen . Denne antagelse kunne være forkert, hvis f.eks. Mænd, der blev udfærdiget, blev holdt længere på skolen for at undgå at tjene, eller hvis arbejdsgiverne var mindre tilbøjelige til at ansætte mænd, der blev udarbejdet. Generelt er udelukkelsesbegrænsningen en kritisk antagelse, og det er normalt svært at kontrollere. Selv om udelukkelsesbegrænsningen er korrekt, er det stadig umuligt at vurdere virkningen af service på alle mænd. I stedet viser det sig, at forskere kun kan estimere effekten på en bestemt delmængde af mænd, der hedder komplikatorer (mænd, der ville tjene, når de blev udarbejdet, men ikke ville tjene, når de ikke blev udarbejdet) (Angrist, Imbens, and Rubin 1996) . Compliers var imidlertid ikke den oprindelige befolkning af interesse. Bemærk, at disse problemer opstår selv i det forholdsvis rene tilfælde af udkastet til lotteri. Et yderligere sæt komplikationer opstår, når behandlingen ikke er tildelt af et fysisk lotteri. For eksempel er der i Mas og Morettis undersøgelse af kasserere yderligere spørgsmål om antagelsen om, at tildeling af kammerater er i det væsentlige tilfældig. Hvis denne antagelse var stærkt krænket, kunne den forvirre deres estimater. Til konklusion kan naturlige eksperimenter være en stærk strategi for at fremkalde kausal estimater fra ikke-eksperimentelle data, og store datakilder øger vores evne til at udnytte naturlige eksperimenter, når de opstår. Men det vil sandsynligvis kræve stor omhu - og nogle gange stærke forudsætninger - at gå fra, hvad naturen har givet til det skøn, du ønsker.

Den anden strategi, jeg gerne vil fortælle dig om, fordi der er foretaget kausal estimater fra ikke-eksperimentelle data, afhænger af statistisk justering af ikke-eksperimentelle data i et forsøg på at tage højde for tidligere eksisterende forskelle mellem dem, der gjorde og ikke fik behandlingen. Der er mange sådanne justeringsmetoder, men jeg vil fokusere på en kaldet matchning . I tilpasningen ser forskeren gennem ikke-eksperimentelle data for at skabe par af mennesker, der ligner hinanden, bortset fra at man har modtaget behandlingen, og man ikke har det. I forbindelse med matchning er forskerne faktisk beskæring også; det vil sige kassere tilfælde, hvor der ikke er nogen åbenlys kamp. Således vil denne metode mere præcist blive kaldt matchende og beskærende, men jeg holder fast i det traditionelle udtryk: matchende.

Et eksempel på kraften i matchende strategier med massive ikke-eksperimentelle datakilder kommer fra forskning om forbrugeradfærd hos Liran Einav og kolleger (2015) . De var interesserede i auktioner, der fandt sted på eBay, og i beskrivelsen af deres arbejde vil jeg fokusere på effekten af auktionens startpris på auktionsresultater, såsom salgsprisen eller sandsynligheden for et salg.

Den mest naive måde at estimere effekten af startpris på salgspris ville være at blot beregne den endelige pris for auktioner med forskellige startpriser. Denne tilgang ville være fint, hvis du ønskede at forudsige salgsprisen givet startprisen. Men hvis dit spørgsmål vedrører effekten af startprisen, vil denne tilgang ikke fungere, fordi den ikke er baseret på rimelige sammenligninger. Auktionerne med lavere startpriser kan være meget forskellige fra dem med højere startpriser (f.eks. de kan være til forskellige typer varer eller indeholde forskellige typer af sælgere).

Hvis du allerede er opmærksom på de problemer, der kan opstå, når du laver kausal estimater fra ikke-eksperimentelle data, kan du springe over den naive tilgang og overveje at køre et felteksperiment, hvor du ville sælge en bestemt vare - sig en golfklub - med en fast sæt af auktionsparametre - sig fri fragt og auktion åben i to uger - men med tilfældigt tildelte startpriser. Ved at sammenligne de resulterende markedsresultater ville dette felteksperiment give en meget klar måling af effekten af startprisen på salgsprisen. Men denne måling vil kun gælde for et bestemt produkt og sæt af auktionsparametre. Resultaterne kan være forskellige, for eksempel for forskellige typer produkter. Uden en stærk teori er det svært at ekstrapolere fra dette enkelt eksperiment til hele spektret af mulige eksperimenter, der kunne have været kørt. Endvidere er felteksperimenter tilstrækkeligt dyre, at det ville være umuligt at køre enhver variation, som du måske vil prøve.

I modsætning til de naive og eksperimentelle tilgange tog Einav og kolleger en tredje tilgang: matching. Det vigtigste trick i deres strategi er at opdage ting, der ligner felteksperimenter, der allerede er sket på eBay. For eksempel viser figur 2.8 nogle af de 31 lister til præcis samme golfklub, en Taylormade Burner 09 Driver, der sælges af nøjagtig den samme sælger - "budgetgolfer". Disse 31 lister har dog lidt forskellige egenskaber, som f.eks. Forskellige start pris, slutdatoer og fragtgebyrer. Det er med andre ord som om "budgetgolfer" kører eksperimenter for forskerne.

Disse oversigter over Taylormade Burner 09 Driver, der sælges af "budgetgolfer", er et eksempel på et matchet sæt lister, hvor den nøjagtige samme vare sælges af den samme sælger, men hver gang med lidt forskellige egenskaber. Inden for eBay's massive logs er der bogstaveligt talt hundredvis af matchede sæt, der involverer millioner af fortegnelser. I stedet for at sammenligne den endelige pris for alle auktioner med en given startpris, sammenlignede Einav og kolleger inden for matchede sæt. For at kombinere resultaterne fra sammenligningerne inden for disse hundredtusindvis af matchede sætter repræsenterede Einav og kolleger startprisen og den endelige pris i forhold til referenceværdien af hver vare (fx den gennemsnitlige salgspris). For eksempel, hvis Taylormade Burner 09 Driver havde en referenceværdi på $ 100 (baseret på sit salg), vil en startpris på $ 10 udtrykkes som 0,1 og en endelige pris på $ 120 som 1,2.

Figur 2.8: Et eksempel på et matchet sæt. Dette er den samme golfklub (Taylormade Burner 09 Driver), der sælges af den samme person (budgetgolfer), men nogle af disse salg blev udført under forskellige forhold (f.eks. Forskellige startpriser). Reproduceret med tilladelse fra Einav et al. (2015), figur 1b.

Figur 2.8: Et eksempel på et matchet sæt. Dette er den samme golfklub (en Taylormade Burner 09 Driver), der sælges af den samme person ("budgetgolfer"), men nogle af disse salg blev udført under forskellige forhold (f.eks. Forskellige startpriser). Reproduceret med tilladelse fra Einav et al. (2015) , figur 1b.

Husk, at Einav og kolleger var interesserede i effekten af startpris på auktionsresultater. For det første brugte de lineær regression til at estimere, at højere startpriser reducerer sandsynligheden for et salg, og at højere startpriser øger den endelige salgspris (afhængig af et salg). I sig selv er disse estimater - som beskriver et lineært forhold og er gennemsnitlige over alle produkter - ikke så interessante. Derefter brugte Einav og kolleger den massive størrelse af deres data til at skabe en række mere subtile estimater. For eksempel ved at estimere effekten separat for en række forskellige startpriser fandt de, at forholdet mellem startpris og salgspris ikke er lineær (figur 2.9). Især for at starte priser mellem 0,05 og 0,85 har startprisen meget ringe indflydelse på salgsprisen, en konklusion, der helt blev savnet ved deres første analyse. Endvidere estimerede Einav og kolleger effekten af startprisen for 23 forskellige kategorier af varer (f.eks. Husdyrforsyninger, elektronik og sportsmemorabiliteter) (figur 2.10). Disse estimater viser, at for mere særprægede ting, som f.eks. Memorabilia-startpris, har en mindre effekt på sandsynligheden for et salg og en større effekt på den endelige salgspris. Endvidere har udgangsprisen næsten ingen indflydelse på den endelige pris for mere kommodiserede varer, såsom dvd'er. Med andre ord gemmer et gennemsnit, der kombinerer resultater fra 23 forskellige kategorier af genstande, vigtige forskelle mellem disse elementer.

Figur 2.9: Forholdet mellem auktionens startpris og sandsynligheden for et salg (a) og salgsprisen (b). Der er omtrent et lineært forhold mellem startpris og salg sandsynlighed, men et ikke-lineært forhold mellem startpris og salgspris; For at starte priser mellem 0,05 og 0,85 har startprisen meget ringe indflydelse på salgsprisen. I begge tilfælde er relationerne grundlæggende uafhængige af elementværdi. Tilpasset fra Einav et al. (2015) , figur 4a og 4b.

Figur 2.10: Estimater fra hver kategori af varer; den faste prik er estimatet for alle kategorier samlet sammen (Einav et al. 2015) . Disse estimater viser, at for mere særprægede elementer, såsom memorabilia, har startprisen en mindre effekt på sandsynligheden for et salg ( $x$ -axis) og en større effekt på den endelige salgspris ( $y$ -akse). Tilpasset fra Einav et al. (2015) , figur 8.

Selvom du ikke er særlig interesseret i auktioner på eBay, skal du beundre den måde, som figur 2.9 og figur 2.10 tilbyder en rigere forståelse for eBay end simple estimater, der beskriver et lineært forhold og kombinerer mange forskellige kategorier af varer. Selvom det ville være videnskabeligt muligt at generere disse mere subtile estimater med felteksperimenter, ville omkostningerne gøre sådanne eksperimenter i det væsentlige umulige.

Som med naturlige eksperimenter er der en række måder at matche kan føre til dårlige estimater. Jeg tror, at den største bekymring med matchende skøn er, at de kan være forspændt af ting, der ikke blev brugt i matchen. Eksempelvis har Einav og kolleger i deres hovedresultater nøjagtig matchning på fire karakteristika: sælger ID nummer, varekategori, varetitel og undertekst. Hvis varerne var forskellige på måder, der ikke blev brugt til matchning, kunne dette skabe en urimelig sammenligning. For eksempel, hvis "budgetgolfer" sænkede priserne til Taylormade Burner 09 Driver om vinteren (når golfklubber er mindre populære), kan det vise sig, at lavere startpriser fører til lavere slutpriser, da det faktisk ville være en artefakt af sæsonbestemt variation i efterspørgslen. En tilgang til at løse dette problem er at forsøge mange forskellige former for matchning. For eksempel gentog Einav og kollegaerne deres analyse, mens de forskellige tidsvinduer blev brugt til at matche (matchede sæt inkluderede varer på salg inden for et år inden for en måned og samtidig). Heldigvis fandt de lignende resultater for alle tidsvinduer. En yderligere bekymring med matchning stammer fra fortolkning. Estimater fra matchning gælder kun for matchede data; de gælder ikke for de tilfælde, der ikke kunne matches. For eksempel ved at begrænse deres forskning til varer, der havde flere lister, fokuserer Einav og kolleger på professionelle og semi-professionelle sælgere. Når vi fortolker disse sammenligninger, skal vi huske at de kun gælder for denne delmængde af eBay.

Matchning er en stærk strategi for at finde rimelige sammenligninger i ikke-eksperimentelle data. Til mange samfundsvidenskabelige eksperter føles matchende bedst til forsøg, men det er en tro, der kan revideres lidt. Matchning i massive data kan være bedre end et lille antal felteksperimenter, når (1) heterogenitet i virkninger er vigtig, og (2) de vigtige variabler, der er nødvendige for tilpasning, er blevet målt. Tabel 2.4 indeholder nogle andre eksempler på, hvordan matchning kan bruges med store datakilder.

Tabel 2.4: Eksempler på undersøgelser, der passer til store datakilder
Vigtigt fokus	Stor datakilde	Reference
Effekt af skyderier på vold i politiet	Stop-and-frisk optegnelser	Legewie (2016)
Effekt af 11. september 2001 om familier og naboer	Stemmeregister og donationsregistre	Hersh (2013)
Social smitte	Kommunikations- og produktadoptionsdata	Aral, Muchnik, and Sundararajan (2009)

Konklusionen er, at estimering af årsagssammenhæng fra ikke-eksperimentelle data er vanskelig, men metoder som naturlige forsøg og statistiske tilpasninger (f.eks. Matching) kan anvendes. I nogle situationer kan disse tilgange gå meget galt, men når de implementeres omhyggeligt, kan disse tilgange være et nyttigt supplement til den eksperimentelle tilgang, som jeg beskriver i kapitel 4. Yderligere synes disse to tiltag især at drage fordel af den altid- on, store datasystemer.