2.4.3 Approximerande experiment

Denna översättning skapades av en dator. ×

2.4.3 Approximerande experiment

Vi kan approximera experiment som vi inte eller inte kan göra. Två metoder som särskilt gynnas av stora datakällor är naturliga experiment och matchning.

Vissa viktiga vetenskapliga och politiska frågor är kausal. Till exempel, vad är effekten av ett yrkesutbildningsprogram på löner? En forskare som försöker svara på denna fråga kan jämföra resultatet för personer som anmält sig till utbildning för dem som inte gjorde det. Men hur mycket av skillnaden i lön mellan dessa grupper är på grund av träningen och hur mycket är det på grund av tidigare existerande skillnader mellan de människor som registrerar sig och de som inte gör det? Det här är en svår fråga, och det är en som inte automatiskt går bort med mer data. Med andra ord uppstår oroet om eventuella tidigare existerande skillnader, oavsett hur många arbetare som är i dina data.

I många situationer är det starkaste sättet att uppskatta orsakseffekten av någon behandling, såsom yrkesutbildning, att driva ett randomiserat kontrollerat experiment där en forskare slumpmässigt levererar behandlingen till vissa människor och inte andra. Jag ska ägna allt kapitel 4 till experiment, så här kommer jag att fokusera på två strategier som kan användas med icke-experimentella data. Den första strategin beror på att man letar efter något som händer i världen som slumpmässigt (eller nästan slumpmässigt) tilldelar behandlingen till vissa människor och inte andra. Den andra strategin beror på att statistisk justera icke-experimentella data i ett försök att redogöra för tidigare existerande skillnader mellan dem som gjorde och inte fick behandlingen.

En skeptiker kan hävda att båda dessa strategier bör undvikas eftersom de kräver starka antaganden, antaganden som är svåra att bedöma och som i praktiken ofta bryts. Medan jag är sympatisk för denna påstående tror jag att det går lite för långt. Det är säkert sant att det är svårt att på ett tillförlitligt sätt göra kausala uppskattningar från icke-experimentella data, men jag tror inte det betyder att vi aldrig ska försöka. I synnerhet kan icke-experimentella tillvägagångssätt vara till hjälp om logistiska hinder hindrar dig från att utföra ett experiment eller om etiska begränsningar innebär att du inte vill köra ett experiment. Vidare kan icke-experimentella tillvägagångssätt vara till hjälp om du vill utnyttja data som redan existerar för att utforma ett randomiserat kontrollerat experiment.

Innan det fortsätter är det också värt att notera att det är ett av de mest komplexa ämnena i social forskning och att orsaka kausala uppskattningar kan leda till intensiv och känslomässig debatt. I det följande kommer jag att ge en optimistisk beskrivning av varje metod för att bygga intuition om det, då kommer jag att beskriva några av de utmaningar som uppstår när man använder den här metoden. Ytterligare detaljer om varje metod finns i materialet i slutet av detta kapitel. Om du planerar att använda någon av dessa metoder i din egen forskning rekommenderar jag starkt att läsa en av de många utmärkta böckerna om orsakssamband (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

Ett sätt att göra kausala uppskattningar från icke-experimentella data är att leta efter en händelse som slumpmässigt tilldelat en behandling till vissa människor och inte till andra. Dessa situationer kallas naturliga experiment . Ett av de tydligaste exemplen på ett naturligt experiment kommer från Joshua Angrists forskning (1990) mäter effekten av militära tjänster på resultatet. Under kriget i Vietnam ökade USA storleken på sina väpnade styrkor genom ett utkast. För att bestämma vilka medborgare som skulle tas i bruk, höll den amerikanska regeringen ett lotteri. Varje födelsedatum skrevs på ett papper och, som framgår av figur 2.7, valdes dessa pappersstycken en i taget för att bestämma vilken ordning unga män skulle kallas för att tjäna (unga kvinnor var inte föremål för till utkastet). Baserat på resultaten kallades män som föddes den 14 september, men män födda den 24 april kallades andra och så vidare. I slutändan, i detta lotteri, utarbetades män som föddes 195 olika dagar, medan män födda på 171 dagar inte var.

Figur 2.7: Kongressledamoten Alexander Pirnie (R-NY) ritade den första kapseln för utkastet till Selective Service den 1 december 1969. Joshua Angrist (1990) kombinerade utkastet till lotteri med resultatdata från Socialförsäkringsverket för att uppskatta effekten av militärtjänsten på resultat. Detta är ett exempel på forskning med ett naturligt experiment. Källa: US Selective Service System (1969) / Wikimedia Commons .

Även om det kanske inte är omedelbart uppenbart, har ett utkast till lotteri en kritisk likhet med ett randomiserat kontrollerat experiment: i båda situationer deltar deltagarna slumpmässigt för att få behandling. För att studera effekten av denna randomiserade behandling utnyttjade Angrist ett kontinuerligt stort datasystem: US Social Security Administration, som samlar in information om praktiskt taget alla amerikanska intäkter från anställning. Genom att kombinera informationen om vem som slumpmässigt valdes i utkastet till lotteri med de resultatdata som samlades in i statliga administrativa register, drog Angrist slutsatsen att veteranernas vinst var cirka 15% lägre än vinst hos jämförbara icke-veteraner.

Såsom det här exemplet illustrerar, tilldelas ibland sociala, politiska eller naturliga krafter behandlingar på ett sätt som kan utnyttjas av forskare, och ibland påverkas effekterna av dessa behandlingar i alltid stora stora datakällor. Denna forskningsstrategi kan sammanfattas enligt följande: $\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}$

För att illustrera denna strategi i digital ålder, låt oss överväga en studie av Alexandre Mas och Enrico Moretti (2009) som försökte uppskatta effekten av att arbeta med produktiva kollegor om arbetstagarens produktivitet. Innan resultaten ses är det värt att påpeka att det finns motstridiga förväntningar som du kanske har. Å ena sidan kan du förvänta dig att arbeta med produktiva kollegor skulle leda en arbetare att öka sin produktivitet på grund av grupptryck. Eller å andra sidan kan du förvänta dig att ha hårt arbetande kamrater kan leda till att en arbetare slår av, eftersom jobbet kommer att bli gjort av sina kamrater ändå. Det tydligaste sättet att studera effekter på produktiviteten skulle vara ett randomiserat kontrollerat experiment där arbetstagare slumpmässigt tilldelas skift med arbetare med olika produktivitetsnivåer och den uppmätta produktiviteten mäts för alla. Forskare kontrollerar emellertid inte tidsplanen för arbetstagare i någon riktig verksamhet, och Mas och Moretti måste därför förlita sig på ett naturligt experiment som involverar kassörare i en stormarknad.

På grund av det sätt som schemaläggningen gjordes och hur övergången överlappades hade varje kassör olika medarbetare vid olika tidpunkter. Vidare i detta speciella stormarknad var uppgiften av kassatörer inte relaterad till produktiviteten hos sina kamrater eller hur upptagen varan var. Med andra ord, även om schemaläggningen av kassa inte var bestämd av ett lotteri, var det som om arbetare ibland slumpmässigt tilldelades att arbeta med höga (eller låga) produktivitetskompetenter. Lyckligtvis hade denna stormarknad ett digitalt åldersutcheckningssystem som spårade de saker som varje kassör skannade hela tiden. Från den här kassan loggdata kunde Mas och Moretti skapa en exakt, individuell och kontinuerlig mätning av produktivitet: antalet objekt som skannades per sekund. Kombinera dessa två saker - den naturligt förekommande variationen i peerproduktivitet och den kontinuerliga måtten på produktivitet-Mas och Moretti uppskattade att om en kassör tilldelades medarbetare som var 10% mer produktiva än genomsnittet skulle hennes produktivitet öka med 1,5% . Vidare använde de storleken och rikheten i deras data för att undersöka två viktiga frågor: heterogeniteten av denna effekt (för vilka typer av arbetstagare är effekten större?) Och mekanismerna bakom effekten (varför har högproduktiva kollegor leda till att högre produktivitet?). Vi kommer att återvända till dessa två viktiga frågor - heterogenitet av behandlingseffekter och mekanismer - i kapitel 4 när vi diskuterar experiment i mer detalj.

Generaliserar från dessa två studier sammanfattar tabell 2.3 andra studier som har samma struktur: med en kontinuerlig datakälla för att mäta effekten av en slumpmässig variation. I praktiken använder forskare två olika strategier för att hitta naturliga experiment, vilka båda kan vara fruktbara. Vissa forskare börjar med en kontinuerlig datakälla och letar efter slumpmässiga händelser i världen; andra startar en slumpmässig händelse i världen och letar efter datakällor som fångar dess inverkan.

Tabell 2.3: Exempel på naturliga experiment med stora datakällor
Substantiv fokusering	Källa till naturligt experiment	Alltid på datakälla	Referens
Peer effekter på produktivitet	Schemaläggningsprocessen	Checkout data	Mas and Moretti (2009)
Vänskapsformation	Hurricanes	Facebook	Phan and Airoldi (2015)
Spridning av känslor	Regn	Facebook	Lorenzo Coviello et al. (2014)
Peer-to-peer ekonomiska överföringar	Jordbävning	Mobil pengarna data	Blumenstock, Fafchamps, and Eagle (2011)
Personligt konsumtionsbeteende	2013 amerikanska regeringens avstängning	Personuppgifter	Baker and Yannelis (2015)
Ekonomiska effekter av recommender-system	Olika	Bläddrar data på Amazon	Sharma, Hofman, and Watts (2015)
Effekt av stress på ofödda barn	2006 Israel-Hizbollah krig	Födelseposter	Torche and Shwed (2015)
Läsbeteende på Wikipedia	Snowden avslöjanden	Wikipedia loggar	Penney (2016)
Peer effekter på träning	Väder	Fitness trackers	Aral and Nicolaides (2017)

I diskussionen hittills om naturliga experiment har jag släppt ut en viktig punkt: Att gå från vilken natur som har gett det du vill kan ibland vara ganska knepigt. Låt oss återvända till Vietnamutkastet. I detta fall var Angrist intresserad av att uppskatta effekten av militärtjänsten på resultatet. Tyvärr var militärtjänst inte slumpmässigt tilldelat; Det var snarare ett förslag som slumpmässigt tilldelades. Men inte alla som utarbetades tjänade (det fanns en mängd undantag), och inte alla som tjänstgjorde utarbetades (folk kunde frivilligt tjäna). Eftersom utarbetandet slumpmässigt tilldelats kan en forskare uppskatta effekten av att utarbetas för alla män i utkastet. Men Angrist ville inte veta effekten av att utarbetas; han ville veta effekten av att tjäna i militären. För att göra denna uppskattning krävs dock ytterligare antaganden och komplikationer. För det första måste forskare anta att det enda sättet att utarbetas påverkat intäkter är genom militär service, ett antagande kallas uteslutningsbegränsningen . Detta antagande kan vara fel om till exempel män som utarbetats stannade kvar i skolan längre för att undvika att tjäna eller om arbetsgivare hade mindre benägenhet att anställa män som utarbetades. I allmänhet är uteslutningsbegränsningen ett kritiskt antagande, och det är vanligtvis svårt att verifiera. Även om uteslutningsbegränsningen är korrekt är det fortfarande omöjligt att uppskatta tjänstens effekt på alla män. Istället visar det sig att forskare bara kan uppskatta effekten på en viss delmängd av män som kallas komplikatorer (män som skulle tjäna när de utarbetades men inte skulle tjäna när de inte ritades) (Angrist, Imbens, and Rubin 1996) . Jämförare var dock inte den ursprungliga befolkningen av intresse. Observera att dessa problem uppstår även i det relativt rena fallet av utkastet till lotteri. En ytterligare uppsättning komplikationer uppstår när behandlingen inte tilldelas av en fysisk lotteri. Till exempel i Mas och Morettis studie av kassörare uppstår ytterligare frågor om antagandet att tilldelningen av kamrater är väsentligen slumpmässig. Om detta antagande starkt kränktes kan det skada deras uppskattningar. Sammanfattningsvis kan naturliga experiment vara en kraftfull strategi för att göra kausala uppskattningar från icke-experimentella data, och stora datakällor ökar vår förmåga att utnyttja naturliga experiment när de uppträder. Men det kommer troligtvis att kräva stora omsorgs- och ibland starka antaganden - att gå från vilken natur som har gett upphov till den uppskattning du vill ha.

Den andra strategin som jag skulle vilja berätta för att orsaka kausala uppskattningar från icke-experimentella data beror på att statistisk justering av icke experimentella data försökte redogöra för tidigare existerande skillnader mellan dem som gjorde och inte fick behandlingen. Det finns många sådana justeringsmetoder, men jag kommer att fokusera på en kallad matchning . I matchning ser forskaren igenom icke-experimentella data för att skapa par av människor som är likartade, förutom att man har fått behandlingen och man inte har det. I processen för matchning, forskare faktiskt också beskärning; det vill säga kassera fall där det inte finns någon uppenbar matchning. Således skulle denna metod mer exakt kallas matchande och beskärning, men jag håller fast vid den traditionella termen: matchning.

Ett exempel på kraften i matchande strategier med massiva icke-experimentella datakällor kommer från forskning om konsumentbeteende av Liran Einav och kollegor (2015) . De var intresserade av auktioner som ägde rum på eBay, och i beskrivningen av deras arbete kommer jag att fokusera på effekten av auktionspriset på auktionsresultat, såsom försäljningspriset eller sannolikheten för en försäljning.

Det mest naiva sättet att uppskatta effekten av utgångspriset till försäljningspriset är att helt enkelt beräkna det slutliga priset för auktioner med olika startpriser. Detta tillvägagångssätt skulle vara bra om du ville förutsäga försäljningspriset med utgångspriset. Men om din fråga gäller effekten av utgångspriset, kommer detta tillvägagångssätt inte att fungera eftersom det inte bygger på rättvisa jämförelser. Auktionerna med lägre startpriser kan vara ganska annorlunda än de med högre startpriser (t.ex. de kan vara för olika typer av varor eller inkludera olika typer av säljare).

Om du redan är medveten om de problem som kan uppstå när du gör kausala uppskattningar från icke-experimentella data, kan du hoppa över det naiva tillvägagångssättet och överväga att köra ett fältförsök där du skulle sälja ett visst objekt - säg en golfklubb - med en fast uppsättning auktionsparametrar - säg gratis frakt och auktion öppen i två veckor - men med slumpmässigt tilldelade startpriser. Genom att jämföra de resulterande marknadsresultaten kommer detta fältförsök att ge en mycket tydlig mätning av effekten av utgångspriset till försäljningspriset. Men denna mätning gäller bara för en viss produkt och uppsättning auktionsparametrar. Resultaten kan vara olika, till exempel för olika typer av produkter. Utan en stark teori är det svårt att extrapolera från detta enda experiment till hela spektret av möjliga experiment som kunde ha körts. Fältförsök är dessutom tillräckligt dyra för att det inte skulle vara möjligt att driva alla variationer som du kanske vill försöka.

I motsats till de naiva och experimentella tillvägagångssätten tog Einav och kollegor ett tredje tillvägagångssätt: matchning. Det viktigaste tricket i deras strategi är att upptäcka saker som liknar fältförsök som redan har hänt på eBay. Exempelvis visar figur 2.8 några av de 31 listorna för exakt samma golfklubb - en Taylormade Burner 09 Driver-som säljs av exakt samma säljare - "budgetgolfer". Dessa 31 listor har dock lite olika egenskaper, till exempel olika start pris, slutdatum och fraktkostnader. Med andra ord är det som om "budgetgolfer" kör experiment för forskarna.

Dessa listor av Taylormade Burner 09 Driver som säljs av "budgetgolfer" är ett exempel på en matchad uppsättning listor, där exakt samma objekt säljs av exakt samma säljare, men varje gång med lite olika egenskaper. Inom eBays massiva loggar finns det bokstavligen hundratusentals matchade set med miljontals listor. I stället för att jämföra slutpriset för alla auktioner med ett givet startpris jämförde Einav och kollegor inom matchade set. För att kombinera resultat från jämförelserna inom dessa hundratusentals matchade uppsättningar, uttryckte Einav och kollegor startpriset och slutpriset i förhållande till referensvärdet för varje föremål (t.ex. det genomsnittliga försäljningspriset). Om t ex Taylormade Burner 09 Driver hade ett referensvärde på $ 100 (baserat på försäljningen), skulle ett startpris på $ 10 uttryckas som 0,1 och ett slutligt pris på $ 120 som 1,2.

Figur 2.8: Ett exempel på en matchad uppsättning. Det här är exakt samma golfklubb (en Taylormade Burner 09 Driver) som säljs av exakt samma person ("budgetgolfer"), men vissa av dessa försäljningar utfördes under olika förhållanden (t.ex. olika startpriser). Reproducerad med tillstånd från Einav et al. (2015) , figur 1b.

Minns att Einav och kollegor var intresserade av effekten av startpris på auktionsresultat. För det första använde de linjär regression för att uppskatta att högre startpriser minskar sannolikheten för en försäljning, och att högre startpriser ökar det slutliga försäljningspriset (förutsatt att en försäljning sker). I själva verket är dessa uppskattningar, som beskriver ett linjärt förhållande och är genomsnittliga för alla produkter, inte så intressanta. Sedan använde Einav och kollegor den enorma storleken av deras data för att skapa en mängd fler subtila uppskattningar. Till exempel, genom att uppskatta effekten separat för olika startpriser, fann de att förhållandet mellan startpris och försäljningspris är olinjärt (figur 2.9). I synnerhet för att starta priser mellan 0,05 och 0,85 har utgångspriset mycket liten inverkan på försäljningspriset, ett konstaterande som helt missades av sin första analys. Vidare beräknade Einav och kollegor, i stället för medeltal över alla objekt, effekterna av startpriset för 23 olika kategorier av föremål (t.ex. husdjursleveranser, elektronik och sportminnesmärken) (figur 2.10). Dessa uppskattningar visar att för mer särskiljande föremål - till exempel memorabilia-startpriset har en mindre effekt på sannolikheten för en försäljning och en större effekt på det slutliga försäljningspriset. Vidare, för mer commodifierade föremål - som DVD-skivor - har startpriset nästan ingen inverkan på slutpriset. Med andra ord döljer ett genomsnitt som kombinerar resultat från 23 olika kategorier av objekt viktiga skillnader mellan dessa objekt.

Figur 2.9: Förhållande mellan auktionspris och sannolikhet för försäljning (a) och försäljningspris (b). Det finns ungefär ett linjärt förhållande mellan startpris och försäljnings sannolikheten, men ett olinjärt förhållande mellan startpris och försäljningspris; för att starta priser mellan 0,05 och 0,85 har utgångspriset mycket liten inverkan på försäljningspriset. I båda fallen är relationerna i grunden oberoende av objektvärde. Anpassad från Einav et al. (2015) , figurerna 4a och 4b.

Figur 2.10: Uppskattningar från varje kategori av objekt; Den fasta punkten är uppskattningen för alla kategorier som samlas ihop (Einav et al. 2015) . Dessa uppskattningar visar att för mer särskiljande objekt, såsom memorabilia, har startpriset en mindre effekt på sannolikheten för en försäljning ( $x$ -ax) och en större effekt på det slutliga försäljningspriset ( $y$ -axel). Anpassad från Einav et al. (2015) , figur 8.

Även om du inte är särskilt intresserad av auktioner på eBay, måste du beundra det sätt som figur 2.9 och figur 2.10 ger en rikare förståelse av eBay än enkla uppskattningar som beskriver ett linjärt förhållande och kombinerar många olika kategorier av objekt. Även om det vore vetenskapligt möjligt att generera dessa mer subtila uppskattningar med fältförsök skulle kostnaden göra sådana experiment väsentligen omöjliga.

Som med naturliga experiment finns det ett antal sätt att matchning kan leda till dåliga uppskattningar. Jag tror att den största oroen med matchande uppskattningar är att de kan vara förspända av saker som inte användes i matchningen. Till exempel, i deras huvudsakliga resultat, gjorde Einav och kollegor exakt matchning på fyra egenskaper: säljarens ID-nummer, produktkategori, artikeltitel och textning. Om objekten var olika på sätt som inte användes för matchning, kan det här leda till en orättvis jämförelse. Till exempel, om "budgetgolfer" sänkte priserna för Taylormade Burner 09 Driver på vintern (när golfklubbarna är mindre populära) kan det visa sig att lägre startpriser leder till lägre slutpriser, när det i själva verket skulle vara en artefakt av säsongsvariation i efterfrågan. Ett sätt att ta itu med denna oro är att försöka många olika typer av matchning. Exempelvis upprepade Einav och kollegor sin analys medan de ändrade tidsfönstret som användes för matchning (matchade uppsättningar inkluderade objekt som skulle säljas inom ett år, inom en månad och samtidigt). Lyckligtvis hittade de liknande resultat för alla tidsfönster. Ett ytterligare problem med matchning härrör från tolkning. Uppskattningar från matchning gäller endast för matchad data; De gäller inte de fall som inte kunde matchas. Till exempel, genom att begränsa sin forskning till objekt som hade flera listor, fokuserar Einav och kollegor på professionella och semi-professionella säljare. När vi tolkar dessa jämförelser måste vi därför komma ihåg att de endast gäller för denna delmängd av eBay.

Matchning är en kraftfull strategi för att hitta rättvisa jämförelser i icke-experimentella data. För många samhällsvetenskapliga experter matchar matchning näst bästa till experiment, men det är en tro som kan revideras, något. Matchning i massiva data kan vara bättre än ett litet antal fältförsök när (1) heterogenitet i effekter är viktig och (2) de viktiga variabler som behövs för matchning har uppmätts. Tabell 2.4 ger några andra exempel på hur matchning kan användas med stora datakällor.

Tabell 2.4: Exempel på studier som matchar stora datakällor
Substantiv fokusering	Stor datakälla	Referens
Effekt av skottningar på polisvåld	Stop-and-frisk-poster	Legewie (2016)
Effekt av september 11, 2001 om familjer och grannar	Röstningsrekord och bidragsrekord	Hersh (2013)
Social smitta	Kommunikations- och produktupptagningsdata	Aral, Muchnik, and Sundararajan (2009)

Sammanfattningsvis är det svårt att uppskatta kausala effekter från icke-experimentella data, men metoder som naturliga experiment och statistiska anpassningar (t.ex. matchning) kan användas. I vissa situationer kan dessa tillvägagångssätt gå väldigt fel, men när de används noggrant kan dessa tillvägagångssätt vara ett användbart komplement till det experimentella tillvägagångssättet som jag beskriver i kapitel 4. Vidare verkar dessa två tillvägagångssätt särskilt gynna tillväxten av alltid- på stora datasystem.