2.4.3 sbližování experimenty

Tento překlad byl vytvořen na počítači. ×

2.4.3 sbližování experimenty

Můžeme přiblížit experimenty, které nemůžeme nebo nemůžeme udělat. Dva přístupy, které obzvláště těží z velkých datových zdrojů, jsou přirozené experimenty a shody.

Některé důležité vědecké a politické otázky jsou kauzální. Například, jaký je dopad programu odborné přípravy na mzdy? Výzkumný pracovník, který se pokusí odpovědět na tuto otázku, by mohl srovnávat příjmy lidí, kteří se přihlásili ke školení, na ty, kteří to neudělali. Ale kolik z rozdílu v mezích mezi těmito skupinami je kvůli tréninku a kolik je kvůli preexistujícím rozdílům mezi lidmi, kteří se přihlásí, a těmi, kteří to neudělají? Jedná se o obtížnou otázku, a to je jedno, které automaticky nezmizí s více datami. Jinými slovy vzbuzuje obavy z možných předcházejících rozdílů bez ohledu na to, kolik pracovníků je ve vašich datech.

V mnoha situacích je nejsilnějším způsobem, jak odhadnout příčinný účinek nějaké léčby, jako je pracovní trénink, spuštění randomizovaného kontrolovaného experimentu, kdy výzkumník náhodně přináší léčbu některým lidem a nikoliv jiným. Věnuji celou kapitolu 4 experimentům, takže se zde zaměřím na dvě strategie, které lze použít s nepermanentními daty. První strategie závisí na tom, zda se ve světě něco stane, že náhodně (nebo téměř náhodně) přiřadí léčbu některým lidem a nikoli jiným. Druhá strategie závisí na statistickém přizpůsobení neprováděných údajů ve snaze zohlednit preexistující rozdíly mezi těmi, kteří udělali a nepřijímali léčbu.

Skeptik by mohl tvrdit, že oba tyto strategie je třeba vyhnout, protože vyžadují silné předpoklady, předpoklady, které lze obtížně posoudit a které jsou v praxi často porušovány. Zatímco jsem s tímto tvrzením soucit, myslím, že to jde trochu daleko. Je jistě pravda, že je obtížné spolehlivě provést kauzální odhady z nepe experimentálních dat, ale nemyslím si, že to znamená, že bychom se nikdy neměli snažit. Konkrétně ne-experimentální přístupy mohou být užitečné, pokud logistické omezení brání v provádění experimentu nebo pokud etické omezení znamená, že nechcete spustit experiment. Dále mohou být neprojektivní přístupy užitečné, pokud chcete využít data, která již existují pro návrh randomizovaného kontrolovaného experimentu.

Před zahájením je třeba také poznamenat, že tvorba kauzálních odhadů je jedním z nejsložitějších témat společenského výzkumu, a to může vést k intenzivní a emocionální debatě. V následujícím textu poskytnu optimistický popis jednotlivých přístupů, abych si vytvořil intuici, a pak popíšu některé z problémů, které vznikají při používání tohoto přístupu. Další podrobnosti o každém přístupu jsou k dispozici v materiálech na konci této kapitoly. Pokud hodláte použít jeden z těchto přístupů ve svém vlastním výzkumu, doporučuji si číst jednu z mnoha vynikajících knih o kauzálním závěru (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

Jedním přístupem k vytvoření kauzálních odhadů z nepermanentních dat je hledat událost, která náhodně přidělila léčbu některým lidem a nikoliv jiným. Tyto situace se nazývají přírodní experimenty . Jeden z nejjasnějších příkladů přirozeného experimentu pochází z výzkumu Joshua Angrista (1990) měří dopad vojenských služeb na výdělky. Během války ve Vietnamu Spojené státy zvýšily velikost svých ozbrojených sil prostřednictvím návrhu. Aby se rozhodlo, které občany budou uvedeny do služby, vláda USA provozovala loterii. Každé datum narození bylo napsáno na kus papíru a jak je ukázáno na obrázku 2.7, byly tyto kusy papíru vybrány jeden po druhém, aby se určil pořadí, ve kterém by mladí muži byli povoláni sloužit (mladé ženy nebyly předmětem k návrhu). Na základě výsledků byli muži, kteří se narodili 14. září, jmenováni jako první, muži narozeni 24. dubna byli voláni na druhé místo a tak dále. Konečně v této loterii byly vypsány muži narozeni na 195 různých dnech, zatímco muži narozeni na 171 dnech nebyli.

Obr. 2.7: Kongresman Alexander Pirnie (R-NY), který si 1. prosince 1969 vytáhl první tobolku pro návrh Selektivní služby. Joshua Angrist (1990) kombinoval návrh loterie s údaji o příjmech ze správy sociálního zabezpečení, aby odhadl vliv vojenské služby na příjmy. Toto je příklad výzkumu při použití přirozeného experimentu. Zdroj: US Selective Service System (1969) / Wikimedia Commons .

Ačkoli to nemusí být okamžitě zřejmé, návrh loterie má kritickou podobnost s randomizovaným kontrolovaným experimentem: v obou situacích jsou účastníci náhodně přiřazeni k léčbě. Abychom mohli studovat účinek této randomizované léčby, Angrist využíval neustálý velký datový systém: US Social Security Administration, která shromažďuje informace o prakticky všech amerických výdělcích z zaměstnání. Kombinací informací o tom, kdo byl náhodně vybraný v návrhu loterie s údaji o příjmech, které byly shromážděny ve vládních administrativních záznamech, Angrist dospěl k závěru, že výdělky veteránů byly o 15% nižší než příjmy srovnatelných ne veteranů.

Jak ukazuje tento příklad, někdy sociální, politické nebo přirozené síly přiřazují léčbu způsobem, který mohou vědci využít, a někdy jsou účinky těchto léčiv zachyceny v neustálých rozsáhlých zdrojích dat. Tato výzkumná strategie může být shrnuta takto: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

Abychom ilustrovali tuto strategii v digitálním věku, uvažujme o studii Alexandre Mas a Enrico Moretti (2009) která se snažila odhadnout vliv práce s produktivními kolegy na produktivitu pracovníka. Než se podíváte na výsledky, stojí za to zdůraznit, že existují konfliktní očekávání, které byste mohli mít. Na jedné straně byste mohli očekávat, že práce s produktivními kolegy bude vést pracovníka, aby zvýšil svou produktivitu kvůli vzájemnému tlaku. Nebo na druhou stranu byste mohli očekávat, že s těžko pracujícími vrstevníky může vést k tomu, že by pracovník mohl ublížit, protože práce bude dělat i její kolegové. Nejjasnějším způsobem studia studijních efektů na produktivitu by byl randomizovaný kontrolovaný experiment, kde jsou pracovníci náhodně přiděleni k posunům s pracovníky s různou úrovní produktivity a výsledná produktivita se měří pro všechny. Výzkumní pracovníci však nekontrolují plán pracovníků v žádném skutečném podnikání, a proto se Mas a Moretti museli spoléhat na přirozený experiment zahrnující pokladníky v supermarketu.

V tomto konkrétním supermarketu, kvůli způsobu, jakým bylo plánování provedeno, a způsobem, jakým se přesuny překrývají, měl každý pokladník různé spolupracovníky v různých dnech. Dále, v tomto konkrétním supermarketu, přidělení pokladníků nesouviselo s produktivitou svých vrstevníků nebo s tím, jak byl obchod obsazen. Jinými slovy, i když plánování pokladníků nebylo určováno loterií, bylo to, jako kdyby někdy byli pracovníci náhodně přiděleni k práci s vysokými (nebo nízkými) produktivními vrstevníky. Naštěstí měl tento supermarket také systém pro pokladny digitálního věku, který sledoval položky, které každý pokladník stále skenoval. Z těchto údajů o záznamu v pokladně dokázaly Mas a Moretti vytvořit přesné, individuální a vždy na míru produktivitu: počet snímků za sekundu. Kombinace těchto dvou věcí - přirozeně se vyskytující rozdíly v produkci vrstevníků a neustálé míry produktivity - Mas a Moretti odhadují, že pokud by byl pokladník přidělen spolupracovníkům, kteří byli o 10% produktivnější než průměr, produktivita by se zvýšila o 1,5% . Dále používali velikost a bohatost svých údajů k prozkoumání dvou důležitých otázek: heterogenita tohoto efektu (pro které druhy pracovníků je účinek větší?) A mechanismy, které ovlivňují efekt (Proč má vysoko-produktivita vrstevníci vyšší produktivita?). Vrátíme se k těmto dvěma důležitým otázkám - heterogenitě léčebných účinků a mechanismů - v kapitole 4, když podrobněji diskutujeme o experimentech.

Zobecněním z těchto dvou studií tabulka 2.3 shrnuje další studie, které mají stejnou strukturu: pomocí zdroje vždy na základě údajů, který měří vliv některých náhodných změn. V praxi vědci používají dvě různé strategie pro hledání přirozených experimentů, z nichž obě mohou být plodné. Někteří výzkumníci začínají vždy zdrojem dat a hledají náhodné události ve světě; jiní začínají náhodnou událostí na světě a hledají zdroje dat, které zachycují její dopad.

Tabulka 2.3: Příklady přírodních experimentů využívajících velké zdroje dat
Věcné zaměření	Zdroj přirozeného experimentu	Vždy zapnutý zdroj dat	Odkaz
Peer efekty na produktivitu	Proces plánování	Údaje o kontrole	Mas and Moretti (2009)
Tvorba přátelství	Hurikány	Facebook	Phan and Airoldi (2015)
Rozptýlení emocí	Déšť	Facebook	Lorenzo Coviello et al. (2014)
Peer-to-peer ekonomické převody	Zemětřesení	Údaje o mobilních penězích	Blumenstock, Fafchamps, and Eagle (2011)
Chování osobní spotřeby	2013 vláda USA vypnutí	Údaje o osobních financích	Baker and Yannelis (2015)
Ekonomický dopad doporučovacích systémů	Rozličný	Procházení dat na Amazonu	Sharma, Hofman, and Watts (2015)
Vliv stresu na nenarozené děti	2006 Izrael-Hizballáh válka	Záznamy o narození	Torche and Shwed (2015)
Čtení chování na Wikipedii	Snowdenové odhalení	Wikipedia záznamy	Penney (2016)
Peer účinky na cvičení	Počasí	Fitness trackery	Aral and Nicolaides (2017)

V dosavadní diskusi o přirozených experimentech jsem vynechal důležitý bod: jít z toho, co příroda poskytla to, co chcete, může být někdy docela složitá. Vraťme se k příkladu Vietnamu. V tomto případě se Angrist zajímal o odhad vlivu vojenské služby na výdělky. Bohužel vojenská služba nebyla náhodně přidělena; spíše to bylo navrženo, které bylo náhodně přiřazeno. Avšak ne každý, kdo byl navržen, sloužil (existovalo mnoho výjimek) a ne každý, kdo sloužil, byl navržen (lidé by mohli dobrovolně sloužit). Vzhledem k tomu, že byl navržen náhodně přidělený, může badatel odhadnout účinek, že byl navržen pro všechny muže v návrhu. Ale Angrist nechtěl vědět, jaký je účinek toho, že je vypracován; chtěl vědět, jaký vliv má sloužení v armádě. K provedení tohoto odhadu se však vyžadují další předpoklady a komplikace. Zaprvé, vědci musí předpokládat, že jediný způsob, jakým jsou navrhované dopadové příjmy, je prostřednictvím vojenské služby, což je předpoklad nazývaný omezení vyloučení . Tento předpoklad by mohl být špatný, kdyby například muži, kteří byli navrženi, zůstali ve škole déle, aby se vyhnuli porodu, nebo pokud by zaměstnavatelé měli menší pravděpodobnost, že budou najmout muže, kteří byli navrženi. Obecně platí, že omezení vyloučení je kritickým předpokladem a je obvykle obtížné ověřit. I když je omezení vyloučení správné, je stále nemožné odhadnout vliv služby na všechny muže. Místo toho se ukázalo, že vědci mohou pouze odhadnout vliv na určitou podmnožinu mužů, kteří se nazývají komplienti (muži, kteří by sloužili při navrhování, ale nesloužili, když nebyli navrženi) (Angrist, Imbens, and Rubin 1996) . Dodavatelé však nebyli původními obyvateli zájmu. Všimněte si, že tyto problémy vznikají i v relativně čistém případě návrhu loterie. Další sada komplikací vzniká, když léčba není přidělena fyzickou loterií. Například ve studii Mas a Moretti o pokladnách vznikají další otázky ohledně předpokladu, že přiřazení vrstevníků je v podstatě náhodné. Pokud by byl tento předpoklad výrazně narušen, mohl by se odklonit od odhadů. Na závěr mohou být přirozené experimenty silnou strategií pro tvorbu kauzálních odhadů z nepermanentních dat a velké zdroje dat zvyšují naši schopnost využít při přirozených experimentech, kdy se vyskytují. Bude však pravděpodobně vyžadovat velkou péči - a někdy i silné předpoklady -, abyste přešli z toho, co příroda poskytla odhadu, kterou chcete.

Druhá strategie, o které bych vám chtěla říci, že děláte kauzální odhady z nepermanentních dat, závisí na statistickém přizpůsobení nepermanentních dat pokusu o vysvětlení preexistujícího rozdílu mezi těmi, kdo udělali a nepodali léčbu. Existuje mnoho takových úprav, ale budu se soustředit na jeden nazývaný soulad . Při shodě se výzkumník zabývá nepeteriálními daty, aby vytvořil dvojice lidí, kteří jsou podobní, s výjimkou toho, že člověk dostal léčbu a nikdo jiný ne. V procesu sdružování se výzkumníci skutečně také prořezávají ; to znamená vyřazení případů, kdy neexistuje zjevná shoda. Takže tato metoda by byla přesněji nazývána shoda a prořezávání, ale budu držet tradiční výraz: shoda.

Jeden příklad síly odpovídajících strategií s masivními nepermanentními datovými zdroji pochází z výzkumu chování spotřebitelů Liranem Einavem a kolegy (2015) . Měli zájem o dražby, které se konají na eBay, a při popisu jejich práce se zaměřím na vliv aukční ceny na výsledky aukce, jako je prodejní cena nebo pravděpodobnost prodeje.

Nejnezivnějším způsobem, jak odhadnout vliv počáteční ceny na prodejní cenu, je jednoduše vypočítat konečnou cenu aukcí s různými počátečními cenami. Tento přístup by byl v pořádku, pokud byste chtěli předvídat prodejní cenu vzhledem k výchozí ceně. Ale pokud se vaše otázka týká vlivu výchozí ceny, pak tento přístup nebude fungovat, protože není založen na spravedlivých srovnáních; aukce s nižšími výchozími cenami se mohou lišit od těch s vyššími výchozími cenami (např. mohou být pro různé druhy zboží nebo zahrnují různé typy prodejců).

Pokud si již uvědomujete problémy, které mohou nastat při kauzálních odhadech z nepermanentních dat, můžete vynechat naivní přístup a zvážit provedení experimentu v terénu, kde byste prodávali konkrétní položku - řekněme golfový klub - s pevným sada aukčních parametrů - řekněme, doprava zdarma a aukce otevřená po dobu dvou týdnů - ale s náhodně přiřazenými počátečními cenami. Porovnáním výsledných výsledků trhu by tento terénní experiment poskytl velmi jasné měření vlivu výchozí ceny na prodejní cenu. Toto měření by však platilo pouze pro jeden konkrétní produkt a soubor aukčních parametrů. Výsledky se mohou lišit například u různých typů výrobků. Bez silné teorie je obtížné extrahovat z tohoto jediného experimentu celou řadu možných experimentů, které mohly být provedeny. Dále jsou terénní experimenty dostatečně drahé, že by bylo nemožné spustit každou variaci, kterou byste mohli zkusit.

Na rozdíl od naivních a experimentálních přístupů Einav a kolegové udělali třetí přístup: shodu. Hlavním trikem ve své strategii je objevit věci podobné terénním experimentům, které se již na eBay staly. Například obrázek 2.8 ukazuje některé z 31 výpisů pro přesně stejný golfový klub - Taylormade Burner 09 Driver - prodávaný přesně stejným prodávajícím - "budgetgolfer". Nicméně tyto 31 výpisy mají mírně odlišné charakteristiky, cenu, termín a poplatky za dopravu. Jinými slovy, je to tak, jako kdyby "budgetgolfer" vede experimenty pro vědce.

Tyto výpisy ovladače Taylormade Burner 09, které jsou prodávány společností "budgetgolfer", jsou jedním příkladem sladěné sady výpisů, kde přesně stejný předmět prodává přesný stejný prodejce, ale pokaždé s mírně odlišnými charakteristikami. V rámci masivních protokolů eBay jsou doslova stovky tisíců sladěných sad obsahujících miliony výpisů. Tak, spíše než srovnávat konečnou cenu za všechny aukce s danou výchozí cenou, Einav a kolegové porovnávali v rámci shodných sad. Aby bylo možné kombinovat výsledky srovnání v rámci těchto stovek tisíc sladěných sad, Einav a kolegové znovu vyjádřili výchozí cenu a konečnou cenu z hlediska referenční hodnoty každé položky (např. Průměrné prodejní ceny). Pokud by například řidič Taylormade Burner 09 měl referenční hodnotu 100 USD (na základě jeho prodeje), pak by počáteční cena 10 USD byla vyjádřena jako 0,1 a konečná cena 120 USD jako 1,2.

Obrázek 2.8: Příklad sladěné sady. Jedná se o přesně stejný golfový klub (ovladač Taylormade Burner 09 Driver) prodávaný přesně stejnou osobou (budgetgolfer), ale některé z těchto prodejů byly provedeny za různých podmínek (např. Různé výchozí ceny). Reprodukováno na základě povolení od Einav et al. (2015), obrázek 1b.

Obrázek 2.8: Příklad sladěné sady. Jedná se o přesně stejný golfový klub (Taylormade Burner 09 Driver) prodávaný přesně stejnou osobou ("budgetgolfer"), ale některé z těchto prodejů byly provedeny za různých podmínek (např. Různé výchozí ceny). Reprodukováno na základě povolení od Einav et al. (2015) , obrázek 1b.

Připomeňme, že Einav a jeho kolegové se zajímali o vliv počáteční ceny na výsledky aukce. Zaprvé použili lineární regresi, aby odhadli, že vyšší počáteční ceny snižují pravděpodobnost prodeje a že vyšší počáteční ceny zvyšují konečnou prodejní cenu (podmíněné prodejem). Samotné tyto odhady - které popisují lineární vztah a jsou zprůměrovány u všech produktů - nejsou zajímavé. Einav a kolegové pak využili obrovskou velikost svých dat, aby vytvořili řadu jemnějších odhadů. Například odhadem efektu odděleně pro různé počáteční ceny zjistili, že vztah mezi počáteční a prodejní cenou je nelineární (obrázek 2.9). Zejména při spuštění cen mezi 0,05 a 0,85 má počáteční cena velmi malý dopad na prodejní cenu, což bylo zjištění, které bylo zcela zmeškáno jejich první analýzou. Dále namísto průměrování všech položek Einav a kolegové odhadli dopad počáteční ceny na 23 různých kategorií položek (např. Domácí potřeby, elektronika a sportovní memorabílie) (obrázek 2.10). Tyto odhady ukazují, že u výraznějších položek, jako jsou memorabilia, výchozí cena má menší vliv na pravděpodobnost prodeje a větší vliv na konečnou prodejní cenu. Dále, u více komoditních položek - například DVD - výchozí cena nemá téměř žádný vliv na konečnou cenu. Jinými slovy průměr, který kombinuje výsledky z 23 různých kategorií položek, skrývá důležité rozdíly mezi těmito položkami.

Obrázek 2.9: Vztah mezi počáteční cenou dražby a pravděpodobností prodeje (a) a prodejní cenou (b). Existuje zhruba lineární vztah mezi počáteční cenou a pravděpodobností prodeje, ale nelineární vztah mezi počáteční cenou a prodejní cenou; pro počáteční ceny mezi 0,05 a 0,85 má počáteční cena velmi malý dopad na prodejní cenu. V obou případech jsou vztahy v zásadě nezávislé na hodnotě položky. Adaptace od Einav et al. (2015) , obrázky 4a a 4b.

Obrázek 2.10: Odhady jednotlivých kategorií položek; Pevná tečka je odhad pro všechny společné skupiny (Einav et al. 2015) . Tyto odhady ukazují, že u výraznějších položek, jako jsou memorabilie, má výchozí cena menší vliv na pravděpodobnost prodeje ( \(x\) -axis) a větší vliv na konečnou prodejní cenu ( \(y\) -osa). Adaptace od Einav et al. (2015) , obrázek 8.

I když se na eBay nejednáte zvlášť o dražby, musíte obdivovat způsob, jakým obrázek 2.9 a obrázek 2.10 nabízejí bohatší pochopení eBay než jednoduché odhady, které popisují lineární vztah a kombinují mnoho různých kategorií položek. Navíc, ačkoli by bylo vědecky možné generovat tyto jemnější odhady pomocí terénních experimentů, náklady by tyto experimenty prakticky neměly.

Stejně jako při přirozených experimentech existuje řada způsobů, jak toto přizpůsobení může vést k špatným odhadům. Myslím, že největší zájem o shodné odhady je, že mohou být zkresleny věcmi, které nebyly použity při porovnávání. Například ve svých hlavních výsledcích se Einav a kolegové přesně shodovali na čtyřech charakteristikách: identifikační číslo prodávajícího, kategorii položky, název položky a podtitulky. Pokud by se položky lišily různými způsoby, které nebyly použity pro porovnávání, mohlo by to způsobit nespravedlivé srovnání. Například pokud "budgetgolfer" snižuje ceny pro řidiče Taylormade Burner 09 v zimě (kdy jsou golfové hole méně populární), pak by se mohlo zdát, že nižší počáteční ceny vedou k nižším konečným cenám, kdy by to ve skutečnosti bylo artefaktem sezónní variace poptávky. Jeden přístup k řešení tohoto problému se snaží mnoho různých druhů shody. Například Einav a kolegové zopakovali svou analýzu při změně časového okna použitého pro porovnávání (shodné sady zahrnovaly položky do prodeje do jednoho roku, do jednoho měsíce a současně). Naštěstí nalezli podobné výsledky u všech časových oken. Další zájem o shodu vyplývá z výkladu. Odhady od shody se vztahují pouze na shodná data; nevztahují se na případy, které nemohly být splněny. Například omezováním jejich výzkumu na položky, které obsahují více výpisů, se Einav a kolegové zaměřují na profesionální a poloprofesionální prodejce. Proto při interpretaci těchto srovnání musíme mít na paměti, že se vztahují pouze na tuto podskupinu eBay.

Přizpůsobení je silná strategie pro nalezení spravedlivých srovnání v nepe experimentálních datech. Pro mnoho vědců z oblasti společenského vědce se shoda cítí jako nejlepší v experimentech, ale to je přesvědčení, které lze lehce revidovat. Přibližování masivních dat může být lepší než malý počet terénních experimentů, kdy (1) je heterogenita účinků důležitá a (2) byly měřeny důležité proměnné potřebné pro shodu. Tabulka 2.4 uvádí další příklady toho, jak lze porovnávání použít s velkými zdroji dat.

Tabulka 2.4: Příklady studií, které používají shodu s velkými datovými zdroji
Věcné zaměření	Velký zdroj dat	Odkaz
Vliv střelby na policejní násilí	Zastavte a zkreslujte záznamy	Legewie (2016)
Účinky z 11. září 2001 na rodiny a sousedy	Hlasové záznamy a dary	Hersh (2013)
Sociální nákaza	Komunikace a data o přijetí produktu	Aral, Muchnik, and Sundararajan (2009)

Závěrem lze odhadnout kauzální účinky nepermanentních dat obtížně, ale lze použít přístupy jako přirozené experimenty a statistické úpravy (např. Srovnávání). V některých situacích mohou být tyto přístupy špatně špatné, ale pokud jsou opatrně nasazeny, mohou být tyto přístupy užitečným doplňkem experimentálního přístupu, který jsem popsal v kapitole 4. Dále se zdá, že tyto dva přístupy mohou mít obzvlášť výhodu z růstu vždy- na velkých datových systémech.