2.4.3.2 Matching

Zodpovedajúce vytvoriť spravodlivé porovnaní o prerezávanie preč prípadov.

Spravodlivé porovnanie môžu pochádzať buď z randomizovanej kontrolovanej experimentov alebo prírodnými experimenty. Ale existuje mnoho situácií, keď nemožno spustiť ideálne experiment a príroda nie sú poskytované prirodzený experiment. V týchto nastaveniach je najlepší spôsob, ako vytvoriť spravodlivé porovnanie je zodpovedajúca. V párovanie, výskumník pozerá cez non-experimentálnymi dátami pre vytvorenie dvojice ľudí, ktorí sú podobné, s výnimkou, že jeden prijal liečbu a jeden nemá. V procese párovania, vedci sú vlastne tiež prerezávania; to znamená, odhadzovať prípady, keď nie sú k dispozícii žiadne zjavné porovnanie. Preto táto metóda by sa presnejšie nazýva párovanie-and-prerezávanie, ale budem držať tradičného výrazu: zhodu.

Krásny príklad sily zodpovedajúcej stratégie s masívnymi neexperimentálních dátových zdrojov pochádzajú z výskumu správania spotrebiteľov prostredníctvom Liran Einav a kolegovia (2015) . Einav a jeho kolegovia sa zaujímali o aukciách, ktoré sa konajú na eBay a pri popisovaní ich práci, budem sústrediť na jeden konkrétny aspekt: ​​Vplyv vyvolávacia cena v aukcii výsledky, ako je napríklad kúpnej ceny alebo pravdepodobnosť predaja.

Najviac naivný spôsob, ako odpovedať na otázku o vplyve na predajné ceny vyvolávacou cenou by bolo jednoducho vypočítať konečnú cenu v aukciách s rôznymi východiskovými cenami. Tento prístup by bolo v poriadku, ak si proste chcete predpovedať predajnú cenu daného predmetu, ktorý bol kladený na eBay s danou vyvolávacou cenou. Ale ak vaša otázka je, aký je vplyv vyvolávacia cena na výsledky trhu tento prístup nebude fungovať, pretože nie je založený na reálnych porovnaní; aukcie s nižšími cenami východiskovými môže byť úplne odlišný od dražby s vyššími cenami východiskovými (napr, môžu byť pre rôzne druhy tovaru alebo obsahujú rôzne typy predajcov).

Ak ste už obavy o tom, spravodlivé porovnanie, môžete preskočiť naivný prístup a uvažovať o spustení pole experiment, kde sa bude predávať ako zvláštny bod-povedať, golfový klub-s pevnou sadou aukčných parametroch-povedať, doprava zdarma, aukcie otvorené po dobu dvoch týždňov, atď., ale s náhodne nastavená vyvolávacej ceny. Porovnaním výsledné trhové výsledky, bolo toto pole experiment by ponúkla veľmi jasnú meranie vplyvu začína cenu na predajné ceny. Ale toto meranie by sa vzťahovalo len na jednu konkrétnu výrobok a súbor aukčných parametrov. Výsledky sa môžu líšiť, napríklad pre rôzne typy produktov. Bez silnej teóriu, že je ťažké extrapolácia tohto jediného pokusu o úplný rozsah možných experimentov, ktoré by mohli byť po zábehu. Ďalej, poľné pokusy sú dostatočne drahé, že by bolo nemožné prevádzkovať dosť z nich tak, aby pokrýval celú priestoru parametrov výrobkov a typov aukcií.

Na rozdiel od naivné prístup a experimentálny prístup, Einav a kolegovia sa tretí prístup: zhodu. Hlavný trik ich stratégie je objavovať veci podobné poľných pokusov, ktoré sa už stali na eBay. Napríklad Obrázok 2.6 ukazuje niektoré z 31 výpisov za presne rovnakú golfové palice-a TaylorMade Burner 09 Driver-, ktoré sa predávajú podľa presne rovnaký seller- "budgetgolfer". Avšak, tieto zoznamy majú mierne odlišné vlastnosti. Jedenásť z nich ponúkajú vodičovi za fixnú cenu $ 124,99, zatiaľ čo zvyšných 20 sú aukcie s rôznymi koncovými dátami. Tiež výpisy majú rôzne prepravné poplatky, a to buď $ 7,99 alebo 9,99 $. Inými slovami, je to, ako keby "budgetgolfer" beží experimenty pre výskumných pracovníkov.

Výpisy z Taylormade horáka 09 ovládača predáva "budgetgolfer" sú jedným príkladom príslušné nastavenia výpisov, kde je presne rovnaké položky predávajú podľa presne rovnaké predajcu, ale zakaždým s mierne odlišnými vlastnosťami. V rámci masívnych klád eBay tam sú doslova stovky tisíc zladených súprav zahŕňajúcich milióny výpisov. Tak, skôr než porovnávanie konečnú cenu pre všetkých aukciách v danom vyvolávaciu cenou, Einav a jeho kolegovia vykonať porovnanie vnútri uzavreté sád. Aby bolo možné kombinovať výsledky z porovnania v rámci týchto státisícov zladených sád, Einav a jeho kolegovia re-vyjadriť vyvolávacia cena a konečnú cenu, pokiaľ ide o referenčnej hodnote každej položky (napr, jeho priemerná predajná cena). Napríklad, v prípade, že horák 09 Taylormade vodič má referenčnú hodnotu $ 100 (na základe predaja), potom cenu od $ 10 by bol vyjadrený ako 0,1 a konečná cena $ 120 by byť vyjadrený ako 1,2.

Obrázok 2.6: Príklad ucelenú sadu. Je to ten istý golfový klub (a TaylorMade Burner 09 Driver) sa predáva presne rovnakou osobou (budgetgolfer), ale niektoré z týchto predajov boli vykonané rôzne podmienky (napr odlišný Vyvolávacia cena). Obrázok prevzatý z Einav et al. (2015).

Obrázok 2.6: Príklad ucelenú sadu. Je to ten istý golfový klub (a TaylorMade Burner 09 Driver) sa predáva presne rovnakou osobou ( "budgetgolfer"), ale niektoré z týchto predajov boli vykonané rôzne podmienky (napr odlišný Vyvolávacia cena). Obrázok prevzatý z Einav et al. (2015) .

Pripomeňme si, že Einav a jeho kolegovia sa zaujímali o vplyve štartovacie cenu v aukcii výsledky. Po prvé, pomocou lineárnej regresie oni Odhaduje sa, že vyššie ceny začínajú znižovať pravdepodobnosť predaja, a že vyššie ceny východiskovej navýšiť konečnú predajnú cenu, podmienečný na predaj vyskytujúce. Samy o sebe tieto odhady-ktorá sa spriemerujú na všetky produkty a predpokladá lineárny vzťah medzi vyvolávacou cenou a konečné výsledky, nie je všetko tak zaujímavé. Ale Einav a jeho kolegovia tiež použiť masívne veľkosť ich dát pre odhad rad jemnejších nálezov. Po prvé, Einav a jeho kolegovia tieto odhady oddelene pre položky rozdielnymi cenami a bez použitia lineárnej regresie. Zistili, že keď je pomer medzi cenou a počiatočnou pravdepodobnosť predaja je lineárny vzťah medzi vyvolávacou cenou a predajnou cenou je zjavne nelineárna (obrázok 2.7). Najmä pre začínajúcich cien medzi 0,05 a 0,85, vyvolávacia cena má veľmi malý vplyv na predajné ceny, zistenie, že bola dokončená chýbal v analýze, ktorá sa predpokladať lineárny vzťah.

Obrázok 2.7: Vzťah medzi Vyvolávacia cena a pravdepodobnosť predaja (ľavý panel) a predajnou cenou (pravý panel). K dispozícii je približne lineárny vzťah medzi počiatočnou cenou a pravdepodobnosť predaja, ale tam je nelineárny vzťah medzi počiatočnou cenou a predajnou cenou; pre začínajúcich cien medzi 0,05 a 0,85, vyvolávacia cena má veľmi malý vplyv na predajné ceny. V oboch prípadoch, vzťahy sú v podstate nezávislé na hodnote položky. Tieto grafy reprodukovať obr 4a a 4b Einav et al. (2015).

Obrázok 2.7: Vzťah medzi Vyvolávacia cena a pravdepodobnosť predaja (ľavý panel) a predajnou cenou (pravý panel). K dispozícii je približne lineárny vzťah medzi počiatočnou cenou a pravdepodobnosť predaja, ale tam je nelineárny vzťah medzi počiatočnou cenou a predajnou cenou; pre začínajúcich cien medzi 0,05 a 0,85, vyvolávacia cena má veľmi malý vplyv na predajné ceny. V oboch prípadoch, vzťahy sú v podstate nezávislé na hodnote položky. Tieto grafy reprodukovať obr 4a a 4b Einav et al. (2015) .

Po druhé, skôr než priemerne cez všetky položky, Einav a jeho kolegovia tiež používať obrovský rozsah ich dát odhadnúť vplyv vyvolávacou cenou 23 rôznych druhov zásielok (napr chovateľských potrieb, elektroniky a športové memorabílie) (Obrázok 2.8). Tieto odhady ukazujú, že viac výrazných predmetov, ako sú napríklad memorabílie-start cena má menší vplyv na pravdepodobnosť predaja a väčší vplyv na konečnej predajnej ceny. Ďalej, pre viac commodified položky-, ako sú DVD a video-štartovacie cenou nemá takmer žiadny vplyv na konečnú cenu. Inými slovami, v priemere, ktorý kombinuje výsledky z 23 rôznych druhov zásielok skrýva dôležité informácie o rozdieloch medzi týmito.

Obrázok 2.8: Výsledky ukázali odhady z každej kategórie osobitne; Pevná látka bodka v odhade pre všetky kategórie, ktoré sú zoskupené, Tabuľka 11 (Einav et al. 2015, tabuľka 11). Tieto odhady ukazujú, že viac charakteristických bodov, ako je napríklad memorabílie-start cena má menší vplyv na pravdepodobnosť predaja (os x) a väčší vplyv na konečnej predajnej ceny (os y).

Obrázok 2.8: Výsledky ukázali odhady z každej kategórie osobitne; Pevná látka bodka v odhade pre všetky kategórie zhromaždených dohromady (Einav et al. 2015, Table 11) . Tieto odhady ukazujú, že viac charakteristických bodov, ako je napríklad memorabílie-start cena má menší vplyv na pravdepodobnosť predaja (os x) a väčší vplyv na konečnej predajnej ceny (os y).

Dokonca aj keď nie sú príliš záujem o aukciách na eBay, musíte obdivovať spôsob, akým Obrázok 2.7 a Obrázok 2.8 ponúkajú bohatší pochopenie eBay než jednoduché lineárnej regresnej odhady, ktoré predpokladajú lineárne vzťahy a kombinujú mnoho rôznych druhov zásielok. Tieto jemnejšie odhady ilustrujú silu zodpovedajúcu masívne dát; Tieto odhady by nebolo možné bez obrovského počtu poľných pokusov, čo by bolo neprimerane nákladné.

Samozrejme, že by sme mali mať menej dôvery vo výsledkoch akéhokoľvek konkrétneho štúdia zodpovedajúce než by sme vo výsledkoch porovnateľnej experimentu. Pri posudzovaní výsledkov z ľubovoľného zodpovedajúce štúdie, existujú dva vážne obavy. Po prvé, musíme mať na pamäti, že môžeme zabezpečiť len spravodlivé porovnanie na veci, ktoré boli použité pre párovanie. Vo svojich hlavných výsledkov, Einav a jeho kolegovia sa presný zodpovedajúce na štyri charakteristiky: Predávajúci číslo, kategória položka, názov položky, a titulkov. V prípade, že predmety boli rôzne spôsoby, ktoré neboli použité pre vyrovnanie, ktoré by mohli viesť k neprimeranému porovnanie. Napríklad, ak "budgetgolfer" zníženie cien za TaylorMade Burner 09 Driver v zime (pri golfové kluby sú menej populárne), potom by sa mohlo zdať, že nižšie ceny začínajú viesť k zníženiu konečnej ceny, aj keď v skutočnosti to bude artefakt sezónne variácie v dopyte. Všeobecne platí, že najlepší prístup k tomuto problému sa zdá, že sa snažia veľa rôznych druhov párovanie. Napríklad Einav a jeho kolegovia opakovať ich analýzu, kde uzavreté sety obsahujú položky na predaj počas jedného roka, počas jedného mesiaca a súčasne. Tvorba časové okno tesnejší znižuje počet zhodných sád, ale znižuje obavy o sezónnosť. Našťastie sa zistí, že výsledky sú nezmenené týmito zmenami v zodpovedajúcich kritérií. V zodpovedajúcej literatúre, tento druh záujmu je zvyčajne vyjadrená signatúry a unobservables, ale kľúč myšlienka je v skutočnosti, že výskumníci sa vytvára len spravodlivé porovnanie na funkciách používaných v párovaní.

Druhým závažným problémom pri interpretácii zodpovedajúce výsledky, je, že sa použije len s dátami; ktoré sa nevzťahujú na prípady, ktoré nemohli byť uzavreté. Napríklad tým, že obmedzí svoj výskum s položkami, ktoré mali viac zápisov Einav a jeho kolegovia sú zamerané na profesionálnych a poloprofesionálnych predajcov. Preto, keď interpretácii týchto porovnaní nesmieme zabúdať, že sa vzťahujú len na tejto podskupiny eBay.

Zhoda je silný stratégie pre nájdenie spravodlivé porovnanie vo veľkých dátových sadách. Pre mnoho spoločenských vedcov, párovanie sa cíti ako druhý najlepší pokusov, ale to je viera, že by mali byť revidované, nepatrne. Zodpovedajúce v masívnych dát môže byť lepšie, ako u malého počtu poľných pokusov, keď: je dôležité 1) heterogenita účinky a 2) existujú dobré observables pre párovanie. Tabuľka 2.4 poskytuje niektoré ďalšie príklady, ako môže byť použitý zodpovedajúci s veľkými dátovými zdrojmi.

Tabuľka 2.4: Príklady štúdií, ktoré používajú v rovnakom dizajne nájsť spravodlivé porovnanie s digitálnymi stopami.
vecného zamerania Veľký zdroj dát citácie
Vplyv střeleb o policajné násilie Stop-and-prehľadať záznamy Legewie (2016)
Vplyv 11. septembra 2001 na rodiny a susedov Hlasovacie záznamy a záznamy darovanie Hersh (2013)
sociálna nákaza Komunikácia a prijatie údajmi o výrobku Aral, Muchnik, and Sundararajan (2009)

Záverom možno povedať, naivné prístupy k odhadu kauzálny efekty z non-experimentálnych dát sú nebezpečné. Avšak stratégia pre výrobu príčinnej odhady ležiace pozdĺž kontinua od najsilnejšej do najslabšie, a výskumníci môžu objaviť spravodlivé porovnanie v rámci non-experimentálnymi dátami. Rast neustále zapnutý, veľkých dátových systémov zvyšuje našu schopnosť efektívne využívať dve existujúce metódy: prírodné experimenty a zosúlaďovanie potrieb.