2.4.3 suderinti eksperimentai

Tai vertimo buvo sukurtas kompiuterio. ×

2.4.3 suderinti eksperimentai

Galime apytiksliai atlikti eksperimentus, kurių mes neturėjome arba negalime padaryti. Du metodai, kurie ypač naudingi dideliems duomenų šaltiniams, yra natūralūs eksperimentai ir atitikimas.

Kai kurie svarbūs moksliniai ir politiniai klausimai yra priežastys. Pavyzdžiui, koks darbo mokymo programos poveikis darbo užmokesčiui? Mokslininkas, bandantis atsakyti į šį klausimą, gali palyginti mokinių, kurie prisiregistravo mokytis, darbo užmokestį tiems, kurie to nepadarė. Bet kiek atlyginimų skirtumas tarp šių grupių yra dėl mokymo ir kiek yra dėl to, kad egzistuoja skirtumai tarp įregistruotų žmonių ir tų, kurie to ne? Tai sudėtingas klausimas, ir tai yra tas, kuris automatiškai nemažina duomenų. Kitaip tariant, susirūpinimas dėl galimų iš anksto egzistuojančių skirtumų kyla nesvarbu, kiek darbuotojų yra jūsų duomenų.

Daugeliu atvejų stipriausias būdas apskaičiuoti tam tikro gydymo, kaip antai darbo mokymo, priežastinį poveikį, yra atlikti atsitiktinių imčių kontroliuojamą eksperimentą, kai tyrėjas atsitiktine tvarka pateikia gydymą kai kuriems žmonėms, o ne kitiems. Aš išskirsiu visus 4 skyriaus eksperimentus, todėl aš ketinu sutelkti dėmesį į dvi strategijas, kurias galima naudoti su neeksperimentiniais duomenimis. Pirmoji strategija priklauso nuo to, ar ieškoma kažko, kas vyksta pasaulyje, atsitiktinai (ar beveik atsitiktine tvarka) priskiria gydymą kai kuriems žmonėms, o ne kitiems. Antroji strategija priklauso nuo statistinių neeksperimentinių duomenų koregavimo, siekiant atsižvelgti į anksčiau egzistuojančius skirtumus tarp tų, kurie padarė ir negavo gydymo.

Skeptikas gali teigti, kad reikėtų vengti šių dviejų strategijų, nes joms reikalingos tvirtos prielaidos, sunkiai įvertintos prielaidos ir dažnai pažeidžiamos prielaidos. Nors aš pritariu šiam teiginiui, manau, kad tai yra šiek tiek per toli. Neabejotinai tiesa, kad sunku patikimai nustatyti priezastinius skaičiavimus iš neeksperimentinių duomenų, bet nemanau, kad tai reiškia, kad niekada neturėtume pabandyti. Visų pirma, ne eksperimentiniai metodai gali būti naudingi, jei logistikos apribojimas neleidžia atlikti eksperimento arba jei etikos apribojimai reiškia, kad nenorite atlikti eksperimento. Be to, ne eksperimentiniai metodai gali būti naudingi, jei norite pasinaudoti jau turimais duomenimis, kad galėtumėte kurti atsitiktinių imčių kontroliuojamą eksperimentą.

Prieš tęsiant, taip pat verta paminėti, kad priežastinių skaičiavimų priėmimas yra viena iš sudėtingiausių socialinių tyrimų temų, o tai gali paskatinti intensyvias ir emocines diskusijas. Toliau pateikiu optimistinį kiekvieno požiūrio apibūdinimą, kad galėčiau sukurti intuiciją, tada apibūdinsiu kai kuriuos sunkumus, iškilusius taikant šį požiūrį. Daugiau informacijos apie kiekvieną metodą rasite šio skyriaus pabaigoje. Jei ketinate naudoti bet kurį iš šių metodų savo tyrimuose, labai rekomenduoju skaityti vieną iš daugelio puikių knygų apie priežastinį išvadą (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

Vienas iš būdų, kaip padaryti priežastinius įvertinimus iš neeksperimentinių duomenų, yra ieškoti įvykio, kuris atsitiktinai priskyrė gydymą kai kuriems žmonėms, o ne kitiems. Šios situacijos vadinamos natūraliais eksperimentais . Vienas iš aiškiausių natūralaus eksperimento pavyzdžių kyla iš Joshua Angrodo (1990) Tyrimo, kuriame matyti karinių tarnybų įtaka darbo užmokesčiui. Per karą Vietname, Jungtinės Valstijos padidino savo ginkluotųjų pajėgų dydį. Kad nuspręstų, kurie piliečiai bus pradėti eksploatuoti, JAV vyriausybė surengė loteriją. Kiekviena gimimo data buvo parašyta ant popieriaus lapo ir, kaip parodyta 2.7 paveiksle, šie popieriniai lapai buvo atrinkti vienu metu, siekiant nustatyti, kokiu būdu jauni vyrai bus pašaukti tarnauti (jaunos moterys nebuvo taikomos prie projekto). Remiantis rezultatais, vyrai, gimę rugsėjo 14 d., Buvo vadinami pirmieji, 24 balandžio mėnesį gimę vyrai buvo vadinami antrąja ir pan. Galiausiai šioje loterijoje buvo parengti vyrai, gimę 195 skirtingų dienų, o 171 dienai gimę vyrai nebuvo.

2.7 paveikslas. Kongreso narys Aleksandras Pirnie (R-NY), kuris 1969 m. Gruodžio 1 d. Paryškė pirmąją kapsulę selektyvios tarnybos projektui. Joshua Angrist (1990) kartu su socialinės apsaugos administracijos pelno duomenimis parengė loterijos projektą, skirtą įvertinti karo tarnybos poveikį apie uždarbį. Tai yra natūralaus eksperimento tyrimo pavyzdys. Šaltinis: JAV atrankinio aptarnavimo sistema (1969) / " Wikimedia Commons" .

Nors tai gali būti ne iš karto akivaizdu, loterijos projektas turi kritinį panašumą į atsitiktinai parinktą kontroliuojamą eksperimentą: abiem atvejais dalyviai yra atsitiktinai priskiriami gydymui. Siekiant ištirti šio atsitiktinių imčių gydymo poveikį, "Angrist" pasinaudojo visada naudojama didelė duomenų sistema: JAV socialinės apsaugos administracija, kuri renka informaciją apie beveik kiekvieną amerikietišką darbo užmokestį. Apibendrinant informaciją apie tai, kas buvo atsitiktinai atrinkta loterijos projekte, su uždarbio duomenimis, kurie buvo surinkti vyriausybės administraciniuose įrašuose, Angstrė padarė išvadą, kad veteranų uždarbis buvo apie 15% mažesnis nei palyginamų ne veterinarų pajamos.

Kaip rodo šis pavyzdys, kartais socialinės, politinės ar gamtos jėgos priskiria gydymą tokiu būdu, kurį gali panaudoti mokslininkai, o kartais šių gydymo padariniai yra visada kaupiami dideliuose duomenų šaltiniuose. Šią mokslinių tyrimų strategiją galima apibendrinti taip: $\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}$

Norėdami iliustruoti šią strategiją skaitmeniniame amžiuje, laikykimės Aleksandro Maso ir Enrico Moretti (2009) Tyrimo, kuriame bandėme įvertinti darbo našių kolegų poveikį darbuotojo našumui. Prieš matydami rezultatus, verta atkreipti dėmesį į tai, kad gali kilti prieštaraujančių lūkesčių. Viena vertus, galite tikėtis, kad bendradarbiavimas su produktyviais kolegomis leistų darbuotojui padidinti našumą dėl vienodo spaudimo. Arba, kita vertus, galite tikėtis, kad sunkiai dirbantys bendraamžiai gali paskatinti darbuotoją atsilikti, nes bet kuriuo atveju darbas bus atliekamas jos bendraamžių. Aiškiausias būdas studijuoti lygiavertį poveikį produktyvumui būtų atsitiktinių imčių kontroliuojamas eksperimentas, kai darbuotojai atsitiktinai priskiriami prie skirtingo našumo lygio darbuotojų, o tada kiekvienam išmatuotas produktyvumas. Tačiau mokslininkai nekontroliuoja darbuotojų, dirbančių tikruoju verslu, tvarkaraštį, todėl Masas ir Moretti turėjo pasikliauti natūraliu eksperimentu, susijusiu su kaseriškais prekybos centru.

Šiame konkrečiame prekybos centre, atsižvelgiant į tai, kaip tvarkaraštis buvo atliktas ir pertvarkytas būdas, kiekvienas kasininkas skirtingais laiko dienomis turėjo skirtingų kolegų. Be to, šiame konkrečiame prekybos centre kasininkų paskyrimas nebuvo susijęs su jų bendraamžių produktyvumu ar tuo, kaip parduotuvė buvo užsiėmusi. Kitaip tariant, nors loterijoje nenustatyta kasininkų tvarkaraštis, kartais darbuotojai kartais buvo atsitiktinai priskirti dirbti su dideliu (arba mažu) produktyvumu lygiaverčiais. Laimei, šis prekybos centras taip pat turėjo skaitmeninio amžiaus kasos sistemą, kuri stebėjo daiktus, kuriuos kiekvienas kasininkas kaskart nuskaitydavo. Iš šio atsiskaitymo žurnalo duomenų "Mas" ir "Moretti" sugebėjo sukurti tikslią, individualią ir nuolatinę našumo priemonę: per sekundę nuskaitytų elementų skaičius. Apibendrinant šiuos du dalykus - natūraliai vykstantį kolektyvinio produktyvumo skirtumą ir nuolatinį produktyvumo rodiklį, Masas ir Moretti apskaičiavo, kad jei kasininkui būtų paskirti kolegos, kurie buvo 10% produktyviau nei vidutiniškai, jos našumas padidėtų 1,5% . Be to, jie naudojo savo duomenų dydį ir turtingumą, siekdami išsiaiškinti du svarbius dalykus: šio poveikio heterogeniškumą (dėl kokių darbuotojų rūšių poveikis yra didesnis?) Ir poveikio mechanizmus (kodėl didelio našumo bendraamžiai lemia didesnis produktyvumas?). Mes grįšime prie šių dviejų svarbių klausimų - gydymo efektų ir mechanizmų heterogeniškumo - 4 skyriuje, kai aptarsime eksperimentus išsamiau.

Apibendrinant iš šių dviejų tyrimų, 2.3 lentelėje apibendrinami kiti tyrimai, turintys tokią pačią struktūrą: naudojant nuolatinį duomenų šaltinį, siekiant įvertinti kai kurių atsitiktinių variantų poveikį. Praktikoje mokslininkai naudoja dvi skirtingas natūralių eksperimentų strategijas, kurios abi gali būti vaisingos. Kai kurie tyrinėtojai pradeda su nuolatiniu duomenų šaltiniu ir ieško atsitiktinių įvykių pasaulyje; kiti pradeda atsitiktinį įvykį pasaulyje ir ieškoti duomenų šaltinių, kurie atspindi jo poveikį.

2.3 lentelė. Natūralių eksperimentų pavyzdžiai naudojant didelius duomenų šaltinius
Esminis dėmesys	Natūralaus eksperimento šaltinis	Visada į duomenų šaltinį	Nuoroda
Peer poveikis produktyvumui	Planavimo procesas	Užsakymo duomenys	Mas and Moretti (2009)
Draugystės formavimas	Uraganai	Facebook	Phan and Airoldi (2015)
Emocijų sklaida	Lietus	Facebook	Lorenzo Coviello et al. (2014)
Vienodi ekonominiai pervedimai	Žemės drebėjimas	Mobiliųjų pinigų duomenys	Blumenstock, Fafchamps, and Eagle (2011)
Asmeninio vartojimo elgesys	2013 m. JAV vyriausybės uždarymas	Asmeniniai finansiniai duomenys	Baker and Yannelis (2015)
Rekomenduojančių sistemų ekonominis poveikis	Įvairūs	Naršoma duomenų "Amazon"	Sharma, Hofman, and Watts (2015)
Streso poveikis negimusioms kūdikiams	2006 Izraelio ir Hezbollah karas	Gimimo įrašai	Torche and Shwed (2015)
Skaitymo elgesys Wikipedia	"Snowden" apreiškimai	Vikipedijos žurnalai	Penney (2016)
Peer poveikis pratimui	Orai	Treniruokliai	Aral and Nicolaides (2017)

Iki šiol kalbant apie natūralius eksperimentus, aš palikau svarbų klausimą: būtent tai, ko gamta teikė tam, ko norite, kartais gali būti gana sudėtinga. Grįžkime prie Vietnamo projekto pavyzdžio. Šiuo atveju "Angoras" buvo suinteresuotas apskaičiuoti karo tarnybos poveikį uždarbiui. Deja, karinė tarnyba nebuvo atsitiktinai priskirta; greičiausiai jis buvo rengiamas, kuris buvo atsitiktinai priskirtas. Tačiau ne visi, kurie buvo parengti, buvo įteikti (buvo įvairių išimčių), o ne visi, kurie tarnavo, buvo parengti (žmonės galėtų savanoriškai tarnauti). Kadangi parengtas buvo atsitiktinai priskirtas, mokslininkas gali įvertinti, kaip projektas rengiamas visiems vyrams. Tačiau Angrodas nenorėjo žinoti, kokį efektą jis rengia; jis norėjo sužinoti, kaip tarnauja kariuomenėje. Tačiau norint atlikti šį įvertinimą, reikalingos papildomos prielaidos ir komplikacijos. Pirma, mokslininkai turi manyti, kad vienintelis būdas, kaip parengti įtaką uždirbtai užduočiai, yra per karinę tarnybą, tai yra prielaida, vadinama atskirties apribojimu . Ši prielaida gali būti neteisinga, jei, pavyzdžiui, vyrai, kurie buvo parengti, liko mokykloje ilgiau, kad išvengtų tarnavimo arba jei darbdaviai mažiau tikėtų samdyti vyrus, kurie buvo parengti. Paprastai išskyrimo apribojimas yra kritinė prielaida, kurią paprastai sunku patikrinti. Net jei išimčių apribojimas yra teisingas, vis tiek neįmanoma įvertinti paslaugų poveikio visiems vyrams. Vietoj to paaiškėja, kad mokslininkai gali įvertinti tik tam tikrą vyrų pogrupį, vadinamą "komplimentai" (vyrams, kurie tarnauja rengiant, bet nebūtų naudojami, kai jie nebus parengti) (Angrist, Imbens, and Rubin 1996) . Tačiau komfortabilumas nebuvo pradinis populiarus interesas. Atkreipkite dėmesį, kad šios problemos kyla net gana švarioje loterijos projekte. Kitas komplikacijų kompleksas kyla, kai gydymas nėra priskirtas fizinei loterijai. Pavyzdžiui, Masės ir Moreto tyrimas kasininkų klausimais kelia papildomų klausimų dėl prielaidos, kad bendraamžių priskyrimas iš esmės yra atsitiktinis. Jei ši prielaida buvo griežtai pažeista, ji gali nukreipti įverčius. Galų gale, natūralūs eksperimentai gali būti galinga strategija, padedanti apskaičiuoti priežastinius duomenis iš neeksperimentinių duomenų, o dideli duomenų šaltiniai padidina mūsų gebėjimą pasinaudoti natūraliais eksperimentais, kai jie įvyksta. Tačiau greičiausiai tai reikės labai atsargiai ir kartais pagrįstų prielaidų - eiti iš to, ką prigimtis pateikė norint.

Antroji strategija, kurią norėčiau jums papasakoti dėl priezastinių įvertinimų, susijusių su neeksperimentiniais duomenimis, priklauso nuo statistinio koregavimo neeksperimentinių duomenų, bandant atsižvelgti į anksčiau egzistuojančius skirtumus tarp tų, kurie padarė ir negavo gydymo. Yra daug tokių koregavimo metodų, bet aš daugiausia dėmesio skirsiu vienam, vadinamam atitikimui . Suderinus tyrėjas žiūri neeksperimentinius duomenis, kad sukurtų panašių žmonių poras, išskyrus tai, kad gydymas buvo gautas, o kitas - ne. Derinant procesą, mokslininkai iš tikrųjų taip pat genėjimo ; tai yra atleidimo atvejai, kai nėra akivaizdžių rungtynių. Taigi šis metodas būtų tiksliau vadinamas atitikimo ir genėjimo, bet aš laikytis tradicinio termino: atitikimas.

Vienas iš pavyzdžių, kaip suderinti strategijas su didžiuliais neeksperimentiniais duomenų šaltiniais, galima rasti tiriant vartotojų elgesį, kurį atliko Liranas Einavas ir jo kolegos (2015) . Jie buvo suinteresuoti aukcionais, vykstančiais "eBay", ir, apibūdindami savo darbą, aš sutelksiu dėmesį į aukciono pradžios kainos poveikį aukciono rezultatams, pavyzdžiui, pardavimo kainą arba pardavimo tikimybę.

Labiausiai naivus būdas įvertinti pradinės kainos poveikį pardavimo kainai būtų tiesiog apskaičiuoti galutinę aukcionų kainą, kurios pradinės kainos yra skirtingos. Šis metodas būtų gerai, jei norėtumėte prognozuoti pardavimo kainą, atsižvelgiant į pradinę kainą. Tačiau jei jūsų klausimas susijęs su pradinės kainos poveikiu, šis metodas neveiks, nes jis nėra pagrįstas teisingais palyginimais; aukcionai, kurių kainos mažesnės, gali būti labai skirtingos, palyginti su kainomis, kurių kainos yra didesnės (pvz., jos gali būti skirtos skirtingoms prekių rūšims arba skirtingų tipų pardavėjams).

Jei jau žinote apie problemas, kurios gali kilti dėl ne eksperimentinių duomenų priežastinių vertinimų, galite praleisti naivą požiūrį ir apsvarstyti galimybę atlikti lauko eksperimentą, kuriame būtų galima parduoti konkretų elementą, pvz., Golfo klubą su fiksuotu aukciono parametrų rinkinys, tarkime, nemokamas pristatymas ir aukcionas, atidarytas dvi savaites, bet atsitiktinai priskirtos pradinės kainos. Lyginant gautus rinkos rezultatus, šis lauko eksperimentas labai aiškiai parodys pradinės kainos poveikį pardavimo kainai. Tačiau šis matavimas būtų taikomas tik vienam konkrečiam produktui ir aukciono parametrų rinkiniui. Rezultatai gali būti skirtingi, pavyzdžiui, skirtingų tipų produktams. Be stipraus teorijos, sunku iš šio vienintelio eksperimento ekstrapoliuoti visą galimų eksperimentų, kuriuos galėjo atlikti, spektrą. Be to, lauko eksperimentai yra pakankamai brangūs, kad nebūtų įmanoma atlikti visų variantų, kuriuos galbūt norėsite išbandyti.

Priešingai nei naivus ir eksperimentinis požiūris, Einav ir jo kolegos taikė trečią požiūrį: atitikimas. Pagrindinis jų strategijos triukas yra atrasti dalykus, panašius į lauko eksperimentus, kurie jau įvyko "eBay". Pavyzdžiui, 2.8 pav. Rodomi kai kurie iš 31 sąrašo tiksliai to paties golfo klubo - "Taylormade Burner 09" vairuotojas parduodamas tiksliai tuo pačiu pardavėjui - "budgetgolfer". Tačiau šie 31 aukcionai turi šiek tiek kitokių savybių, pavyzdžiui, skiriasi nuo pradžios kainos, pabaigos datos ir pristatymo mokesčiai. Kitaip tariant, "budgetgolfer" tyrėjai atlieka eksperimentus.

Šie "Taylormade Burner 09" vairuotojo sąrašai, kuriuos pardavinėja "budgetgolfer", yra vienas iš suderintų sąrašų rinkinio, kuriame tą pačią prekę parduoda tas pats pardavėjas, bet kiekvieną kartą su šiek tiek kitokių savybių, pavyzdys. "Massive" žurnale "eBay" yra šimtai tūkstančių suderintų rinkinių su milijonais aukcionų. Taigi, lyginant galutinę visų aukcionų kainą su atitinkama pradine kaina, Einav ir jo kolegos palygino suderintus rinkinius. Kad būtų galima palyginti rezultatus iš šimtų tūkstančių suderintų rinkinių palyginimų, "Einav" ir jo kolegos iš naujo išreiškė pradinę kainą ir galutinę kainą, atsižvelgdami į kiekvieno elemento pamatinę vertę (pvz., Jo vidutinę pardavimo kainą). Pavyzdžiui, jei Taylormade Burner 09 vairuotojas turėjo pamatinę vertę 100 USD (pagal jo pardavimus), pradinė kaina 10 USD būtų išreikšta kaip 0,1, o galutinė kaina 120 USD - 1,2.

2.8 paveikslas: suderinto rinkinio pavyzdys. Tai yra tas pats golfo klubas ("Taylormade Burner 09 Driver"), kurį parduoda tas pats asmuo ("budgetgolfer"), tačiau kai kurie iš šių pardavimų buvo atliekami skirtingomis sąlygomis (pvz., Skirtingomis pradinėmis kainomis). Reproduced by Einav et al. (2015) , 1b pav.

Prisiminkite, kad Einav ir jo kolegos domėjosi pradinės kainos poveikiu aukciono rezultatams. Pirma, jie naudojo linijinę regresiją, siekdami apskaičiuoti, kad didesnės pradinės kainos mažina pardavimo tikimybę, o didesnės pradinės kainos padidina galutinę pardavimo kainą (sąlygoja pardavimą). Šie skaičiavimai, kurie apibūdina linijinį santykį ir yra vidurkis visais produktais, patys savaime nėra tokie įdomūs. Tada Einav ir jo kolegos panaudojo didžiulį jų duomenų kiekį, siekdami sukurti daugybę subtilių skaičiavimų. Pavyzdžiui, įvertinus atskirų skirtingų pradinių kainų poveikį, jie nustatė, kad pradinės kainos ir pardavimo kainos santykis yra nelinijinis (2.9 pav.). Visų pirma, pradedant kainas nuo 0,05 iki 0,85, pradinė kaina labai mažai įtakoja pardavimo kainą, kurią visiškai neatitiko jų pirmoji analizė. Be to, Einav ir jo kolegos apskaičiavo pradinės kainos poveikį 23 skirtingoms prekių kategorijoms (pvz., Prekių pristatymui naminiams gyvūnėliams, elektroninei įrangai ir sporto šventėms), o ne vidutiniškai per visus elementus (2.10 pav.). Šie skaičiavimai rodo, kad dėl labiau skiriamųjų elementų, tokių kaip atminimo pradžios kaina, mažesnis poveikis parduodant tikimybę ir didesnis poveikis galutinei pardavimo kainai. Be to, norint parduoti daugiau prekių, tokių kaip DVD, pradinė kaina beveik neturi jokios įtakos galutinei kainai. Kitaip tariant, vidurkis, kuris sujungia rezultatus iš 23 skirtingų kategorijų elementų, slepia svarbius šių elementų skirtumus.

2.9 paveikslas. Aukciono pradinės kainos ir pardavimo tikimybės (a) ir pardavimo kainos (b) santykis. Yra maždaug linijinis ryšys tarp pradinės kainos ir pardavimo tikimybės, bet netiesinis ryšys tarp pradinės kainos ir pardavimo kainos; pradedant nuo 0,05 iki 0,85 kainos, pradinė kaina labai mažai įtakoja pardavimo kainą. Abiem atvejais santykiai iš esmės nepriklauso nuo elemento vertės. Adaptuota iš Einav et al. (2015) , 4a ir 4b paveikslai.

2.10 paveikslas: kiekvienos kategorijos daiktų sąmatos; tvirtas taškas yra visų kategorijų, susumuotų kartu (Einav ir kt., 2015 m.) įvertinimas. Šie skaičiavimai rodo, kad norint gauti daugiau skiriamųjų požymių, pvz., Įsimintinų daiktų, pradinė kaina mažina pardavimų tikimybę (x ašis) ir didesnį poveikį galutinei pardavimo kainai (y ašiai). Adaptuota iš Einav ir kt. (2015 m.), 8 pav.

2.10 paveikslas: kiekvienos kategorijos daiktų sąmatos; tvirtas taškas yra visų kategorijų, susumuotų kartu (Einav et al. 2015) . Šie skaičiavimai rodo, kad norint gauti daugiau skiriamųjų elementų, pavyzdžiui, įsimintinų daiktų, pradinė kaina mažina pardavimų tikimybę ( $x$ -axis) ir didesnį poveikį galutinei pardavimo kainai ( $y$ ašis). Adaptuota iš Einav et al. (2015) , 8 pav.

Net jei nesate labai susidomėję aukcionais "eBay", jūs turite grožėtis taip, kaip parodyta 2.9 paveiksle ir 2.10 paveiksle. Tai suteikia geresnį supratimą apie "eBay" nei paprastus įvertinimus, apibūdinančius linijinį santykį ir sujungiantys daugybę skirtingų kategorijų elementų. Be to, nors būtų moksliškai įmanoma sukurti šiuos subtiliąsias sąmatas su lauko eksperimentais, tokios išlaidos iš esmės būtų neįmanomos.

Kaip ir natūraliuose eksperimentuose, yra keletas būdų, kad atitikimas gali lemti blogus įvertinimus. Manau, kad didžiausias susirūpinimas dėl atitikimo apskaičiavimų yra tas, kad jie gali būti šališki dėl dalykų, kurie nebuvo naudojami derinant. Pavyzdžiui, pagrindiniuose rezultatuose Einav ir jo kolegos tiksliai atitiko keturias charakteristikas: pardavėjo ID numerį, prekių kategoriją, prekės pavadinimą ir subtitrus. Jei daiktai buvo skirtingi būdais, kurie nebuvo naudojami siekiant suderinti, tai gali sukelti nesąžiningą palyginimą. Pavyzdžiui, jei "budgetgolfer" sumažino "Taylormade Burner 09" vairuotojo kainas žiemą (kai golfo klubai yra mažiau populiari), gali atrodyti, kad mažesnės pradinės kainos lemia mažesnes galutines kainas, nors iš tikrųjų tai būtų artefaktas sezoninis paklausos svyravimas. Vienas iš būdų, kaip spręsti šį susirūpinimą kelianti problema, yra bandymas įvairiais būdais suderinti. Pavyzdžiui, Einav ir jo kolegos pakartojo savo analizę, keisdami atitikimo laiko juostą (suderintuose rinkiniuose buvo parduodamų daiktų per vienus metus, per vieną mėnesį ir tuo pačiu metu). Laimei, jie rasta panašių rezultatų visuose laiko languose. Kitas susirūpinimas dėl atitikimo kyla dėl aiškinimo. Susiejimo įvertinimai taikomi tik suderinamiems duomenims; jie netaikomi atvejams, kurių negalima suderinti. Pavyzdžiui, apriboti jų tyrimus su elementais, kuriuose buvo keli įrašai, "Einav" ir kolegos daugiausia dėmesio skiria profesionaliems ir pusiau profesionaliems pardavėjams. Taigi, aiškindami šiuos palyginimus, turime prisiminti, kad jie taikomi tik šiam "eBay" pogrupiui.

Atitikimas yra galinga strategija siekiant rasti teisingus palyginimus ne eksperimentiniais duomenimis. Daugumai socialinių mokslininkų atitikimas labiausiai tinka eksperimentams, tačiau tai tikėjimas, kurį galima šiek tiek pakoreguoti. Masinio duomenų atitikimas gali būti geresnis už nedidelį skaičių lauko eksperimentų, kai 1) poveikio heterogeniškumas yra svarbus ir 2) buvo įvertinti svarbūs kintamieji, reikalingi atitikčiai. 2.4 lentelėje pateikti kiti pavyzdžiai, kaip suderinamumą galima naudoti su dideliais duomenų šaltiniais.

2.4 lentelė. Tyrimų pavyzdžiai, naudojantys suderinamumą su dideliais duomenų šaltiniais
Esminis dėmesys	Didelis duomenų šaltinis	Nuoroda
Šaudymo įtaka policijos smurtui	Stop-and-frisk įrašai	Legewie (2016)
2001 m. Rugsėjo 11 d. Poveikis šeimoms ir kaimynams	Balsavimo įrašai ir dovanojimo įrašai	Hersh (2013)
Socialinė problema	Komunikacijos ir produkto priėmimo duomenys	Aral, Muchnik, and Sundararajan (2009)

Apibendrinant, ne eksperimentinių duomenų priežastinio poveikio vertinimas yra sudėtingas, tačiau gali būti naudojami tokie metodai kaip natūralūs eksperimentai ir statistiniai koregavimai (pvz., Atitikimas). Kai kuriais atvejais tokie metodai gali būti blogai klaidingi, tačiau kai jie yra atidžiai įdiegiami, šie metodai gali būti naudingas eksperimentinio metodo, kurį apibūdinaiu 4 skyriuje, papildymu. Be to, šie du metodai gali būti naudingi, on, didelės duomenų sistemos.