2.4.3 lähentämällä kokeiluja

Tämä käännös on luotu tietokoneella. ×

2.4.3 lähentämällä kokeiluja

Voimme arvioida kokeita, joita emme ole tai emme voi tehdä. Kaksi lähestymistapaa, jotka hyötyvät erityisesti suurista tietolähteistä, ovat luonnollinen kokeilu ja yhteensopivuus.

Jotkut tärkeät tieteelliset ja poliittiset kysymykset ovat syy-seurauksia. Esimerkiksi mikä on työharjoitteluohjelman vaikutus palkkaan? Tutkija, joka yrittää vastata tähän kysymykseen, voi verrata oppilaiden tuloja, jotka ovat liittyneet koulutukseen niille, jotka eivät ole. Mutta kuinka paljon palkkojen eroja näiden ryhmien välillä johtuu koulutuksesta ja siitä, kuinka paljon on olemassa olevien ja sellaisten ihmisten välillä, jotka eivät ole? Tämä on vaikea kysymys, eikä se automaattisesti poista enemmän tietoja. Toisin sanoen huolenaihe mahdollisista olemassa olevista eroista syntyy riippumatta siitä, kuinka monta työntekijää on tietojasi.

Monissa tilanteissa voimakkain tapa arvioida jonkin verran hoidon kausaalivaikutusta, kuten työharjoittelua, on suorittaa satunnaistettu kontrolloitu koe, jossa tutkija satunnaisesti toimittaa hoidon tietyille ihmisille eikä muille. Käsittelen kokonainen luku 4, joten keskityn nyt kahteen strategiaan, joita voidaan käyttää ei-kokeellisilla tiedoilla. Ensimmäinen strategia riippuu etsimästä jotain maailmassa tapahtuvasta, joka sattumanvaraisesti (tai melkein satunnaisesti) antaa hoidon tietyille ihmisille eikä muille. Toinen strategia riippuu tilastollisesti mukauttamattomista ei-kokeellisista tiedoista yrittäessään ottaa huomioon olemassa olevia eroja niiden välillä, jotka tekivät ja eivät saaneet hoitoa.

Skeptikko voi väittää, että molempia näistä strategioista on vältettävä, koska ne edellyttävät voimakkaita oletuksia, olettamuksia, joita on vaikea arvioida ja joita käytännössä usein rikotaan. Vaikka suhtaudun myönteisesti tähän vaatimukseen, mielestäni se menee hieman liian pitkälle. On totta, että on vaikeaa luotettavasti tehdä kausaalilaskelmia ei-kokeellisista tiedoista, mutta en usko, että tämä tarkoittaa sitä, ettemme pitäisi koskaan yrittää. Erityisesti ei-kokeellisia lähestymistapoja voi olla hyödyllisiä, jos logistiset rajoitteet estävät sinua kokeilemasta tai jos eettiset rajoitteet merkitsevät, että et halua suorittaa kokeilua. Lisäksi ei-kokeelliset lähestymistavat voivat olla hyödyllisiä, jos haluat hyödyntää jo olemassa olevia tietoja satunnaistetun kontrolloidun kokeilun suunnittelussa.

Ennen jatkoa on myös syytä huomata, että syy-arvioiden tekeminen on yksi sosiaalisen tutkimuksen monimutkaisimmista aiheista, ja se voi johtaa intensiiviseen ja emotionaaliseen keskusteluun. Seuraavassa esitän optimistisen kuvauksen jokaisesta lähestymistavasta, jotta voimme rakentaa sen intuitiota, ja esitän joitakin haasteita, joita syntyy käytettäessä tätä lähestymistapaa. Lisätietoa kustakin lähestymistavasta on saatavilla tämän luvun lopussa olevissa materiaaleissa. Jos aiot käyttää jotain näistä lähestymistavoista omassa tutkimuksessasi, suosittelen lukemaan yksi monista erinomaisista kirjoista kausaalisen päättelyn (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

Yksi lähestymistapa kausaalisten arvioiden tekemiseen ei-kokeellisista tiedoista on etsiä tapahtuma, joka on satunnaisesti antanut hoidon tietyille ihmisille eikä muille. Näitä tilanteita kutsutaan luonnolliseksi kokeeksi . Yksi selvimmistä esimerkkeistä luonnollisesta kokeesta on peräisin Joshua Angristin (1990) tutkimuksesta, jossa mitataan sotilaspalvelujen vaikutusta tuloihin. Vietnamin sodan aikana Yhdysvallat kasvatti asevoimiensa kokoa luonnoksen avulla. Jotta voitaisiin päättää, mitkä kansalaiset otettaisiin käyttöön, Yhdysvaltain hallitus järjesti arpajaiset. Jokainen syntymäpäivä kirjoitettiin paperille, ja kuten kuviosta 2.7 ilmestyi, nämä paperiarkit valittiin yksi kerrallaan, jotta voitaisiin määrittää, missä järjestyksessä nuoret miehet kutsutaan palvelemaan (nuoret naiset eivät olleet mukana luonnokseen). Tulosten perusteella kutsuttiin 14. syyskuuta syntyneet miehet, 24. huhtikuuta syntyneet miehet kutsuttiin toiseksi, ja niin edelleen. Loppujen lopuksi, tässä arpajaisissa syntyi 195 eri päivässä syntynyt miehet, kun taas 171 päivän syntyneet miehet eivät olleet.

Kuva 2.7: Kongressimies Alexander Pirnie (R-NY) piirtäen ensimmäisen kapselin Selective Service -luonnokseksi 1. joulukuuta 1969. Joshua Angrist (1990) yhdisteli arpajaisluonnoksen sosiaaliturvalaitoksen ansiotulojen avulla arvioidakseen asevelvollisuuden tuloista. Tämä on esimerkki tutkimuksesta, jossa käytetään luonnollista kokeilua. Lähde: US Selective Service System (1969) / Wikimedia Commons .

Vaikka se ei ehkä ole välittömästi ilmeinen, arpajaisluonnos on kriittinen samankaltaisuus satunnaistetun kontrolloidun kokeilun kanssa: molemmissa tilanteissa osallistujat satunnaisesti saavat hoidon. Tämän satunnaistetun hoidon vaikutuksen tutkimiseksi Angrist käytti hyväkseen aina suurta tietojärjestelmää: Yhdysvaltain sosiaaliturvalaitos, joka kerää tietoja lähes kaikista amerikkalaisista ansioista työllisyydestä. Yhdistämällä tiedot siitä, kuka on satunnaisesti valittu arpajaisluonnoksessa ja hallinnollisissa hallinnollisissa rekistereissä kerätyt ansiotiedot, Angrist totesi, että veteraanien ansiot olivat noin 15 prosenttia pienemmät kuin vertailukelpoisten ei-veteraanien tulot.

Kuten esimerkissä havainnollistetaan, joskus yhteiskunnalliset, poliittiset tai luonnolliset voimat luovat hoitoja tavalla, jota tutkijat voivat hyödyntää, ja joskus näiden hoitojen vaikutukset jäävät aina suurilta tietolähteiltä. Tämä tutkimusstrategia voidaan tiivistää seuraavasti: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

Jotta tämä strategia voitaisiin kuvata digitaaliaikana, harkitsemme Alexandre Masin ja Enrico Moretti (2009) jossa yritettiin arvioida vaikutusta tuottavien työtovereiden kanssa työntekijän tuottavuuden suhteen. Ennen tulosten näkemistä kannattaa huomauttaa, että sinulla on ristiriitaisia odotuksia. Toisaalta voit odottaa, että tuottavien työtovereiden kanssa työskenteleminen johtaisi työntekijään kasvattamaan tuottavuutta vertaispaineen vuoksi. Toisaalta toisaalta saatat odottaa, että ahkerien urakoiden saaminen saattaa johtaa työntekijän lakkauttamiseen, koska hänen työtoverinsa tekevät. Selkein tapa tutkia vertaisvaikutuksia tuottavuuteen olisi satunnaistettu kontrolloitu kokeilu, jossa työntekijät satunnaisesti siirretään työntekijöille, joilla on eri tuottavuustasot, ja sitten tuottavuus mitataan kaikille. Tutkijat eivät kuitenkaan valvo työntekijöiden aikataulua missään todellisessa liiketoiminnassa, joten Mas ja Moretti joutuivat luottamaan luonnolliseen kokeiluun, jossa kassat käyvät kauppakeskuksessa.

Tässä erityisessä supermarketissa, koska aikataulutus tehtiin ja tapana siirtää päällekkäin, jokaisella kassalla oli eri työntekijöitä eri päivinä. Lisäksi tässä erityisessä supermarketissa kassanhoitaja ei ollut riippuvainen heidän ikäisensä tuottavuudesta tai siitä, kuinka varastossa oli varastossa. Toisin sanoen, vaikka rahtaajien aikataulua ei määritetty arpajaisella, se oli ikään kuin työntekijöille joskus satunnainen tehtävä työskennellä korkean (tai alhaisen) tuottavuuden kanssa. Onneksi tällä supermarketilla oli myös digitaalisen ikäkauden kassajärjestelmä, joka seurasi kohteita, joita jokainen kassalainen pyysi kaikkina aikoina. Tästä kassapäivästä saaduista tiedoista Mas ja Moretti pystyivät luomaan täsmällisen, yksilöllisen ja jatkuvan tuottavuuden mittauksen: sekunnissa skannattujen kohteiden lukumäärän. Yhdistämällä nämä kaksi asiaa - luonnollisesti esiintyvät vaihtelut vertaistuotannossa ja tuottavuuden mittaamisessa - Mas ja Moretti arvioivat, että jos kassalle osoitettiin työtovereita, jotka olivat keskimäärin 10 prosenttia tuottavampia, hänen tuottavuutensa kasvaisi 1,5 prosenttia . Lisäksi he käyttivät tietojensa kokoa ja rikkautta tutkimaan kahta tärkeätä kysymystä: tämän vaikutelman heterogeenisyys (millaisia työntekijöitä vaikutus on suurempi) ja vaikutusten takana olevat mekanismit (Miksi korkean tuottavuuden tuottajat johtavat siihen, että korkeampi tuottavuus?). Palataan näihin kahteen tärkeään kysymykseen - hoidon vaikutusten ja mekanismien heterogeenisuuteen - luvussa 4, kun keskustelemme kokeista tarkemmin.

Yleensä näistä kahdesta tutkimuksesta taulukko 2.3 tiivistää muita tutkimuksia, joilla on sama rakenne: aina käytettävän tietolähteen käyttäminen joidenkin satunnaisvaihteluiden vaikutusten mittaamiseen. Käytännössä tutkijat käyttävät kahta erilaista strategiaa luonnollisten kokeiden löytämiseksi, jotka molemmat voivat olla hedelmällisiä. Jotkut tutkijat alkavat aina tietolähteellä ja etsivät satunnaisia tapahtumia maailmassa; toiset aloittavat satunnaisen tapahtuman maailmassa ja etsivät tietolähteitä, jotka saavat sen vaikutuksen.

Taulukko 2.3: Esimerkkejä luonnollisista kokeista, joissa käytetään suuria tietolähteitä
Aineellinen tarkennus	Luonnollisen kokeilun lähde	Aina päällä oleva tietolähde	Viite
Vertaisvaikutukset tuottavuuteen	Ajoitusprosessi	Checkout-tiedot	Mas and Moretti (2009)
Ystävyysmuodot	Hurricanes	Facebook	Phan and Airoldi (2015)
Tunteiden levinneisyys	Sade	Facebook	Lorenzo Coviello et al. (2014)
Peer-to-peer-taloudelliset siirrot	Maanjäristys	Liikkuvan rahan tiedot	Blumenstock, Fafchamps, and Eagle (2011)
Henkilökohtainen kulutustottumus	2013 USA: n hallituksen sulkeminen	Henkilökohtaiset rahoitustiedot	Baker and Yannelis (2015)
Suositeltavaa järjestelmää koskevat taloudelliset vaikutukset	Eri	Tietojen selaaminen Amazonissa	Sharma, Hofman, and Watts (2015)
Stressin vaikutus syntymättömille lapsille	2006 Israel-Hizbollah-sota	Syntymätietueet	Torche and Shwed (2015)
Lukeminen käyttäytyminen Wikipedia	Snowdenin ilmoitukset	Wikipedia-lokit	Penney (2016)
Vertaisvaikutukset liikuntaan	Sää	Kuntolaitteita	Aral and Nicolaides (2017)

Luonnollisista kokeiluista tähän mennessä käytyssä keskustelussa olen jättänyt pois tärkeän asian: siirtyminen siitä, mitä luonto on tarjonnut siihen, mitä haluat, saattaa joskus olla hankalaa. Palataan Vietnam-esimerkkiin. Tässä tapauksessa Angrist oli kiinnostunut arvioimaan asevelvollisuuden vaikutusta tuloihin. Valitettavasti sotilaspalvelua ei ole annettu satunnaisesti; vaan se laadittiin satunnaisesti. Kuitenkaan kaikkia, jotka oli laadittu palvelemaan (erilaisia vapautuksia oli olemassa), eikä kaikkia, jotka palvelivat, laadittiin (ihmiset voisivat vapaaehtoisesti palvella). Koska kirjoittaminen on tehty satunnaisesti, tutkija voi arvioida kaikkien ihmisten luonnoksen luonnoksen luonnoksessa. Mutta Angrist ei halunnut ymmärtää, millaisia vaikutuksia on laadittu; hän halusi tietää sotilaspalveluksen vaikutuksen. Tämän arvioinnin tekemiseksi tarvitaan kuitenkin muita oletuksia ja komplikaatioita. Ensinnäkin tutkijoiden on oletettava, että ainoa tapa, jolla tulkitaan vaikutuksia tuloihin, on asepalveluksen kautta, oletus, jota kutsutaan syrjäytymisrajoitukseksi . Tämä oletus saattaa olla väärin, jos esimerkiksi miehet, jotka olivat luetut, pysyivät koulussa pidempään, jotta vältettäisiin palveleminen tai jos työnantajat olisivat vähemmän todennäköisesti palkanneet miehiä, jotka olivat luetut. Yleensä poikkeuksen rajoittaminen on kriittinen oletus, ja sitä on usein vaikea tarkistaa. Vaikka syrjäytymisrajoitukset olisivat oikeita, on edelleen mahdotonta arvioida palvelun vaikutusta kaikkiin miehiin. Sen sijaan osoittautuu, että tutkijat voivat vain arvioida vaikutuksen tiettyyn osajoukkoon kutsuttuihin miehiin (miehet, jotka palvelisivat kirjoitettaessa, mutta eivät toimisi, kun niitä ei ole laadittu) (Angrist, Imbens, and Rubin 1996) . Pakkaajat eivät kuitenkaan olleet kiinnostuksen alkuperäistä väestöä. Huomaa, että nämä ongelmat syntyvät jopa arpajaisten luonnollisen puhtaassa tapauksessa. Lisäksi komplikaatioiden joukko syntyy, kun fyysinen arpajaiset eivät anna hoitoa. Esimerkiksi Mas ja Morettin kassanopettajien tutkimuksessa syntyy lisäkysymyksiä oletuksesta, että vertaisarviointi on olennaisesti satunnaista. Jos tätä oletusta loukkaantui voimakkaasti, se voisi ennakoida ennustetta. Lopuksi luonnolliset kokeet voivat olla tehokas strategia kausaalisten arvioiden tekemiseksi ei-kokeellisista tiedoista, ja suuret tietolähteet lisäävät kykyämme hyödyntää luonnollisia kokeita, kun niitä esiintyy. Se vaatii kuitenkin suurta huolenpitoa - ja joskus vahvoja oletuksia - siitä, mitä luonto on antanut haluamaansa arvioon.

Toinen strategiani, jonka haluaisin kertoa teille kausittaisten arvioiden tekemisestä ei-kokeellisista tiedoista, riippuu tilastollisesti mukauttamattomista ei-kokeellisista tiedoista yrittäessään ottaa huomioon olemassa olevia eroja niiden välillä, jotka tekivät ja eivät saaneet hoitoa. On monia sellaisia säätö lähestymistapoja, mutta minä keskittyä yhteen nimeltään vastaavia. Vastaavasti tutkija etsii ei-kokeellisia tietoja luomalla paria samanlaisia ihmisiä, paitsi että yksi on saanut hoidon ja toinen ei ole. Vastaavat prosessit tutkijat ovat itse asiassa myös karsimista ; eli hylätä tapaukset, joissa ei ole selvää ottelua. Siten tätä menetelmää täsmennetään täsmällisemmin ja täsmällisemmin, mutta pysyn perinteisessä termissä: matching.

Yksi esimerkki valtavien, ei-kokeellisten tietolähteiden yhteensovittamisvalmiuksista on peräisin Liran Einavin ja hänen kollegoidensa kuluttajien käyttäytymisestä (2015) . He olivat kiinnostuneita eBay-huutokaupoista, ja kuvaillessaan heidän työtäni, keskityn huutokauppahintahintaan huutokauppoihin, kuten myyntihintaan tai myynnin todennäköisyyteen.

Na naivan tapa arvioida lähtöhinnan vaikutusta myyntihintaan olisi yksinkertaisesti laskea huutokauppojen loppuhinta eri lähtöhinnoilla. Tämä lähestymistapa olisi hyvä, jos haluat ennakoida myyntihinnan lähtöhinnalla. Mutta jos kysymyksesi koskee lähtöhinnan vaikutusta, tämä lähestymistapa ei toimi, koska se ei perustu oikeudenmukaisiin vertailuihin. huutokaupat, joilla alhaisemmat lähtöhinnat ovat melko erilaiset kuin korkeammat lähtöhinnat (esim. ne voivat olla erilaisten tavaroiden tyyppejä tai erilaisia myyjiä).

Jos tiedät jo ongelmista, jotka saattavat aiheuttaa syy-arvioita ei-kokeellisista tiedoista, voit ohittaa naivan lähestymistavan ja harkita kenttätutkimuksen suorittamista, jos haluat myydä tietyn kohteen eli golfklubin kiinteällä huutokaupan parametrien määrä - sanoa, ilmainen toimitus ja huutokauppa auki kaksi viikkoa - mutta satunnaisesti osoitettuihin lähtöhintoihin. Vertailemalla tuloksena syntyneitä markkinatuloksia tämä kenttäkokeilu tarjoaisi erittäin selkeän mittauksen lähtöhinnan vaikutuksesta myyntihintaan. Mutta tämä mittaus koskisi vain yhtä tiettyä tuotetta ja huutokaupan parametrejä. Tulokset voivat olla erilaisia esimerkiksi erilaisten tuotteiden osalta. Ilman vankkaa teoriaa on vaikea ekstrapoloida tästä yksittäisestä kokeesta kaikkiin mahdollisiin kokeiluihin, joita olisi voitu suorittaa. Lisäksi kenttätutkimukset ovat riittävän kalliita, jotta ei olisi mahdollista suorittaa kaikkia versioita, joita kannattaa kokeilla.

Toisin kuin naiivi- ja kokeellisissa lähestymistavoissa, Einav ja kollegat ottivat kolmannen lähestymistavan: vastaavuus. Tärkein temppu strategiassaan on löytää asioita, jotka ovat samanlaisia kuin kenttäkokeet, jotka ovat jo tapahtuneet eBay: ssä. Esimerkiksi kuvassa 2.8 on esitetty eräitä 31 samanlaista golfklubin listausta - Taylormade Burner 09 -ohjainta myydään täsmälleen samalta myyjältä - "budgetgolfer". Näillä 31 listalla on kuitenkin hieman erilaiset ominaisuudet, kuten erilaiset hinta, päättymispäivät ja toimituskulut. Toisin sanoen, se on ikään kuin "budgetgolfer" ajaa kokeita tutkijoille.

Nämä Taylormade Burner 09 -ohjaimen tiedot, jotka on myyty "budgetgolfer" -tuotteilla, ovat esimerkki sovitusta listasta, jossa täsmälleen samalle myyjälle myydään täsmälleen sama tuote, mutta joka kerta sillä on hieman erilaiset ominaisuudet. EBay: n massiivissa lokeissa on kirjaimellisesti satoja tuhansia yhteensopivia sarjoja, joihin liittyy miljoonia luetteloita. Niinpä Einav ja kollegat eivät verrattaisi lopullista hintaa kaikille huutokaupalle tietyn lähtöhinnan kohdalla. Yhdistettäessä tuloksia näiden satojen tuhansien yhteensopivien sarjojen vertailuista Einav ja kollegat ilmaisivat uudelleen kunkin tuotteen viitearvon (esim. Keskimääräisen myyntihinnan) lähtöhinnan ja lopullisen hinnan. Jos esimerkiksi Taylormade Burner 09 -ohjaimen viitearvo oli 100 dollaria (myynnin perusteella), 10 euron lähtöhinta ilmaistuna oli 0,1 ja lopullinen hinta 120 dollaria 1,2.

Kuva 2.8: Esimerkki sovitusta joukosta. Kyseessä on täsmälleen sama henkilö (budgetgolfer) myydyn saman golfklubin (Taylormade Burner 09 Driver), mutta osa myynnistä suoritettiin eri olosuhteissa (esim. Eri aloitushinnat). Toistetaan Einav et al. (2015), kuva 1b.

Kuva 2.8: Esimerkki sovitusta joukosta. Tämä on täsmälleen sama henkilö ("budgetgolfer") myyvä saman golfklubin (Taylormade Burner 09 Driver), mutta osa myynnistä suoritettiin eri olosuhteissa (esim. Eri aloitushinnat). Einav et al. (2015) , kuva 1b.

Muistathan, että Einav ja kollegat olivat kiinnostuneita aloitushinnan vaikutuksesta huutokauppatuloksiin. Ensinnäkin ne käyttivät lineaarista regressiota arvioidakseen, että korkeammat lähtöhinnat vähentävät myynnin todennäköisyyttä ja että korkeammat lähtöhinnat nostavat lopullista myyntihintaa (edellyttäen, että myynti toteutuu). Nämä arvioinnit - jotka kuvaavat lineaarista suhdetta ja lasketaan keskiarvon kaikista tuotteista - eivät ole sinänsä kaikki kiinnostavia. Sitten Einav ja kollegat käyttivät massiivisia tietomääriäan erilaisten hienovaraisempien arvioiden luomiseksi. Esimerkiksi arvioimalla vaikutus erikseen useisiin erilaisiin lähtöhintoihin he havaitsivat, että lähtöhinnan ja myyntihinnan välinen suhde on epälineaarinen (kuva 2.9). Etenkin, kun hinnat alkavat 0,05: n ja 0,85: n välisenä aikana, lähtöhinnalla on hyvin vähän vaikutusta myyntihintaan, joka on täysin laiminlyöty ensimmäisessä analyysissään. Lisäksi Einav ja kollegat arvioivat lähtöhinnan vaikutusta 23 eri tuoteryhmää (esim. Lemmikkieläinten tarvikkeita, elektroniikkaa ja urheiluharrasteita) (kuva 2.10). Nämä arviot osoittavat, että entistä erityispiirteistä, kuten muistomerkki-lähtöhinnalla, on pienempi vaikutus myynnin todennäköisyydelle ja suurempi vaikutus lopulliseen myyntihintaan. Lisäksi useammille commodified-tuotteille - kuten DVD-levyille - lähtöhinnalla ei ole lainkaan vaikutusta lopulliseen hintaan. Toisin sanoen keskiarvo, joka yhdistää 23 eri tuoteryhmän tuloksia, piilee tärkeitä eroja näiden kohteiden välillä.

Kuva 2.9: Huutokauppahinnan ja myyntien todennäköisyyden (a) ja myyntihinnan välinen suhde (b). Lähtöhinnan ja myynnin todennäköisyyden välillä on lähes lineaarinen suhde, mutta lähtöhinnan ja myyntihinnan epälineaarinen suhde. Käynnistyshintojen välillä 0,05 - 0,85, lähtöhinnalla on hyvin vähän vaikutusta myyntihintaan. Kummassakin tapauksessa suhteet ovat periaatteessa riippumattomia kohteen arvosta. Mukautettu Einav et al. (2015) , kuvat 4a ja 4b.

Kuva 2.10: Arviointi kustakin tuoteryhmästä; kiinteä piste on kaikkien luokkien yhteenlaskettu arvio (Einav et al. 2015) . Nämä arviot osoittavat, että entistä erottuvampien esineiden - kuten muistoesineiden - lähtöhinnalla on pienempi vaikutus myynnin todennäköisyydelle ( \(x\) -aksis) ja suurempi vaikutus lopulliseen myyntihintaan ( \(y\) akselilla). Mukautettu Einav et al. (2015) , kuva 8.

Vaikka et ole erityisen kiinnostunut eBay-huutokaupoista, sinun on ihastettava tapaa, jolla kuvio 2.9 ja kuva 2.10 tarjoavat eBay: n rikkaamman käsityksen kuin yksinkertaiset arviot, jotka kuvaavat lineaarista suhdetta ja yhdistävät monia eri luokkia. Lisäksi, vaikka olisi tieteellisesti mahdollista tuottaa näitä hienommia arvioita kenttätutkimuksilla, kustannukset tekisivät tällaiset kokeet oleellisesti mahdottomiksi.

Kuten luonnollisissa kokeiluissa, on useita tapoja, joilla vastaavuus voi johtaa huonoihin arvioihin. Mielestäni eniten huolenaihe estimoiden sovittamisessa on se, että niitä voidaan vääristää asioilla, joita ei käytetty vastaavuudessa. Esimerkiksi Einav ja hänen kollegoistansa tekivät täsmällisen vastaavuuden neljällä ominaisuudella: myyjän tunnusnumero, kohteen luokka, kohteen otsikko ja alaotsikko. Jos kohteet olivat erilaiset tavoilla, joita ei käytetty vastaamiseen, tämä voi johtaa epäoikeudenmukaiseen vertailuun. Esimerkiksi jos "budgetgolfer" alensi Taylormade Burner 09 -kuljettajan talviaikahintoja (kun golfmailoja vähemmän suosittuja), silloin näyttää siltä, että alhaisemmat käynnistämishinnat johtavat alhaisempaan loppuhintaan. kysynnän kausivaihtelut. Eräs lähestymistapa tämän ongelman ratkaisemiseen on yrittää monia erilaisia sovituksia. Esimerkiksi Einav ja kollegat toistivat analyysinsä samalla, kun ne sovit- tivat aikatauluun (sovitetut sarjat sisälsivät myyntitavaraa yhden vuoden kuluessa kuukauden sisällä ja samanaikaisesti). Onneksi he löysivät samanlaisia tuloksia kaikissa aikareunoissa. Lisäsuoja liittyy myös tulkintaan. Vastaavuuksien arvioinnit koskevat vain sovitettuja tietoja; ne eivät koske tapauksia, joita ei voitu sovittaa. Esimerkiksi, rajoittamalla tutkimustyötä kohteisiin, joissa oli useita listauksia, Einav ja kollegat keskittyvät ammattimaisiin ja semi-ammattimaisiin myyjiin. Niinpä näitä vertailuja tulkittaessa on muistettava, että ne koskevat vain tätä eBay-osajoukkoa.

Matching on tehokas strategia epäoikeudenmukaisten vertailujen löytämiseksi muissa kuin kokeellisissa tiedoissa. Monille yhteiskuntatieteilijöille sovitus sopii parhaiten kokeiluihin, mutta se on uskomus, jota voidaan tarkistaa hieman. Suurten tietojen yhteensovittaminen saattaa olla parempaa kuin pieni määrä kenttätutkimuksia, kun (1) vaikutusten heterogeenisuus on tärkeä ja (2) vastaavuuden kannalta tärkeät muuttujat on mitattu. Taulukossa 2.4 on muutamia esimerkkejä siitä, miten sovittamista voidaan käyttää suurilla tietolähteillä.

Taulukko 2.4: Esimerkkejä tutkimuksista, joissa käytetään suuria tietolähteitä
Aineellinen tarkennus	Suuri tietolähde	Viite
Ampuma-aseiden vaikutus poliisin väkivaltaan	Pysäytä-ja-frisk ennätykset	Legewie (2016)
11. syyskuuta 2001 tehty vaikutus perheisiin ja naapureihin	Äänestystulokset ja lahjoitustiedot	Hersh (2013)
Sosiaalinen tartunta	Viestinnän ja tuotteen käyttöönoton tiedot	Aral, Muchnik, and Sundararajan (2009)

Yhteenvetona voidaan päätellä, että syy-vaikutusten arvioiminen ei-kokeellisista tiedoista on vaikeaa, mutta voidaan käyttää lähestymistapoja, kuten luonnollisia kokeita ja tilastollisia säätöjä (esim. Matching). Joissakin tilanteissa nämä lähestymistavat voivat mennä huonosti vääriksi, mutta kun ne otetaan käyttöön huolellisesti, nämä lähestymistavat voivat olla hyödyllinen lisäys kokeelliseen lähestymistapaan, jota kuvataan luvussa 4. Lisäksi nämä kaksi lähestymistapaa näyttävät erityisen hyödyttävän aina- suurilla tietojärjestelmillä.