2.4.3 Approximating eksperiminten

Dizze oersetting is makke troch in kompjûter. ×

2.4.3 Approximating eksperiminten

Wy kinne eksperiminten oergeane dy't wy net hawwe of net kinne. Twa oanpak dy't benammen profitearje fan grutte gegevensboarnen binne natuerlike eksperiminten en oerienkomst.

Guon wichtige wittenskiplike en beliedsfraksjes binne koarse. Bygelyks, wat is it effekt fan in baakstrainingprogramma op lean? In ûndersiker dy't besykje ta dizze antwurd te antwurd te fergelykjen kin it fertsjinjen fan minsken dy't opliede foar training foar dyjingen dy't net hawwe. Mar hoefolle fan elke ferskil yn 'e lean tusken dizze groepen is fanwegen de oplieding en hoefolle is dat fan' e foarheaklike ferskillen tusken minsken dy't opskriuwe en dy't net binne? Dit is in dreech fraach, en it is ien dy't net automatysk mei mear gegevens giet. Mei oare wurden, de soarch oer mooglike foarheaklike ferskillen ûntstean lykwols hoefolle arbeiders yn jo gegevens binne.

Yn in soad situaasjes is de sterkste manier om de kausale effekt fan guon behanneling te beskriuwen, lykas beropsûnderwiis, in randomisearre kontrolearjende eksperimint te fieren wêr't in ûndersiker randomly de behanneling foar guon minsken en net oaren leveret. Ik sil alle haadstik 4 oan eksperiminten besparje, dus hjir sil ik konsintrearje op twa strategyen dy't brûkt wurde kinne mei net-eksperimintale gegevens. De earste strategy hinget ôf fan sykjen nei wat der yn 'e wrâld fynt dat oandielendal (of krekt willekeurich) de behanneling oan guon minsken oardielet en net oaren. De twadde strategy hinget ôf fan statistysk oanpasse net-eksperimintale gegevens yn in besykjen om foar te kommen foar ferskriklike ferskillen tusken dyjingen dy't de behanneling hawwe en net krigen hawwe.

In skeptikus kin beweare dat beide strategyen te foarkommen wurde om't se sterke oanfurdigens nedich hawwe, hypnotyen dy't dreech wurde beoardiele en dat, yn 'e praktyk, faak ferwiderje. Wylst ik sympatyksjildich bin oan dizze fraach, tink ik dat it wat te fier is. It is feitlik wier dat it makliker is te fertrouwen fan kosjale skatten út net-eksperimintale gegevens, mar ik tink net dat dat wy nea probearje moatte. Benammen net-eksperimintele oanwêzingen kinne helpe as logistysk begrippe jo foarkomt dat jo in eksperimint leare of as etyske konflikten betsjutte dat jo gjin eksperimint leare wolle. Fierder kinne net-eksperimintale oanwêzigen helpe, as jo wolle wolle foardielen fan gegevens dy't al bestiet om in randomisearre kontrolearre eksperiment te ûntwerp.

Foar it útstellen fan 'e kunde is it ek te wizen dat it meitsjen fan koarskema's is ien fan' e meast komplekse ûnderwerpen yn sosjale ûndersiken en ien dy't liedt ta yntinsive en emosjonele debat. Yn wat folgje, sil ik in optimistyske beskriuwing fan elke oanpak jaan om yntuysje oer te bouwen, dan sil ik beskate beskiedingen fan 'e útdagings dy't ûntsteane as jo dizze oanpak brûke. Mear details oer elke oanpak binne beskikber yn 'e materialen oan' e ein fan dit haadstik. As jo ien fan dizze oanwêzingen yn jo eigen ûndersyksplannen brûke, (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) ik it iene fan 'e folle geweldige boeken oer (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) ynfaasje (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

Ien oanpak foar it meitsjen fan kausale skatten út net-eksperimintale gegevens is om te sykjen nei in evenemint dat in soartgelegenheid foar guon persoanen en net foar oaren hat. Dizze situaasjes wurde natuerlike eksperiminten neamd . Ien fan 'e lêstenste foarbylden fan in natuerlik eksperimint komt út it ûndersyk fan Joshua Angrist (1990) wêrtroch't it effekt fan militêre tsjinsten meldt op earnings. Yn 'e oarloch yn Fietnam fergrutte de Feriene Steaten de grutte fan har legere krêften troch in ûntwerp. Om te bepalen hokker boargers yn tsjinst neamt, hat it Amerikaanske regear in lotterij hâlden. Elke berte-datum waard skreaun op in stikje papier, en, lykas yn figuer 2.7, dizze stikjes papieren selektearre ien op 'e tiid om de oarder te selektearjen wêryn jonge manlju neamd wurde kinne wurde (jonge froulju waarden net ûnderwerp nei it ûntwerp). Op grûn fan 'e útkomsten waarden manlju berne op 14 septimber earst neamd, minsken dy't berne binne op 24 april waarden twadde neamd, en sa fierder. Uteinlik waarden yn dizze lotterij gebrûk makke fan manlju op 195 ferskillende dagen, wylst manlju op 171 dagen net binne.

Figure 2.7: Kongressman Alexander Pirnie (R-NY) tekene de earste kapsule foar de Selektearre Tsjinstferwurden op 1 desimber 1969. Joshua Angrist (1990) kombinearret de ûntwerp fan lotterij mei earningsgegevens fan 'e Sosjaal Feiligens Administration om de ynfloed fan militêre tsjinst te beoardieljen op earnings. Dit is in foarbyld fan ûndersyk mei in natuerlik eksperiment. Boarne: US Selekteartsjinstsysteem (1969) / Wikimedia Commons .

Hoewol it net fuortendaliks sichtber is, hat in draaddoerje in krityske ferlykberens oan in randomisearre kontroleard eksperimint: yn beide situaasjes wurde de dielnimmers randomly oanbean om in behanneling te krijen. Om it effekt fan dizze randomisearre behanneling te studearjen, naam Angrist foardiel fan in altyd op grut data-systeem: de US Social Security Administration, dy't ynformaasje op hast alle Amerikaanske earnings fan wurkjen sammelet. Troch it kombinearjen fan de ynformaasje oer wa't willekeurich yn 'e bouwurksumheden selektearre waard mei de earningsgegevens dy't sammele waarden yn bestjoerlike bestjoersregels, konkludearre Angrist dat de fertsjinsten fan feteranen likernôch 15% minder wienen as de fertsjinsten fan ferlykbere non-feteranen.

As dit foarbyld illustratearret, kinne soms sosjale, politike of natuerlike krêften behannelingen op in manier dy't troch ûndersikers ferwidere wurde en soms wurde de effekten fan dizze behannelingen opnommen yn altiten op grutte data boarnen. Dizze ûndersyksstrategy kin sa as folgjend gearfette wurde: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

Om dizze strategy yn 'e digitale leeftyd te yllustrearjen, litte wy in stúdzje troch Alexandre Mas en Enrico Moretti (2009) beskôgje, dy't besykje te meitsjen dat it effekt fan wurkje mei produktive kollega's op produktiviteit fan' e arbeiders. Foardat jo de resultaten sjen, is it wurdich te wizen dat der tsjinoerstelde ferwachtingen binne dy't jo hawwe. Oan 'e iene kant kinne jo ferwachtsje dat wurkjen mei produktive kollega's in arbeider bringe om har produktiviteit te fergrutsjen fan' e peer-druk. Of, oan 'e oare kant, kinne jo ferwachtigje dat mei hurd wurke peers in arbeider liede kinne om te ferdwinen, om't it wurk lykwols troch har kollega's dwaan sil. De lêstenste manier om peer-effekten op produktiviteit te studearjen, soe in randomisearre kontroleard eksperimint wêze, wêrby't arbeiders opnij oandwaande binne foar skiedsrjochten mei arbeiders fan ferskillende produktiviteitnivo's en dan wurdt de resultaat produktiviteit foar elk gemocht. Undersikers lykwols net kontrolearje it skema fan wurknimmers yn ien reade bedriuw, en sa moasten Mas en Moretti op in natuerlik eksperimint oanmeitsje om mei kassier by in supermerk.

Yn dizze bepaalde supermerk, om't de wize wêrop it skermjen dien waard en de manier dy't oerlutsen waard, hiene elke kassier ferskate co-workers yn ferskate tiden fan 'e dei. Fierder, yn dizze bepaalde supermerk, wie de opdracht fan kassierers net relatearre oan de produktiviteit fan har kollega's of hoe't de winkel begelearre wie. Mei oare wurden, ek al is de skieding fan kassaazjes net bepaald troch in lotterij, wie it as as wurknimmers somtiden willekeurich oanwêzich om te wurken mei hege (of leech) produktiviteit. Gelokkich hie dizze supermerk ek in kassa-digitale kassa-systeem dy't de items kontrolearre dy't elke keizer altyd scannen. Fan dizze kassa-loggegevens koe Mas en Moretti in krekte, yndividuele, en altyd op maat fan produktiviteit meitsje: it oantal punten yn 'e tweintigens. It kombinearjen fan dizze twa dingen - de natuerlike feroaring fan peerproduktiviteit en it altyd op maat fan produktiviteit - Mas en Moretti beskôge dat as in kassier oanfolle meiwurker dy't 10% mear produktyf as gemiddeld wiene, har produktiviteit soe ferhege wurde troch 1,5% . Fierder brûkten se de grutte en rykdom fan har gegevens om twa wichtige problemen te ûndersiikjen: de heterogeneiteit fan dit effekt (foar hokker wurksumheden is it effekt grutter?) En de meganismen efter it effekt (wêrom hat hege produktiviteit-peers liede ta hegere produktiviteit?). Wy komme werom nei dizze twa wichtige problemen - heterogeniteit fan behannelingseffekten en meganismen - yn haadstik 4 as wy eksperiminten yn mear detailje besykje.

Utgongspunt fan dizze twa stúdzjes tafoegde tabel 2.3 oare ûndersiken dy't dezelfde struktuer hawwe: it brûken fan in altiten op boarne foar it mjitten fan 'e effekt fan guon willekeurige farianten. Yn 'e praktyk brûke ûndersikers twa ferskillende strategyen foar natuerlike eksperiminten, dy't beide fruchtber wêze kinne. Guon ûndersikers begjinne mei in altyd op data boarne en sykje nei willekeurige eveneminten yn 'e wrâld; Oaren begjinne in willekeurich evenemint yn 'e wrâld en sykje nei gegevensboarnen dy't har ynfloed fêstigje.

Tabel 2.3: Foarbylden fan natuerlike eksperiminten mei gebrûk fan grutte data-boarnen
Substantive fokusje	Boarne fan natuerlik eksperiment	Altyd op gegevensboarne	Referinsje
Peer-effekten op produktiviteit	Schedulingproses	Koade gegevens	Mas and Moretti (2009)
Friendship formation	Hurricanes	Facebook	Phan and Airoldi (2015)
Spread fan emoasjes	Rein	Facebook	Lorenzo Coviello et al. (2014)
Peer-oan-peer ekonomyske transfers	Ierdskodding	Mobile jilddata	Blumenstock, Fafchamps, and Eagle (2011)
Persoanlike konsumpsjegedrach	2013 US regeare ôfslach	Persoanlike finansjele gegevens	Baker and Yannelis (2015)
Ekonomyske effekt fan oanrikkemedaasjes	Ferskate	Browsen gegevens by Amazon	Sharma, Hofman, and Watts (2015)
Effekt fan stress op bern	2006 Israel-Hezbollah oarloch	Birth records	Torche and Shwed (2015)
Lês gedrach op Wikipedia	Snowden revelaasjes	Wikipedia logs	Penney (2016)
Peer-effekten op bewurking	Wetter	Fitnesstrainer	Aral and Nicolaides (2017)

Yn 'e diskusje oant no ta oer natuerlike eksperiminten haw ik in wichtich punt útlitten: fuortgean fan wat de natuer hat jûn dat jo winskje kinne soms aardich probleem wêze. Lit ús weromkomme nei it Fietnamproses foarbyld. Yn dit gefal wie Angrist belangstelling foar it beoardieljen fan it effekt fan militêre tsjinst op earnings. Spitigernôch wie militêre tsjinst net oandiellik tawiisd; Earder waard it opnommen dat it willekeurich oernaam waard. Lykwols, net elkenien dy't ôfwurke waard (der wiene in ferskaat fan útkearings), en net elkenien dy't tsjinne waard ûntfongen (minsken kinne frijwilligers tsjinje). Omdat it ûntwerpen opsteld waard, waard ûndersiker de effekt fan 'e wurking bepale foar alle minsken yn' e ûntwerp. Mar Angrist woe net wolle dat it effekt fan 'e ûntwerpen; Hy woe it effekt fan it servearjen yn it militêr witte. Om dit skema te meitsjen, lykwols, wurde ekstra akseptaasjes en komplikaasjes ferplicht. Earst moatte ûndersikers passearje dat de iennichste manier wêryn't gearwurke beynfloede earnings is troch militêre tsjinst, in hypotinsje dy't de útsluting beheining neamt. Dizze hypokryp soe miskien wêze kinne as bygelyks manlju dy't opnommen binne yn 'e skoalle langer bliuwe om tsjin te tsjinjen of as wurkjouwers minder wiene om manlju te nimmen dy't opnommen waarden. Yn it algemien is de útslutingsbeskerming in krityske oerienkomst, en it is normaal hurd te ferifiearjen. Sels as de útsluting beheining korrekt is, is it noch hieltyd ûnmooglik om it effekt fan tsjinst te beoardieljen op alle minsken. Ynstee dêrtroch docht bliken dat ûndersikers allinich it effekt opsette kinne op in spesifike subset fan manlju neamde kompleksjes (manlju dy't tsjinst as tsjinje, mar net tsjinje kinne as net opsteld wurde) (Angrist, Imbens, and Rubin 1996) . Kompjûters wiene lykwols net de oarspronklike befolking fan belang. Tink derom dat dizze problemen sels ûntsteane yn it relatyf skjinne gefal fan it draaiboek. In fierdere set fan komplikaasjes ûntsteane as de behanneling net tawiisd wurdt troch in fysike lotterij. Bygelyks yn Mas en Moretti's stúdzjes oer kassierers, ûntfange fragen oer de hypoteek dat de opdracht fan peers essentiel is willekeurich. As dizze oerienkomst sterk ferdwûn is, kin it har skatten trochjaan. Om te sluten binne natuerlike eksperiminten in krêftige strategy foar it meitsjen fan koarskema's út net-eksperimintale gegevens, en grutte data boarnen fergrutsje ús mooglikheden om op natuerlike eksperiminten te profitearjen as se opkomme. It sil wierskynlik geweldig soarch nedich wêze - en somtiden sterke oanfurdigingen - om te gean fan hokker natuer hat de skatting jûn dat jo wolle.

De twadde strategy dy't ik jo graach fertelle wol foar it meitsjen fan kausale skatten út net-eksperimintale gegevens hinget ôf fan statistyske oanpasse fan non-eksperimintale gegevens yn in besykjen om foar te kommen foar ferskillende ferskillen tusken dejingen dy't de behanneling hawwe en net ûntfange. Der binne in protte soksoarte oanpassings oanwêzich, mar ik rjochtsje op ien dy't oanjûn is . Yn oerienkomst sjocht de ûndersiker net-eksperimintale gegevens om pearen fan minsken te meitsjen dy't ferlykber binne, behalve dat men de behanneling krige en ien hat net. Yn it proses fan oerienkomst binne ûndersikers ek ferdwûnen ; dat is, it ferfaljen fan gefallen wêr't gjin spesjale wedstriid is. Dêrom soe dizze metoade genôch genôch as oerienkomst-en-pruning neamd wurde, mar ik sil it tradisjonele termich hâlde: oerienkomst.

In foarbyld fan 'e krêft fan oerienkommende strategyen mei massive net-eksperimintele gegevensboarnen komt út ûndersyk nei konsumintegedrach troch Liran Einav en kollega's (2015) . Se wiene ynteressearre yn Auksjes dy't plak wurde op eBay, en by it beskriuwen fan har wurk, rjochtsje ik op it effekt fan ferkeapingspriis op priisútkomsten, lykas de ferkeappriis of de winsklikens fan in ferkeap.

De meast naïve manier om de effekt fan startpriis by priis te priizgjen soe wêze om de definitive priis foar oefeningen mei ferskate startprizen krekt te berikken. Dizze oanpak soe goed wêze as jo de keappriis foar de startpriis foarsizze woe. Mar as jo fraach giet oer it effekt fan 'e startpriis, dan sil dizze oanpak net wurkje omdat it net basearre is op goede fergeliken; De oannimmers mei legere begjinsprizen kinne hiel oars wêze fan dyjingen dy't mei hegere startprizen binne (bgl. se kinne wêze foar ferskate soarten soarten of oare soarten fan ferkeapers).

As jo al bewust binne fan 'e problemen dy't ûntsteane kinne by it meitsjen fan kozalyske skatten út net-eksperimintale gegevens, kinne jo de naive oanpak skippe en beskôgje as jo in fjild eksperimint útfiere wêr't jo in bepaalde item-say, in golfclub ferkeapje mei in fêste Set fan Auksparameter-sizze, frije skipfeart en ferkeap iepen foar twa wiken - mar mei willekeurige oanfrege prizen. Troch it te fergelykjen fan de resultaten fan it resultaat fan 'e merk, soene dit fjild eksperimint in tige dúdlike mjitmeitsje fan it effekt fan startpriis by ferkeappriis. Mar dizze mjitting soe allinich jilde foar ien bepaald produkt en set fan auctionparameters. De resultaten kinne oars wêze, bygelyks foar ferskate soarten produkten. Sûnder in sterke teory is it dreech om ekstrapolitis te meitsjen fan dit ienige eksperiment nei it folsleine oanbod fan mooglik eksperiminten dy't koart west hawwe kinne. Fierder binne fjilden eksperiminten genôch djoer, dat it kin wêze dat jo alle fariaasje dy't jo wolle besykje wolle.

Yn tsjinstelling ta de naïve en eksperimintearjende oanpak hienen Einav en kollega's in tredde oanpak: passend. De wichtichste stipe yn har strategy is om dingen te ûntdekken dy't te finen binne mei fjild eksperiminten dy't al op eBay binne. Bygelyks figuer 2.8 lit guon fan 'e 31 listings foar krekt deselde golfclub - in Taylormade Burner 09-driver-ferkocht troch krekt deselde ferkeaper- "budgetgolfer". De 31 listings hawwe lykwols wat ferskillende skaaimerken, lykas ferskillende start priis, eintiid, en fergoedingsgebieten. Mei oare wurden is it as as "budgetgolfer" eksperiminten foar de ûndersikers.

Dizze listings fan 'e Taylormade Burner 09 Treiwer wurde ferkocht troch "budgetgolfer" binne in foarbyld fan in oanpasde set fan listings, wêr't it krekte deselde item troch de krekte selde ferkeaper ferkocht wurdt, mar elk kear mei wat ferskillende skaaimerken. Binnen de massive logboeken fan eBay binne wierskynlik hûnderten tûzenen oerienkomsten mei miljoen fan listings. Sadwaande, fergelykje de lêste priis foar alle auksjes mei in opjûne startpriis, Einav en kollega 's fergelike yn oerienrige sets. Om kombinearjen fan resultaten út 'e fergeliking binnen dizze hûndert tûzenen oerienkomsten te kombinearjen, hat Einav en kollega's de startpriis en lêste priis útdrukt yn' e hichte fan de referinsjewearde fan elke perioade (bgl. Syn trochsneed ferkeappriis). Bygelyks as de Taylormade Burner 09 Treiber in referinsjewearde fan $ 100 (basearre op syn ferkeap) hie, dan soe in startpriis fan $ 10 as 0,1 en in einpriis fan $ 120 as 1.2 útdrukt wurde.

Figure 2.8: In foarbyld fan in oerienkommende set. Dit is de krekte selde golfferiening (in Taylormade Burner 09 Driver) dy't ferkocht wurdt troch de krekte selde persoan (budgetgolfer), mar guon fan dizze ferkeapen waarden ûnder ferskillende betingsten fûn (bgl. Ferskillende startpriizen). Ferfanger troch tastimming fan Einav et al. (2015), figuer 1b.

Figure 2.8: In foarbyld fan in oerienkommende set. Dit is de krekte selde golfferiening (in Taylormade Burner 09-driver) dy't ferkocht is troch de krekte deselde persoan ("budgetgolfer"), mar guon fan dizze ferkeapen waarden ûnder ferskillende betingsten foltôge (bygelyks ferskate startprizen). Ferfanger troch tastimming fan Einav et al. (2015) , figuer 1b.

Tsjinje dat Einav en kollega's belangstellten wiene oan it effekt fan startpriis op de útkomsten. Earst brûkten se lineêre regression om te skatten dat hegere begjinposten de problemen fan in ferkeap fergrutsjen, en dat hegere begjinposten ferheegje de definitive ferkeappriis (bedoeld foar in ferkeaping). Mei himsels binne dizze skatten - dy't in lineêre relaasje beskriuwe en binne oer alle produkten gemiddeld binne - net allegear interessant. Dêrnei brûkten Einav en kollega's de massive grutte fan har gegevens om in ferskaat fan subtile skatten te meitsjen. Bygelyks troch it befoarderjen fan de effekt apart foar in ferskaat oan ferskillende startpriis, fûnen se dat de relaasje tusken startpriis en ferkeappriis netlinear is (figuer 2.9). Benammen foar startpriis tusken 0,05 en 0,85, hat de startpriis mar in soad ynfloed op de keappriis, in fynst dat folslein fermoarde waard troch har earste analyze. Fierder, foaral as gemiddeld oer alle punten, hat Einav en kollega's de ynfloed fan startpriis foar 23 ferskillende kategory fan items (bgl. Petbedriuwen, elektroanika en sportmaatregels) beoardield (figuer 2.10). Dizze skatten sjogge dat foar mear ûnderskate items - lykas memorabilia-startpriis in lytsere effekt hat op 'e kâns fan in ferkeap en in grutter effekt op' e einlingsferkeappriis. Fierder, foar mear kommandearre artikels - sa as DVD-de startpriis hat hast gjin ynfloed op 'e einlingspriis. Mei oare wurden, in gemiddelde dat kombinearret útkomsten fan 23 ferskillende kategoryen items, hâldt wichtige ferskillen tusken dizze punten.

Figur 2.9: Ferhâlding tusken ferkeapingspriis en probabiliteit fan in ferkeap (a) en ferkeappriis (b). Der is rûge in lineêre ferhâlding tusken startpriis en problemen fan ferkeap, mar in netlinear relaasje tusken startpriis en ferkeappriis; Foar startpriis tusken 0,05 en 0,85, hat de startpriis mar in soad ynfloed op de keappriis. Yn beide gefallen binne de relaasjes yn essaal ûnôfhinklik fan itemwearde. Adaptearre fan Einav et al. (2015) , sifers 4a en 4b.

Figure 2.10: Estimates fan elke kategory fan items; De fêste punt is de skatting foar alle kategoryen meiinoar keppele (Einav et al. 2015) . Dizze skatten sjogge dat foar mear ûnderskate items - lykas memorabilia - de startpriis in lytser effekt hat op 'e winsk fan in ferkeap ( $x$ -aks) en in grutter effekt op' e einlingsferkeappriis ( $y$ -as). Adaptearre fan Einav et al. (2015) , figuer 8.

Ek as jo net spesjaal ynteressearre binne op ferkeapings op eBay, moatte jo de manier sjen dat figuer 2.9 en figuer 2.10 in rikere begryp fan eBay meitsje as ienfâldige estimaasjes dy't in lineêre relaasje beskriuwe en in kombinaasje fan ferskillende kategoryen items. Fierder, hoewol it wittenskiplik mooglik wêze soe om dizze subtylere skatten mei fjildekseksjes te generearjen, soenen de kosten soart eksperiminten yn essinsje ûnmooglik meitsje.

Krekt as mei natuerlike eksperiminten binne der in oantal manieren dy't oerienkomme litte kinne oan slimme skatten. Ik tink dat de grutste soarch mei oerienkommende skatten is dat se troch dingen ferpakt wurde kinne dy't net brûkt waarden yn 'e gearhing. Bygelyks, yn har wichtichste resultaten, Einav en kollega's hawwe krekt oanpast oer fjouwer karakteren: seller ID nûmer, item kategory, titel titel, en subtitle. As de artikels ferskillend wiene yn 'e wize dy't net brûkt wurde wiene, dan koe dit in ûnjildich ferliking meitsje. Bygelyks as "budgetgolfer" de priis ferkocht foar de Taylormade Burner 09-driver yn 'e winter (as golfclubs minder populêr binne), dan kin it ferskine dat legere begjinposten ferminderje nei legere prizen, as feitlik dat dit in artifact wêze soe saaklike fariant yn 'e fraach. Ien oanpak om dit soarcht te regearjen besiket in protte ferskillende soarten oanpassing. Bygelyks, Einav en kollega's repetenearje har analysearje wylst it tiidskerm fan 'e tiidwikseling feroare waard (yn oerienkommende siden binne items te keap binnen ien jier, binnen ien moanne en hjoeddeistich). Gelokkich fûnen se lykwols allegear resultaten foar alle tiid finsters. In fierdere soargen mei oerienkomst ûntstiet út útlis. Estimaten fan oerienkomst allinich tapasse foar oerienkommende gegevens; Hja geane net oan foar de gefallen dy't net oanpast wurde. Bygelyks, troch it ûndersiikjen fan ûndersiken op items dy't meardere listings hawwe, hawwe Einav en kollega 's rjochte op profesjonele en semi - profesjonele ferkeapers. Sa, as jo dizze fergeliking ynterpretearje, moatte wy oanpasse dat se allinich tapasse foar dizze subset fan eBay.

It oanpassen is in krêftige strategy om fereale fergeliking te finen yn net eksperimintale gegevens. In protte sosjale wittenskippers fiele it twadde-bêste foar eksperiminten, mar dat is in leauwe dat kin feroare wurde, wat. It oanpassen fan massive gegevens kin better wêze as in lyts tal fjildekseksjes as wannear't (1) heterogeniteit yn effekten wichtich is en (2) de wichtige fariabelen dy't nedich binne foar oerienkomst binne mjitten. Tabel 2.4 jout guon oare foarbylden oer hoe't oerienkomst mei grutte data boarnen brûkt wurde kin.

Tabel 2.4: Foarbylden fan stúdzjes dy't gebrûk meitsje fan grutte data-boarnen
Substantive fokusje	Grutte gegevensboarne	Referinsje
Effekt fan skerpe op plysjesgeweld	Stop-en-frisk-record	Legewie (2016)
Effekt fan 11 septimber 2001 op famyljes en buorlju	Stimmen akkount en spesjale dossiers	Hersh (2013)
Sosjaal ferbân	Kommunikaasje en produksjebedriuwen gegevens	Aral, Muchnik, and Sundararajan (2009)

By eintsjebeslút is it skatteljen fan kausale effekten fan net-eksperiminteel data dreech, mar oanwêzich as natuerlike eksperiminten en statistyske oanpassings (bygelyks oerienkomst) kinne brûkt wurde. Yn guon situaasjes kinne dizze oanwêzigens ferkeard ferkeard wurde, mar as jo sertifisearre wurde, kinne dizze oanwêzingen in nuttige oanfolling wêze oan 'e eksperimintele oanpak dy't ik yn haadstik 4 beskriuwt. Fierder sjogge dizze twa oanwizen it benammen fan' e groei fan ' op, grutte gegevenssystemen.