2.4.3 aproksimanta eksperimentoj

Tiu traduko estis kreitaj de komputilo. ×

2.4.3 aproksimanta eksperimentoj

Ni povas proksimigi eksperimentojn, kiujn ni ne aŭ ne povas fari. Du aliroj, kiuj ĉefe profitigas de grandaj datumoj, estas naturaj eksperimentoj kaj kongruaj.

Iuj gravaj sciencaj kaj politikaj demandoj estas kaŭzaj. Ekzemple, kio estas la efiko de laboro trejnanta programon sur salajroj? Esploristo provanta respondi ĉi tiun demandon povus kompari la enspezojn de homoj, kiuj subskribis por trejnado al tiuj, kiuj ne faris. Sed kiom da diferencoj en salajroj inter ĉi tiuj grupoj estas pro la trejnado kaj kiom multe pro preexistantaj diferencoj inter la homoj, kiuj subskribas kaj tiuj, kiuj ne faras? Ĉi tio estas malfacila demando, kaj ĝi estas unu, kiu ne aŭtomate foriras kun pli da datumoj. Alivorte, la maltrankvilo pri eblaj preexistantaj diferencoj ŝprucas kiom ajn laboristoj estas en viaj datumoj.

En multaj situacioj, la plej forta maniero por taksi la kaŭzan efekton de iu kuracado, kiel laborpostenado, estas ekzekuti hazarda kontrolita eksperimento, kie esploristo hazarde transdonas la traktadon al iuj homoj kaj ne al aliaj. Mi dediĉos ĉapitrojn 4 al eksperimentoj, do ĉi tie mi fokusos du strategiojn, kiuj povas esti uzataj per ne-eksperimentaj datumoj. La unua strategio dependas de serĉado de io okazanta en la mondo, kiu hazarde (aŭ preskaŭ hazarde) asignas la traktadon al iuj homoj kaj ne al aliaj. La dua strategio dependas de statistike adaptante ne-eksperimentajn datumojn en provo prunti preexistajn diferencojn inter tiuj, kiuj faris kaj ne ricevis la traktadon.

Skeptika povus aserti, ke ambaŭ ĉi tiuj strategioj devas esti evitataj, ĉar ili postulas fortajn supozojn, supozojn malfacile taksi kaj, en praktiko, ofte estas malobservitaj. Dum mi estas simpática al ĉi tiu aserto, mi pensas, ke ĝi iomete tro iomete. Verŝajne vere estas malfacile fidinde fari kaŭzajn taksojn de neperperimentaj datumoj, sed mi ne kredas, ke tio signifas, ke ni neniam provu. En aparta, ne-eksperimentaj aliroj povas esti helpema se logika limigo malhelpas vin realigi eksperimenton aŭ se etikaj limigoj signifas, ke vi ne volas ekzekuti eksperimenton. Pliaj, ne-eksperimentaj aliroj povas esti helpema se vi volas utiligi datumojn, kiuj jam ekzistas por desegni hazardan kontrolitan eksperimenton.

Antaŭ daŭrigi, ĝi ankaŭ valoras rimarki, ke fari kaŭzaj kalkuloj estas unu el la plej kompleksaj temoj en socia esplorado, kaj kiu povas konduki al intensa kaj emocia debato. En kio sekvas, mi donos optimisman priskribon de ĉiu aliro por konstrui intuicion pri ĝi, tiam mi priskribos iujn el la defioj, kiuj ŝprucas uzinte tiun aliron. Pliaj detaloj pri ĉiu aliro estas disponeblaj en la materialoj ĉe la fino de ĉi tiu ĉapitro. Se vi intencas uzi ĉi tiujn alirojn en vian propran esploron, mi tre rekomendas legi unu el la multaj bonegaj libroj pri kaŭzaj inferencia (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

Unu aliro al kaŭzi kaŭzajn taksojn de neperperimentaj datumoj estas serĉi eventon kiu hazarde atribuis traktadon al iuj homoj kaj ne al aliaj. Ĉi tiuj situacioj estas nomataj naturaj eksperimentoj . Unu el la plej klaraj ekzemploj de natura eksperimento venas de la esplorado de Joshua Angrist (1990) mezuras la efikon de militaj servoj en enspezoj. Dum la milito en Vjetnamujo, Usono pliigis la grandecon de siaj armitaj fortoj tra projekto. Por decidi, pri kiuj civitanoj estus engaĝitaj, la usona registaro tenis loterion. Ĉiu naskiĝtago estis skribita sur papero, kaj, kiel montrita en figuro 2.7, ĉi tiuj pecoj de papero estis selektitaj unu samtempe por determini la ordon, en kiu junuloj nomus servi (junaj virinoj ne estis subjektoj al la projekto). Surbaze de la rezultoj, viroj naskitaj la 14-an de septembro estis nomitaj unue, viroj naskitaj la 24-an de aprilo estis nomataj sekundaj, kaj tiel plu. Finfine, en ĉi tiu loterio, viroj naskitaj en 195 malsamaj tagoj estis redaktitaj, dum viroj naskitaj dum 171 tagoj ne estis.

Figuro 2.7: la kongresano Aleksandro Pirnie (R-NY) desegnis la unuan kapsulon por la Elektiva Provizo de Servo la 1-an de decembro 1969. Joshua Angrist (1990) kombinis la projektan loterion kun enspezoj de la Socia Sekureca Administrado por taksi la efikon de milita servo pri enspezoj. Ĉi tio estas ekzemplo de esplorado uzante natura eksperimento. Fonto: US Selective Service System (1969) / Wikimedia Komunejo .

Kvankam ĝi eble ne tuj aspektas, projekto de loterio havas kritikan similecon al hazarda kontrolita eksperimento: en ambaŭ situacioj, partoprenantoj estas hazarde atribuitaj por ricevi traktadon. Por studi la efikon de ĉi tiu hazarda traktado, Angrist utiligis ĉiam-grandajn sistemojn: la Usona Socia Sekureca Administrado, kiu kolektas informojn pri preskaŭ ĉiuj usonaj enspezoj de dungado. Kombininte la informojn pri kiuj estis hazarde elektita en la draft loterio kun la enspezoj de datumoj kolektitaj en registaraj administraj registroj, Angrist konkludis, ke la gajnoj de veteranoj proksimume 15% malpli ol la enspezoj de similaj ne-veteranoj.

Ĉar ĉi tiu ekzemplo ilustras, kelkfoje sociaj, politikaj aŭ naturaj fortoj asignas traktadojn laŭ maniero, kiu povas esti plibonigitaj de esploristoj, kaj kelkfoje la efikoj de ĉi tiuj traktadoj estas kaptitaj en ĉiam-sur grandaj datumaj fontoj. Ĉi tiu esplora strategio povas esti resumita kiel sekvas: $\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}$

Por ilustri ĉi tiun strategion en la cifereca aĝo, ni konsideras studon de Alexandre Mas kaj Enrico Moretti (2009) kiuj provis taksi la efikon de labori kun produktemaj kolegoj pri la produktiveco de laboristo. Antaŭ vidi la rezultojn, ĝi valoras indiki, ke ekzistas konfliktaj atendoj, kiujn vi povus havi. Unuflanke, vi eble atendas, ke laborante kun produktemaj kolegoj kondukus laboriston por pliigi ŝian produktivecon pro kompatra premo. Aŭ, aliflanke, vi eble atendu, ke havantaj laboremajn kunulojn povus porti laboriston malŝpari, ĉar la samaj laboroj faros la laboron. La plej klara maniero por studi samajn efikojn sur produktiveco estus hazarda kontrolita eksperimento, kie laboristoj hazarde atribuas ŝanĝojn kun laboristoj de malsamaj produktivezaj niveloj kaj tiam la rezultanta produktiveco mezuras por ĉiuj. Esploristoj, tamen, ne kontrolas la horaron de laboristoj en ia reala negoco, kaj tial Mas kaj Moretti devis fidi naturajn eksperimentojn kun kasistoj en superbazaro.

En ĉi tiu aparta superbazaro, pro la maniero, kiam la planado estis farita kaj la vojo, kiu moviĝas transpremita, ĉiu kasisto havis malsamajn kunlaborantojn ĉe malsamaj tempoj de tago. Plie, en ĉi tiu aparta superbazaro, la farita de kasistoj ne rilatis al la produktiveco de siaj samuloj aŭ kiom okupata la vendejo estis. Alivorte, kvankam la programado de kasistoj ne estis determinita de loterio, ĝi estis kvazaŭ laboristoj estis hazarde atribuitaj por labori kun altaj (aŭ malaltaj) produktivaj samuloj. Feliĉe, ĉi tiu superbazaro ankaŭ havis sistemon de kontrolo de ciferecaj aĝoj, kiu spuris la erojn, kiujn ĉiu ciferejo ĉagrenis ĉiam. De ĉi tiu kontroleta datumado, Mas kaj Moretti povis krei precizan, individuan kaj ĉiam-mezuran produktadon: la nombro da eroj scanditaj per sekundo. Kombinante ĉi tiujn du aferojn - la naturan variadon en la kompareco de la samuloj kaj la ĉiama mezuro de produktado - Mas kaj Moretti taksis, ke se kontribuanto de kostisto kun 10% pli produktema ol mezumo, ŝia produkteco pliigus 1.5% . Plue, ili uzis la grandecon kaj riĉecon de iliaj datumoj por esplori du gravajn aferojn: la heterogenecon de ĉi tiu efiko (Por kiu specoj de laboristoj estas la efiko pli granda?) Kaj la mekanismoj malantaŭ la efiko (Kial havas kunproduktiĝaj kompanoj konduki al pli alta produktiveco?). Ni revenos al ĉi tiuj du gravaj aferoj - heterogeneco de kuracaj efikoj kaj mekanismoj-en ĉapitro 4 kiam ni diskutas eksperimentojn pli detale.

Ĝenerale de ĉi tiuj du studoj, la tablo 2.3 resumas aliajn studojn, kiuj havas ĉi tiun saman strukturon: uzante ĉiam-datuman fonton por mezuri la efikon de iu hazarda variado. En praktiko, esploristoj uzas du malsamajn strategiojn por trovi naturajn eksperimentojn, kaj ambaŭ povas fruktodonaj. Iuj esploristoj komencas kun ĉiam-datuma fonto kaj serĉas hazardajn eventojn en la mondo; aliaj komencas hazardan eventon en la mondo kaj serĉas datumajn fontojn, kiuj kaptas sian efikon.

Tablo 2.3: Ekzemploj de Naturaj Eksperimentoj Uzanta Grandajn Datumajn Fontojn
Substanta fokuso	Fonto de natura eksperimento	Ĉiam-sur datuma fonto	Referenco
Konfernaj efikoj sur produktiveco	Pritraktata procezo	Kontroli datumojn	Mas and Moretti (2009)
Formado de amikeco	Uraganoj	Facebook	Phan and Airoldi (2015)
Disvastigo de emocioj	Pluvo	Facebook	Lorenzo Coviello et al. (2014)
Komercaj translokiĝoj	Tertremo	Poŝtelefonaj datumoj	Blumenstock, Fafchamps, and Eagle (2011)
Persona konsumo konduto	2013 Usona registaro haltita	Personaj financaj datumoj	Baker and Yannelis (2015)
Ekonomia efiko de rekomendaj sistemoj	Diversaj	Foliumado de datumoj ĉe Amazon	Sharma, Hofman, and Watts (2015)
Efekto de streso sur unborn beboj	2006 Israelo-Hezbollah-milito	Naskiĝaj registroj	Torche and Shwed (2015)
Legado konduto sur Vikipedio	Revelacioj de Snowden	Vikipedio registroj	Penney (2016)
Konsekvencoj en ekzerco	Vetero	Hejmaj spuroj	Aral and Nicolaides (2017)

En la diskuto ĝis nun pri naturaj eksperimentoj, mi forlasis gravan punkton: irante el la naturo, kion vi bezonis, povas iam esti sufiĉe malfacila. Ni revenu al la vjetnama ekzemplo. En ĉi tiu kazo, Angrist interesiĝis pri taksado de la efika militservo pri enspezoj. Bedaŭrinde, militservo ne estis hazarde atribuita; prefere ĝi estis redaktita, kiu estis hazarde atribuita. Tamen, ne ĉiuj, kiuj estis redaktataj, servis (estis diversaj sendevigoj), kaj ne ĉiuj, kiuj servis, estis redaktitaj (homoj povus volontuli servi). Ĉar estante redaktita estis hazarde atribuita, esploristo povas taksi la efekton esti redaktita por ĉiuj homoj en la projekto. Sed Angrist ne volis scii la efikon de esti redaktita; li volis scii la efikon servi en la militistaro. Por fari ĉi tiun takson, tamen, aldonaj suplementoj kaj komplikaĵoj estas postulataj. Unue, la esploristoj devas supozi, ke la sola maniero, kiun redaktanta efiko gajnas, estas tra milita servo, supozo nomata la forigo de limigo . Ĉi tiu supozo povus esti malĝusta se, ekzemple, homoj, kiuj estis redaktitaj, restis en la lernejo pli longaj por eviti servadon aŭ se dungantoj malpli volis kontrakti homojn, kiuj estis redaktitaj. Ĝenerale, la forigo de limigo estas kritika supozo, kaj ĝi kutime malfacilas kontroli. Eĉ se la forigo de limigo estas ĝusta, ĝi ankoraŭ neeblas taksi la efikon de la servo al ĉiuj homoj. Anstataŭe, ĝi rezultas, ke esploristoj nur povas taksi la efikon sur specifa subaro de viroj nomataj plenumuloj (viroj, kiuj servus dum redaktado, sed ne servus kiam ne redaktitaj) (Angrist, Imbens, and Rubin 1996) . Kontraŭuloj, tamen, ne estis la originala populacio de intereso. Rimarku, ke tiuj problemoj ŝprucas eĉ en la relative pura kazo de la draft loterio. Alia aro de komplikaĵoj ŝprucas kiam la traktado ne estas atribuita de fizika loterio. Ekzemple, en la studo de masistoj kaj kontraktoj pri masakistoj, pliaj demandoj ŝprucas pri la supozo, ke la komisio de samuloj estas esence hazarda. Se ĉi tiu supozo estis forte malobservita, ĝi povus pripensi siajn taksojn. Por konkludi, naturaj eksperimentoj povas esti potenca strategio por kaŭzi kaŭzajn taksojn de neperperimentaj datumoj, kaj grandaj datumaj fontoj pliigas nian kapablecon kapitaligi naturajn eksperimentojn kiam ili okazas. Tamen, ĝi verŝajne postulos grandajn zorgojn - kaj foje fortajn supozojn - iri de kia naturo provizis al la takso, kiun vi volas.

La dua strategio, kiun mi ŝatus diri al vi pri kaŭzi kaŭzajn taksojn de neperperimentaj datumoj, dependas de statistike adaptado de neperperimentaj datumoj en provo prunti preexistajn diferencojn inter tiuj, kiuj faris kaj ne ricevis la traktadon. Ekzistas multaj tiaj adaptiĝaj aliroj, sed mi fokusos unu nomitan kongruon . En kongruo, la esploristo aspektas per ne-eksperimentaj datumoj por krei parojn da homoj, kiuj estas similaj, krom ke tiu ricevis la traktadon kaj unu ne havas. En la procezo de kongruo, esploristoj efektive ankaŭ pruntas ; tio estas, forĵetante kazojn kie ne estas evidenta matĉo. Tiel, ĉi tiu metodo estus pli precize nomata kongrua kaj pruntita, sed mi restos kun la tradicia termino: kongruo.

Unu ekzemplo de la potenco de kongruaj strategioj kun amasaj ne-eksperimentaj datumaj fontoj venas de esplorado pri konsumaj kondutoj fare de Liran Einav kaj kolegoj (2015) . Ili interesiĝis pri aŭkcioj okazantaj en eBay, kaj priskribante ilian verkon, mi fokusos la efikon de aŭkcio komencanta prezon sur aŭkciaj rezultoj, kiel la venda prezo aŭ la probablo de vendo.

La plej naiva maniero por taksi la efekton komenci prezon al venda prezo estus simple kalkuli la lastan prezon por aŭkcioj kun malsamaj komencaj prezoj. Ĉi tiu aliro bonus se vi volus antaŭdiri la vendan prezon donita la komencan prezon. Sed se via demando koncernas la efikon de la komenca prezo, tiam ĉi tiu aliro ne funkcios ĉar ĝi ne baziĝas sur justaj komparoj; la aŭkcioj kun pli malaltaj komencaj prezoj povus esti sufiĉe malsamaj al tiuj kun pli altaj komencaj prezoj (ekzemple, ili povus esti por diversaj specoj de varoj aŭ inkluzivas malsamajn tipojn de vendistoj).

Se vi jam konscias pri la problemoj, kiuj povas ŝprucigi kaŭzajn kaŭzojn de neperperimentaj datumoj, vi povus salti la naivan aliron kaj pripensi ekzekuti kampojn eksperimenton, kie vi vendus specifan eron-diri, golfo-klubo kun fiksita aro de aŭkcio-parametroj-diru, liberaj ekspedicioj kaj aŭkcio malfermitaj dum du semajnoj-sed kun hazarde asignitaj komencaj prezoj. Komparinte la rezultajn merkatajn rezultojn, ĉi tiu kampo-eksperimento proponus tre klaran mezuradon pri la efekto de komencprezento al venda prezo. Sed ĉi tiu mezuro nur aplikus al unu aparta produkto kaj aro de aŭkcio-parametroj. La rezultoj povus esti malsamaj, ekzemple, por malsamaj specoj de produktoj. Sen forta teorio, estas malfacile ekstermi de ĉi tiu sola eksperimento al la plena gamo de eblaj eksperimentoj, kiuj povus esti kuritaj. Pliaj kampaj eksperimentoj estas sufiĉe multekostaj, ke ĝi neeviteble funkcii ĉiun varion, kiun vi eble provos.

Kontraste kun la naivaj kaj eksperimentaj aliroj, Einav kaj kolegoj prenis trian alproksimiĝon: kongruo. La ĉefa lertaĵo en ilia strategio estas malkovri similajn aferojn al kampo-eksperimentoj, kiuj jam okazis en eBay. Ekzemple, la figuro 2.8 montras iujn el la 31 listoj por ĝuste la sama golfo-klubo - Taylormade Burner 09 Driver-vendita de la sama vendisto- "budgetgolfer". Tamen, tiuj 31 listoj havas iomete malsamajn karakterizaĵojn, kiel ekzemple malsamaj ekkuro Prezo, Finaj datoj, Kaj ekspedaj kotizoj. Alivorte, ĝi estas kvazaŭ "budgetgolfer" ekzekutas eksperimentojn por la esploristoj.

Ĉi tiuj listigoj de la Taylormade Burner 09 Driver vendataj per "budgetgolfer" estas unu ekzemplo de egalita aro de listigoj, kie la sama ero estas vendata de la sama vendisto, sed ĉiufoje kun iomete malsamaj karakterizaĵoj. Ene de la amasaj ensalutoj de eBay estas laŭvorte centoj da miloj da egalitaj aroj engaĝantaj milionojn da listoj. Tiel, prefere ol komparante la lastan prezon por ĉiuj aŭkcioj kun donita komenca prezo, Einav kaj kolegoj komparis en interparolaj aroj. Por kombini rezultojn de la komparoj ene de ĉi tiuj cientos de miloj da kongruaj aroj, Einav kaj kolegoj ree esprimis la komencan prezon kaj la lastan prezon laŭ la referenca valoro de ĉiu ero (ekz. Ĝia averaĝa vendo). Ekzemple, se la Taylormade Burner 09 Driver havis referencan valoron de $ 100 (bazita sur ĝiaj vendoj), tiam komenca prezo de $ 10 estus esprimita kiel 0.1 kaj fina prezo de $ 120 kiel 1.2.

Figuro 2.8: Ekzemplo de egalita aro. Ĉi tiu estas la ĝusta sama golfo-klubo (Taylormade Burner 09 Driver) vendita de la ĝusta sama (budgetgolfer), sed iuj el ĉi tiuj vendoj estis faritaj sub malsamaj kondiĉoj (ekzemple malsamaj prezoj). Reproduktita per permeso de Einav et al. (2015), figuro 1b.

Figuro 2.8: Ekzemplo de egalita aro. Ĉi tiu estas la ĝusta sama golfo-klubo (Taylormade Burner 09 Driver), kiu estas vendita de la ĝusta sama ("budgetgolfer"), sed iuj el ĉi tiuj vendoj estis faritaj sub malsamaj kondiĉoj (ekz. Reproduktita per permeso de Einav et al. (2015) , figuro 1b.

Memoru, ke Einav kaj kolegoj interesiĝis pri la efiko de unua prezo pri aŭkciaj rezultoj. Unue, ili uzis linean regresion por taksi ke pli altaj komencaj prezoj malpliigas la probablon de vendo, kaj ke pli altaj komencaj prezoj pliigas la finan vendoprezon (kondiĉe al vendo). Por si mem, ĉi tiuj taksoj -kiuj priskribas linean rilaton kaj estas averaĝataj pri ĉiuj produktoj-ne estas ĉio, kio interesas. Tiam, Einav kaj kolegoj uzis la amasan grandecon de siaj datumoj por krei diversajn pli subtilajn taksojn. Ekzemple, taksante la efikon aparte por diversaj malsamaj prezaj prezoj, ili trovis, ke la rilato inter prezo de komencado kaj vendo estas ne lineara (figuro 2.9). En aparta, por komenci prezojn inter 0.05 kaj 0.85, la komenca prezo havas tre malgrandan efikon al venda prezo, trovo, kiu tute maltrafis sian unuan analizon. Plie, prefere ol averaĝado pri ĉiuj eroj, Einav kaj kolegoj taksis la efikon de ekkresprezento por 23 malsamaj kategorioj de eroj (ekz. Petoj, elektroniko kaj sportaj memoraĵoj) (figuro 2.10). Ĉi tiuj taksoj montras, ke por pli distingaj eroj -kiel memorabilia-komenca prezo havas pli malgrandan efikon sur la probablo de vendo kaj pli granda efiko sur la fina vendo-prezo. Plue, por pli komercaj eroj -kiel DVD-la komenca prezo preskaŭ ne havas efikon sur la fina prezo. Alivorte, mezumo, kiu kombinas rezultojn de 23 malsamaj kategorioj de eroj kaŝas gravajn diferencojn inter ĉi tiuj eroj.

Figuro 2.9: Rilato inter aŭkcio komencanta prezo kaj probablo de vendo (a) kaj venda prezo (b). Estas proksimume lineara rilato inter komencanta prezo kaj probablo de vendo, sed ne lineara rilato inter komencanta prezo kaj venda prezo; Por komencaj prezoj inter 0.05 kaj 0.85, la komenca prezo havas tre malgrandan efikon al venda prezo. En ambaŭ kazoj, la rilatoj estas esence sendependaj de ero valoro. Adaptita de Einav et al. (2015) , figuroj 4a kaj 4b.

Figuro 2.10: Takso de ĉiu kategorio de eroj; La solida punkto estas la takso por ĉiuj kategorioj kunigitaj (Einav et al. 2015) . Ĉi tiuj taksoj montras, ke por pli distingaj eroj -kiel memorabilioj- la komenca prezo havas pli malgrandan efikon sur la probablo de vendo ( $x$ akso) kaj pli granda efiko sur la fina vendo ( $y$ -axis). Adaptita de Einav et al. (2015) , figuro 8.

Eĉ se vi ne aparte interesiĝas pri aŭkcioj en eBay, vi devas admiri la formon de tiu figuro 2.9 kaj figuro 2.10 proponas pli riĉan komprenon pri eBay ol simplaj taksoj, kiuj priskribas linean rilaton kaj kombinas multajn malsamajn kategoriojn de eroj. Plue, kvankam ĝi estus science eble generi ĉi tiujn pli subtilajn taksojn kun kampaj eksperimentoj, la kosto farus tiajn eksperimentojn esence neebla.

Kiel kun naturaj eksperimentoj, ekzistas kelkaj manieroj, kiuj kongruas povas konduki al malbonaj taksoj. Mi pensas, ke la plej granda maltrankvilo kun kongruaj taksoj estas, ke ili povas esti preĝitaj per aferoj, kiuj ne estis uzataj en la kongruaj. Ekzemple, en iliaj ĉefaj rezultoj, Einav kaj kolegoj faris precizan kongruon en kvar karakterizaĵoj: vendisto ID-nombro, ero kategorio, ero titolo kaj subtitolo. Se la eroj estis malsamaj en vojoj, kiuj ne estis uzataj por kongruo, tiam ĉi tio povus krei maljusta komparon. Ekzemple, se "budgetgolfer" malpliigis prezojn por la Taylormade Burner 09 Driver en la vintro (kiam golfaj kluboj estas malpli popularaj), tiam ĝi povus aperi ke pli malaltaj komencaj prezoj kondukas al pli malaltaj prezoj, kiam fakte tio ĉi estus artefaĵo de varmezura variado en postulo. Unu aliro al ĉi tiu koncerno provas multajn malsamajn specojn. Ekzemple, Einav kaj kolegoj ripetis ilian analizon, variante la tempa fenestro uzata por kongrui (egalitaj aroj inkludis elementojn venditajn ene de unu jaro, ene de unu monato kaj samtempe). Feliĉe, ili trovis similajn rezultojn por ĉiuj tempoj fenestroj. Plua maltrankvilo kun kongruo ŝprucas de lego. La taksoj de kongruo nur aplikas al egalitaj datumoj; ili ne aplikeblas al la kazoj, kiuj ne povus esti egalitaj. Ekzemple, limigante iliajn esplorojn al eroj kiuj havis multoblajn listojn, Einav kaj kolegoj fokusas profesiaj kaj semi-profesiaj vendistoj. Tiel, kiam ni interpretas ĉi tiujn komparojn, ni devas memori, ke ili nur aplikiĝas al ĉi tiu subaro de eBay.

Matching estas potenca strategio por trovi justajn komparojn en ne-eksperimentaj datumoj. Al multaj sociaj sciencistoj, kongruo sentas duan plej bonan al eksperimentoj, sed tio estas kredo, kiu povas esti reviziita, iomete. Komparebla en amasaj datumoj povus esti pli bona ol malgranda nombro de kampaj eksperimentoj kiam (1) heterogeneco en efikoj estas grava kaj (2) la gravaj variabloj necesaj por kongruo estis mezuritaj. Tablo 2.4 provizas iujn aliajn ekzemplojn pri kiom kongruo povas esti uzata kun grandaj datumaj fontoj.

Tablo 2.4: Ekzemploj de Studoj, kiuj uzas Komputilon kun grandaj datumaj fontoj
Substanta fokuso	Fonto de granda datumo	Referenco
Efekto de pafadoj pri polica perforto	Malmulte-kaj-friskaj rekordoj	Legewie (2016)
Efekto de la 11-an de septembro 2001 pri familioj kaj najbaroj	Voĉdonaj rekordoj kaj donacaj rekordoj	Hersh (2013)
Socia kontaĝo	Konekto kaj produkto-adoptaĵaj datumoj	Aral, Muchnik, and Sundararajan (2009)

En konkludo, taksante kaŭzajn efikojn de ne-eksperimentaj datumoj estas malfacila, sed alproksimiĝoj kiel naturaj eksperimentoj kaj statistikaj ĝustigoj (ekz., Kongruaj) povas esti uzataj. En iuj situacioj, ĉi tiuj alproksimiĝoj povas iri malbone malĝuste, sed kiam oni zorgas pri tio, ĉi tiuj aliroj povas esti utila komplemento al la eksperimenta aliro, kiun mi priskribas en ĉapitro 4. Plue, ĉi tiuj du aliroj similas speciale profiti el la kresko de ĉiam- sur grandaj datumaj sistemoj.