2.4.3.2 Matching

Tiu traduko estis kreitaj de komputilo. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

2.4.3.2 Matching

Egalante krei justan komparoj de pritondi for kazoj.

Foiro komparoj povas veni de ĉu randomigitaj kontrolitaj eksperimentoj aŭ naturaj eksperimentoj. Sed, estas multaj situacioj kie vi ne povas kuri la ideala eksperimento kaj naturo ne disponigis naturan eksperimento. En tiuj difinoj, la plej bona maniero por krei justan komparo egalante. En trafa, la esploristo aspektas tra ne-eksperimentaj datumoj krei parojn de personoj kiuj estas similaj escepte ke oni ricevis la traktadon kaj oni devas ne. En la procezo de trafaj, esploristoj estas efektive ankaŭ pritondas; te, forĵetante kazoj kie ne estas evidenta komparo. Tiel, tiu metodo estus pli precize nomita trafaj-kaj-rikoltiloj, sed mi persistos kun la tradicia termino: trafa.

Bela ekzemplo de la potenco de trafitaj strategioj kun amasa ne-eksperimentaj datumoj fontoj venas de la esplorado pri konsumanto konduto de Liran Einav kaj kolegoj (2015) . Einav kaj kolegoj interesiĝis aŭkcioj okazas en eBay kaj en priskribi sian laboron, mi enfokusigi unu aparta aspekto: la efiko de aŭkcio ekde prezo sur aŭkcio rezultoj, kiel ekzemple la vendo prezo aŭ la probableco de vendo.

La plej naiva maniero respondi la demandon pri la efiko de komenca prezo vendo prezo estus simple kalkuli la finan prezon por aŭkcioj kun malsamaj komencaj prezoj. Tiu aliro estus bone se vi simple volas prognozi la vendo prezo de donita ero kiu estis metita sur EBay kun donita komenca prezo. Sed, se via demando estas kio estas la efiko de startanta prezo sur merkato rezultoj ĉi alproksimiĝo ne funkcias ĉar ĝi ne estas bazita sur justa komparoj; la aŭkcioj kun malalta komenca prezo povas esti tute malsama de aŭkcioj kun altaj komencaj prezoj (ekz, ili eble estos por malsamaj tipoj de varoj aŭ inkludi malsamajn tipojn de vendistoj).

Se vi estas jam maltrankviligita farante justa komparoj, vi povus salti la naiva aliro kaj konsideri kurante kampo eksperimento kie vendus specifa elemento-diri, golfa klubo-kun fiksa aro de aŭkcio parametroj-diri, libera shipping, aŭkcio malferma por du semajnoj, ktp-kvankam kun hazarde starigis ekde prezoj. Komparante la rezultan merkato rezultoj, Use eksperimento proponus tre klara mezuro de la efiko de startanta prezo vendo prezo. Sed, tiu mezuro nur aplikas al unu aparta produkto kaj aro de aŭkcio parametroj. La rezultoj povus esti malsama, ekzemple, por malsamaj tipoj de produktoj. Sen forta teorio, ĝi estas malfacila extrapolar de tiu ununura eksperimento la plenan gamon de eblaj eksperimentoj kiuj povis esti kurita. Plui, kampo eksperimentoj estas sufiĉe multekostaj, ke estus nerealigebla kuri sufiĉe de ilin por kovri la tutajn parametra spaco de produktoj kaj aŭkcio tipoj.

Kontraste al la naiva aliro kaj la eksperimenta alproksimiĝo, Einav kaj kolegoj preni trian alproksimiĝon: trafa. La ĉefa atuto de ilia strategio estas malkovri aferojn similajn al kampo eksperimentoj kiuj jam okazis en eBay. Ekzemple, Figuro 2.6 montras iuj de la 31 listigo por precize la sama golfo klubo-a Taylormade Brulilo 09 Driver-estanta vendita de ekzakte la sama seller- "budgetgolfer". Tamen, ĉi tiuj listoj havas iomete malsamajn trajtojn. Dek el ili proponas la ŝoforo por fiksa prezo de $ 124,99, dum la aliaj 20 estas aŭkcioj kun malsama fino datoj. Ankaŭ, la listigo havas malsamajn shipping kotizoj, ĉu $ 7.99 aŭ $ 9,99. Alivorte, ĝi estas kvazaŭ "budgetgolfer" kuras eksperimentoj por la esploristoj.

La listigo de la Taylormade Brulilo 09 Ŝoforo estanta vendita de "budgetgolfer" estas unu ekzemplo de egalita aro de listoj, kie la ĝusta sama elemento estas vendita per la ĝusta sama vendisto sed ĉiufoje kun iomete malsamaj karakterizaĵoj. Ene de la amasa ŝtipoj de eBay estas laŭvorte centoj de miloj de egalitaj aroj engaĝante milionoj de listigo. Tiel, prefere ol komparado la fina prezo por ĉiuj aŭkcioj en donita komenca prezo, Einav kaj kolegoj fari komparojn ene egalitaj aroj. Por kombini rezultojn de la komparoj ene tiuj centmiloj da egalitaj aroj, Einav kaj kolegoj re-esprimi la komenca prezo kaj definitiva prezo laŭ la referenco valoro de ĉiu ero (ekz, lia mezumo vendo prezo). Ekzemple, se la Taylormade Brulilo 09 Driver havas referencon valoro de $ 100 (bazitaj sur liaj vendoj), tiam komencanta prezo de $ 10 estus esprimita kiel 0,1 kaj prezo fino de $ 120 devus esti esprimita kiel 1,2.

Figuro 2.6: Ekzemplo de egalita aro. Tio estas la ĝusta sama golfo klubo (a Taylormade Brulilo 09 Ŝoforo) estanta vendita de la ĝusta sama persono ( "budgetgolfer"), sed kelkaj el tiuj vendoj estis faritaj malsamaj kondiĉoj (ekzemple, malsama komenca prezo). Figuro prenita de Einav et al. (2015) .

Memoru ke Einav kaj kolegoj estis interesitaj en la efekto de komenco prezo sur aŭkcio rezultoj. Unua, uzante lineara malprogreso ili taksis ke pli altaj komencaj prezoj malpliiĝas la probablo de vendo, kaj ke pli altaj komencaj prezoj pliigi la fina vendo prezo, kondiĉa sur vendo okazanta. Aparte, tiuj taksoj-kiuj averaĝis super ĉiuj produktoj kaj supozi lineara interrilato inter komenca prezo kaj la rezultita fino-estas ne cxiuj interesaj. Sed, Einav kaj kolegoj ankaŭ uzi la amasa grandeco de siaj datumoj por taksi gamon de pli subtilaj malkovroj. Unue Einav kaj kolegoj faris tiuj taksoj aparte por eroj de malsamaj prezoj kaj sen uzanta lineara malprogreso. Ili trovis ke dum la rilato inter komenco prezo kaj probableco de vendo estas lineara, la rilato inter komenca prezo kaj vendo prezo estas klare ne-linia (Figuro 2.7). Precipe, por komencanta prezoj inter 0.05 kaj 0.85, la komenca prezo havas tre malgrandan efikon sur vendo prezo, trovo kiu kompletigis maltrafis en la analizo kiu estis supozinta lineara interrilato.

Figuro 2.7: Rilato inter aŭkcio komenco prezo kaj probableco de vendo (maldekstra panelo) kaj vendo prezo (dekstra panelo). Ekzistas proksimume lineara interrilato inter komenco prezo kaj probablo de vendo, sed estas ne-linia rilato inter komenco prezo kaj vendo prezo; cxar komencante prezoj inter 0.05 kaj 0.85, la komenca prezo havas tre malgrandan efikon sur vendo prezo. En ambaŭ kazoj, la rilatoj estas esence sendependa de elemento valoro. Tiuj grafikaĵoj reprodukti Figo 4a kaj 4b Einav et al. (2015) .

Dua, anstataŭ averaĝante super ĉiuj aĵoj, Einav kaj kolegoj ankaŭ uzi la masiva skalo de liaj datumoj por taksi la efikon de startanta prezo por 23 malsamaj kategorioj da eroj (ekzemple, dorlotbesto provizoj, elektroniko, kaj sportoj memorabilia) (Figuro 2.8). Tiuj taksoj montras ke por pli distingajn erojn -kiel memorabilia-komenco prezo havas malgrandan efikon sur la probableco de vendo kaj pli grandan efikon sur la fina vendo prezo. Plui, por pli commodified erojn-kiel DVD kaj video-komence prezo havas preskaŭ neniun efikon al la fina prezo. Alivorte, mezumo kiu kombinas rezultojn de 23 malsamaj kategorioj da eroj kaŝas gravaj informoj pri la diferencoj inter tiuj eroj.

Figuro 2.8: Rezultoj montris taksojn de ĉiu kategorio individue; la solida punkto en la takso por ĉiuj kategorioj pooled kune, Tabelo 11 (Einav et al. 2015, Tabelo 11). Tiuj taksoj montras ke por pli distingajn erojn -kiel memorabilia-komence prezo havas malgrandan efikon sur la probableco de vendo (x-akso) kaj pli grandan efikon sur la fina vendo prezo (y-akso).

Figuro 2.8: Rezultoj montris taksojn de ĉiu kategorio individue; la solida punkto en la takso por ĉiuj kategorioj pooled kune (Einav et al. 2015, Table 11) . Tiuj taksoj montras ke por pli distingajn erojn -kiel memorabilia-komence prezo havas malgrandan efikon sur la probableco de vendo (x-akso) kaj pli grandan efikon sur la fina vendo prezo (y-akso).

Eĉ se vi ne estas aparte interesitaj en aŭkcioj en eBay, Vi devi admiri la vojo ke Figuro 2.7 kaj Figuro 2.8 proponon pli riĉan komprenon de eBay ol simpla lineara regreso taksoj ke supozi linearaj interrilatoj kaj kombini multajn malsamajn kategoriojn da eroj. Tiuj pli subtilaj taksoj ilustri la potencon de trafitaj en amasa datumoj; tiuj taksoj estus estinta neebla sen enorma kvanto de kampo eksperimentoj, kiu estintus prohibitivamente multekosta.

Kompreneble, ni devas havi la malpli da konfido en la rezultoj de ajna aparta trafa studo ol ni farus en la rezultoj de komparebla eksperimento. Kiam taksanta la rezultoj de ajna trafa studo, estas du gravaj konzernoj. Unue, ni devas memori ke ni povas nur certigi justan komparoj sur aĵoj kiuj estis uzitaj por trafa. En siaj ĉefaj rezultoj, Einav kaj kolegoj faris ĝusta egalante sur kvar karakterizaĵojn: vendisto ID nombro, listero kategorio, artikolo titolo kaj subtitolo. Se la aĵoj estis malsamaj en manieroj kiuj ne estis uzitaj por trafaj, kiu povus krei maljusta komparo. Ekzemple, se "budgetgolfer" malaltigis prezojn por Taylormade Brulilo 09 Ŝoforo en la vintro (kiam golfo kluboj estas malpli populara), tiam ĝi povus aperi ke malalta komenca prezo gvidi malaltigi prezoj finoj, kiam fakte tiu estus artefakto de sezona variado en postulo. Ĝenerale, la plej bona alproksimiĝo al tiu problemo ŝajnas esti provante multaj malsamaj specoj de trafa. Ekzemple, Einav kaj kolegoj ripeti ilian analizon kie egalis aroj inkluzivi erojn sur vendo ene de unu jaro, en unu monato, kaj samtempe. Farante la tempo fenestro strikta malpliigas la numeron de egalitaj aroj, sed reduktas zorgojn pri sezona variado. Feliĉe, ili trovas ke rezultoj estas senŝanĝa de tiuj ŝanĝoj en egalante kriteriojn. En la trafaj literaturo, tiu tipo de maltrankvilo estas kutime esprimita en terminoj de observeblaĵoj kaj unobservables, sed la ĉefa ideo estas vere ke esploristoj estas nur krei justan komparojn sur la karakterizaĵoj uzata en trafa.

La dua grava konzerno al la interpreti egalante rezultoj estas ke ili nur aplikas al kongruis datumoj; Ili ne aplikiĝas al la kazoj kiuj ne povis esti parigitaj. Ekzemple, limigante ilian esploradon por eroj kiu havis multoblajn listigo Einav kaj kolegoj estas koncentrantaj sur profesiaj kaj duonprofesiaj vendistoj. Tiel, al la interpreti ĉi tiujn komparojn oni devas memori ke ili nur aplikas al tiu subaro de eBay.

Trafa estas potenca strategio por trovi justan komparojn en grandaj datumaroj. Al multaj sociaj sciencistoj, trafaj sentas kiel dua-plej bona por eksperimentoj, sed tio estas kredo ke devus esti reviziita, iomete. Trafaj en amasa datumoj povus esti pli bona ol malgranda nombro de kampo eksperimentoj kiam: 1) heterogeneco en efektoj estas gravaj kaj 2) ekzistas bonaj _observables_ por trafa. Tabelo 2.4 provizas iuj aliaj ekzemploj de kiel egalante povas uzi kun granda datumoj fontoj.

Tabelo 2.4: Ekzemploj de studoj kiuj uzas trafaj trovi justan komparojn ene ciferecan spuron.
substantiva fokuso	Big datumfonto	citaĵo
Efekto de pafadoj sur polica perforto	Halti-kaj-petoladi rekordojn	Legewie (2016)
Efekto de septembro 11, 2001 sur familioj kaj najbaroj	registroj de balotado kaj donaco rekordojn	Hersh (2013)
socia kontaĝas	Komunikado kaj produkto adopto datumoj	Aral, Muchnik, and Sundararajan (2009)

En konkludo, naiva aliroj al taksanta kaŭza efikoj de ne-eksperimentaj datumoj estas danĝeraj. Tamen, strategioj por fari kaŭza taksoj kuŝis kune kontinuumo de forta al la plej malforta kaj esploristoj povas malkovri belan komparojn ene ne- eksperimentaj datumoj. La kresko de ĉiam-sur, grandaj datumoj sistemoj pliigas nian kapablon efike uzi du ekzistantaj metodoj: naturaj eksperimentoj kaj trafaj.