2.4.3.2 ujemanje

Ta prevod je bil ustvarjen s pomočjo računalnika. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

2.4.3.2 ujemanje

Ujemanje ustvariti poštene primerjave s obrezovanje stran primerov.

Poštene primerjave lahko prihajajo iz bodisi naključno nadzorovanih poskusov ali naravnih eksperimentov. Vendar pa obstaja veliko situacij, ko se ne morejo prikazovati idealno poskus in narava, ki niso predvideni naravni eksperiment. V teh okoljih, je najboljši način za ustvarjanje poštena primerjava je ujemanje. Pri prilagajanju, raziskovalec gleda skozi ne-eksperimentalnih podatkov za ustvarjanje pare ljudi, ki so si podobni, razen je, da je eden prejel zdravljenje, eden pa ne. V procesu prilagajanja, raziskovalci so dejansko tudi obrezovanje; to pomeni, da zavržejo primere, kjer obstajajo očitne primerjave ni. Tako je ta metoda bi se natančneje imenuje ujemanje-in-rez, ampak bom s palico tradicionalnega izraza: ujemanje.

Lep primer moči ujemanje strategije z masivnimi ne-eksperimentalnih podatkovnih virov prihajajo iz raziskave o vedenju potrošnikov Liran Einav in sodelavci (2015) . Einav in kolegi so bili zainteresirani za dražbe, ki potekajo na eBay, in opisuje svoje delo, se bom osredotočil na en sam vidik: učinek na dražbi, ki se začne cena na dražbi rezultatov, kot so prodajne cene ali verjetnost prodaje.

Najbolj naiven način za odgovor na vprašanje o vplivu začetne cene na prodajne cene bi bilo enostavno izračunati končno ceno za avkcijah z različnimi izhodiščnimi cenami. Ta pristop bi bilo v redu, če si preprosto želijo napovedati prodajno ceno določenega predmeta, ki je bila dana na eBay z določeno izklicno ceno. Ampak, če vaše vprašanje je, kaj je učinek se začne cena na tržnih rezultatov tega pristopa ne bo deloval, ker ne temelji na poštenih primerjave; dražbe z nižjimi izhodiščne cene lahko precej razlikujejo od dražb z višjo izhodiščnih cenah (na primer, so lahko za različne vrste blaga ali vključujejo različne vrste prodajalci).

Če ste že zaskrbljeni zaradi česar poštene primerjave, lahko preskočite naivni pristop in upoštevati teče polja preizkus, v katerem bi prodajo posebno postavko, pravijo, golf klub-s fiksnim naborom dražbi parametrov, pravijo, brezplačna dostava, dražba odprta za dva tedna, itd, ampak z naključno določi izhodiščne cene. S primerjavo posledica tržne rezultate za, bi na tem področju se poskus ponujajo zelo jasno merjenje učinka začne ceno na prodajno ceno. Vendar se je ta meritev uporablja le za en določen izdelek in nastavitev parametrov dražbi. Rezultati so lahko različni, na primer za različne vrste izdelkov. Brez močne teorije, je težko ekstrapolirati iz tega samega poskusa popolno paleto možnih poskusov, da bi bilo mogoče izvesti. Poleg tega na terenu poskusi dovolj drag, da bi bilo nemogoče, da delujejo dovolj od njih do pokrivajo celotno parameter prostor proizvodov in vrste dražbi.

V nasprotju z naivnim pristopom in eksperimentalnim pristopom, Einav in sodelavcem tretji pristop: ujemanje. Glavni trik njihove strategije je odkriti stvari, ki so podobne poljskih poskusov, ki so se že zgodile na eBay. Na primer, Slika 2.6 prikazuje nekatere od 31 oglasi za enak palice za golf-a Taylormade gorilnika 09 voznik, ki ga povsem enak seller- "budgetgolfer" prodaja. Vendar pa ti oglasi imajo nekoliko drugačne lastnosti. Enajst od njih ponuja gonilnik za fiksno ceno 124,99 $, medtem ko je ostalih 20 so dražbe z različnimi datumi konec. Tudi oglasi imajo različne stroški pošiljanja, ali 7,99 $ in 9,99 $. Z drugimi besedami, to je kot da bi "budgetgolfer" je v teku poskuse za raziskovalce.

Se oglasi v Taylormade gorilnika 09 Driver, ki jih "budgetgolfer" prodajajo, so en primer ujemajočo niza oglasi, v katerih je natančno isti predmet, ki ga je točno isto prodal prodajalec, ampak vsakič z nekoliko drugačnimi lastnostmi. V ogromnih hlodov eBay so dobesedno na stotine tisoč izravnanih sklopov, ki vključujejo milijone oglasi. Torej, namesto da primerjamo končne cene vseh dražbah v danem začetno ceno, Einav in sodelavci primerjavo znotraj ujema nizov. Da bi združili rezultate primerjave v teh sto tisoč ujema sklopov, Einav in sodelavci ponovno izražajo izklicno ceno in končno ceno, glede na referenčno vrednostjo vsakega sredstva (na primer, njena povprečna prodajna cena). Na primer, če ima Taylormade Burner 09 Driver referenčne vrednosti 100 $ (na osnovi prodaje), potem bi izhodiščna cena 10 $ se izrazi kot 0,1 in končna cena 120 $ bi bila izražena kot 1.2.

Slika 2.6: Primer ujema niza. To je popolnoma enaka golf klub (a Taylormade Burner 09 Driver), ki jih točno isto osebo ( "budgetgolfer") prodajajo, vendar so nekateri od teh prodaj so bile izvedene različne pogoje (npr druga izhodiščna cena). Slika vzeta iz Einav et al. (2015) .

Spomnimo se, da so bili Einav in kolegi zanima učinka cen začetka na dražbi rezultate. Prvič, s pomočjo linearne regresije so ocenili, da višje vhodne cene zmanjša verjetnost prodaje, in da višje vhodne cene zvišale končno prodajno ceno, pogojuje prodaja, ki se pojavljajo. Sami, te ocene-, ki so v povprečju vse izdelke in predpostavljajo linearno razmerje med začetno ceno in končnih rezultatov, niso vse tako zanimivo. Ampak, Einav in kolegi uporabljamo tudi ogromen obseg svojih podatkov za oceno različnih bolj subtilnih ugotovitev. Prvič, Einav in kolegi so te ocene ločeno za postavke različnih cenah in brez uporabe linearne regresije. Ugotovili so, da je razmerje med začetno ceno in prodajno ceno je, medtem ko je razmerje med začetno ceno in verjetnost prodaje je linearna jasno nelinearna (Slika 2.7). Še posebej, za začetek cen med 0,05 in 0,85, izhodiščna cena je zelo malo vpliva na prodajne cene, je ugotovitev, da je bila dokončana zamudil v analizi, ki je prevzela linearno razmerje.

Slika 2.7: Razmerje med dražbi začetno ceno in verjetnost prodaje (levi panel) in prodajno ceno (desno plošče). Obstaja približno linearno razmerje med začetnim ceno in verjetnost prodaje, vendar pa je nelinearno razmerje med začetnim ceno in prodajno ceno; za začetek cen med 0,05 in 0,85, izhodiščna cena je zelo malo vpliva na prodajno ceno. V obeh primerih so razmerja so v bistvu neodvisni od elementa vrednosti. Ti grafi razmnoževati slika 4a in 4b Einav et al. (2015) .

Drugič, ne pa v povprečju več kot vse predmete, Einav in kolegi uporabite tudi ogromen obseg svojih podatkov za oceno vpliva začetne cene za 23 različnih kategorijah predmetov (npr hišne ljubljenčke, elektronike in športnih spominkov) (slika 2.8). Te ocene kažejo, da ima več značilnih predmetov, kot so spominki-start price manjši vpliv na verjetnost prodaje in večji vpliv na končno prodajno ceno. Nadalje, za ima več nastanjena postavke-, kot so DVD-jev in video ceno zagona skoraj nobenega vpliva na končno ceno. Z drugimi besedami, v povprečju, ki združuje rezultate iz 23 različnih kategorijah postavk skriva pomembne informacije o razlikah med temi.

Slika 2.8: Rezultati so pokazali, ocene iz vsake kategorije posebej; trdna pika v oceni za vse kategorije združiti, Tabela 11 (Einav et al. 2015, Tabela 11). Te ocene kažejo, da ima več značilnih predmetov, kot so spominki, cena start manjši vpliv na verjetnost prodaje (x-os) in večji vpliv na končno prodajno ceno (y-os).

Slika 2.8: Rezultati so pokazali, ocene iz vsake kategorije posebej; trdna pika v oceni za vse kategorije zbranih skupaj (Einav et al. 2015, Table 11) . Te ocene kažejo, da ima več značilnih predmetov, kot so spominki, cena start manjši vpliv na verjetnost prodaje (x-os) in večji vpliv na končno prodajno ceno (y-os).

Tudi če niste posebej zanima dražbe na eBay, morate občudovali način, Slika 2.7 in Slika 2.8 ponudbo bogatejši razumevanje eBay od preprostih linearnih ocene regresije, ki prevzemajo linearne odnose in združujejo različne kategorije predmetov. Te bolj subtilne ocene ponazarjajo moč ujemanje v masivni podatkov; te ocene ne bi bilo mogoče brez velikega števila poljskih poskusov, ki bi bila predraga.

Seveda bi morali imeti manj zaupanja v rezultate koli študije ujemanja, kot bi mi v rezultatih primerljivo poskusa. Pri ocenjevanju rezultatov iz katere koli študije ujemanja, obstajata dve pomembni zadržki. Najprej moramo vedeti, da bomo lahko zagotovili le poštene primerjave na stvari, ki so bili uporabljeni za ujemanje. V svojih glavnih rezultatov, Einav in kolegi ni točen ujemanje na štiri značilnosti: prodajalec ID številko, skupina postavka, Naslov postavko, in podnapis. Če je bilo blago drugačen na načine, ki niso bili uporabljeni za ujemanje, ki bi lahko ustvarili nepravično primerjavo. Na primer, če "budgetgolfer" znižala cene za Taylormade gorilnika 09 Driver v zimskem času (ko so golf manj priljubljena), potem lahko zdi, da nižje vhodne cene za posledico nižje končne cene, v resnici pa bi bilo to artefakt sezonski sprememba povpraševanja. Na splošno se zdi, da je najboljši pristop k temu problemu, ki se trudijo, veliko različnih vrst ujemanja. Na primer, Einav in kolegi ponoviti svojo analizo, kjer se ujemajo kompleti vključujejo postavke na prodajo v enem letu, v enem mesecu, in istočasno. Making okno, ko močneje zmanjša število ujema nizov, vendar zmanjšuje zaskrbljenost zaradi sezonskih nihanj. Na srečo, so ugotovili, da so rezultati, ki jih te spremembe, ki se ujemajo meril nespremenjena. V ujemanja literaturi, je ta vrsta skrb navadno izrazi v opaznosti in unobservables, vendar je ključna ideja je res, da so raziskovalci šele vzpostavi poštene primerjave na funkcije, ki se uporabljajo pri prilagajanju.

Druga glavna skrb pri razlagi ujemanje rezultatov je, da se uporablja samo za izravnanih podatkov; se ne uporabljajo v primerih, ki jih ni mogoče ujemajo. Na primer, z omejitvijo svoje raziskave na postavke, ki so imeli več nepremičnin Einav in sodelavci, ki se osredotočajo na profesionalnih in polprofesionalnih prodajalcev. Tako je pri razlagi teh primerjav moramo vedeti, da se nanašajo samo na tej skupini eBay.

Ujemanje je močna strategija za ugotovitev poštene primerjave v velikih podatkovnih bazah. Za mnoge družboslovci, usklajevanje počuti kot druga najboljša do poskusov, ampak da je prepričanje, da je treba spremeniti, rahlo. Ujemanje v masivnih podatkov bi bilo bolje kot majhno število poljskih poskusih, ko je: 1) heterogenost učinkov pomembno in 2) da obstajajo dobri opaznosti za ujemanje. Tabela 2.4 vsebuje še nekatere druge primere, kako ujemanje je mogoče uporabiti z velikimi podatkovnimi viri.

Tabela 2.4: Primeri študij, ki uporabljajo ujemanje najti poštene primerjave znotraj digitalnih sledi.
vsebinski poudarek	Big vir podatkov	Navedba
Vpliv streljanja na policijskega nasilja	Stop-and-Frisk zapisov	Legewie (2016)
Učinek 11. septembra 2001 na družine in sosedov	evidence volilne in evidence darovanje	Hersh (2013)
socialna okužba	Komunikacija in sprejetje podatke o izdelku	Aral, Muchnik, and Sundararajan (2009)

Skratka, naivni pristopi k ocenjevanju vzročnih učinkov iz ne-eksperimentalnih podatkov, so nevarni. Vendar pa se lahko strategije za izdelavo vzročnih ocen, ki ležijo vzdolž kontinuuma od najmočnejše do najšibkejše, in raziskovalci odkrili poštene primerjave znotraj ne-eksperimentalnih podatkov. Rast vedno-on, velikih podatkovnih sistemov povečuje našo sposobnost za učinkovito uporabo dveh obstoječih metod: naravne poskusov in ujemanje.