2.4.3.2 Cydweddu

Paru creu cymariaethau teg drwy docio ymaith achosion.

Gall cymariaethau teg ddod o naill ai arbrofion hap a reolir neu arbrofion naturiol. Ond, mae yna lawer o sefyllfaoedd lle na allwch redeg yr arbrawf delfrydol ac nid yw natur wedi darparu arbrawf naturiol. Yn y lleoliadau hyn, y ffordd orau i greu cymhariaeth deg yn cyfateb. Yn paru, mae'r ymchwilydd yn edrych trwy ddata nad ydynt yn arbrofol i greu parau o bobl sy'n debyg ac eithrio bod un wedi derbyn y driniaeth ac nid un wedi. Yn y broses o baru, ymchwilwyr mewn gwirionedd hefyd tocio; hynny yw, taflu achosion lle nad oes cymhariaeth amlwg. Felly, byddai'r dull hwn yn cael ei alw'n fwy paru-a-tocio yn gywir, ond byddaf yn cadw at y term traddodiadol: cyfateb.

Enghraifft hyfryd o'r pŵer o strategaethau gyda ffynonellau data heb fod yn arbrofol enfawr cyfateb dod o'r ymchwil ar ymddygiad defnyddwyr gan Liran Einav a chydweithwyr (2015) . Roedd Einav a chydweithwyr sydd â diddordeb mewn arwerthiannau i'w gynnal ar eBay, ac wrth ddisgrifio eu gwaith, 'n annhymerus' yn canolbwyntio ar un agwedd benodol: yr effaith o arwerthiant yn dechrau pris ar ganlyniadau arwerthiant, megis y pris gwerthu neu y tebygolrwydd y gwerthiant.

Y ffordd fwyaf naïf i ateb y cwestiwn am effaith pris cychwyn ar bris gwerthu yn syml gyfrifo'r pris terfynol ar gyfer arwerthiannau gyda gwahanol brisiau cychwyn. Byddai'r dull hwn yn iawn os ydych yn syml am i ragweld y pris gwerthu eitem o ystyried bod wedi cael ei roi ar eBay gyda phris cychwyn penodol. Ond, os yw eich cwestiwn yw beth yw effaith dechrau pris ar ganlyniadau marchnad y dull hwn ni fydd yn gweithio oherwydd nad yw'n seiliedig ar gymariaethau teg; Efallai y arwerthiannau gyda phrisiau cychwyn is fod yn wahanol iawn o arwerthiannau gyda phrisiau cychwynnol uwch (ee, gallent fod ar gyfer gwahanol fathau o nwyddau neu gynnwys gwahanol fathau o werthwyr).

Os ydych yn pryderu yn barod am wneud cymariaethau teg, efallai y byddwch yn hepgor y dull naïf ac yn ystyried rhedeg arbrawf maes lle y byddech yn gwerthu benodol item-ddweud, clwb-gyda golff set sefydlog o arwerthiant paramedrau-ddweud, llongau rhad ac am ddim, arwerthiant agor am bythefnos, ac yn y blaen-ond gyda gosod prisiau yn dechrau ar hap. Trwy gymharu canlyniadau y farchnad sy'n deillio, byddai hyn yn arbrawf maes yn cynnig mesur clir iawn o effaith y dechrau pris ar bris gwerthu. Ond, byddai mesur hwn ond yn berthnasol i un cynnyrch penodol a set o baramedrau arwerthiant. Efallai y bydd y canlyniadau fod yn wahanol, er enghraifft, ar gyfer gwahanol fathau o gynhyrchion. Heb theori cryf, mae'n anodd allosod o hyn arbrawf sengl yr ystod lawn o arbrofion posibl a allai fod wedi cael eu cynnal. Bellach, arbrofion maes yn ddigon drud y byddai'n anymarferol i redeg digon ohonynt i fyny i dalu am y gofod paramedr gyfan o gynnyrch a mathau arwerthiant.

Yn wahanol i'r dull naïf ac mae'r dull arbrofol, Einav a chydweithwyr yn cymryd trydydd dull: cyfateb. Y prif tric o'u strategaeth yw i ddarganfod pethau tebyg i arbrofion maes sydd eisoes wedi digwydd ar eBay. Er enghraifft, dengys Ffigur 2.6 rhai o'r 31 o rhestrau am yr union yr un clwb-a golff Taylormade Burner 09 Gyrwyr-sy'n cael eu gwerthu gan union yr seller- un fath "budgetgolfer". Fodd bynnag, mae rhestrau hyn nodweddion ychydig yn wahanol. Mae un ar ddeg ohonynt yn cynnig i'r gyrrwr am bris sefydlog o $ 124.99, tra bod y 20 arall yn arwerthiannau gyda gwahanol ddyddiadau diwedd. Hefyd, mae'r rhestrau yn cael ffioedd llongau gwahanol, naill ai 7.99 $ neu $ 9.99. Mewn geiriau eraill, mae fel pe "budgetgolfer" yn cynnal arbrofion ar gyfer yr ymchwilwyr.

Mae rhestrau o'r Taylormade Burner 09 Gyrwyr yn cael eu gwerthu gan "budgetgolfer" yn un enghraifft o set cyfateb o rhestrau, lle mae'r un eitem union yn cael ei werthu gan yr un gwerthwr union ond bob tro gyda ychydig yn wahanol nodweddion. O fewn y logiau enfawr o eBay mae cannoedd o filoedd o setiau cyfateb cynnwys miliynau o rhestrau. Felly, yn hytrach na chymharu pris terfynol ar gyfer pob arwerthiannau o fewn pris cychwyn penodol, Einav a chydweithwyr gwneud cymariaethau o fewn setiau cyfateb. Er mwyn cyfuno canlyniadau o'r cymariaethau o fewn y cannoedd hyn o filoedd o setiau cyfateb, Einav a chydweithwyr ail-fynegi y pris cychwyn a phris terfynol o ran y gwerth cyfeirio pob eitem (ee, ei bris gwerthu ar gyfartaledd). Er enghraifft, os yw'r Taylormade Burner 09 Gyrwyr werth cyfeirio o $ 100 (yn seiliedig ar ei gwerthiant), yna byddai pris cychwyn o $ 10 ar fynegi fel 0.1 a byddai pris terfynol $ 120 yn cael ei fynegi fel 1.2.

Ffigur 2.6: Enghraifft o set cyfateb. Mae hyn yn yr un clwb golff union (a Gyrrwr Taylormade Burner 09) yn cael eu gwerthu gan yr un person union (budgetgolfer), ond mae rhai o'r gwerthiannau hyn yn cael eu perfformio amodau gwahanol (e.e., yn wahanol pris cychwyn). Ffigwr a gymerwyd o Einav et al. (2015).

Ffigur 2.6: Enghraifft o set cyfateb. Mae hyn yn yr un clwb golff union (a Gyrrwr Taylormade Burner 09) yn cael eu gwerthu gan yr un person union ( "budgetgolfer"), ond mae rhai o'r gwerthiannau hyn yn cael eu perfformio amodau gwahanol (ee, yn wahanol pris cychwyn). Ffigwr a gymerwyd o Einav et al. (2015) .

Dwyn i gof bod yn Einav a chydweithwyr sydd â diddordeb yn effaith pris cychwyn ar ganlyniadau arwerthiant. Yn gyntaf, gan ddefnyddio atchweliad llinol maent yn amcangyfrif bod prisiau cychwynnol uwch yn gostwng y tebygolrwydd o werth, ac bod prisiau cychwynnol uwch yn cynyddu'r pris gwerthu terfynol, yn amodol ar werthiant digwydd. Drwy eu hunain, amcangyfrifon-mae'r rhain yn cael eu cyfartaledd dros yr holl gynhyrchion a chymryd yn ganiataol perthynas linol rhwng pris cychwyn a therfynol nid yw canlyniadau-i gyd hynny yn ddiddorol. Ond, Einav a chydweithwyr hefyd yn defnyddio maint enfawr eu data i amcangyfrif amrywiaeth o ganfyddiadau mwy cynnil. Yn gyntaf, Einav a chydweithwyr gwneud amcangyfrifon hyn ar wahân ar gyfer eitemau o wahanol brisiau a heb ddefnyddio atchweliad llinol. Maent yn gweld, er bod y berthynas rhwng pris cychwyn a thebygolrwydd o werthiant yn llinol, mae'r berthynas rhwng pris cychwyn a phris gwerthu yn amlwg yn aflinol (Ffigur 2.7). Yn benodol, ar gyfer dechrau prisiau rhwng 0.05 a 0.85, mae'r pris cychwyn wedi ychydig iawn o effaith ar bris gwerthu, canfyddiad a gwblhawyd colli yn y dadansoddiad a oedd wedi tybio perthynas linol.

Ffigur 2.7: Y berthynas rhwng pris cychwyn arwerthiant a thebygolrwydd o werthiant (panel chwith) a phris gwerthu (panel ar y dde). Mae tua perthynas linol rhwng pris cychwyn a thebygolrwydd o werth, ond mae perthynas aflinol rhwng pris cychwyn a phris gwerthu; ar gyfer dechrau prisiau rhwng 0.05 a 0.85, mae'r pris cychwyn wedi ychydig iawn o effaith ar bris gwerthu. Yn y ddau achos, mae'r berthynas yn y bôn yn annibynnol o werth eitem. Mae'r graffiau hyn yn atgynhyrchu Ffig 4a a 4b Einav et al. (2015).

Ffigur 2.7: Y berthynas rhwng pris cychwyn arwerthiant a thebygolrwydd o werthiant (panel chwith) a phris gwerthu (panel ar y dde). Mae tua perthynas linol rhwng pris cychwyn a thebygolrwydd o werth, ond mae perthynas aflinol rhwng pris cychwyn a phris gwerthu; ar gyfer dechrau prisiau rhwng 0.05 a 0.85, mae'r pris cychwyn wedi ychydig iawn o effaith ar bris gwerthu. Yn y ddau achos, mae'r berthynas yn y bôn yn annibynnol o werth eitem. Mae'r graffiau hyn yn atgynhyrchu Ffig 4a a 4b Einav et al. (2015) .

Yn ail, yn hytrach na gyfartaledd dros yr holl eitemau, Einav a chydweithwyr hefyd yn defnyddio'r raddfa enfawr eu data i amcangyfrif effaith cychwyn pris ar gyfer 23 o gategorïau gwahanol o eitemau (ee, cyflenwadau anifeiliaid anwes, electroneg, a phethau cofiadwy chwaraeon) (Ffigur 2.8). Mae'r amcangyfrifon hyn yn dangos bod am fwy nodedig o eitemau-megis pris memorabilia-cychwyn yn cael effaith lai ar y tebygolrwydd o werthu ac yn cael effaith fwy ar y pris gwerthu terfynol. Ymhellach, am fwy o commodified eitemau megis DVDs a fideo-pris cychwyn wedi bron unrhyw effaith ar y pris terfynol. Mewn geiriau eraill, ar gyfartaledd sy'n cyfuno canlyniadau o 23 o gategorïau gwahanol o eitemau cuddio gwybodaeth bwysig am y gwahaniaethau rhwng yr eitemau hyn.

Ffigur 2.8: Dangosodd y canlyniadau amcangyfrifon o bob categori yn unigol; y dot solet yn yr amcangyfrif ar gyfer pob categori cyfun gyda'i gilydd, Tabl 11 (Einav et al. 2015, Tabl 11). Mae'r amcangyfrifon hyn yn dangos bod am fwy nodedig eitemau megis memorabilia-pris cychwyn yn cael effaith lai ar y tebygolrwydd o werthiant (echelin-x) ac yn cael effaith fwy ar y pris gwerthu terfynol (y-echelin).

Ffigur 2.8: Dangosodd y canlyniadau amcangyfrifon o bob categori yn unigol; y dot solet yn yr amcangyfrif ar gyfer pob categori cyfun gyda'i gilydd (Einav et al. 2015, Table 11) . Mae'r amcangyfrifon hyn yn dangos bod am fwy nodedig eitemau megis memorabilia-pris cychwyn yn cael effaith lai ar y tebygolrwydd o werthiant (echelin-x) ac yn cael effaith fwy ar y pris gwerthu terfynol (y-echelin).

Hyd yn oed os nad oes gennych ddiddordeb arbennig mewn arwerthiannau ar eBay, rhaid i chi edmygu'r ffordd y mae Ffigur 2.7 a Ffigwr 2.8 yn cynnig dealltwriaeth fwy cyfoethog o eBay nag amcangyfrifon atchweliad llinol syml sy'n cymryd yn ganiataol perthynas llinol ac yn cyfuno llawer o wahanol gategorïau o eitemau. Mae'r amcangyfrifon hyn yn fwy cynnil yn dangos y pŵer o gyfateb mewn data enfawr; Byddai amcangyfrifon hyn wedi bod yn amhosibl heb nifer enfawr o arbrofion maes, a fyddai wedi bod yn rhy ddrud.

Wrth gwrs, dylai fod gennym lai o hyder yn y canlyniadau unrhyw astudiaeth paru benodol nag y byddem yn ganlyniadau arbrawf tebyg. Wrth asesu'r canlyniadau o unrhyw astudiaeth paru, mae dau bryderon pwysig. Yn gyntaf, mae'n rhaid i ni gofio ein bod yn gallu unig yn sicrhau cymariaethau teg ar bethau sy'n eu defnyddio ar gyfer paru. Yn eu prif ganlyniadau, Einav a chydweithwyr yn union cyfateb ar pedair nodwedd: Rhif gwerthwr ID, categori eitem, teitl eitem, ac is-deitl. Os yw'r eitemau yn wahanol mewn ffyrdd nad eu defnyddio ar gyfer paru, a allai greu cymhariaeth annheg. Er enghraifft, os "budgetgolfer" gostwng prisiau ar gyfer Taylormade Burner 09 Gyrwyr yn y gaeaf (pan fydd clybiau golff yn llai poblogaidd), yna gellid ymddangos bod prisiau cychwyn is yn arwain at brisiau is terfynol, pan mewn gwirionedd y byddai hyn yn arteffact o dymhorol amrywiad yn y galw. Yn gyffredinol, roedd y dull gorau at y broblem hon yn ymddangos i fod yn ceisio llawer o wahanol fathau o baru. Er enghraifft, Einav a chydweithwyr yn ailadrodd eu dadansoddiad lle setiau cyfateb yn cynnwys eitemau ar werth o fewn un flwyddyn, o fewn un mis, ac yn gyfoes. Gwneud y ffenestr amser tynnach yn gostwng y nifer o setiau cyfateb, ond yn lleihau pryderon am amrywiad tymhorol. Yn ffodus, maent yn dod o hyd bod y canlyniadau yn ddigyfnewid gan y newidiadau hyn yn y meini prawf sy'n cyfateb. Yn y llenyddiaeth paru, y math hwn o bryder fel arfer yn cael ei fynegi yn nhermau observables a unobservables, ond mae'r syniad allweddol yn wirioneddol bod ymchwilwyr yn unig yn creu cymariaethau teg ar y nodweddion a ddefnyddiwyd yn cyfateb.

Yr ail bryder mawr wrth ddehongli canlyniadau gyfateb yw eu bod yn berthnasol yn unig i ddata cyfatebol; nid ydynt yn gymwys i'r achosion na ellid eu cyfateb. Er enghraifft, trwy gyfyngu ar eu hymchwil i eitemau a oedd rhestrau lluosog Einav a chydweithwyr yn canolbwyntio ar werthwyr proffesiynol a lled-broffesiynol. Felly, wrth ddehongli cymariaethau hyn mae'n rhaid i ni gofio eu bod yn berthnasol i is-set hon o eBay.

Paru yn strategaeth bwerus ar gyfer dod o hyd i cymariaethau teg mewn setiau data mawr. I lawer o wyddonwyr cymdeithasol, cyfateb teimlo fel ail-orau i arbrofion, ond mae hynny'n gred y dylid ei ddiwygio, ychydig. Gallai paru mewn data enfawr yn well na nifer fach o arbrofion maes pan: 1) heterogenedd mewn effeithiau yn bwysig a 2) mae observables da ar gyfer cyfateb. Tabl 2.4 yn rhoi rhai enghreifftiau eraill o sut y gellir ei ddefnyddio gyda ffynonellau data mawr paru.

Tabl 2.4: Enghreifftiau o astudiaethau sy'n defnyddio cyfateb i ddod o hyd cymariaethau teg o fewn olion digidol.
ffocws sylweddol ffynhonnell ddata Big Enwi
Effaith saethu ar drais yr heddlu cofnodion-a-frisk Stop Legewie (2016)
Effaith Medi 11, 2001 ynghylch teuluoedd a chymdogion cofnodion pleidleisio a chofnodion rhodd Hersh (2013)
contagion cymdeithasol Cyfathrebu a mabwysiadu cynnyrch data Aral, Muchnik, and Sundararajan (2009)

I gloi, dulliau naïf i amcangyfrif effeithiau achosol o ddata nad ydynt yn arbrofol yn beryglus. Fodd bynnag, gall strategaethau ar gyfer gwneud amcangyfrifon achosol gorwedd ar hyd continwwm o cryfaf i gwannaf, ac ymchwilwyr yn darganfod cymariaethau teg o fewn data nad yw'n arbrofol. Mae twf, systemau data mawr bob amser-ar yn cynyddu ein gallu i ddefnyddio dau ddull presennol yn effeithiol: arbrofion naturiol a pharu.