3.6.1 Stabbilita arrikkita

Fit-talba msaħħa, id-dejta tal-istħarriġ tibni l-kuntest madwar sors tad-dejta kbir li fih xi kejl importanti iżda nieqsa minn oħrajn.

Mod wieħed biex tikkombina d-data ta 'l-istħarriġ u sorsi ta' data kbar huwa proċess li jien ser nitolbok arrikmet billi staqsi . Fit-talba ta 'arrikkiment, sors ta' dejta kbir fih xi kejl importanti iżda m'għandux kejl ieħor sabiex ir-riċerkatur jiġbor dawn il-kejl neqsin fi stħarriġ u mbagħad jgħaqqad iż-żewġ sorsi tad-data flimkien. Eżempju wieħed ta 'mistoqsija arrikkita huwa l-istudju ta' Burke and Kraut (2014) dwar jekk interazzjoni fuq Facebook żżid is-saħħa tal-ħbiberija, li deskritt fit-taqsima 3.2). F'dak il-każ, Burke u Kraut ikkombinaw data ta 'l-istħarriġ mad-data tal-log tal-Facebook.

L-iffissar li fih Burke u Kraut kienu qed jaħdmu, madankollu, fisser li ma kellhomx għalfejn jaffrontaw żewġ problemi kbar li r-riċerkaturi għamlu arrikkiti u talbu wiċċhom b'mod tipiku. L-ewwel, li fil-fatt tgħaqqad flimkien is-settijiet tad-dejta ta 'livell individwali, proċess imsejjaħ rabta ta' rekords , jista 'jkun diffiċli jekk ma jkun hemm l-ebda identifikatur uniku fiż-żewġ sorsi tad-dejta li jistgħu jintużaw biex jiżguraw li r-rekord korrett f'sottosonda waħda jkun imqabbel mar-rekord korrett fid-dataset l-oħra. It-tieni problema ewlenija b'rikjesta arrikkita hija li l-kwalità tas-sors tad-dejta l-aktar ta 'spiss tkun diffiċli għar-riċerkaturi biex jevalwaw għaliex il-proċess li bih tinħoloq id-dejta jista' jkun proprjetarju u jista 'jkun suxxettibbli għal ħafna mill-problemi deskritti fil-kapitolu 2. Fi kliem ieħor, it-talba arrikkita ta 'sikwit tinvolvi konnessjoni li hija suxxettibbli għall-iżbalji ta' stħarriġ għal sorsi tad-data tal-kaxxa sewda ta 'kwalità mhux magħrufa. Minkejja dawn il-problemi, madankollu, tista 'tintuża t-talba arrikkita biex issir riċerka importanti, kif intwera Stephen Ansolabehere u Eitan Hersh (2012) fir-riċerka tagħhom dwar mudelli ta' votazzjoni fl-Istati Uniti.

Il-parteċipazzjoni tal-votanti kienet is-suġġett ta 'riċerka estensiva fix-xjenza politika, u fil-passat, fehim tar-riċerkaturi dwar min ivvota u għaliex ġeneralment kien ibbażat fuq l-analiżi tad-dejta tal-istħarriġ. Il-votazzjoni fl-Istati Uniti, madankollu, hija mġieba mhux tas-soltu minħabba li l-gvern jirreġistra jekk kull ċittadin ivvotax (naturalment, il-gvern ma jirreġistrax għal kull ċittadin li jivvota). Għal bosta snin, dawn ir-rekords tal-votazzjoni tal-gvern kienu disponibbli fuq formoli stampati, imxerrda f'diversi uffiċċji tal-gvern lokali madwar il-pajjiż. Dan għamilha diffiċli ħafna, iżda mhux impossibbli, għal xjenzati politiċi li jkollhom stampa sħiħa tal-elettorat u biex iqabblu dak li n-nies jgħidu fl-istħarriġ dwar il-votazzjoni bl-imġiba attwali tagħhom tal-votazzjoni (Ansolabehere and Hersh 2012) .

Iżda dawn ir-rekords tal-votazzjoni issa ġew diġitizzati, u għadd ta 'kumpaniji privati ​​ġabru sistematikament u għaqqduhom biex jipproduċu fajls ta' votazzjoni komprensivi ewlenin li fihom l-imġieba tal-votazzjoni tal-Amerikani kollha. Ansolabehere u Hersh kienu msieħba ma 'waħda minn dawn il-kumpaniji -Catalist LCC- sabiex jużaw il-kaptan tal-fajl tal-votazzjoni tagħhom biex jgħinu fl-iżvilupp ta' stampa aħjar tal-elettorat. Barra minn hekk, minħabba li l-istudju tagħhom ibbaża ruħu fuq rekords diġitali miġbura u kkurati minn kumpanija li investiet riżorsi sostanzjali fil-ġbir u l-armonizzazzjoni tad-dejta, offriet għadd ta 'vantaġġi fuq sforzi preċedenti li kienu saru mingħajr l-għajnuna ta' kumpaniji u bl-użu ta 'rekords analogi.

Bħal bosta sorsi ta 'dejta kbar fil-kapitolu 2, il-kaptan tal-katalist ma kienx jinkludi ħafna mill-informazzjoni demografika, attitudinali u ta' mġiba li Ansolabehere u Hersh kellhom bżonn. Fil-fatt, huma kienu partikolarment interessati li jqabblu l-imġiba tal-votazzjoni rrappurtata fl-istħarriġ b'imġiba tal-votazzjoni validata (jiġifieri, l-informazzjoni fid-database Catalist). Allura Ansolabehere u Hersh ġabru d-dejta li riedu bħala stħarriġ soċjali kbir, is-CCES, imsemmi qabel f'dan il-kapitlu. Imbagħad huma taw id-dejta tagħhom lil Catalist, u Catalist tahom lura fajl ta 'dejta amalgamata li inkluda imġieba validata tal-votazzjoni (minn Catalist), l-imġieba tal-vot rrappurtata minnha nnifisha (minn CCES) u d-demografija u l-attitudnijiet ta' dawk li wieġbu (minn CCES) 3.13). Fi kliem ieħor, Ansolabehere u Hersh għaqqdu flimkien id-dejta tar-rekords tal-votazzjoni mad-dejta tal-istħarriġ sabiex jagħmlu riċerka li ma kienx possibbli ma 'kwalunkwe sors ta' dejta individwalment.

Figura 3.13: Skematika tal-istudju minn Ansolabehere u Hersh (2012). Biex toħloq il-master datafile, Catalist jgħaqqad u jarmonizza informazzjoni minn ħafna sorsi differenti. Dan il-proċess ta 'għaqda, irrispettivament minn kemm bir-reqqa, se jipproponi żbalji fis-sorsi tad-data oriġinali u se jintroduċi żbalji ġodda. It-tieni sors ta 'żbalji huwa r-rabta rekord bejn id-data ta' l-istħarriġ u l-fajl tad-data prinċipali. Jekk kull persuna kellha identifikatur stabbli u uniku fiż-żewġ sorsi tad-dejta, allura r-rabta tkun trivjali. Iżda, Catalist kellu jagħmel ir-rabta bl-użu ta 'identifikaturi imperfetti, f'dan il-każ l-isem, is-sess, is-sena tat-twelid u l-indirizz tad-dar. Sfortunatament, għal ħafna każijiet jista 'jkun hemm informazzjoni mhux kompluta jew mhux eżatta; elettur li jismu Homer Simpson jista 'jidher bħala Homer Jay Simpson, Homie J Simpson, jew saħansitra Homer Sampsin. Minkejja l-potenzjal ta 'żbalji fil-fajl tad-data kaptan tal-Catalyst u l-iżbalji fir-rabta ta' rekord, Ansolabehere u Hersh setgħu jibnu fiduċja fl-istimi tagħhom permezz ta 'diversi tipi ta' kontrolli.

Figura 3.13: Skematika tal-istudju minn Ansolabehere and Hersh (2012) . Biex toħloq il-master datafile, Catalist jgħaqqad u jarmonizza informazzjoni minn ħafna sorsi differenti. Dan il-proċess ta 'għaqda, irrispettivament minn kemm bir-reqqa, se jipproponi żbalji fis-sorsi tad-data oriġinali u se jintroduċi żbalji ġodda. It-tieni sors ta 'żbalji huwa r-rabta rekord bejn id-data ta' l-istħarriġ u l-fajl tad-data prinċipali. Jekk kull persuna kellha identifikatur stabbli u uniku fiż-żewġ sorsi tad-dejta, allura r-rabta tkun trivjali. Iżda, Catalist kellu jagħmel ir-rabta bl-użu ta 'identifikaturi imperfetti, f'dan il-każ l-isem, is-sess, is-sena tat-twelid u l-indirizz tad-dar. Sfortunatament, għal ħafna każijiet jista 'jkun hemm informazzjoni mhux kompluta jew mhux eżatta; elettur li jismu Homer Simpson jista 'jidher bħala Homer Jay Simpson, Homie J Simpson, jew saħansitra Homer Sampsin. Minkejja l-potenzjal ta 'żbalji fil-fajl tad-data kaptan tal-Catalyst u l-iżbalji fir-rabta ta' rekord, Ansolabehere u Hersh setgħu jibnu fiduċja fl-istimi tagħhom permezz ta 'diversi tipi ta' kontrolli.

Bil-fajl tad-data magħquda tagħhom, Ansolabehere u Hersh waslu għal tliet konklużjonijiet importanti. L-ewwel, rappurtaġġ żejjed tal-votazzjoni huwa rampanti: kważi nofs in-non-votanti rrapurtaw il-votazzjoni, u jekk xi ħadd irrapporta votazzjoni, hemm biss ċans ta '80% li attwalment ivvotaw. It-tieni, irrappurtar żejjed mhuwiex każwali: irrappurtar żejjed huwa aktar komuni fost partisans ta 'dħul għoli, edukati sew, li huma involuti f'affarijiet pubbliċi. Fi kliem ieħor, in-nies li x'aktarx li jivvutaw x'aktarx ukoll ikunu dwar il-votazzjoni. It-tielet, u l-aktar b'mod kritiku, minħabba n-natura sistematika tar-rappurtar żejjed, id-differenzi attwali bejn il-votanti u n-nonvoters huma iżgħar milli jidhru biss minn stħarriġ. Pereżempju, dawk bi grad ta 'baċellerat huma ta' madwar 22 punt perċentwali aktar probabbli li jirrapportaw il-votazzjoni, iżda huma biss 10 punti perċentwali aktar probabbli li jivvutaw. Jirriżulta, forsi mhux sorpriża, li t-teoriji eżistenti bbażati fuq ir-riżorsi tal-votazzjoni huma ferm aħjar biex jbassru min se jirrapporta l-votazzjoni (li hija d-data li r-riċerkaturi użaw fil-passat) milli huma qed ibassru minn min attwalment ivvota. Għalhekk, is-sejba empirika ta ' Ansolabehere and Hersh (2012) titlob teoriji ġodda biex jifhmu u jbassru l-votazzjoni.

Imma kemm għandna fiduċja f'dawn ir-riżultati? Ftakar, dawn ir-riżultati jiddependu fuq żbalji suxxettibbli li jorbtu ma 'data tal-kaxxa sewda b'ammonti mhux magħrufa ta' żball. B'mod aktar speċifiku, ir-riżultati jiddependu fuq żewġ passi ewlenin: (1) l-abilità ta 'Catalist li jgħaqqad ħafna sorsi ta' dejta differenti biex jipproduċi dejta tal-master master preċiża u (2) il-kapaċità ta 'Catalist li torbot id-dejta tal-istħarriġ mal-fajl tad-data kaptan tagħha. Kull wieħed minn dawn il-passi huwa diffiċli, u żbalji f'kull pass jistgħu jwasslu lir-riċerkaturi għall-konklużjonijiet żbaljati. Madankollu, kemm l-ipproċessar tad-data kif ukoll ir-rabta huma kritiċi għall-eżistenza kontinwa ta 'Catalist bħala kumpanija, sabiex tkun tista' tinvesti riżorsi biex issolvi dawn il-problemi, ħafna drabi fuq skala li l-ebda riċerkatur akkademiku ma jista 'jaqbel. Fid-dokument tagħhom, Ansolabehere u Hersh għaddejjin minn numru ta 'passi biex jiċċekkjaw ir-riżultati ta' dawn iż-żewġ passi - għalkemm xi wħud minnhom huma proprjetarji - u dawn il-verifiki jistgħu jkunu ta 'għajnuna għal riċerkaturi oħra li jixtiequ jorbtu d-data ta' l-istħarriġ ma ' sorsi.

X'inhuma r-riċerkaturi tal-lezzjonijiet ġenerali li jistgħu jieħdu minn dan l-istudju? L-ewwelnett, hemm valur kbir kemm minn sorsi kbar ta 'dejta li jsaħħu dejta dwar stħarriġ kif ukoll minn dejta ta' stħarriġ li tarrikkixxi ma 'sorsi ta' dejta kbar (tista 'tara dan l-istudju jew mod). Billi jgħaqqdu dawn iż-żewġ sorsi tad-data, ir-riċerkaturi setgħu jagħmlu xi ħaġa li kienet impossibbli jew individwalment. It-tieni lezzjoni ġenerali hija li għalkemm sorsi aggregati ta 'data kummerċjali, bħad-dejta minn Catalist, m'għandhomx jitqiesu bħala "verità artifiċjali", f'xi każijiet, jistgħu jkunu utli. Ix-xettiċi kultant iqabblu dawn is-sorsi tad-dejta aggregati u kummerċjali ma 'Verità assoluta u jirrimarkaw li dawn is-sorsi ta' dejta huma qosra. Madankollu, f'dan il-każ, ix-xettiċi qed jagħmlu paragun ħażin: id-data kollha li r-riċerkaturi jużaw jonqsu mill-Verità assoluta. Minflok, huwa aħjar li jitqabblu s-sorsi tad-dejta aggregati u kummerċjali ma 'sorsi oħra ta' dejta disponibbli (eż., Imġiba ta 'votazzjoni li ġiet irrapportata minnha nnifisha), li dejjem għandhom żbalji. Fl-aħħarnett, it-tielet lezzjoni ġenerali tal-istudju ta 'Ansolabehere u Hersh hija li f'xi sitwazzjonijiet, ir-riċerkaturi jistgħu jibbenefikaw mill-investimenti kbar li ħafna kumpaniji privati ​​qed jagħmlu biex jiġbru u jarmonizzaw settijiet tad-dejta soċjali kumplessi.