3.6.1 Enriched requesting

In enriched request, data di l'encore prupone un cuntestu in una magnifica fonte di dati chì cuntene qualcuni muri importanti, ma manca d'altri.

Una manera di cumminerà e dati di a storia è e grandi funziunalità di dati hè un prucessu chì chjaraghju callottu richendu . In arricchisci sta dumanda, una grande fonte di dati cuntene qualchì mumentu impurtanti ma manca di altre misurazioni per chì u sughjettu recopila sti mancenti manconiu in un insegnamentu è poi ligami e duie fonte di dati together. Un esempru di dumannà arricchisce hè l'estrudu di Burke and Kraut (2014) nantu à l'interazzione nantu à Facebook aumenta a forza di amici, chì scrissi in section 3.2). In questu casu, Burke è Kraut aghjunghjenu a stata di data cù a basa di logu Facebook.

A scena in quale Burke è Kraut eranu travagliatu, ancu chì significhevanu chì ùn anu micca bisognu cù dui grandi prublemi chì i ricerchi anu ricunniscenu per esse puliticamenti face. U primu, attentu chì vincenu u settore di dati per u nivellu individuale, un prucessu chjamatu ligame recordu , pò esse difficulue se ùn ci hè micca un identificatore unicu in i dui fonti di dati chì ponu esse aduprate per chì u registratu currettu in un catellu hè attribuitu cù u registratu curretta in u listinu altre datu. U sicuru problema primu cun avè arricchimentu chjina hè chì a qualità di a big fonte di dati serà frecuentemente difficiuli per i circunscenti à evaluà perchè u prucessu in u quali a data sò creati pò esse proprietari è pò esse suscettibile à parechje di i prublemi spjegati in u capimtu 2. In altre parolle, richiesta di dumandà involutà involutanu invidie di anu da u ligame di i medizzioni à i pruduttori di curnici nucliarii di una qualità chì ùn anu sapiatu. Eppuru sti prublemi, però, richiesta di dumanda pò esse usata per fà ricerchi importanti, cum'è manifestazioni di Stephen Ansolabehere è Eitan Hersh (2012) in a so ricerca nantu à i modelli di votu in i Stati Uniti.

A vultarina hè statu u sughjettu di una ricchizza extensa in a scienza pulitica, è, in u passatu, u cumpurtamentu di i circunscenti di quale votatu è perchè hè in generale hè stata basatu nantu à l'analizamentu di e data di l'encore. Votazione in i Stati Uniti, però, hè un cumpurtamentu pocu cumuni in chì u guvernu hà registratu chì ogni citadinu hà votatu (per suprattuttu, u guvernu ùn marca micca quale ogni votu ciatu). Per parechji anni, sti registri di votu guvernativi si sò dispunibili nantu à stampati di formi stampati di scatuli in parechji partiti di guvernu lucali attraversu u paese. Questu hà fattu assai difficili, ma micca impussìbule, per i scientifichi politichi per avè una stampa completa di l'elettoratu è per paragunà chì e persone dice in leghje nantu à u votu cù u so comportamentu di votu propiu (Ansolabehere and Hersh 2012) .

Ma sti ritratti di votu sò state stati scmodificati, è parechji società privati ​​anu sistematuamenti recullati è fugliali per prupone alcune maestru di votu chì cuntenenu u cumpurtamentu di u votu di tutti i Stati Uniti. Ansolabehere è Hersh s'unia cù una di questi cumpagnii-Catalist LCC-in modu per usà u so votu di u votu di votu per aiutà à sviluppà una megliu foto di l'elettore. Cumplementu, perchè u so studiu basau à i registri digitali cullati è curati da una sucità chì avianu investitu risorse sustinti in a ricerca di data è l'armunizazioni, offra una quantità di vantaghji nantu à sforzi previ chì si hè statu fattu senza l'aiutu di l'imprese è cù l'analogichi.

Comu parechji di e grande fonti di dati in u capu 2, u schedariu maestru Catalu ùn mancu includeu assai di a informazione demografica, attitudinali è di cumportamentu chì Ansolabehere è Hersh necessitava. Infatti, anu particularmente interessatu à paragueru u cuntenutu di u votu in i stuviglii cù u compulzione validata di votu (ie, l'infurmazioni in a basa di a Catalana). So Ansolabehere è Hersh recopilaron e dati chì volenu com'è una grande encuesta sociale, a CCES, cita prima di stu capitulu. Allora si ne davernevanu i so dati à Catalist, è Catalist ci detti un file di data fusionu chì cumpurtava u cumpurtamentu di u votu validatu (di Catalista), u cumportamentu di u votu autore (da CCES) è i demugrafichi è attitudini di i rispondenu (da CCES) (figura 3.13). In autri vocabuli, Ansolabehere è Hersh combina u registratu di votu cù e dati di a storia, per fà una ricerca chì ùn era micca pussibule cun una fonte di dati per ind'è individualmente.

Figura 3.13: Schematicu di l'studiu da Ansolabehere è Hersh (2012). Per creà u master datafile, Catalist combina è harmonizeghja l'infurmazioni di parechje fonti diffirenti. Stu prucessu di cunfurmà, ùn importa micca quantu cura, avè difrutatu i sbagli in u fonti di dati originali è intruducerà novi errore. A seconda fonti d'errore hè a vinle recordu entre l'infurmazioni di u data è u master datafile. Se ogni persona hà avutu un identificatore unicu stabile, in i dui fonti di dati, u ligame ùn era più triviale. Ma, Catalist avianu aduprà u ligame cù identificatori imperfecti, in questu casu, u sessu, annunziu è l'indirizzu domiciliu. Sfortunatamente, per parechji casi, ùn anu micca esse infurmati senza infurmazione; un votante chjamatu Homer Simpson puderia cumparisce cum'è Homer Jay Simpson, Homie J Simpson, o ancu Homer Sampsin. Malgradu u pussibilità per l'errore in u catalòteru master datafile è l'errore in u vindu recordu, Ansolabehere è Hersh puderà custruisce una fiducia in i so estimi per mezu di diversi tipi di cuntrolli.

Figura 3.13: Schematicu di l'studiu da Ansolabehere and Hersh (2012) . Per creà u master datafile, Catalist combina è harmonizeghja l'infurmazioni di parechje fonti diffirenti. Stu prucessu di cunfurmà, ùn importa micca quantu cura, avè difrutatu i sbagli in u fonti di dati originali è intruducerà novi errore. A seconda fonti d'errore hè a vinle recordu entre l'infurmazioni di u data è u master datafile. Se ogni persona hà avutu un identificatore unicu stabile, in i dui fonti di dati, u ligame ùn era più triviale. Ma, Catalist avianu aduprà u ligame cù identificatori imperfecti, in questu casu, u sessu, annunziu è l'indirizzu domiciliu. Sfortunatamente, per parechji casi, ùn anu micca esse infurmati senza infurmazione; un votante chjamatu Homer Simpson puderia cumparisce cum'è Homer Jay Simpson, Homie J Simpson, o ancu Homer Sampsin. Malgradu u pussibilità per l'errore in u catalòteru master datafile è l'errore in u vindu recordu, Ansolabehere è Hersh puderà custruisce una fiducia in i so estimi per mezu di diversi tipi di cuntrolli.

Cù u so schedariu di data cumminata, Ansolabehere è Hersh vènsenu à trè cunsulgatori impurtanti. Prima, u rappurtu di u votu hè rampante: quasi a mità di i non-votanti hà vintu à votu, è se qualcunu di votu u votu, ci hè solu un 80% di casu chì vanu veramente. Sicunna, l'over-reporting ùn hè micca uparatu: l'over-reporting hè più cumuni trà l'altri ingule, ben educati, partiggiani chì sò impegni in affari pubblichi. In altri palori, i pirsuni chì sò più probabili di vutanu sò ancu più prubabbe di girà nantu à u votu. Terzu, è più critichi, per via di a natura sistematica di rappurtaghju, e diffirenti propie di l'annunziu è l'ungarisi ùn sò più chjappi di quelli chì parevanu da stategorie. Per esempiu, quelli chì sò cun diploma di bachelor hè circa 22 punti percentualità più prubabile d'annunzià u votu, ma sò solu 10 punti pertendu più prubabbe di vera votà. Ci hè chì averemu da esse, forsi micca surprisingly, chì e teoria di u votu basatu in risorsa sò assai megliu per predice chì avarà infurmatu u votu (chì ghjè a data chì i circhuli anu utilizatu in u passatu) di quali sò à vultà à quale vera. Cusì, u Ansolabehere and Hersh (2012) empiricu di Ansolabehere and Hersh (2012) chjamanu per novi tiurìi per capiscenu è predichendu votu.

Ma quantu devimu noi confiantà questi risultati? Ricurdativi, sti risultati dipendenu di a propensione di l'errore dà alloghju à a casella negra di dati cun ammonti inchiusu di errore. A più specificamente, i risultati s'apprisintava à dui passi clauu: (1) a capacità di Catalyst per combine parechje fonti difatti di dati per pruduce un precursore di datafile maestru è (2) a capacità di Catalist per ligà a data di l'istima à u master datafile. Ogni passiu di sti passi è difficiule, è l'errori in questu u passu putevanu guidà i ricchieri in a cunclusioni sbagliati. In ogni modu, l'infurmazioni di u trattu di dati è a ligami sò critichi per l'esistenza sussistenti di Catalista com'è una Cumpagnia, perchè pò investisce i risorse in risolve queste prublemi, spessu à una scala chì un investigatore accademica pò accurdà. In u so dumande, Ansolabehere è Hersh passanu à parechji passi per verificà i risultati di questi dui passi, ancu s'ellu parechji sò privati, è queste cuntrolli puderà esse uttene per altri ricerchi chì vulianu ligà a storia di a data à l'big-black box data fonti.

Chì sò i corsi di i lecciunii generale i ricchieri pò piglià stu studiu? Prima hè un tremendu valoratu da l'arricchendu grandi fonti di dati cù data di l'encore è da arricchendu l'infurmazione cù e grande fonti di dati (pudete vede stu studiu o duie modu). Cumminendu issi dui fonti di dati, i circhificaturi puderanu fari quarchi cosa chì era impussibile ind'è individualmente. A secunna lezzioni generale hè chì quelle aghjurnate, e funziunalità di dati cummirciali, cum'è e dati di Catalista, ùn anu micca esse consideratu "verità di terra", in certi casi, ponu esse utili. I scircetti cuntenenu questi aghjunte, a fonte di dati cumerciali cù a Verità assoluta è puntanu chì questi sorsi di data sò corti. In ogni casu, i scettichi facenu a paragione incorrecta: tutte l'infurmazioni chì anu cercanu à l'uttinu assoluta. Invece, hè megliu paragunà l'aghjurnate, fonte di dati cummerciale cù altre funziunalità di dati (per esempiu, u cumportamentu di votu), chì invariabilamenti anu eranu ancu. Infine, a terza lezzione generale di l'studiu di Ansolabehere è Hersh, hè chì in certi situazioni, i circhanti puderanu benefibcani di l'ingrossimai investimenti chì tanti impresi privati ​​facianu in cullighjà è armoniżżate settiche settimane cumunu complexi.