3.6.1 nanyakeun Enriched

Dina nanyakeun enriched, data survéy ngawangun konteks sabudeureun hiji sumber data badag anu ngandung sababaraha ukuran penting tapi urangna batur.

Salah sahiji cara pikeun ngagabungkeun data survéy jeung sumber data badag nyaéta prosés anu kuring gé nelepon nanyakeun enriched. Dina nanyakeun enriched, hiji sumber data badag ngandung sababaraha ukuran penting tapi lacks ukuran lianna sangkan panalungtik ngumpulkeun ieu ukuran leungit dina survey anu lajeng numbu ka dua sumber data babarengan. Hiji conto tina nanyakeun enriched ngarupakeun ulikan ku Burke and Kraut (2014) ngeunaan naha interacting on Facebook naek kakuatan silaturahim, nu kuring dijelaskeun dina bagian 3.2). Dina kasus eta, Burke na Kraut digabungkeun data survéy jeung data log Facebook.

Setelan nu Burke na Kraut anu gawé, kumaha oge, dimaksudkan yén maranéhna teu kudu nungkulan dua masalah badag nu peneliti lakukeun enriched nanyakeun ilaharna nyanghareupan. Kahiji, sabenerna linking babarengan susunan data individu-tingkat, prosés nu disebut catetan beungkeut, bisa hésé lamun euweuh identifier unik dina duanana sumber data nu bisa jadi dipaké pikeun mastikeun yén catetan bener dina hiji dataset ieu loyog sareng catetan bener dina dataset lianna. Masalah utama nu kadua kalawan nanyakeun enriched nyaéta yén kualitas sumber data badag remen bakal hésé pikeun panalungtik pikeun assess kusabab proses liwat mana data anu dijieun bisa jadi proprietary tur bisa jadi susceptible mun loba masalah nu dijelaskeun dina bagean 2. dina basa sejen, enriched nanyakeun remen baris ngalibetkeun linking kasalahan-rawan tina survey ka sumber data hideung-kotak ti kualitas kanyahoan. Sanajan masalah ieu, kumaha oge, enriched nanyakeun bisa dipaké pikeun ngalaksanakeun ieu panalungtikan penting, salaku ieu nunjukkeun ku Stephen Ansolabehere na Eitan Hersh (2012) dina panalungtikan maranéhanana dina pola voting di Amérika Serikat.

Voter turnout geus subjek panalungtikan éksténsif dina elmu pulitik, sarta, nu geus kaliwat, pamahaman peneliti 'saha undian na naha geus umum geus dumasar kana hasil analisis data survéy. Voting di Amérika Serikat, kumaha oge, mangrupa kabiasaan mahiwal dina éta rékaman pamaréntah naha tiap warga geus milih (tangtu, pamaréntah henteu ngarekam anu unggal undian warga pikeun). Salila sababaraha taun, ieu rékaman voting wewenang éta disadiakeun dina bentuk kertas, sumebar di sagala rupa kantor pamaréntah lokal sabudeureun nagara. Ieu hasil hésé pisan, tapi teu mungkin, pikeun élmuwan pulitik mun gaduh gambar lengkep electorate jeung pikeun ngabandingkeun naon urang sebutkeun di survey tentang voting jeung kabiasaan voting sabenerna maranéhna (Ansolabehere and Hersh 2012) .

Tapi ieu rékaman voting geus ayeuna geus digitized, sarta sababaraha pausahaan swasta geus sacara sistematis dikumpulkeun sarta dihijikeun aranjeunna pikeun ngahasilkeun file master voting komprehensif nu ngandung paripolah voting sadaya Amerika. Ansolabehere na Hersh partnered kalayan salah sahiji pausahaan-Catalist ieu LCC-guna make file voting master maranéhna pikeun mantuan ngamekarkeun gambar hadé tina electorate nu. Salajengna, lantaran studi maranéhna relied on rékaman digital dikumpulkeun sarta curated ku parusahaan eta sempet invested sumberdaya penting dina pendataan sarta harmonisasi, éta ditawarkeun sababaraha kaunggulan leuwih usaha saméméhna nu kungsi dipigawé tanpa bantuan pausahaan sarta ku ngagunakeun rékaman analog.

Kawas loba sumber data badag dina bab 2, anu Catalist master file teu kaasup jauh tina informasi demografi, attitudinal, sarta behavioral nu Ansolabehere na Hersh diperlukeun. Kanyataanna, maranéhanana éta utamana resep ngabandingkeun kabiasaan voting dilaporkeun dina survey jeung kabiasaan voting disahkeun (ie, informasi dina database Catalist). Jadi Ansolabehere na Hersh dikumpulkeun data yen aranjeunna hayang salaku survey sosial badag, anu CCES, disebutkeun tadi dina bab ieu. Tuluy maranehna masihan data maranéhna pikeun Catalist, sarta Catalist masihan aranjeunna deui file dihijikeun data nu kaasup disahkeun kabiasaan voting (tina Catalist), paripolah voting timer dilaporkeun (tina CCES) jeung demografi jeung sikap responden (tina CCES) (sosok 3.13). Dina basa sejen, Ansolabehere na Hersh digabungkeun rékaman voting data kalawan data survéy dina urutan ngalakukeun panalungtikan anu moal mungkin ku boh sumber data individual.

Gambar 3,13: Schematic tina ulikan ku Ansolabehere na Hersh (2012). Pikeun nyieun master datafile, Catalist ngagabungkeun jeung harmonizes informasi tina loba sumber béda. Ieu prosés merging, euweuh urusan kumaha ati, moal propagate kasalahan dina sumber data aslina tur baris ngawanohkeun kasalahan anyar. Hiji sumber kadua kasalahan nyaeta catetan beungkeut antara data survéy jeung master datafile. Mun unggal jalma miboga stabil, identifier unik dina duanana sumber data, teras beungkeut bakal trivial. Tapi, Catalist kapaksa ngalakukeun anu beungkeut maké identifiers sampurna, dina ieu ngaran hal, jenis kelamin, sataun kalahiran, sarta alamat imah. Hanjakal, keur loba kasus aya bisa jadi informasi lengkep atanapi taliti; a voter ngaranna Homer Simpson bisa muncul salaku Homer Jay Simpson, Homie J Simpson, atawa malah Homer Sampsin. Sanajan potensi kasalahan dina Catalist master datafile sarta kasalahan dina catetan beungkeut, Ansolabehere na Hersh éta bisa ngawangun kayakinan dina perkiraan maranéhanana ngaliwatan sababaraha tipena béda cék.

Gambar 3,13: Schematic tina ulikan ku Ansolabehere and Hersh (2012) . Pikeun nyieun master datafile, Catalist ngagabungkeun jeung harmonizes informasi tina loba sumber béda. Ieu prosés merging, euweuh urusan kumaha ati, moal propagate kasalahan dina sumber data aslina tur baris ngawanohkeun kasalahan anyar. Hiji sumber kadua kasalahan nyaeta catetan beungkeut antara data survéy jeung master datafile. Mun unggal jalma miboga stabil, identifier unik dina duanana sumber data, teras beungkeut bakal trivial. Tapi, Catalist kapaksa ngalakukeun anu beungkeut maké identifiers sampurna, dina ieu ngaran hal, jenis kelamin, sataun kalahiran, sarta alamat imah. Hanjakal, keur loba kasus aya bisa jadi informasi lengkep atanapi taliti; a voter ngaranna Homer Simpson bisa muncul salaku Homer Jay Simpson, Homie J Simpson, atawa malah Homer Sampsin. Sanajan potensi kasalahan dina Catalist master datafile sarta kasalahan dina catetan beungkeut, Ansolabehere na Hersh éta bisa ngawangun kayakinan dina perkiraan maranéhanana ngaliwatan sababaraha tipena béda cék.

Kalawan file data dikombinasikeun maranéhanana, Ansolabehere na Hersh sumping ka tilu conclusions penting. Kahiji, leuwih-ngalaporkeun of voting geus rampant: ampir satengah tina nonvoters dilaporkeun voting, sarta lamun batur dilaporkeun voting, aya ngan hiji kasempetan 80% nu maranéhna sabenerna milih. Kadua, leuwih-ngalaporkeun henteu acak: leuwih-ngalaporkeun geus leuwih ilahar dipimilik ku-panghasilan luhur, ogé-nyakola, partisans anu keur aya di urusan umum. Kalayan kecap séjén, jalma anu paling dipikaresep ngajawab oge paling dipikaresep ngabohong ngeunaan voting. Katilu, sarta paling kritis, kusabab alam sistimatis pikeun leuwih-ngalaporkeun, béda sabenerna antara pamilih tur nonvoters anu leuwih leutik batan maranéhna muncul ngan tina survey. Contona, maranéhanana kalayan gelar sarjana muda anu ngeunaan 22 persentase titik leuwih gampang ngalaporkeun voting, tapi anu ngan 10 persentase titik leuwih gampang sabenerna ngajawab. Tétéla, sugan moal heran, éta téori dumasar-sumberdaya aya di voting nu leuwih hadé dina ngaramal anu baris ngalaporkeun voting (nu data anu peneliti geus dipake geus kaliwat) ti aranjeunna dina ngaramal anu sabenerna undian. Ku kituna, Pananjung empiris tina Ansolabehere and Hersh (2012) panggero pikeun téori anyar pikeun nyurtian sarta ngaduga voting.

Tapi sabaraha kedah urang percanten hasilna ieu? Inget, hasil ieu gumantung kana kasalahan-rawan linking kana data hideung-kotak ku jumlahna kanyahoan tina kasalahan. Leuwih husus, hasil hinge on dua hambalan konci: (1) kamampuh Catalist ngagabungkeun loba sumber data disparate ngahasilkeun master datafile akurat jeung (2) kamampuh Catalist kaitkeun data survéy ka datafile master na. Tiap hambalan ieu hese, sarta kasalahan di boh hambalan bisa ngakibatkeun peneliti ka conclusions salah. Sanajan kitu, duanana ngolah data na linking anu kritis kana ayana terus of Catalist salaku parusahaan, ku kituna bisa investasi sumberdaya di ngarengsekeun masalah ieu, mindeng di skala nu euweuh panalungtik akademik bisa cocog. Dina makalah maranéhanana, Ansolabehere na Hersh ngaliwat sababaraha léngkah mariksa hasil dua ieu hambalan-sanajan sawatara di antarana mangrupakeun proprietary-na cék ieu bisa jadi mantuan pikeun peneliti séjén wishing kaitkeun data survéy ka hideung-kotak data badag sumber.

Naon palajaran umum peneliti bisa narik tina ulikan ieu? Kahiji, aya nilai tremendous duanana ti enriching sumber data badag kalawan data survéy ti enriching data survéy jeung sumber data badag (anjeun tiasa ningali ulikan ieu cara boh). Ku ngagabungkeun dua sumber data ieu, panalungtik éta bisa ngalakukeun hal anu teu mungkin kalawan boh individual. Pangajaran umum kadua yén sanajan aggregated, sumber data komérsial, kayaning data ti Catalist, teu matak dianggap "bebeneran taneuh," dina sababaraha kasus, aranjeunna tiasa mangpaat. Skeptics kadang ngabandingkeun ieu aggregated, sumber data komérsial kalawan Kaleresan mutlak tur nunjuk kaluar yén ieu sumber data digolongkeun pondok. Sanajan kitu, dina hal ieu, anu skeptics anu nyieun perbandingan lepat: kabéh data anu peneliti nganggo ragrag pondok tina Kaleresan mutlak. Gantina, eta leuwih hade pikeun ngabandingkeun aggregated, sumber data komérsial kalawan sumber sejenna data disadiakeun (misalna kabiasaan voting timer dilaporkeun), nu invariably boga kasalahan ogé. Tungtungna, palajaran umum katilu ulikan Ansolabehere na Hersh urang éta sababaraha kaayaan, peneliti tiasa kauntungan tina Investasi badag nu loba pausahaan swasta nu nyieun dina ngumpulkeun jeung harmonizing kompléks susunan data sosial.