3.6.1 Enriched asking

Sa enriched na pagtatanong, ang data ng survey ay bumubuo ng konteksto sa paligid ng isang malaking mapagkukunan ng data na naglalaman ng ilang mahalagang mga sukat ngunit kulang sa iba.

Ang isang paraan upang pagsamahin ang data ng survey at malalaking data pinagmumulan ay isang proseso na aking tatawagan sa enriched na pagtatanong . Sa enriched na pagtatanong, ang isang malaking mapagkukunan ng data ay naglalaman ng ilang mahahalagang sukat ngunit walang iba pang mga sukat upang kolektahin ng researcher ang mga nawawalang sukat na ito sa isang survey at pagkatapos ay nag-uugnay sa dalawang pinagmumulan ng data nang magkasama. Ang isang halimbawa ng enriched na humihiling ay ang pag-aaral ni Burke and Kraut (2014) tungkol sa kung nakikipag-ugnayan sa Facebook ang pagtaas ng lakas ng pagkakaibigan, na inilarawan ko sa seksyon 3.2). Sa kasong iyon, pinagsama ang Burke at Kraut data ng survey sa data ng log ng Facebook.

Gayunpaman, ang pagtatakda kung saan ang Burke at Kraut ay nagtatrabaho ay nangangahulugan na hindi nila kailangang harapin ang dalawang malalaking problema na ginagawa ng mga mananaliksik na nagtatangkilik sa karaniwang pagtatanong. Una, ang aktwal na pag-uugnay sa mga set ng data sa antas ng indibidwal, isang proseso na tinatawag na linkage linkage , ay maaaring maging mahirap kung walang natatanging identifier sa parehong pinagkukunan ng data na maaaring magamit upang matiyak na ang tamang talaan sa isang dataset ay naitugma sa tamang rekord sa iba pang dataset. Ang ikalawang pangunahing problema sa enriched na pagtatanong ay ang kalidad ng malaking pinagmulan ng data ay kadalasang mahirap para sa mga mananaliksik upang masuri dahil ang proseso kung saan ang data ay nilikha ay maaaring pagmamay-ari at maaaring madaling kapitan sa maraming mga problema na inilarawan sa kabanata 2. Sa madaling salita, ang enriched asking ay kadalasang kinasasangkutan ng error-prone linking ng mga survey sa mga pinagmumulan ng black-box data ng hindi alam na kalidad. Sa kabila ng mga problemang ito, gayunpaman, ang enriched asking ay maaaring magamit upang magsagawa ng mahalagang pananaliksik, tulad ng ipinakita sa pamamagitan ng Stephen Ansolabehere at Eitan Hersh (2012) sa kanilang pananaliksik sa mga pattern ng pagboto sa Estados Unidos.

Ang punto ng botante ay naging paksa ng malawak na pananaliksik sa agham pampolitika, at, sa nakaraan, ang pag-unawa ng mga mananaliksik tungkol sa mga boto at kung bakit karaniwang nakabatay sa pagtatasa ng data ng survey. Ang pagboto sa Estados Unidos, gayunpaman, ay isang hindi pangkaraniwang pag-uugali na itinatala ng pamahalaan kung ang bawat mamamayan ay bumoto (siyempre, ang pamahalaan ay hindi nagtatala kung sino ang boto ng bawat mamamayan). Sa loob ng maraming taon, ang mga talaan ng pagboto ng pamahalaan ay magagamit sa mga papel na papel, na nakakalat sa iba't ibang mga tanggapan ng lokal na pamahalaan sa buong bansa. Ito ay napakahirap, ngunit hindi imposible, para sa mga siyentipikong pampulitika na magkaroon ng isang kumpletong larawan ng mga manghahalal at ihambing kung ano ang sinasabi ng mga tao sa mga survey tungkol sa pagboto sa kanilang aktwal na pag-uugali sa pagboto (Ansolabehere and Hersh 2012) .

Ngunit ang mga rekord na ito sa pagboto ay na-digitize na ngayon, at maraming mga pribadong kumpanya ang sistematikong nakolekta at pinagsama ang mga ito upang makagawa ng mga komprehensibong mga file ng pagboto ng master na naglalaman ng pag-uugali ng pagboto ng lahat ng mga Amerikano. Nakipagsosyo ang Ansolabehere at Hersh sa isa sa mga kumpanyang ito-Catalist LCC-upang magamit ang kanilang master voting file upang makatulong na bumuo ng isang mas mahusay na larawan ng mga manghahalal. Bukod pa rito, dahil ang kanilang pag-aaral ay umaasa sa mga digital na talaan na nakolekta at na-curate ng isang kumpanya na namuhunan ng malaking mapagkukunan sa pagkolekta ng data at pagsasaayos, nag-aalok ito ng maraming mga pakinabang sa nakaraang mga pagsisikap na ginawa nang walang tulong ng mga kumpanya at sa pamamagitan ng paggamit ng mga analog na talaan.

Tulad ng marami sa mga malalaking pinagmumulan ng data sa kabanata 2, ang Catalist master file ay hindi kasama ang karamihan ng demograpiko, attitudinal, at asal na impormasyon na kinakailangan ng Ansolabehere at Hersh. Sa katunayan, lalo silang interesado sa paghahambing ng naiulat na pag-uugali ng pagboto sa mga survey na may balidong pag-uugali ng pagboto (ibig sabihin, ang impormasyon sa database ng Catalista). Kaya kinuha ng Ansolabehere at Hersh ang data na kanilang nais bilang isang malaking survey na panlipunan, ang CCES, na binanggit kanina sa kabanatang ito. Pagkatapos ay ibinigay nila ang kanilang datos sa Catalist, at ibinigay sa kanila ng Catalist ang isang pinagsama-samang data file na kasama ang napatunayan na pag-uugali ng pagboto (mula sa Catalist), ang self-reported na pag-uugali sa pagboto (mula sa CCES) at ang mga demograpiko at saloobin ng mga sumasagot (mula sa CCES) (figure 3.13). Sa ibang salita, sinamahan ng Ansolabehere at Hersh ang mga talaan ng mga rekord ng pagboto sa data ng survey upang makapagsagawa ng pananaliksik na hindi posible sa alinman sa pinagmulan ng data nang paisa-isa.

Figure 3.13: Schematic ng pag-aaral ng Ansolabehere at Hersh (2012). Upang lumikha ng master datafile, pinagsasama at pinagtugma ng Catalist ang impormasyon mula sa maraming iba't ibang mga mapagkukunan. Ang prosesong ito ng pagsasama, gaano man katuwiran, ang magpapalaganap ng mga pagkakamali sa orihinal na pinagmumulan ng data at magpapakilala ng mga bagong error. Ang ikalawang pinagmumulan ng mga error ay ang linkage linkage sa pagitan ng survey data at ang master datafile. Kung ang bawat tao ay may matatag, natatanging tagatukoy sa parehong pinagmumulan ng data, ang linkage ay walang halaga. Ngunit, kailangang gawin ng Catalist ang linkage gamit ang mga hindi perpektong tagapagpakilala, sa kasong ito na pangalan, kasarian, taon ng kapanganakan, at address ng tahanan. Sa kasamaang palad, para sa maraming mga kaso ay maaaring hindi kumpleto o hindi tumpak na impormasyon; Ang isang botante na pinangalanang Homer Simpson ay maaaring lumitaw bilang Homer Jay Simpson, Homie J Simpson, o kahit Homer Sampsin. Sa kabila ng potensyal para sa mga pagkakamali sa data ng master ng Catalist at mga pagkakamali sa linkage ng rekord, nakuha ni Ansolabehere at Hersh ang pagtitiwala sa kanilang mga pagtatantya sa pamamagitan ng maraming iba't ibang mga uri ng mga tseke.

Figure 3.13: Schematic ng pag-aaral ng Ansolabehere and Hersh (2012) . Upang lumikha ng master datafile, pinagsasama at pinagtugma ng Catalist ang impormasyon mula sa maraming iba't ibang mga mapagkukunan. Ang prosesong ito ng pagsasama, gaano man katuwiran, ang magpapalaganap ng mga pagkakamali sa orihinal na pinagmumulan ng data at magpapakilala ng mga bagong error. Ang ikalawang pinagmumulan ng mga error ay ang linkage linkage sa pagitan ng survey data at ang master datafile. Kung ang bawat tao ay may matatag, natatanging tagatukoy sa parehong pinagmumulan ng data, ang linkage ay walang halaga. Ngunit, kailangang gawin ng Catalist ang linkage gamit ang mga hindi perpektong tagapagpakilala, sa kasong ito na pangalan, kasarian, taon ng kapanganakan, at address ng tahanan. Sa kasamaang palad, para sa maraming mga kaso ay maaaring hindi kumpleto o hindi tumpak na impormasyon; Ang isang botante na pinangalanang Homer Simpson ay maaaring lumitaw bilang Homer Jay Simpson, Homie J Simpson, o kahit Homer Sampsin. Sa kabila ng potensyal para sa mga pagkakamali sa data ng master ng Catalist at mga pagkakamali sa linkage ng rekord, nakuha ni Ansolabehere at Hersh ang pagtitiwala sa kanilang mga pagtatantya sa pamamagitan ng maraming iba't ibang mga uri ng mga tseke.

Sa kanilang pinagsamang data file, si Ansolabehere at Hersh ay dumating sa tatlong mahahalagang konklusyon. Una, ang sobrang pag-uulat ng pagboto ay laganap: halos kalahati ng mga di-botante ang nag-ulat ng pagboto, at kung may nag-ulat ng pagboto, mayroon lamang 80% na pagkakataon na sila ay bumoto. Ikalawa, ang sobrang pag-uulat ay hindi random: ang sobrang pag-uulat ay mas karaniwan sa mga high-income, mahusay na pinag-aralan, mga partisans na nakikibahagi sa mga pampublikong gawain. Sa madaling salita, ang mga tao na malamang na bumoto ay malamang na magbabalak tungkol sa pagboto. Ikatlo, at pinaka-critically, dahil sa sistematikong kalikasan ng sobrang pag-uulat, ang mga aktwal na pagkakaiba sa pagitan ng mga botante at hindi mga botante ay mas maliit kaysa sa lilitaw lamang mula sa mga survey. Halimbawa, ang mga may degree na bachelor ay tungkol sa 22 puntos na porsiyento na mas malamang na mag-ulat ng pagboto, ngunit mga 10 porsiyento lamang ang posibleng bumoto. Ito ay lumiliko, marahil ay hindi nakakagulat, na ang mga umiiral na mapagkukunan na nakabatay sa mapagkukunan ng pagboto ay mas mahusay sa predicting kung sino ang mag-uulat ng pagboto (na kung saan ay ang data na ginamit ng mga mananaliksik sa nakaraan) kaysa sa mga ito sa predicting na talagang mga boto. Samakatuwid, ang empirikal na paghahanap ng Ansolabehere and Hersh (2012) nanawagan ng mga bagong teorya upang maunawaan at mahulaan ang pagboto.

Ngunit gaano kami dapat magtiwala sa mga resultang ito? Tandaan, ang mga resultang ito ay nakasalalay sa mga error-prone na nagli-link sa black-box na data na may hindi kilalang mga halaga ng error. Higit na partikular, ang mga resulta ay nakabukas sa dalawang pangunahing hakbang: (1) ang kakayahan ng Catalist na pagsamahin ang maraming mga mapagkukunan ng disparate na data upang makabuo ng isang tumpak na data ng master at (2) ang kakayahan ng Catalist na i-link ang data ng survey sa master datafile nito. Ang bawat isa sa mga hakbang na ito ay mahirap, at ang mga pagkakamali sa alinmang hakbang ay maaaring humantong sa mga mananaliksik sa mga maling konklusyon. Gayunpaman, ang parehong pagpoproseso ng data at pag-uugnay ay mahalaga sa patuloy na pag-iral ng Catalist bilang isang kumpanya, upang maaari itong mamuhunan ng mga mapagkukunan sa paglutas ng mga problemang ito, kadalasan sa sukat na hindi matutugunan ng isang mananaliksik na akademiko. Sa kanilang papel, ang Ansolabehere at Hersh ay dumaan sa ilang mga hakbang upang suriin ang mga resulta ng dalawang hakbang na ito-kahit na ang ilan sa kanila ay pagmamay-ari-at ang mga tseke ay maaaring makatulong para sa iba pang mga mananaliksik na nagnanais na mag-link ng data ng survey sa black-box na malaking data mga mapagkukunan.

Ano ang mga pangkalahatang aral ng mga mananaliksik na makukuha mula sa pag-aaral na ito? Una, may napakahusay na halaga mula sa pagpapayaman ng mga malaking mapagkukunan ng data sa data ng survey at mula sa pagpapayaman ng data ng survey na may malaking mga mapagkukunan ng data (maaari mong makita ang pag-aaral na ito alinman sa paraan). Sa pamamagitan ng pagsasama-sama ng dalawang pinagmumulan ng data, ang mga mananaliksik ay nakagawa ng isang bagay na imposible sa alinman sa isa-isa. Ang ikalawang pangkalahatang aral ay na kahit na pinagsama-sama, ang mga pinagmumulan ng komersyal na data, tulad ng data mula sa Catalist, ay hindi dapat ituring na "katotohanan sa lupa," sa ilang mga kaso, maaari silang maging kapaki-pakinabang. Kung minsan ang mga may pag-aalinlangan ay naghahambing sa mga pinagsama-samang, pinagmumulan ng pangkomersyal na data na may ganap na Katotohanan at itinuturo na ang mga pinagmumulan ng data na ito ay nagkulang. Gayunpaman, sa kasong ito, ang mga may pag-aalinlangan ay gumagawa ng maling paghahambing: ang lahat ng data na ginagamit ng mga mananaliksik ay wala sa ganap na Katotohanan. Sa halip, ito ay mas mahusay na ihambing ang pinagsama-samang, komersyal na pinagmumulan ng data sa iba pang magagamit na pinagmumulan ng data (halimbawa, pag-uugali ng pag-uulat sa sarili na pag-uulat), na walang alinlangang may mga pagkakamali. Sa wakas, ang ikatlong pangkalahatang aral ng pag-aaral ng Ansolabehere at Hersh ay sa ilang mga sitwasyon, ang mga mananaliksik ay makikinabang mula sa malalaking pamumuhunan na ginagawa ng maraming pribadong kumpanya sa pagkolekta at pagkakasunud-sunod ng kumplikadong mga hanay ng social data.