3.6.1 pasuruar duke kërkuar

Në pyetjen e pasuruar, të dhënat e sondazhit ndërtojnë kontekstin rreth një burimi të madh të dhënash që përmban disa matje të rëndësishme, por mungojnë të tjerët.

Një mënyrë për të kombinuar të dhënat e sondazhit dhe burimet e mëdha të të dhënave është një proces që unë do të thërras të kërkoj të pasuruar . Në kërkimin e pasuruar, një burim i madh i të dhënave përmban disa matje të rëndësishme, por mungon matje të tjera kështu që hulumtuesi mbledh këto matje të munguara në një studim dhe pastaj lidh dy burimet e të dhënave së bashku. Një shembull i pyetjes së pasuruar është studimi i Burke and Kraut (2014) lidhje me ndërveprimin në Facebook me forcën e miqësisë, të cilën e përshkrova në seksionin 3.2). Në këtë rast, Burke dhe Kraut kombinuan të dhënat e sondazhit me të dhënat e Facebook-ut.

Caktimi në të cilin punonin Burke dhe Kraut, megjithatë, nënkuptonte se ata nuk duhej të merreshin me dy probleme të mëdha që kërkuesit i bënin të pasuruar duke kërkuar fytyrën tipike. Së pari, duke bashkuar së bashku grupet e të dhënave në nivel individual, një proces i quajtur lidhja e rekordeve , mund të jetë e vështirë nëse nuk ka një identifikues unik në të dy burimet e të dhënave që mund të përdoren për të siguruar që rekordi i saktë në një skedar të dhënash përputhet me regjistrimin e saktë në grupin tjetër të të dhënave. Problemi i dytë kryesor me pyetjen e pasuruar është se cilësia e burimit të madh të të dhënave shpesh do të jetë e vështirë për studiuesit për të vlerësuar, sepse procesi përmes të cilit krijohen të dhënat mund të jetë pronar dhe mund të jetë i ndjeshëm ndaj shumë problemeve të përshkruara në kapitullin 2. Me fjalë të tjera, kërkimi i pasuruar shpesh do të përfshijë lidhjen e anketave me gabime në burimet e të dhënave të zeza të cilësisë së panjohur. Megjithë këto probleme, megjithatë, pasurimi i pyetjes mund të përdoret për të kryer kërkime të rëndësishme, siç u tregua nga Stephen Ansolabehere dhe Eitan Hersh (2012) në hulumtimin e tyre mbi modelet e votimit në Shtetet e Bashkuara.

Pjesëmarrja në votime ka qenë temë e hulumtimeve të gjera në shkencat politike dhe, në të kaluarën, të kuptuarit e kërkuesve të cilët votojnë dhe pse përgjithësisht është bazuar në analizën e të dhënave të sondazhit. Megjithatë, votimi në Shtetet e Bashkuara është një sjellje e pazakontë në atë që qeveria regjistron nëse çdo qytetar ka votuar (natyrisht, qeveria nuk regjistron se kush e voton secili qytetar). Për shumë vite, këto të dhëna qeveritare të votimit ishin të disponueshme në forma letre, të shpërndara në zyra të ndryshme të qeverisjes vendore në të gjithë vendin. Kjo e bëri shumë të vështirë, por jo të pamundur, që shkencëtarët politikë të kenë një pamje të plotë të elektoratit dhe të krahasojnë atë që njerëzit thonë në anketat rreth votimit me sjelljen e tyre të votimit (Ansolabehere and Hersh 2012) .

Por këto regjistra votimi tani janë digjitalizuar dhe një numër i kompanive private kanë grumbulluar sistematikisht dhe i kanë bashkuar ato për të prodhuar skedarë të përgjithshëm të votimit master që përmbajnë sjelljen e votimit të të gjithë amerikanëve. Ansolabehere dhe Hersh u bashkuan me një nga këto kompani - Katalogu LCC - me qëllim që të përdorin dosjen e tyre të votimit për të ndihmuar në zhvillimin e një pamje më të mirë të elektoratit. Për më tepër, për shkak se studimi i tyre mbështetej në të dhënat digjitale të mbledhura dhe të kuruara nga një kompani që kishte investuar burime të konsiderueshme në grumbullimin dhe harmonizimin e të dhënave, ofronte një sërë përparësish mbi përpjekjet e mëparshme që ishin bërë pa ndihmën e kompanive dhe duke përdorur regjistrime analoge.

Ashtu si shumë nga burimet e mëdha të të dhënave në kapitullin 2, skedari master katalizator nuk përfshiu shumë nga informacionet demografike, qëndrimet dhe sjelljet që duhej nga Ansolabehere dhe Hersh. Në fakt, ata ishin veçanërisht të interesuar në krahasimin e sjelljeve të raportuara të votimit në anketat me sjelljen e votimit të vërtetuar (dmth. Informacion në bazën katalizator). Pra, Ansolabehere dhe Hersh mblodhën të dhënat që donin si një sondazh i madh shoqëror, CCES, i përmendur më herët në këtë kapitull. Më pas ata i dhanë të dhënat e tyre Catalyst-it dhe Catalist-i i dha atyre një skedar të bashkuar të të dhënave që përfshinte sjelljen e votimit të vlefshme (nga katalista), sjelljet e votimit të vetë-raportuar (nga CCES) dhe demografia dhe qëndrimet e të anketuarve (nga CCES) 3.13). Me fjalë të tjera, Ansolabehere dhe Hersh kombinuan të dhënat e regjistrimeve të votimit me të dhënat e sondazhit në mënyrë që të bënin hulumtime që nuk ishin të mundshme as me burimin e të dhënave individualisht.

Figura 3.13: Skema e studimit nga Ansolabehere dhe Hersh (2012). Për të krijuar master filen e të dhënave, Catalist kombinon dhe harmonizon informacionin nga shumë burime të ndryshme. Ky proces i bashkimit, sado i kujdesshëm, do të përhapë gabime në burimet origjinale të të dhënave dhe do të prezantojë gabime të reja. Një burim i dytë i gabimeve është lidhja e të dhënave ndërmjet të dhënave të sondazhit dhe të dhënave kryesore të të dhënave. Nëse çdo person kishte një identifikues të qëndrueshëm, unik në të dy burimet e të dhënave, atëherë lidhja do të ishte e parëndësishme. Por, katalizatori duhej të bënte lidhjen duke përdorur identifikues të papërsosur, në këtë rast emri, gjinia, viti i lindjes dhe adresa e shtëpisë. Fatkeqësisht, për shumë raste mund të ketë informata jo të plota ose të pasakta; një votues me emrin Homer Simpson mund të shfaqet si Homer Jay Simpson, Homie J Simpson, apo edhe Homer Sampsin. Përkundër potencialit për gabime në të dhënat e masterit katalizator dhe gabimeve në lidhjen e rekordeve, Ansolabehere dhe Hersh ishin në gjendje të ndërtonin besimin në vlerësimet e tyre përmes disa llojeve të ndryshme të kontrolleve.

Figura 3.13: Skema e studimit nga Ansolabehere and Hersh (2012) . Për të krijuar master filen e të dhënave, Catalist kombinon dhe harmonizon informacionin nga shumë burime të ndryshme. Ky proces i bashkimit, sado i kujdesshëm, do të përhapë gabime në burimet origjinale të të dhënave dhe do të prezantojë gabime të reja. Një burim i dytë i gabimeve është lidhja e të dhënave ndërmjet të dhënave të sondazhit dhe të dhënave kryesore të të dhënave. Nëse çdo person kishte një identifikues të qëndrueshëm, unik në të dy burimet e të dhënave, atëherë lidhja do të ishte e parëndësishme. Por, katalizatori duhej të bënte lidhjen duke përdorur identifikues të papërsosur, në këtë rast emri, gjinia, viti i lindjes dhe adresa e shtëpisë. Fatkeqësisht, për shumë raste mund të ketë informata jo të plota ose të pasakta; një votues me emrin Homer Simpson mund të shfaqet si Homer Jay Simpson, Homie J Simpson, apo edhe Homer Sampsin. Përkundër potencialit për gabime në të dhënat e masterit katalizator dhe gabimeve në lidhjen e rekordeve, Ansolabehere dhe Hersh ishin në gjendje të ndërtonin besimin në vlerësimet e tyre përmes disa llojeve të ndryshme të kontrolleve.

Me dosjen e të dhënave të kombinuara, Ansolabehere dhe Hersh erdhën në tri përfundime të rëndësishme. Së pari, mbi-raportimi i votimit është i shfrenuar: pothuajse gjysma e nonvoters kanë raportuar për votim dhe nëse dikush ka raportuar për votim, ka vetëm një shans 80% që ata kanë votuar. Së dyti, mbi-raportimi nuk është i rastësishëm: mbi-raportimi është më i zakonshëm në mesin e të ardhurave të larta, të arsimuar mirë, partizanë të cilët janë të angazhuar në çështjet publike. Me fjalë të tjera, njerëzit që kanë më shumë gjasa të votojnë kanë gjithashtu shumë gjasa të gënjejnë rreth votimit. Së treti, dhe më kritike, për shkak të natyrës sistematike të raportimit të tepërt, dallimet aktuale midis votuesve dhe jo votuesve janë më të vogla sesa ato shfaqen vetëm nga sondazhet. Për shembull, ata që kanë një diplomë bachelor janë rreth 22 pikë përqindje më shumë për të raportuar votimin, por janë vetëm 10 përqind më shumë gjasa që të votojnë. Ndoshta nuk është e habitshme që teoritë ekzistuese të bazuara në burime të votimit janë shumë më të mira për të parashikuar se kush do të raportojë për votim (që janë të dhënat që hulumtuesit kanë përdorur në të kaluarën) se ata janë në parashikimin e atyre që në fakt votojnë. Kështu, gjetjet empirike të Ansolabehere and Hersh (2012) kërkojnë që teoritë e reja të kuptojnë dhe parashikojnë votimin.

Por sa duhet t'i besojmë këtyre rezultateve? Mos harroni, këto rezultate varen nga gabimet që lidhen me të dhënat e zezë të kutisë me sasi të panjohura të gabimit. Më konkretisht, rezultatet varen nga dy hapat kryesorë: (1) aftësia e katalizatorit për të kombinuar shumë burime të ndryshme të të dhënave për të prodhuar një master të saktë të të dhënave dhe (2) aftësinë e katalizatorit për të lidhur të dhënat e sondazhit me të dhënat kryesore të saj të të dhënave. Secila nga këto hapa është e vështirë, dhe gabimet në të dyja hapat mund t'i çojnë kërkuesit në përfundime të gabuara. Megjithatë, përpunimi dhe lidhja e të dhënave janë kritike për ekzistimin e vazhdueshëm të katalizatorit si një kompani, kështu që mund të investojë burime në zgjidhjen e këtyre problemeve, shpesh në një shkallë që asnjë studiues akademik nuk mund të përputhet. Në letrën e tyre, Ansolabehere dhe Hersh kalojnë një numër hapash për të kontrolluar rezultatet e këtyre dy hapave - edhe pse disa prej tyre janë të pronarit - dhe këto kontrolle mund të jenë të dobishme për hulumtuesit e tjerë që dëshirojnë të lidhin të dhënat e sondazhit me të dhënat e mëdha të zezë burime.

Cilat janë mësimet e përgjithshme që hulumtuesit mund të nxjerrin nga ky studim? Së pari, ka vlerë të jashtëzakonshme si nga pasurimi i burimeve të mëdha të të dhënave me të dhënat e sondazhit dhe nga pasurimi i të dhënave të sondazhit me burime të mëdha të të dhënave (ju mund ta shihni këtë studim në të dy mënyrat). Duke kombinuar këto dy burime të të dhënave, hulumtuesit ishin në gjendje të bënin diçka që ishte e pamundur me as individualisht. Mësimi i dytë i përgjithshëm është se edhe pse burimet e të dhënave komerciale, të tilla si të dhënat nga katalizatori, nuk duhet të konsiderohen "e vërteta në terren", në disa raste ato mund të jenë të dobishme. Skeptikët ndonjëherë i krahasojnë këto burime të të dhënave të grumbulluara komerciale me të vërtetën absolute dhe theksojnë se këto burime të dhënash bien të shkurtra. Megjithatë, në këtë rast, skeptikët po bëjnë krahasime të gabuara: të gjitha të dhënat që përdorin kërkuesit nuk përmbajnë të vërtetën absolute. Në vend të kësaj, është më mirë të krahasohen burimet e të dhënave të agreguara, komerciale me burime të tjera të disponueshme të të dhënave (p.sh. sjellja e votimit të vetë-raportuar), të cilat pa dyshim kanë edhe gabime. Së fundmi, mësimi i tretë i përgjithshëm i studimit të Ansolabehere dhe Hersh është se në disa situata, hulumtuesit mund të përfitojnë nga investimet e mëdha që shumë kompani private po bëjnë në mbledhjen dhe harmonizimin e grupeve komplekse të të dhënave sociale.