3.6.1 Praturtintas klausimas

Apibendrinus klausimą, apklausos duomenys sukuria aplinką aplink didelį duomenų šaltinį, kuriame yra keletas svarbių matavimų, tačiau trūksta kitų.

Vienas iš būdų suderinti apklausos duomenis ir didelius duomenų šaltinius yra tas procesas, kurį pavadinsiu praturtėjusiu klausimu . Paprašius, dideliu duomenų šaltiniu yra keletas svarbių matavimų, tačiau trūksta kitų matavimų, todėl tyrėjas surenka šiuos trūkstamus matavimus apklausoje ir po to susieja du duomenų šaltinius. Vienas iš praturtintų Burke and Kraut (2014) pavyzdžių yra Burke and Kraut (2014) Tyrimas, ar bendravimas "Facebook" didina draugystės stiprumą, kurį apibūdinau 3.2 skyriuje). Tokiu atveju Burke ir Krautas surašė duomenis apie apklausą "Facebook" žurnalo duomenimis.

Tačiau Burke ir Kraut nustatė, kad jie neturėjo susidoroti su dviem didelėmis problemomis, su kuriomis susiduria tyrėjai, kurie paprastai praturtina. Pirma, iš tikrųjų susiejant individualaus lygio duomenų rinkinius, procesas, vadinamas įrašų susiejimu , gali būti sudėtingas, jei abiejuose duomenų šaltiniuose nėra unikalio identifikatoriaus, kurį galima naudoti norint užtikrinti, kad teisingas įrašas viename duomenų rinkinyje būtų suderintas su teisingu įrašu kitame duomenų rinkinyje. Antroji pagrindinė problema, susijusi su praturtėjusiu klausimu, yra tai, kad didelės duomenų šaltinio kokybė dažnai bus sunkiai vertinama mokslininkams, nes procesas, kurio metu sukurti duomenys, gali būti patentuotas ir gali būti jautrus daugeliui 2 skyriuje aprašytų problemų. Kitaip tariant, praturtintas klausimas dažnai susijęs su klaidingu tyrimu susiejimu su juodojo kodo nežinomos kokybės duomenų šaltiniais. Nepaisant šių problemų, bet kokį papildomą klausimą galima panaudoti atliekant svarbius tyrimus, kaip tai parodė Stephen Ansolabehere ir Eitan Hersh (2012) , Atlikdami tyrimus dėl balsavimo modelių Jungtinėse Amerikos Valstijose.

Rinkėjų aktyvumas buvo platus politinių mokslų tyrimas, o praeityje tyrėjų supratimas, kas balsavo ir kodėl apskritai buvo pagrįstas apklausos duomenų analize. Tačiau balsavimas Jungtinėse Amerikos Valstijose yra neįprastas elgesys, nes vyriausybė užregistruos, ar kiekvienas pilietis balsavo (žinoma, vyriausybė neįrašo, už ką kiekvienas pilietis balsuoja). Daugelį metų šie vyriausybės balsavimo įrašai buvo prieinami popierinėmis formomis, išsibarsčiusios įvairiose vietinės valdžios įstaigose visoje šalyje. Dėl to labai sunku, bet neįmanoma, kad politologai turėtų išsamų rinkėjų vaizdą ir palyginti tai, ką žmonės (Ansolabehere and Hersh 2012) apklausose apie balsavimą ir jų faktinį elgesį balsuojant (Ansolabehere and Hersh 2012) .

Tačiau šie balsavimo įrašai jau buvo perkelti į skaitmeninį formatą, o keletas privačių kompanijų sistemingai rinko ir sujungia juos, kad gautų išsamius pagrindinius rinkimų failus, kuriuose būtų visi amerikiečių balsavimo elgesiai. "Ansolabehere" ir "Hersh" bendradarbiavo su viena iš šių bendrovių - "Katalizatorius LCC", siekdami panaudoti savo pagrindinį balsavimo failą, kad padėtų išsiaiškinti rinkėjų įvaizdį. Be to, kadangi jų tyrimas remiasi skaitmeniniais įrašais, kuriuos surinko ir kurortuoja bendrovė, kuri investavo didelius duomenų rinkimo ir suderinimo pajėgumus, ji pasiūlė keletą privalumų, palyginti su ankstesnėmis pastangomis, kurios buvo padarytos be įmonių pagalbos ir naudojant analoginius įrašus.

Kaip ir daugelis iš didžiųjų duomenų šaltinių, pateiktų 2 skyriuje, "Katalizmo" pagrindiniame bylose nebuvo daug demografinių, požiūrių ir elgesio informacijos, kurių reikia Ansolabehere ir Hersh. Iš tikrųjų jie buvo ypač suinteresuoti palyginti paskelbtą balsavimo elgesį apklausose, kuriose buvo patvirtintas balsavimo elgesys (ty informacija katalizatoriaus duomenų bazėje). Taigi Ansolabehere ir Hersh surinko duomenis, kuriuos jie norėjo kaip didelį socialinį tyrimą, CCES, paminėtą anksčiau šiame skyriuje. Tada jie pateikė savo duomenis katalizatoriui, o "Katalistas" grąžino jiems susijungusį duomenų failą, kuriame buvo patvirtintas balsavimo elgesys (iš "Katalizatoriaus"), savarankiškai pateiktas balsavimo elgesys (iš CCES) ir respondentų demografija ir požiūris (iš CCES) (skaičius 3.13). Kitaip tariant, Ansolabehere ir Hersh sujungė balsavimo įrašų duomenis su apklausos duomenimis, kad atliktų tyrimus, kurie nebuvo įmanomi su kiekvieno duomenų šaltinio atskirai.

3.13 pav. Ansolabehere ir Hersh tyrimo schemos (2012 m.). Norėdami sukurti pagrindinį duomenų failą, Katalizatorius sujungia ir suderina informaciją iš įvairių šaltinių. Šis sujungimo procesas, nesvarbu, koks jis yra atsargus, platins originalių duomenų šaltinių klaidas ir pateiks naujų klaidų. Antrasis klaidų šaltinis yra rekordinis ryšys tarp apklausos duomenų ir pagrindinio duomenų rinkmenos. Jei kiekvienas žmogus turi stabilų, unikalų identifikatorių abiejuose duomenų šaltiniuose, tada ryšys būtų nereikšmingas. Tačiau "Katalizatorius" turėjo atlikti ryšį naudodamas netobulius identifikatorius, šiuo atveju - vardą, lytį, gimimo metus ir namų adresą. Deja, daugeliu atvejų gali būti neužbaigtos arba netikslios informacijos; rinkėjas Homeras Simpsonas gali pasirodyti kaip Homeris Jay Simpson, Homie J Simpsonas ar net Homeras Sampsinas. Nepaisant Katalistinio pagrindinio duomenų failo klaidų ir įrašų sąsajų klaidų, Ansolabehere ir Hersh sugebėjo sustiprinti pasitikėjimą savo įverčiais per keletą skirtingų tipų patikrinimų.

3.13 pav. Ansolabehere and Hersh (2012) tyrimo Ansolabehere and Hersh (2012) . Norėdami sukurti pagrindinį duomenų failą, Katalizatorius sujungia ir suderina informaciją iš įvairių šaltinių. Šis sujungimo procesas, nesvarbu, koks jis yra atsargus, platins originalių duomenų šaltinių klaidas ir pateiks naujų klaidų. Antrasis klaidų šaltinis yra rekordinis ryšys tarp apklausos duomenų ir pagrindinio duomenų rinkmenos. Jei kiekvienas žmogus turi stabilų, unikalų identifikatorių abiejuose duomenų šaltiniuose, tada ryšys būtų nereikšmingas. Tačiau "Katalizatorius" turėjo atlikti ryšį naudodamas netobulius identifikatorius, šiuo atveju - vardą, lytį, gimimo metus ir namų adresą. Deja, daugeliu atvejų gali būti neužbaigtos arba netikslios informacijos; rinkėjas Homeras Simpsonas gali pasirodyti kaip Homeris Jay Simpson, Homie J Simpsonas ar net Homeras Sampsinas. Nepaisant Katalistinio pagrindinio duomenų failo klaidų ir įrašų sąsajų klaidų, Ansolabehere ir Hersh sugebėjo sustiprinti pasitikėjimą savo įverčiais per keletą skirtingų tipų patikrinimų.

Su jų jungtiniais duomenų failais Ansolabehere ir Hersh pateikė tris svarbias išvadas. Pirma, pernelyg didelis pranešimų apie balsavimą skaičius yra siaubingas: beveik pusė balsavusiųjų balsavo, o jei kas nors pranešė apie balsavimą, tikimybė balsuoti tik 80% yra faktinė. Antra, per daug ataskaitų teikimas nėra atsitiktinis atvejis: dažniau už ataskaitas dažniau pasitaiko tarp didelių pajamų, gerai išsilavinusių partizanų, kurie užsiima viešaisiais reikalais. Kitaip tariant, labiausiai tikėtina, kad labiausiai tikėtina balsuoti žmonės balsuos dėl balsavimo. Trečia, ir labiausiai kritiška, nes sistemingas pernelyg ataskaitų teikimo pobūdis, faktiniai skirtumai tarp rinkėjų ir nepasirinkusiųjų yra mažesni, nei jie rodomi tik iš apklausų. Pavyzdžiui, turintys bakalauro laipsnį apie 22 procentinius punktus dažniau skelbia balsavimą, tačiau tik 10 procentinių punktų dažniau tikisi balsuoti. Pasirodo, galbūt nenuostabu, kad dabartinės balsavimo teorijos, pagrįstos ištekliais, yra daug geriau prognozuojant, kas balsuos ataskaitas (tai yra duomenys, kuriuos anksčiau naudojo tyrėjai), nei prognozuoja, kas iš tikrųjų balsuoja. Taigi Ansolabehere and Hersh (2012) Empirinė išvada reikalauja naujų teorijų suprasti ir prognozuoti balsavimą.

Bet kiek turėtume pasitikėti šiais rezultatais? Atminkite, kad šie rezultatai priklauso nuo klaidų susiejimo su juodojo dėžutės duomenimis su nežinomais klaidų kiekiais. Konkrečiau, rezultatai grindžiami dviem pagrindiniais etapais: (1) "Katalist" sugebėjimu sujungti daugybę skirtingų duomenų šaltinių, kad būtų galima gauti tikslią pagrindinę duomenų rinkmeną ir (2) "Katalist" sugebėjimą susieti tyrimo duomenis su pagrindiniu duomenų failu. Kiekvienas iš šių etapų yra sudėtingas, o klaidos bet kuriuo žingsniu gali sukelti mokslininkų klaidingas išvadas. Tačiau duomenų apdorojimas ir susiejimas yra esminiai veiksnys, kad "Katalist" tęstųsi kaip bendrovė, taigi ji gali investuoti išteklius sprendžiant šias problemas, dažnai tokiu mastu, kad joks mokslinis bendradarbis negali derėti. Savo darbe "Ansolabehere" ir "Hersh" žengia daug žingsnių, norėdami patikrinti šių dviejų etapų rezultatus, nors kai kurie iš jų yra nuosavybės teisės, ir šie patikrinimai gali būti naudingi kitiems tyrėjams, norintiems sujungti apklausos duomenis su juodojo dėžutės dideliais duomenimis šaltiniai.

Kokios bendrosios pamokos mokslininkai gali pasimokyti iš šio tyrimo? Pirma, didžiulė vertybė yra tiek didelių duomenų šaltinių praturtinimas, kai tyrimo duomenys, tiek tyrimo duomenų praturtinimas dideliais duomenų šaltiniais (jūs galite pamatyti šį tyrimą vienu ar kitu būdu). Sujungdami šiuos du duomenų šaltinius, mokslininkai sugebėjo padaryti tai, ko negalėjo padaryti atskirai. Antroji bendroji pamoka yra tai, kad nors apibendrinti komerciniai duomenų šaltiniai, pavyzdžiui, "Katalist" duomenys, neturėtų būti laikomi "žemės tiesa", kai kuriais atvejais jie gali būti naudingi. Skeptikai kartais palygina šiuos suvestinius komercinius duomenų šaltinius su absoliučia tiesa ir atkreipia dėmesį į tai, kad šių duomenų šaltinių trūksta. Tačiau šiuo atveju skeptikai klaidingai lygina: visi mokslininkai naudojami duomenys neatitinka absoliučios Tiesos. Vietoje to geriau palyginti suvestinius, komercinius duomenų šaltinius su kitais turimais duomenų šaltiniais (pvz., Savarankiškai pateikiamu balsavimo elgesiu), kurie visada turi ir klaidų. Galiausiai, trečia bendra Ansolabehere ir Hersh studijos pamoka - kai kuriose situacijose mokslininkai gali pasinaudoti didžiulėmis investicijomis, kurias daugelis privačių kompanijų renkasi ir derina sudėtingus socialinių duomenų rinkinius.