3.6.2 Bagātināts prasītā

Pat ja tas var būt netīrs, bagātināts prasītā var būt spēcīgs.

Atšķirīga pieeja darbā ar nepilnībām digitālās izsekot datu bagātināt to tieši ar apsekojuma datiem, process, kas es saukšu bagātināts jautā. Viens piemērs bagātināta jautā ir pētījums par Burke and Kraut (2014) , ko esmu iztirzājis iepriekš šajā nodaļā (3.2 sadaļa), par to, vai mijiedarbojoties Facebook palielina draudzību izturību. Tādā gadījumā, Burke un Kraut apvienojumā apsekojuma datus ar Facebook žurnāla datiem.

Iestatījums ka Burke un Kraut strādāja, tomēr, nozīmēja, ka viņi nav jātiek galā ar divām lielām problēmām, ka pētnieki dara bagātināts lūdzot seju. Pirmkārt, faktiski saistot kopā datu kopām-procesu, ko sauc ierakstu saikni, to atbilstību ieraksta vienā datu kopā ar attiecīgu ierakstu citā datu kopu, var būt grūti un kļūdu nosliece (Redzēsim piemērs šai problēmai zemāk ). Otra galvenā problēma bagātināta jautā, ir, ka digitālo pēdas kvalitāte bieži grūti pētniekiem novērtēt. Piemēram, dažreiz process, ar kuru tas tiek vākti, ir patentēta un varētu būt uzņēmīgi pret daudzām problēmām, kas aprakstītas 2. nodaļā Citiem vārdiem sakot, bagātināts prasītā būs biežāk iesaistīt kļūdu tendētas sasaisti aptauju uz melnās kastes datu avotiem zināms kvalitāte. Neskatoties uz bažām, ka šīs divas problēmas ieviest, ir iespējams veikt nozīmīgu pētījumu ar šo stratēģiju, jo tika pierādīta ar Stephen Ansolabehere un Eitan Hersh (2012) savos pētījumos par balsošanas modeļiem ASV. Ir vērts iet pa šo pētījumu samērā detalizēti, jo daudzi no stratēģijām, kas Ansolabehere un Hersh attīstīto būs noderīga citiem lietojumiem bagātināta lūdzot.

Vēlētāju aktivitāte ir bijusi pakļauta plašu pētījumu politikas zinātnē, un pagātnē, pētnieku izpratni par to, kas balso un kāpēc parasti balstās uz analīzi par apsekojuma datiem. Balsošana ASV, tomēr, ir neparasta uzvedība, ka valdība ierakstu vai katrs pilsonis ir balsojuši (protams, valdība nav ierakstu, kuri katrs pilsoņu balsu). Daudzus gadus, šie valdības balsošanas uzskaite bija pieejami kā dokumentu, izkaisīti dažādās pašvaldību iestādēm visā valstī. Tas bija grūti, bet ne neiespējami, lai politologi, lai iegūtu pilnīgu priekšstatu par vēlētāju un salīdzināt to, ko cilvēki saka aptaujās par balsošanu ar to faktisko balsošanas uzvedību (Ansolabehere and Hersh 2012) .

Bet, tagad šīs balsošanas uzskaite ir digitalizēts, un ir sistemātiski savākti vairāki privāti uzņēmumi un apvienoja šos balsošanas ierakstus, lai ražotu plašu meistars balsošanas failus, ierakstīt balsošanas uzvedību visiem amerikāņiem. Ansolabehere un Hersh sadarbojas ar vienu no šiem uzņēmumiem, catalist DCI-, lai izmantotu savu master balsošanas failu, lai palīdzētu izstrādāt labāku priekšstatu par vēlētāju. Turklāt, jo tā pamatojās uz savākto un kurators ir uzņēmuma digitālās ierakstu, tas piedāvāja vairākas priekšrocības salīdzinājumā ar iepriekšējiem centieniem pētnieki, kas tika darīts bez atbalsta uzņēmumu un izmantojot analogos ierakstus.

Tāpat kā daudzi no digitālās izsekot avotiem 2. nodaļā, catalist pamatlietas neietvēra daudz demogrāfisko, attieksmes un uzvedības informāciju, Ansolabehere un Hersh nepieciešams. Papildus šai informācijai, Ansolabehere un Hersh bija īpaši ieinteresēti salīdzinot ziņots balsošanas uzvedību uz apstiprinātu balsošanas uzvedību (ti, informācijas catalist datu bāzē). Tātad, zinātnieki vāc datus, ka viņi gribēja kā daļu no kooperatīvās Kongresa vēlēšanu Study (CCES), liela sociālā aptaujā. Tālāk, pētnieki sniedza šo informāciju, lai catalist, un catalist deva pētnieki atpakaļ apvienoto datu failu, kas iekļauti apstiprinātu balsošanas uzvedību (no catalist), self-ziņots balsošanas uzvedība (no CCES) un demogrāfijas un attieksmi respondenti (no CCES ). Citiem vārdiem sakot, Ansolabehere un Hersh bagātināja datus balsošanas ar apsekojuma datiem, un rezultātā apvienotais fails ļauj viņiem darīt kaut ko, kas nav ne fails ļāva individuāli.

, Bagātinot catalist kapteinis datu failu ar aptaujas datiem, Ansolabehere un Hersh nonāca pie trim svarīgiem secinājumiem. Pirmkārt, pārāk ziņošanu par balsošanu ir nikns: gandrīz puse no nepilsoņu vēlētājiem ziņots balsošanu. Vai, vēl viens veids, kā skatoties uz to ir, ja kāds ziņots balsošanu, ir tikai 80% iespēja, ka viņi faktiski balsoja. Otrkārt, pārāk ziņošanas nav nejauši; pār-ziņošana ir vairāk izplatīta starp augstiem ienākumiem, labi izglītoti, partizāni, kuri nodarbojas ar valsts pārvaldē. Citiem vārdiem sakot, cilvēki, kas, visticamāk, balsos arī, visticamāk, melo par balsošanu. Treškārt, un visvairāk kritiski, jo sistemātiska rakstura pārlieku ziņošanu, faktiskie atšķirības starp vēlētāju un nepilsoņu vēlētājiem ir mazāki nekā tie parādās tikai no aptaujas. Piemēram, tie, ar bakalaura grādu, ir apmēram 22 procentu punktiem biežāk ziņot balsošanu, bet ir tikai 10 procentu punktiem vairāk varētu faktisko balsošanai. Turklāt esošie resursu bāzes teorijas izklāsts ir daudz labāk prognozētu kurš ziņos balsošana nekā, kas faktiski balsīm, empīrisku konstatējumu, kas prasa jaunas teorijas izprast un prognozēt balsošanu.

Bet, cik daudz mums vajadzētu uzticēties šos rezultātus? Atcerieties, šie rezultāti ir atkarīgi no kļūdu tendētas saites uz melnās kastes datus ar nezināmu daudzumu kļūdu. Precīzāk, rezultāti viru uz diviem galvenajiem soļiem: 1) spēja catalist apvienot daudzas atšķirīgas datu avotus, lai iegūtu precīzu meistars datni un 2) spēju catalist saistīt apsekojuma datus tās kapteinis datni. Katrs no šiem posmiem ir diezgan grūti, un kļūdas pie nu solis varētu radīt zinātniekus nepareizus secinājumus. Tomēr gan datu apstrāde un saskaņošana ir kritiski pastāvēšanai catalist kā uzņēmums, lai tā varētu ieguldīt līdzekļus šīs problēmas risināšanā, bieži vien ar atzīmi, ka neviens indivīds akadēmiskā pētnieks vai pētnieku grupa var saskaņot. Turpmākajā lasījumā beigās nodaļā, es aprakstīt šo problēmu sīkāk un kā Ansolabehere un Hersh veidot uzticību to rezultātiem. Lai gan šie dati ir raksturīgas ar šo pētījumu, jautājumi, līdzīgi šiem radīsies citiem pētniekiem, kuri vēlas saistīt ar melnās kastes digitālā izsekot datu avotiem.

Kādi ir vispārējie nodarbības pētnieki var izdarīt no šī pētījuma? Pirmkārt, ir milzīga vērtība no bagātinot digitālās pēdas ar apsekojuma datiem. Otrkārt, pat ja tie apkopoti, komerciālie datu avoti nav jāuzskata "zemes patiesība", dažos gadījumos tie var būt noderīgi. Faktiski, tas ir labākais, lai salīdzinātu šos datu avotus nevis absolūto patiesību (no kuriem tie būs vienmēr nespēj). Drīzāk, tas ir labāk, lai salīdzinātu tos ar citiem pieejamajiem datu avotiem, kas vienmēr ir kļūdas, kā arī.