2.3.4 kompleet

Net like hoe grut jo grutte gegevens, it hat wierskynlik gjin ynformaasje dy't jo wolle.

De measte grutte gegevensboarnen binne net kompleet , yn 't sin dat se gjin ynformaasje hawwe dy't jo wolle foar jo ûndersyk. Dit is in mienskiplike eigenskip fan gegevens dy't oars makke binne foar ûndersiken. In soad sosjale wittenskippers hawwe al de ûnderfining hân om te behanneljen mei ûnfolsleinheid, lykas in besteande survey dat de fraach net frege waard dat nedich wie. Spitigernôch binne de problemen fan inkelfâldigens neigeraden yn grutte gegevens. Yn myn erfaringen binne grutte gegevens neffens trije typen ynformaasje fanneden nuttich foar sosjale ûndersiken: demografyske ynformaasje oer dielnimmers, gedrach op oare platfoarms, en gegevens om de teoretyske konstruksjes te operearjen.

Fan 'e trije soarten unferplettens is it probleem fan net-kompleet gegevens te operationalisearjen fan teoretyske konstruksjes it hurdste om te lêzen. En yn myn ûnderfining is it faak miskien te sjen. Rûchwei teoretyske konstruksjes binne abstrakte ideeën dy't sosjale wittenskippers ûndersykje en operearje in teoretyske konstruktjemiddel om wat te meitsjen om dat te bouwen mei bemerkbere gegevens. Spitigernôch komt dit ienfâldige klankende proses faak dúdlik te wêzen. Sa kinne wy ​​bygelyks it probearje om de skynber ienfâldige bea besjen te emprimearjen dat minsken dy't intelligent binne mear jild fertsjinje. Om dizze beoardieling te testen, moast jo "yntelliginsje" mjitten. Mar wat is yntelliginsje? Gardner (2011) argumentearre dat der eigentlik acht ferskillende foarmen fan yntelliginsje binne. En binne der prosedueres dy't elk fan dizze foarmen fan yntelligens krekt mjitten kinne? Nettsjinsteande gewoane mjittingen fan wurk fan psychologen hawwe dizze fragen noch altiten net eindeamde antwurden.

Sa kinne, sels in relatyf ienfâldige fraach, minsken dy't intelligere mear jild fertsjinje kinne, kinne dreech wurde om empirysk te evaluearjen, omdat it dreech wêze kin om teoretyske konstruksjes yn gegevens te operearjen. Oare foarbylden fan teoretyske konstruksjes dy't wichtich binne mar hurde operearjen binne ûnder oare "normen", "sosjale haadstêd" en "demokrasy". Sosjale wittenskippers neame de oerienkomst tusken teoretyske konstruksjes en data- konstruktjildigens (Cronbach and Meehl 1955) . Om't dizze koarte list fan konstruksjes oanbelanget, oanlieding jildigens is in probleem dat sosjale wittenskippers mei in protte tiid hawwe. Mar yn myn ûnderfining binne de problemen fan jildigens te bouwen noch grutter by it wurkjen fan gegevens dy't net makke binne foar it doel fan ûndersiik (Lazer 2015) .

As jo ​​in ûndersyksresultaat beoardielje, is in flugge en nuttige manier om de jildigens te begripen te bepalen, it resultaat te nimmen, wat meast útdrukt wurdt yn konstruksjes, en it eksportearjen fan 'e data te brûken. Sjoch bygelyks twa hypoteatyske stúdzjes dy't betinke om te sjen dat minsken dy't intelligent binne mear jild fertsjinje. Yn 'e earste stúdzje fûn de ûndersiker dat minsken dy't skoare goed op' e Raven Progressive Matrices Test - in goed studearre test fan analytyske yntelliginsje (Carpenter, Just, and Shell 1990) - hiene hegere rapportaazjes op har belesting werom. Yn 'e twadde stúdzje fûn de ûndersiker dat minsken yn Twitter dy't langere wurden brûke, binne mear as wierskynlik lúkse merkken. Yn beide gefallen kinne dizze ûndersikers beklamme dat se sjen litte dat minsken dy't intelligent binne mear jild fertsjinje. Yn 'e earste stúdzje binne lykwols de teoretyske konstruksjes goed opereard troch de gegevens, wylst yn' e twadde se net binne. Fierder, lykas dit foarbyld illustratearret, dat mear gegevens net automatysk problemen oplossje mei jildichheid oanbiede. Jo moatte de resultaten fan 'e twadde stúdzje betinke oft it in miljoen tweets, in miljardtweets of in trillings tweets befette. Foar ûndersikers dy't net bekend binne mei it idee fan jildigens te meitsjen, tabel 2.2 leveret inkele foarbylden fan stúdzjes dy't operative teoretyske konstruksjes brûke mei digitale spoarendaten.

Tabel 2.2: Foarbylden fan digitale spoaren dy't brûkt waarden om teoretyske konstruksjes te operearjen
Data source Teoretysk konstrukt Referinsjes
E-mail logt fan in universiteit (meta-data allinich) Sosjaal relaasjes Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Sosjaal media berjochten op Weibo Civic engagement Zhang (2016)
E-mail logt fan in fêst (meta-data en folsleine tekst) Kultureel fit yn in organisaasje Srivastava et al. (2017)

Hoewol it probleem fan net-kompleet gegevens foar it fêststellen fan teoretyske konstruksjes is sa slim hurd om te lêzen, binne mienskiplike oplossingen foar de oare mienskiplike soarten fan ûnfoldwaande: ûnfide demografyske ynformaasje en ûnfolsleine ynformaasje oer gedrach op oare platfoarmen. De earste oplossing is dat jo de gegevens dy't jo nedich hawwe, sammelje. Ik sil dy fertelle oer dat yn haadstik 3 as ik jo fertel oer oersichten. De twadde belangrykste oplossing is te dwaan hokker gegevens wittenskippers neamde user-attribute ynlieding en sosjale wittenskippers neame ynputaasje . Yn dizze oanpak brûke ûndersikers de ynformaasje dy't se hawwe op guon minsken om attributen fan oare minsken te bemuoien. In tredde mooglike oplossing is om meardere data boarnen te kombinearjen. Dit proses wurdt soms ek rekken keppeling neamd . Myn leafste metafoar foar dit proses waard skreaun troch Dunn (1946) yn 'e earste alinea fan it earste papier dat altyd skreaun is op rekket ferbûn:

"Elke persoan yn 'e wrâld makket in Libbenboek. Dit boek begjint mei berte en einiget mei de dea. De siden binne makke fan rekken fan 'e wichtichste eveneminten yn it libben. Rekken keppeling is de namme jûn oan it proses om de siden fan dit boek yn in volume te sammeljen. "

Doe't Dunn skreau dat passaazje wie, die er dat it boek fan it libben wichtige libbensdagen wie berte, houlik, skieding en dea koe. Mar no, dat safolle ynformaasje oer minsken opnommen is, kin it Boekje fan libben in geweldig detaillearre portret wêze, as dy ferskillende siden (dus ús digitale spoaren) mei elkoar ferbûn wurde kinne. Dit Libbenboek koe in grutte boarne wêze foar ûndersikers. Mar, it kin ek wol in database fan ruïne wurde (Ohm 2010) , dy't brûkt wurde kin foar alle soarten untypyske doelen, lykas ik yn haadstik 6 (Ethics) beskriuwt.