2.3.2.1 Incomplete

Gjin saak hoe "grut" jo "grutte gegevens" is nei alle gedachten net ha de ynformaasje dy't jo wolle.

De measte grutte gegevens boarnen binne net kompleet, yn 'e sin dat se net hawwe de ynformaasje dy't jo wolle foar dyn ûndersyk. Dit is in mienskiplike eigenskip fan gegevens dy't waarden makke foar doelen oare as ûndersyk. In protte sosjale wittenskippers hawwe al hie de ûnderfining fan omgean mei de incompleteness, lykas in besteande ûndersyk dat net freegje de fraach dy woenen. Spitigernôch, de problemen fan incompleteness tend to wêzen mear ekstreem yn grutte gegevens. Yn myn ûnderfining, grutte gegevens plichtet te missing trije soarten ynformaasje brûkber foar sosjale ûndersyk: demografy, gedrach op oare platfoarms, en gegevens te operasjonalisearjen teoretyske Constructs.

Alle trije fan dizze foarmen fan incompleteness wurde yllustrearre yn in ûndersyk troch Gueorgi Kossinets en Duncan Watts (2006) oer de ûntjouwing fan it sosjale netwurk oan in universiteit. Kossinets en Watts begûn mei de e-logs fan 'e universiteit, dy't hie krekt ynformaasje oer dy't ferstjoerd e-mails dy't op hokker tiid (de ûndersikers net hawwe tagong ta de ynhâld fan de e-mails). Dy e-records klinkt as in amazing dataset, mar, se binne-nettsjinsteande har grutte en granularity-prinsipjeel net kompleet. Bygelyks, de e-logs net binne gegevens oer de demografyske skaaimerken fan 'e studinten, lykas geslacht en leeftyd. Fierder, de e-logs net ûnder oaren ynformaasje oer kommunikaasje fia oare media, lykas telefoantsjes, tekst berjocht, of face-to-face petearen. Ta beslút, it e-logs net streekrjocht ûnder oaren ynformaasje oer relaasjes, de teoretyske Constructs yn soad besteande teoryen. Letter yn it haadstik, doe't ik praat oer ûndersyk strategyen, jo sille sjen hoe't Kossinets en Watts oplost dizze problemen.

Fan trije soarten incompleteness, it probleem fan de ûnfolsleine gegevens te operasjonalisearjen teoretyske Constructs is de hurdste te lossen, en yn myn ûnderfining, it is faak by ûngelok holle sjoen troch gegevens wittenskippers. Rûchwei, teoretyske Constructs binne abstrakte ideeën dy't sosjale wittenskippers stúdzje, mar, spitigernôch, dy Constructs kinne net altyd wurde unambiguously definiearre en mjitten. Bygelyks, lit syn tinken besocht om empirically test de skynber simpele eask dat minsken dy't mear yntelliginte fertsjinje mear jild. Om te hifkjen dizze stelling dan soe moatte mjitten "yntelliginsje." Mar, wat is yntelliginsje? Bygelyks, Gardner (2011) seit dat der eins acht ferskillende foarmen fan yntelliginsje. En, binne der prosedueres dy't koe sekuer mjitten ien fan dizze foarmen fan yntelliginsje? Nettsjinsteande enoarme bedraggen fan wurk troch de psychologen, dizze fragen noch gjin unambiguous antwurden. Sa, ek in relatyf ienfâldige eask-minsken dy't mear yntelliginte fertsjinje mear jild-kin wêze dreech te beoardieljen empirically omdat it kin wêze hurd te operasjonalisearjen teoretyske Constructs yn gegevens. Oare foarbylden fan teoretyske Constructs dy't fan belang binne, mar dreech te operasjonalisearjen ûnder oaren "noarmen," "sosjale haadstêd," en "demokrasy." Sosjale wittenskippers neame de wedstriid tusken teoretyske Constructs en gegevens matearje jildichheid (Cronbach and Meehl 1955) . En, as dizze list fan Constructs suggerearret, oanlizze jildichheid is in probleem dat sosjale wittenskippers hawwe muoite mei foar in tige lang, sels as se wiene dwaande mei gegevens dy't waard sammele foar it doel fan ûndersyk. Doe't wurke mei gegevens sammele foar doelen oare as ûndersyk, de problemen fan matearje jildichheid binne noch mear útdaagjend (Lazer 2015) .

As jo ​​it lêzen fan in ûndersyk papier, ien flugge en brûkbere wize te beoardieljen soargen oer matearje jildichheid is te nimmen de wichtichste oanspraak yn 'e papieren, dat wurdt meastentiids útdrukt yn termen fan Constructs, en nij-express it yn termen fan' e gegevens brûkt. Bygelyks, beskôgje twa hypotetysk ûndersiken dy't beweare te sjen dat mear yntelliginte minsken fertsjinje mear jild:

  • Stúdzje 1: minsken dy't skoare goed op de Raven Progressive Matrices Test-in goed studearre test fan analytyske yntelliginsje (Carpenter, Just, and Shell 1990) -have hegere rapportearre ynkommens op harren belesting werom
  • Stúdzje 2: minsken op Twitter, dy't brûkt langer wurden binne mear kâns te neamen lúkse merken

Yn beide gefallen, ûndersikers soe úthâlde dat se hawwe sjen litten dat mear yntelliginte minsken fertsjinje mear jild. Mar, yn it earste ûndersyk de teoretyske Constructs wurde goed operationalized troch de gegevens, en yn 'e twadde binne se net. Fierder, as dit foarbyld yllustrearret, mear gegevens net automatysk lossen problemen mei matearje jildichheid. Jo moatte betwifelje de resultaten fan Study 2 oft it belutsen in miljoen tweets, in miljard tweets, of in jo tweets. Foar ûndersikers net bekend mei it idee fan matearje jildichheid, Tabel 2.2 jout in pear foarbylden fan ûndersiken dy't hawwe operationalized teoretyske Constructs mei help fan digitale trace gegevens.

Tabel 2.2: Foarbylden fan digitale spoaren dy't brûkt wurde as maatregels fan mear abstrakt teoretyske konsepten. Sosjale wittenskippers neame dizze wedstriid matearje jildichheid en it is in grutte útdaging mei help fan grutte gegevens boarnen foar sosjale ûndersyk (Lazer 2015) .
digitale spoor teoretyske matearje Citation
e-logs fan in universiteit (meta-gegevens allinnich) sosjale relaasjes Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
sosjale media berjochten op Weibo Civic engagement Zhang (2016)
e-logs fan in stevige (meta-gegevens en folsleine tekst) Kulturele fit yn in organisaasje Goldberg et al. (2015)

Hoewol't it probleem fan de ûnfolsleine gegevens foar operationalizing teoretyske Constructs is moai hurd te lossen, binne der trije mienskiplike oplossings foar it probleem fan de ûnfolsleine demografyske ynformaasje en ûnfolsleine ynformaasje oer gedrach op oare platfoarms. De earste is it eins sammelje de gegevens dy't jo nedich; Ik fertel jim oer in foarbyld fan dat yn haadstik 3 doe't ik fertel jimme oer ûndersiken. Spitigernôch, dit soarte fan gegevens samling is net altyd mooglik. De twadde wichtichste oplossing is om te dwaan wat gegevens wittenskippers neame brûker-attribút konklúzje en wat sosjale wittenskippers neame imputation. Yn dizze oanpak, ûndersikers brûk de ynformaasje dy't se hawwe op guon minsken te ôfliede attributen fan oare minsken. De tredde mooglike oplossing-de iene brûkt troch Kossinets en Watts-wie te kombinearjen meardere gegevens boarnen. Dit proses wurdt soms neamd gearfoegjen of record linkage. Myn favorite metafoar foar dit proses waard útsteld yn de earste alinea fan 'e tige earste papier ea skreaun op record linkage (Dunn 1946) :

"Eltse persoan yn 'e wrâld ûntstiet in boek fan Life. Dit boek begjint mei berte en einiget mei de dea. De siden binne makke up fan registers fan it prinsipe foarfallen yn it libben. Record linkage is de namme jûn oan it proses fan sammeljen de siden fan dit boek yn in volume. "

Dizze passaazje is skreaun yn 1946, en yn dy tiid, minsken waarden tinken dat it Boek fan Life koe binne grutte libben eveneminten lykas berte, houlik, skieding, en dea. Mar, no dat sa in soad ynformaasje oer minsken wurdt opnommen, it Boek fan Life koe wêze ongelooflijk detaillearre portret, as dy ferskillende siden (dat wol sizze, ús digitale spoaren), wurde kinne bûn elkoar. Dit Boek fan Life koe wêze in grutte boarne foar ûndersikers. Mar, it Boek fan Life koe ek wurde neamd in database fan ruïne (Ohm 2010) , dy't koenen brûkt wurde foar alle soarten fan unethical doelen, lykas beskreaun mear hjirûnder as ik praat oer de gefoelige natuer fan de ynformaasje sammele troch grutte gegevens boarnen hjirûnder en yn haadstik 6 (Etyk).