2.3.2.1 Onvolledige

Maakt niet uit hoe "groot" uw "big data" het waarschijnlijk niet de informatie die u wilt hebben.

De meeste big data bronnen onvolledig zijn, in de zin dat ze niet de informatie die u wilt voor uw onderzoek. Dit is een gemeenschappelijk kenmerk van gegevens die zijn gemaakt van andere dan onderzoeksdoeleinden. Veel sociale wetenschappers hebben al de ervaring van omgaan met de onvolledigheid, zoals een bestaand onderzoek dat niet de vraag die u wilde hebben gevraagd. Helaas, de problemen van onvolledigheid neiging extremer big gegevens. In mijn ervaring, big data de neiging te ontbreken drie soorten van nuttige informatie voor sociaal onderzoek: demografie, gedrag op andere platforms, en gegevens aan theoretische concepten te operationaliseren.

Deze drie soorten onvolledigheid worden geïllustreerd in een studie van Gueorgi Kossinets en Duncan Watts (2006) over de evolutie van het sociale netwerk aan een universiteit. Kossinets en Watts begonnen met de e-mail logs van de universiteit, die nauwkeurige informatie over die e-mails aan wie op welk moment gestuurd (de onderzoekers hebben toegang tot de inhoud van de e-mails niet) gehad. Deze e-platen klinken als een geweldige dataset, maar ze zijn ondanks hun grootte en granulariteit-fundamenteel onvolledig. Bijvoorbeeld, de e-mail logs geen gegevens over de demografische kenmerken van de leerlingen, zoals geslacht en leeftijd. Verder hoeft het e-logs geen informatie bevatten over de communicatie via andere media, zoals telefoongesprekken, sms, of face-to-face gesprekken. Tot slot, de e-mail logs niet direct informatie bevatten over relaties, de theoretische concepten in veel bestaande theorieën. Later in het hoofdstuk, als ik het over onderzoek strategieën, zul je zien hoe Kossinets en Watts loste deze problemen.

Van drie soorten van onvolledigheid, het probleem van onvolledige gegevens op theoretische concepten te operationaliseren is het moeilijkst op te lossen, en in mijn ervaring, is het vaak per ongeluk het hoofd gezien door data wetenschappers. Ruwweg, theoretische concepten zijn abstracte ideeën die sociale wetenschappers bestuderen, maar helaas, deze constructies niet altijd eenduidig ​​gedefinieerd en gemeten. Bijvoorbeeld, laten we voorstellen dat het proberen om de ogenschijnlijk simpele bewering dat mensen die intelligenter meer geld verdienen empirisch te toetsen. Om deze bewering te testen je nodig zou hebben om te meten "intelligentie". Maar, wat is intelligentie? Bijvoorbeeld, Gardner (2011) voerde aan dat er eigenlijk acht verschillende vormen van intelligentie. En, zijn er procedures die nauwkeurig een van deze vormen van intelligentie kon meten? Ondanks de enorme hoeveelheden van het werk van psychologen, deze vragen nog steeds geen eenduidige antwoorden. Dus zelfs een relatief eenvoudige schadevrije mensen die intelligenter te verdienen meer geld kan moeilijk empirisch te schatten, omdat het moeilijk kan zijn om theoretische concepten te operationaliseren in data. Andere voorbeelden van theoretische concepten die belangrijk zijn maar moeilijk te operationaliseren zijn onder andere 'normen', 'sociaal kapitaal' en 'democratie'. Sociale wetenschappers noemen de wedstrijd tussen theoretische concepten en data constructvaliditeit (Cronbach and Meehl 1955) . En, als de lijst van constructen suggereert, constructvaliditeit is een probleem dat Sociaalwetenschappers moeite voor een lange tijd, zelfs wanneer zij werkten met gegevens die verzameld ten behoeve van onderzoek. Bij het ​​werken met gegevens die zijn verzameld voor andere doeleinden dan onderzoeksdoeleinden, de problemen van de constructvaliditeit zijn een nog grotere uitdaging (Lazer 2015) .

Tijdens het lezen van een research paper, een snelle en handige manier om te beoordelen bezorgdheid over construct validiteit is de hoofdconclusie in de krant, die meestal wordt uitgedrukt in termen van constructies te nemen, en opnieuw uit te drukken in termen van de gebruikte gegevens. Denk bijvoorbeeld aan twee hypothetische studies die beweren om te laten zien dat er meer intelligente mensen meer geld te verdienen:

  • Studie 1: mensen die goed scoren op de Raven Progressive Matrices Test-een goed bestudeerd test van analytische intelligentie (Carpenter, Just, and Shell 1990) -hebben hogere inkomens gemeld op hun belastingaangifte
  • Studie 2: mensen op Twitter die vroeger langere woorden hebben meer kans om luxe merken te noemen

In beide gevallen kan onderzoekers stellen dat zij hebben aangetoond dat meer intelligente mensen meer geld verdienen. Maar in de eerste studie theoretische constructen zijn goed geoperationaliseerd door de data, en de tweede zijn ze niet. Verder, aangezien dit voorbeeld illustreert, meer gegevens niet automatisch problemen construct validiteit lossen. Je moet de resultaten van de studie 2 betwijfelen of het ging om een ​​miljoen tweets, een miljard tweets, of een miljard tweets. Voor onderzoekers niet vertrouwd zijn met het idee van construct validiteit, Tabel 2.2 geeft enkele voorbeelden van studies die theoretische concepten met behulp van digitale trace gegevens zijn geoperationaliseerd.

Tabel 2.2: Voorbeelden van digitale sporen die worden gebruikt als maatregelen van meer abstracte theoretische concepten. Sociale wetenschappers noemen deze wedstrijd construct validiteit en het is een grote uitdaging met het gebruik van grote databronnen voor sociaal onderzoek (Lazer 2015) .
Digital trace theoretische constructie Citaat
e-mail logs van een universiteit (enkel meta-data) Sociale relaties Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
social media berichten op Weibo Maatschappelijk engagement Zhang (2016)
e-mail logs van een onderneming (meta-data en de volledige tekst) Cultural fit in een organisatie Goldberg et al. (2015)

Hoewel het probleem van onvolledige gegevens te operationaliseren theoretische concepten is vrij moeilijk op te lossen, zijn er drie gemeenschappelijke oplossingen voor het probleem van onvolledige demografische informatie en onvolledige informatie over het gedrag op andere platformen. De eerste is om de gegevens die je nodig hebt eigenlijk te verzamelen; Ik zal je vertellen over een voorbeeld van die in hoofdstuk 3 als ik je vertellen over enquêtes. Helaas is dit soort gegevensverzameling is niet altijd mogelijk. De tweede belangrijkste oplossing is om te doen wat data wetenschappers noemen user-attribuut gevolgtrekking en wat sociale wetenschappers noemen toerekening. In deze benadering tracht gebruiken de informatie die zij bij sommige personen met kenmerken van andere mensen af ​​te leiden. De derde mogelijke oplossing, degene die worden gebruikt door Kossinets en Watts-was om meerdere databronnen te combineren. Dit proces wordt ook wel het samenvoegen of opnemen koppeling. Mijn favoriet metafoor voor dit proces werd voorgesteld in de eerste paragraaf van de allereerste paper ooit recordkoppeling geschreven (Dunn 1946) :

"Elke persoon in de wereld zorgt voor een boek van het leven. Dit boek begint bij de geboorte en eindigt met de dood. De pagina's zijn opgebouwd uit platen van het beginsel gebeurtenissen in het leven. Recordkoppeling is de naam gegeven aan het samenstellen van de bladzijden van het boek in een volume. "

Deze passage werd in 1946 geschreven, en in die tijd, waren de mensen denken dat het boek des levens zoals onder meer belangrijke gebeurtenissen in het leven zoals geboorte, huwelijk, echtscheiding en overlijden. Maar nu dat zo veel informatie over mensen wordt opgenomen, het boek des levens zou een ongelooflijk gedetailleerd portret zijn, als die verschillende pagina's (dat wil zeggen, onze digitale sporen), met elkaar kunnen worden verbonden. Dit boek van het leven zou een geweldige bron voor onderzoekers. Maar, het boek des levens kan ook worden een database van de afgrond genaamd (Ohm 2010) , die kunnen worden gebruikt voor allerlei onethische doeleinden, zoals meer hieronder beschreven als ik het over de gevoelige aard van de informatie door big data bronnen hieronder verzameld en in hoofdstuk 6 (Ethics).