2.3.2.1 Ofullständig

Oavsett hur "stora" dina "big data" det förmodligen inte har den information du vill.

De flesta stora datakällor är ofullständiga, i den meningen att de inte har den information som du kommer att ha för din forskning. Detta är ett vanligt inslag i data som har skapats för annat än forskning. Många samhällsvetare har redan haft erfarenhet av att hantera den ofullständighet, såsom en befintlig undersökning som inte ställa frågan du ville. Tyvärr, problemen med ofullständig tenderar att vara mer extrema i stora data. Enligt min erfarenhet, tenderar stora data saknas tre typer av information som är användbar för social forskning: demografi, beteende på andra plattformar, och data för att operationalisera teoretiska konstruktioner.

Alla tre av dessa former av ofullständiga visas i en studie av Gueorgi Kossinets och Duncan Watts (2006) om utvecklingen av det sociala nätverket vid ett universitet. Kossinets och Watts började med e-postloggar från universitetet, som hade exakt information om vem som skickat e-post till vem vid vilken tidpunkt (forskarna inte har tillgång till innehållet i e-postmeddelanden). Dessa e-poster låter som en fantastisk dataset, men de är-trots sin storlek och granularitet-grunden ofullständig. Till exempel, e-loggar ingår inte uppgifter om demografiska egenskaperna hos eleverna, såsom kön och ålder. Vidare behöver e-loggar inte innehålla information om kommunikation via andra medier, till exempel telefonsamtal, SMS, eller ansikte mot ansikte samtal. Slutligen, e-loggar inte direkt innehålla information om relationer, de teoretiska konstruktioner i många existerande teorier. Senare i kapitlet, när jag talar om forskningsstrategier, ser du hur Kossinets och Watts löst dessa problem.

Av tre typer av ofullständiga, är problemet med ofullständiga data för att operationalisera teoretiska konstruktioner svårast att lösa, och enligt min erfarenhet, är det ofta av misstag förbises av uppgifter forskare. Ungefär, teoretiska konstruktioner är abstrakta idéer som samhällsvetare studerar, men tyvärr dessa konstruktioner kan inte alltid entydigt definieras och mätas. Till exempel, låt oss föreställa oss att försöka att empiriskt testa den till synes enkla påståendet att människor som är mer intelligent tjäna mer pengar. För att testa detta påstående du skulle behöva mäta "intelligens". Men vad är intelligens? Till exempel, Gardner (2011) hävdade att det finns faktiskt åtta olika former av intelligens. Och är det rutiner som exakt kan mäta någon av dessa former av intelligens? Trots enorma mängder arbete av psykologer, dessa frågor ännu inte har entydiga svar. Även en relativt enkla skade-människor som är mer intelligent tjäna mer pengar kan vara svårt att bedöma empiriskt eftersom det kan vara svårt att omsätta teoretiska konstruktioner i data. Andra exempel på teoretiska konstruktioner som är viktiga men svåra att operationalisera inkludera "normer", "socialt kapital" och "demokrati". Samhällsvetare kallar matchen mellan teoretiska konstruktioner och data konstruktion giltighet (Cronbach and Meehl 1955) . Och eftersom denna lista över konstruktioner antyder konstruera giltighet är ett problem som samhällsvetare har kämpat med under mycket lång tid, även när de arbetade med data som samlades in för forskningsändamål. När du arbetar med uppgifter som samlats in för annat än forskning, problemen med konstruktion giltighet är ännu mer utmanande (Lazer 2015) .

När du läser en uppsats, en snabb och bra sätt bedöma oro konstruktion giltighet är att ta huvudkravet i tidningen, som vanligtvis uttrycks i termer av konstruktioner och åter uttrycka det i termer av de uppgifter som används. Till exempel anser två hypotetiska studier som hävdar att visa att mer intelligenta människor tjänar mer pengar:

  • Studie 1: människor som gör mål på god Raven Progressiva Matriser Test ett väl studerat test av analytiska intelligens (Carpenter, Just, and Shell 1990) -ha högre redovisade inkomster på sina skattedeklarationer
  • Studie 2: folk på Twitter som används längre ord är mer benägna att nämna lyxmärken

I båda fallen kunde forskarna hävdar att de har visat att mer intelligenta människor tjänar mer pengar. Men, i den första studien de teoretiska konstruktioner är väl operation av data, och i det andra är de inte. Vidare, eftersom detta exempel illustrerar, mer data inte automatiskt löser problem med konstruktionen giltighet. Du bör tvivla resultaten av studien två om det handlade om en miljon tweets, en miljard tweets, eller en biljon tweets. För forskare som inte är bekanta med idén om konstruktionen giltighet, tabell 2.2 ger några exempel på studier som har operation teoretiska konstruktioner med hjälp av digitala spårdata.

Tabell 2.2: Exempel på digitala spår som används som mått på mer abstrakta teoretiska begrepp. Samhällsvetare kallar denna match konstruktion giltighet och det är en stor utmaning med hjälp av stora datakällor för social forskning (Lazer 2015) .
digitalt spår teoretisk konstrukt Citat
e loggar från ett universitet (metadata endast) sociala relationer Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
sociala medier inlägg på Weibo medborgerligt engagemang Zhang (2016)
e loggar från ett företag (meta-data och fullständig text) Kulturell passform i en organisation Goldberg et al. (2015)

Även om problemet med ofullständiga data för operation teoretiska konstruktioner är ganska svårt att lösa, det finns tre gemensamma lösningar på problemet med ofullständig demografisk information och ofullständig information om beteende på andra plattformar. Den första är att faktiskt samla in data du behöver; Jag ska berätta om ett exempel på detta i kapitel 3 när jag berätta om undersökningar. Tyvärr är denna typ av datainsamling inte alltid möjligt. Den andra huvud lösning är att göra det uppgifter forskarna kallar användarattribut slutledning och vad samhällsvetare kallar imputering. I denna metod, forskare använder den information som de har på vissa människor att sluta attribut för andra människor. Den tredje möjlig lösning-den som används av Kossinets och Watts-var att kombinera flera datakällor. Denna process kallas ibland sammanslagning eller spela koppling. Min favorit metafor för denna process föreslogs i den allra första stycket i den allra första papperet som någonsin skrivits på skiva koppling (Dunn 1946) :

"Varje person i världen skapar en bok av liv. Denna bok börjar med födelsen och slutar med döden. Dess sidor består av register över de huvudsakliga händelserna i livet. Record koppling är namnet på processen för montering av sidorna i denna bok i en volym. "

Denna passage skrevs 1946, och vid den tiden var folk tänker att livets bok kan omfatta stora händelser i livet som födelse, äktenskap, skilsmässa och död. Men nu när så mycket information om personer registreras, kan livets bok vara en otroligt detaljerad porträtt, om dessa olika sidor (dvs våra digitala traces), kan bindas samman. Denna bok Livet kunde vara en stor resurs för forskare. Men, kan livets bok också kallas en databas över ruin (Ohm 2010) , som kan användas för alla typer av oetiska ändamål, såsom beskrivs mer nedan när jag talar om den känsliga naturen hos den information som samlas av stora datakällor nedan och i kapitel 6 (etik).