2.1 Inledning

I den analoga ålder, samla in uppgifter om beteende vem som gör vad när, var dyr, och därför relativt sällsynt. Nu, i den digitala tidsåldern, är beteenden för miljarder människor registreras, lagras och analyser. Till exempel, varje gång du klickar på en webbplats, ringa ett samtal på din mobiltelefon, eller betala för något med ditt kreditkort, är en digital registrering av ditt beteende skapas och lagras av ett företag. Eftersom dessa uppgifter är en biprodukt av människors dagliga åtgärder är de ofta kallas digitala spår. Utöver dessa spår som innehas av företag, regeringar har också otroligt rika data om både människor och företag, uppgifter som ofta digitaliseras och analyser. Tillsammans har dessa företag och offentliga register kallas ofta stora uppgifter.

Den ständigt ökande ström av stora datamängder innebär att vi har gått från en värld där beteendemässiga data var knappa till en värld där beteende uppgifter är riklig. Men, eftersom dessa typer uppgifter är relativt ny, en olycklig mängd forskning som använder dem ser ut som forskare blint jagar tillgängliga data. I det här kapitlet, istället erbjuder en principiell inställning att förstå de olika datakällor och hur de kan användas. Detta rikare förståelse bör hjälpa dig att bättre matcha dina frågeställningar lämpliga datakällor. Eller, om sådana befintliga källor saknas, övertyga dig att samla in dina egna data med idéerna i kommande kapitel.

Ett första steg för att lära sig av stora uppgifter är att inse att det är en del av en bredare kategori av uppgifter som har använts för social forskning i många år: observationsdata. Ungefär, är observationsdata alla data som är resultatet av att observera ett samhällssystem utan att ingripa på något sätt. Ett grovt sätt att tänka på det är att observationsdata är allt som inte innebär att prata med människor (t.ex. undersökningar, ämnet för kapitel 3) eller att förändra folks miljöer (t.ex. experiment, ämnet för kapitel 4). Således, förutom affärs och offentliga handlingar, observationsdata innehåller också saker som texten i tidningsartiklar och satellitfoton.

Detta kapitel består av tre delar. Först, i avsnitt 2.2, jag beskriva big data i mer detalj och klargöra en fundamental skillnad mellan det och de data som i allmänhet har använts för social forskning i det förflutna. Sedan, i avsnitt 2.3, beskriver jag tio vanliga egenskaper hos stora datakällor. Att förstå dessa egenskaper gör det möjligt för oss att snabbt känna igen styrkor och svagheter i befintliga källor och kommer att hjälpa oss utnyttja de nya källor som kommer att skapas i framtiden. Slutligen, i avsnitt 2.4, beskriver jag tre huvudsakliga forskningsstrategier som du kan använda för att lära av observationsdata: räkna saker, prognos saker, och approximera ett experiment.