2.1 Inngangur

Í hliðstæðu aldri, safna gögnum um hegðun - hver gerir hvað, og hvenær - var dýrt, og því tiltölulega sjaldgæft. Nú, á stafrænu aldri, eru hegðun milljarða manna skráð, geymd og greinanleg. Til dæmis, í hvert skipti sem þú smellir á vefsíðu skaltu hringja í farsímann þinn eða borga fyrir eitthvað með kreditkortinu þínu, stafræna skrá yfir hegðun þína er búin til og geymd af fyrirtæki. Vegna þess að þessar tegundir gagna eru aukaafurðir daglegs aðgerða fólks eru þeir oft kallaðir stafrænar umferðir . Auk þessara rekja sem fyrirtæki eiga, hafa ríkisstjórnir einnig ótrúlega rík gögn um bæði fólk og fyrirtæki. Saman eru þessi viðskipti og ríkisskýrslur oft kallaðir stórar upplýsingar .

Stærsti flóðið af stórum gögnum þýðir að við höfum flutt úr heimi þar sem hegðunargögn voru af skornum skammti í heimi þar sem hegðunargögn eru nóg. Fyrsta skrefið til að læra af stórum gögnum er að átta sig á því að það er hluti af víðtækari flokki gagna sem hefur verið notuð í félagslegum rannsóknum í mörg ár: athugunarupplýsingar . Grunntöldu gögn eru gögn sem leiða af því að fylgjast með félagslegu kerfi án þess að grípa til einhvers konar. Óhófleg leið til að hugsa um það er að athugunargögn eru allt sem felur ekki í sér að tala við fólk (td kannanir, efni í kafla 3) eða að breyta umhverfi fólks (td tilraunir, efnið í kafla 4). Þannig felur í sér til viðbótar við fyrirtæki og ríkisstjórnargögn einnig athugunargögn sem innihalda texta blaðagreina og gervitunglmynda.

Þessi kafli hefur þrjá hluta. Í fyrsta lagi í kafla 2.2 lýsa ég stórum gögnum í nánari útskýringum og skýra grundvallarmun á þeim og þeim gögnum sem venjulega hafa verið notaðar til félagslegrar rannsóknar í fortíðinni. Þá, í kafla 2.3, lýsi ég tíu algengum einkennum stórra gagnaheimilda. Skilningur þessara eiginleika gerir þér kleift að fljótt viðurkenna styrkleika og veikleika núverandi heimilda og mun hjálpa þér að nýta nýjar heimildir sem verða aðgengilegar í framtíðinni. Að lokum, í kafla 2.4, lýsa ég þremur helstu rannsóknaraðferðum sem hægt er að nota til að læra af athugunargögnum: að telja hluti, spá fyrir um hluti og samræma tilraun.