2.1 Sissejuhatus

Analoog vanus, kogudes andmeid käitumise, kes mida teeb, kui-oli kallis ja seega suhteliselt harva. Nüüd digitaalajastul, käitumiste miljardeid inimesi salvestatakse, säilitatakse ja analüüsitavad. Näiteks iga kord, kui klõpsad veebilehel, helistada oma mobiiltelefoni või maksab midagi oma krediitkaardiga, digitaalne salvestus oma käitumist on loodud ja säilitatud äri. Kuna need andmed on kõrvalsaaduseks inimeste iga päev meetmete neid enamasti nimetatakse digitaalse jälgi. Peale nende jäljed valduses ettevõtete, valitsuste ka uskumatult rikas andmeid nii inimestele kui ka ettevõtetele, andmeid, mis on sageli digiteeritud ja analüüsitavad. Koos nende ettevõtete ja valitsuse andmed on sageli suured andmeid.

Üha kasvav tulv suur andmed tähendab, et me oleme liikunud maailmast, kus käitumuslikud andmed nappis maailma, kus käitumuslikud andmed on küllaga. Aga kuna seda tüüpi andmeid on suhteliselt uus, kahetsusväärne summa teadusuuringute kasutades neid näeb teadlased pimesi death olemasolevate andmete alusel. See peatükk, selle asemel, pakub põhimõtteline lähenemine mõistmaks eri allikate andmeid ja kuidas saab neid kasutada. See rikkam arusaam peaks aitama teil paremini teie uurimisküsimused asjakohaseid andmeallikaid. Või kui selliseid olemasolevaid allikaid puuduvad, veenda, et koguda oma andmed, kasutades ideid tulevikus peatükkides.

Esimene samm õppimise suur andmed on mõista, et see on osa laiemast kategooria andmeid, mis on kasutatud sotsiaaluuringute aastaid: vaatlusandmeid. Umbes, vaatlusandmeid on tahes andmed, mis on saadud vaadeldes sotsiaalse süsteemi sekkumata mingil moel. Toor viis mõelda on see, et vaatlusandmed on kõik, mis ei hõlma räägi inimestega (nt uuringud, teema 3. peatükk) või muuta inimeste keskkondades (nt eksperimente, teemat peatükk 4). Seega, lisaks ettevõtete ja valitsuse andmed, vaatlusandmeid ka asjad teksti ajaleheartiklid ja satelliit fotod.

See peatükk koosneb kolmest osast. Esiteks punktis 2.2, ma kirjeldada suurt andmed üksikasjalikumalt ja selgitada oluline erinevus selle ja andmed, mis on üldiselt kasutatakse sotsiaalseid uuringuid varem. Siis, punkt 2.3, ma kirjeldada kümme ühised omadused suur allikatele. Mõistmise neid omadusi võimaldab meil kiiresti ära tugevused ja nõrkused olemasolevaid allikaid ja aitab meil rakendada uusi, mis luuakse tulevikus. Lõpuks punktis 2.4, ma kirjeldada kolme peamist teadusuuringute strateegiad, mida saab kasutada, et õppida vaatlusandmeid: lugedes asju, prognoosimine asju, ja ühtlustades eksperiment.