2.1 Introducere

În epoca analogic, colectarea de date despre comportamentul-cine ce face atunci când-a fost scump, și, prin urmare, relativ rare. Acum, în era digitală, comportamentele de miliarde de oameni sunt înregistrate, stocate, și analizabile. De exemplu, de fiecare dată când faceți clic pe un site web, efectuați un apel pe telefonul mobil, sau să plătească pentru ceva cu cartea de credit, o înregistrare digitală a comportamentului dvs. este creat și stocate de o afacere. Pentru că aceste date sunt un produs de a fiecare zi acțiunile oamenilor, acestea sunt adesea numite urme digitale. În plus față de aceste urme deținute de întreprinderi, guvernele au, de asemenea, date incredibil de bogate atât despre oameni și afaceri, datele care sunt de multe ori în format electronic și analizabile. Împreună , aceste afaceri și guvern înregistrările sunt adesea numite mari de date.

Inundația în continuă creștere de date mari înseamnă că ne-am mutat dintr-o lume în care date comportamentale a fost limitată la o lume în care datele comportamentale sunt abundente. Dar, deoarece aceste tipuri de date sunt relativ noi, o cantitate nefericită de cercetare folosind ei arata ca oamenii de știință alungare orbește date disponibile. În acest capitol, în schimb, oferă o abordare principială pentru înțelegerea diferitelor surse de date și modul în care acestea pot fi utilizate. Această înțelegere mai bogată ar trebui să vă ajute să se potrivească mai bine întrebările de cercetare la surse adecvate de date. Sau, în cazul în care astfel de surse existente lipsesc, convinge să colecteze propriile date folosind ideile în capitolele viitoare.

Un prim pas pentru a învăța de la date de mare este de a realiza că aceasta face parte dintr - o categorie mai largă de date , care a fost utilizată pentru cercetarea socială timp de mai mulți ani: datele de observare. În mare, datele de observatie este orice date care rezultă din observarea unui sistem social fără a interveni în vreun fel. O modalitate de a gândi brut, cu privire la aceasta este ca datele de observatie este tot ceea ce nu implică vorbesc cu oamenii (de exemplu, anchete, tema capitolului 3) sau schimbarea mediilor oamenilor (de exemplu, experimente, subiectul de la capitolul 4). Astfel, în plus față de înregistrările de afaceri și guvern, datele de observatie include, de asemenea, lucruri cum ar fi textul articolelor din ziare și fotografii prin satelit.

Acest capitol are trei părți. În primul rând, în secțiunea 2.2, descriu date mari mai în detaliu și să clarifice o diferență fundamentală între ea și datele care au fost, în general, utilizate pentru cercetarea socială în trecut. Apoi, în secțiunea 2.3, descriu zece caracteristici comune ale surselor de date mari. Înțelegerea acestor caracteristici ne permite să recunoască rapid punctele forte și punctele slabe ale surselor existente și ne va ajuta să valorifice noile surse care vor fi create în viitor. În cele din urmă, în secțiunea 2.4, descriu trei strategii principale de cercetare pe care le puteți utiliza pentru a învăța din datele de observație: lucruri de numărare, lucrurile de prognoză, și compatibilizarea un experiment.