2.3.2.1 Hiányos

Nem számít, milyen "nagy" a "nagy adat" valószínűleg nem rendelkezik a kívánt információt.

A legtöbb nagy adatforrások hiányosak, abban az értelemben, hogy nem azokkal az információkkal, hogy lesz akar a kutatás. Ez egy közös vonása adatok jöttek létre kutatási céloktól eltérő célra. Számos társadalomtudós, már volt tapasztalata foglalkozó hiányossága, például a már meglévő felmérés, amely nem teszi fel a kérdést, amit akart. Sajnos, a problémák a hiányos általában több extrém nagy adatokat. Az én tapasztalatom, nagy adatmennyiség hajlamos arra, hogy a hiányzó három hasznos információk társadalomkutatás: demográfiai viselkedés más platformokon, és az adatokat működővé elméleti konstrukciók.

Mindhárom formák hiányos szemlélteti tanulmánya Gueorgi Kossinets és Duncan Watts (2006) alakulásáról a szociális háló egy egyetemen. Kossinets és Watts kezdődött az e-mail naplók az egyetem, amely pontos információkkal arról, hogy ki küldött e-mailt, hogy kinek milyen időben (a kutatók nem férhetnek hozzá a tartalomhoz a levelek). Ezek az e-mail rögzíti a hangot, mint egy csodálatos adatbázisba, de azok, annak ellenére, hogy mérete és tagoltságát-alapvetően hiányos. Például az e-mail naplók nem tartalmaznak adatokat a demográfiai jellemzői a diákok, mint a nem és az életkor. Továbbá, az e-mail naplók nem tartalmaznak információt kommunikációs más médián keresztül, mint például a telefonhívásokat, szöveges üzenet, vagy szemtől-szembe beszélgetések. Végül az e-mail naplók nem közvetlenül információt tartalmaznak a kapcsolatok, az elméleti konstrukciók számos meglévő elméletek. Később a fejezetben, amikor beszélni kutatási stratégiák, látni fogod, hogy Kossinets és Watts megoldotta ezeket a problémákat.

A háromféle hiányos, a probléma a hiányos adatok működőképessé elméleti konstrukciók a legnehezebb megoldani, és az a tapasztalatom, gyakran véletlenül figyelmen kívül hagyott adat tudósok. Nagyjából elméleti konstrukciók elvont gondolatok társadalomtudósok tanulmányozni, de sajnos ezek a konstrukciók nem mindig lehet egyértelműen meghatározni és mérni. Például képzeljük el próbálják empirikusan tesztelni a látszólag egyszerű állítást, hogy az emberek, akik intelligensebbek több pénzt keresni. Annak érdekében, hogy teszteljék ezt az állítást meg kellene mérni "intelligencia". De mi az intelligencia? Például Gardner (2011) azt állította, hogy a valóságban nyolc különböző formái intelligencia. És vannak eljárások, amelyek pontosan mérni bármely ilyen formája intelligencia? Annak ellenére, hogy hatalmas mennyiségű munkát pszichológusok, ezek a kérdések még mindig nincs egyértelmű válasz. Így még egy viszonylag egyszerű állítás-, akik intelligensebbek több pénzt keresni, hogy nehéz lehet értékelni empirikusan mert nehéz lehet működőképessé elméleti konstrukciók adatait. További példák elméleti konstrukciók, amelyek fontosak, de nehéz működőképessé tartalmazza a "normák", "társadalmi tőke" és a "demokrácia". A társadalomtudósok hívja a mérkőzés közötti elméleti konstrukciók és az adatok konstrukció érvényessége (Cronbach and Meehl 1955) . És ahogy ez a lista konstrukciók sugallja, konstrukció érvényessége a probléma, hogy a társadalomtudósok küzdelmünk egy nagyon hosszú idő, akkor is, ha ők dolgoznak adatokat gyűjtöttünk a kutatás célja. Amikor dolgozik gyűjtött adatok más célra, mint a kutatás, a problémák a konstrukció érvényessége még nagyobb kihívást (Lazer 2015) .

Amikor olvasod a kutatási papír, egy gyors és hasznos módja annak, hogy értékelje aggodalmak konstrukció érvényessége hogy a fő követelés az újságban, ami általában kifejezve konstrukciók, és újra kifejezni szempontjából a felhasznált adatok. Vegyük például a két feltételezett tanulmányok, amelyek azt állítják, hogy azt mutatják, hogy több intelligens emberek több pénzt keresni:

  • 1. vizsgálat: az emberek, akik jó eredmény a Raven Progresszív Mátrixok teszt-egy jól tanulmányozott teszt analitikus intelligencia (Carpenter, Just, and Shell 1990) -have magasabb számolt jövedelmek adóbevallást
  • 2. vizsgálat: az emberek a Twitter, akik használják hosszabb szavakat, nagyobb valószínűséggel beszélve luxusmárkák

Mindkét esetben, a kutatók is állítják, hogy kimutatták, hogy több intelligens emberek több pénzt keresni. De, Az első vizsgálatban az elméleti konstrukciók jól operacionalizálták az adatokat, és a második nem azok. Továbbá, mivel ez a példa is mutatja, több adatot automatikusan nem oldja meg a problémákat, a konstrukció érvényességét. Meg kell kétségbe eredményeit a 2. vizsgálatban-e vonni egy millió tweet, egy milliárd tweet, vagy egy trillió tweets. A kutatók nem ismerik azt az elképzelést, konstrukció érvényessége, 2.2 táblázat néhány példát a tanulmányok, amelyek operacionalizálva elméleti konstrukciók segítségével a digitális nyomkövetési adatok.

2.2 táblázat: Példák a digitális nyomok, amelyek a szokásos intézkedéseket elvontabb elméleti fogalmak. A társadalomtudósok hívja ezt a mérkőzést konstrukció érvényessége és ez egy nagy kihívás a nagy adatforrások társadalomkutatás (Lazer 2015) .
digitális nyom elméleti konstrukció Idézet
email naplók egyetemi (meta-adat esetén) A társadalmi kapcsolatok Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
társadalmi -bejegyzés Weibo állampolgári részvétel Zhang (2016)
email naplók egy cég (meta-adatok és teljes szöveg) A kulturális illeszkedik a szervezet Goldberg et al. (2015)

Bár a probléma a hiányos adatok operacionalizálásakor elméleti konstrukciók elég nehéz megoldani, három közös megoldást a problémára hiányos demográfiai adatokat és hiányos információt viselkedés más platformokon. Az első az, hogy valójában összegyűjti a szükséges adatokat; Elmondom neked egy példát, hogy a 3. fejezetben, amikor azt mondom, körülbelül felmérések. Sajnos, ez a fajta adatgyűjtés nem mindig lehetséges. A második fő megoldás az, hogy amit az adatok tudósok felhasználó-attribútum következtetési és milyen társadalmi tudósok beszámítási. Ebben a megközelítésben a kutatók használják fel az információkat, hogy azok az egyes emberek következtetni tulajdonságai mások. A harmadik lehetséges megoldás-által használt Kossinets és Watts-az volt, hogy összekapcsolják több adatforrás. Ezt a folyamatot nevezik beolvadó vagy rekord kapcsolódik. A kedvenc metaforája ez a folyamat javasolták már az első bekezdésben az első papír valaha írt rekord kapcsolat (Dunn 1946) :

"Minden ember a világon létrehoz egy Book of Life. Ez a könyv kezdődik a születés és halállal végződik. Az oldalak alkotják bejegyzések elvének események az életben. Record kapcsolat van a neve, hogy a folyamat az összeszerelés a e könyv lapjain egy kötetet. "

Ez a részlet írták 1946-ban, abban az időben, az emberek gondolnak, hogy az élet könyvében magában élet nagy eseményeit, mint a születés, a házasság és a halál. Azonban most, hogy annyi információt ember van rögzítve, a Book of Life lehetne hihetetlenül részletes portrét, ha ezek a különböző oldalak (azaz a digitális nyomok) lehet összekötni. Ez az élet könyvét lehet egy nagy forrás a kutatók számára. De az élet könyvében is nevezhető egy adatbázist rom (Ohm 2010) , amelyet fel lehetne használni mindenféle etikátlan célokra, amelyeket részletesen az alábbiakban, amikor beszélni kényes természete által gyűjtött információk nagy adatforrások alább és a 6. fejezetben (Etikai).