2.3.4 Nem teljes

Nem számít, milyen nagy az Ön nagy adata, valószínűleg nem rendelkezik az Ön által kívánt információkkal.

A legtöbb nagy adatforrás hiányos , abban az értelemben, hogy nem rendelkeznek az Ön által keresett információval. Ez a közös jellemzője a kutatáson kívüli célokra létrehozott adatoknak. Számos társadalomtudós már rendelkezett a hiánytalansággal kapcsolatos tapasztalatokkal, például egy meglévő felméréssel, amely nem feltette a szükséges kérdést. Sajnos a hiányosságok problémái szélesebb körűek a nagy adatoknál. Tapasztalataink szerint a nagy adatok hiányoznak a társadalmi kutatásra hasznosítható háromféle információhoz: demográfiai információk a résztvevőkről, más platformok viselkedése és adatok az elméleti konstrukciók operacionalizálására.

A hiányosságok három fajtája közül a legnehezebb megoldani a hiányos adatok problémáját az elméleti konstrukciók operacionalizálására. És tapasztalatom szerint gyakran véletlenül figyelmen kívül hagyják. Nagyjából elméleti konstrukciók absztrakt ötletek, amelyeket a társadalomtudósok elméleti konstrukcióval tanulmányozzák és operacionalizálnak, ami azt jelenti, hogy valamilyen módot kell találni arra, hogy megfigyelhető adatokkal megragadják ezt a konstrukciót. Sajnos ez az egyszerű hangzású folyamat gyakran nehézkesnek tűnik. Például, képzeljük el, próbáljuk empirikusan tesztelni a látszólag egyszerű állítást, hogy az intelligensebb emberek több pénzt keresnek. Annak érdekében, hogy megvizsgálja ezt az állítást, meg kell mérnie az "intelligenciát". De mi az intelligencia? Gardner (2011) azt állította, hogy tényleg nyolc különböző intelligencia létezik. És vannak-e olyan eljárások, amelyek pontosan mérik az intelligencia eme formáit? A pszichológusok óriási mennyiségű munkája ellenére ezeknek a kérdéseknek még mindig nincsenek egyértelmű válaszai.

Így még egy viszonylag egyszerű állítás is - az intelligensebb emberek több pénzt keresnek - nehéz empirikusan felmérni, mert nehéz lehet az adatok elméleti konstrukcióinak operacionalizálása. Az elméleti konstrukciók egyéb olyan példái, amelyek fontosak, de nehezen operacionalizálhatóak, magukban foglalják a "normákat", "társadalmi tőkét" és "demokráciát". A társadalomtudósok az elméleti konstrukciók és az adatszerkezet érvényessége közötti találkozást nevezik (Cronbach and Meehl 1955) . A konstrukciók ezen rövid listája szerint az érvényesség megteremtése olyan probléma, amelyet a társadalomtudósok nagyon sokáig küzdöttek. De tapasztalatom szerint a konstrukciós érvényesség problémái még akkor is nagyobbak, ha olyan adatokkal dolgoznak, amelyek nem voltak kutatás céljából (Lazer 2015) .

Amikor kutatási eredményt értékel, a konstrukció érvényességének gyors és hasznos módja az, hogy az eredményt - amelyet rendszerint konstrukciók formájában fejezzük ki - újra felhasználjuk a felhasznált adatok alapján. Például, fontoljon meg két hipotetikus tanulmányt, amelyek azt állítják, hogy azt mutatják, hogy az intelligensebb emberek több pénzt keresnek. Az első tanulmányban a kutató megállapította, hogy azok a személyek, akik jó eredményeket értek el a Raven Progressive Matrices teszten - egy jól vizsgált analitikus intelligencia teszt (Carpenter, Just, and Shell 1990) A második tanulmányban a kutató megállapította, hogy a hosszabb szavakkal rendelkező emberek a Twitteren nagyobb valószínűséggel említik a luxus márkákat. Mindkét esetben ezek a kutatók azt állíthatják, hogy kimutatták, hogy az intelligensebb emberek több pénzt keresnek. Azonban az első tanulmányban az elméleti konstrukciókat az adatok jól működtetik, míg a másodikban nem. Továbbá, amint ez a példa illusztrálja, több adat nem oldja meg automatikusan a konstrukció érvényességével kapcsolatos problémákat. Kétségbe kell venned a második tanulmány eredményeit, hogy ez egy millió tweets, egy milliárd tweets vagy egy trillió tweets. Azok a kutatók számára, akik nem ismerik a konstrukció érvényességének eszméjét, a 2.2. Táblázat néhány példát mutat be olyan tanulmányokra, amelyek operatív elméleti konstrukciókat alkalmaztak a digitális nyomkövetési adatok felhasználásával.

2.2. Táblázat: Az elméleti konstrukciók működtetésére használt digitális nyomok példái
Adatforrás Elméleti konstrukció Irodalom
E-mail naplók egy egyetemen (csak metaadatok) Társadalmi kapcsolatok Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
A szociális média hozzászólásai Weibo-n Polgári szerepvállalás Zhang (2016)
Cég e-mail naplói (metaadatok és teljes szöveg) Kulturális illeszkedés egy szervezetben Srivastava et al. (2017)

Noha az elméleti konstrukciók rögzítésére vonatkozó hiányos adatok nehézségekbe ütköznek, közös megoldásokat kínálnak a többi általános hiányosság hiányára: hiányos demográfiai információk és hiányos információk a viselkedésről más platformokon. Az első megoldás az, hogy ténylegesen gyűjti az adatokat, amelyekre szüksége van; A 3. fejezetben elmondom, amikor elmondom a felmérésekről. A második legfontosabb megoldás az, amit az adatok tudósai a felhasználó-attribútum következtetésnek neveznek, és a társadalomtudósok imputációt neveznek. Ebben a megközelítésben a kutatók olyan információkat használnak fel, amelyekre más emberek attribútumait vonják le. A harmadik lehetséges megoldás több adatforrás kombinálása. Ezt a folyamatot néha rekord kapcsolódásnak nevezik. A folyamatom kedvenc metaforáját Dunn (1946) írta a legelső, a lemezkapcsolatról írt első könyv első bekezdésében:

"Minden ember a világon megteremti az Életkönyvét. Ez a könyv születéssel kezdődik, és véget vet a halálnak. Az oldalait az élet főbb eseményeit tartalmazó feljegyzések alkotják. A rögzítési kapcsolódás az a név, amelyet a kötet oldalainak összeállításához egy kötetbe adtak. "

Amikor Dunn megírta ezt az utat, elképzelte, hogy az Életkönyve magában foglalhat olyan súlyos életeseményeket, mint a születés, a házasság, a válás és a halál. Azonban most, hogy az emberekkel kapcsolatban annyi információ van feljegyezve, az Életkönyv lehet hihetetlenül részletes portré, ha ezek a különböző oldalak (azaz a digitális nyomaink) össze vannak kötve. Ez az Életkönyv hasznos lehet a kutatók számára. De ez a "tönkre" adatbázis (Ohm 2010) is nevezhető, amely mindenféle etikátlan célra felhasználható, amint azt a 6. fejezetben (Etika) ismertetem.