2.3.2.1 Neúplné

Bez ohledu na to, jak "velký" vaše "zpracování velkých objemů dat" to asi nemá informace, které chcete.

Většina velkých zdroje dat jsou neúplné v tom smyslu, že nemají informace, které budete chtít pro svůj výzkum. To je společný rys údajů, které byly vytvořeny pro účely jiné než výzkumné účely. Mnoho sociálních vědců již měli zkušenosti s řešením neúplnosti, jako je stávající šetření, které nebyly položit otázku, co jste chtěli. Bohužel, problémy neúplnosti mají tendenci být více extrémní ve velkých dat. Podle mých zkušeností, zpracování velkých objemů dat tendenci chybět tři druhy informací, které jsou užitečné pro sociální výzkum: demografii, chování na jiných platformách a údaje uvést do praxe teoretických konstruktů.

Všechny tyto tři formy neúplnosti jsou znázorněny ve studii Gueorgi Kossinets a Duncan Watts (2006) o vývoji sociální sítě na vysoké škole. Kossinets a Watts začala s e-mailových protokolů z univerzity, který měl přesné informace o tom, kdo poslal e-maily na koho v jakém čase (výzkumníci neměli přístup k obsahu e-mailů). Tyto e-mailové záznamy znít jako úžasnou datové sady, ale jsou-navzdory své velikosti a granularity-zásadně neúplné. Například e-mailové protokoly nezahrnují údaje o demografické charakteristiky studentů, jako je pohlaví a věku. Dále, e-mailové protokoly neobsahují údaje o komunikaci prostřednictvím dalších médií, jako jsou telefonní hovory, textové zprávy, nebo face-to-face rozhovorů. A konečně, e-mailové protokoly nejsou přímo uvedeny informace o vztazích, teoretických konstruktů v mnoha existujících teorií. Později v této kapitole, když mluvím o výzkumných strategií, uvidíte, jak Kossinets a Watts vyřešil tyto problémy.

Ze tří druhů neúplnosti, problém neúplných údajů uvést do praxe teoretických konstruktů je nejtěžší řešit, a podle mých zkušeností, to je často přehlížena náhodně datovými vědci. Zhruba teoretické konstrukty jsou abstraktní myšlenky, že sociální vědci studují, ale bohužel, tyto konstrukty nelze vždy jednoznačně definovány a měřeny. Například, pojďme si představit snaží empiricky testovat zdánlivě jednoduché tvrzení, že lidé, kteří jsou inteligentnější vydělat více peněz. Za účelem testování tohoto tvrzení by bylo třeba měřit "inteligenci." Ale to, co je inteligence? Například Gardner (2011) tvrdil, že tam jsou vlastně osm různých forem inteligence. A, existují postupy, které by mohly přesně změřit některé z těchto forem inteligence? Přes enormní množství práce ze strany psychologů, tyto otázky stále nemají jednoznačné odpovědi. Proto i relativně jednoduchý claim-lidé, kteří jsou inteligentnější vydělávat více peněz, může být obtížné posoudit empiricky, protože to může být těžké uvést do praxe teoretických konstruktů v datech. Jiné příklady teoretických konstruktů, které jsou důležité, ale těžko uvést do praxe zahrnují "normy", "sociální kapitál" a "demokracie". Sociální vědci nazývají zápas mezi teoretických konstruktů a údaje konstruktové platnosti (Cronbach and Meehl 1955) . A jak tento seznam konstruktů napovídá, postavit platnost je problém, že sociální vědci snažili se po velmi dlouhou dobu, i když oni pracovali s daty, která byla shromážděných za účelem výzkumu. Při práci s daty shromážděné pro účely jiné než výzkumné účely, problémy konstruktu platnosti jsou ještě náročnější (Lazer 2015) .

Při čtení výzkum papír, jeden rychlý a užitečný způsob, jak posoudit obavy konstruktové platnosti je, aby hlavní tvrzení v novinách, který je obvykle vyjádřeny konstruktů, a znovu vyjádřit co se týče použitých údajů. Zvažte například dvě hypotetické studie, které tvrdí, že ukazují, že více inteligentní lidé vydělávají více peněz:

  • Studie 1: lidé, kteří dobře zvládají na Raven Progresivní Matice Test dobře studovány testem analytické inteligence (Carpenter, Just, and Shell 1990) ✔ mějte vyšší nahlášené příjmy na svých daňových přiznáních
  • Studie 2: lidé na Twitteru, kteří používají delší slova mají větší šanci zmínit luxusních značek

V obou případech by výzkumní pracovníci mohli tvrdit, že se ukázalo, že více inteligentní lidé získat peníze. Ale v první studii teoretické konstrukty jsou také realizováno daty, a ve druhé nejsou. Dále, jak ukazuje tento příklad, další data nejsou automaticky řešit problémy s konstruktem platnosti. Byste měli pochybovat o tom výsledky studie 2, zda se jednalo o milion tweetů, miliardy tweety nebo bilion tweety. Pro výzkumné pracovníky nejsou obeznámeni s myšlenkou konstruktové platnosti, Tabulka 2.2 uvádí některé příklady studií, které operacionalizován teoretické konstrukty pomocí digitální data trasování.

Tabulka 2.2: Příklady digitálních stop, které se používají jako opatření více abstraktních teoretických konceptů. Sociologové nazývají tento zápas konstruktu platnost, a to je velký problém s použitím velkých datových zdrojů pro sociální výzkum (Lazer 2015) .
Digitální stopy teoretická konstrukt Citace
e-mailové protokoly z univerzity (pouze meta-data) sociální vztahy Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
příspěvků na sociální média Weibo občanská angažovanost Zhang (2016)
e-mailové protokoly od firmy (meta-dat a kompletní text) Kulturní fit v organizaci Goldberg et al. (2015)

Ačkoli problém neúplných údajů pro operationalizing teoretických konstruktů je dost těžké řešit, existují tři společná řešení tohoto problému neúplných demografických údajů a neúplným informacím o chování na jiných platformách. Prvním z nich je vlastně sbírat data, která potřebují; Povím ti o příklad, který v kapitole 3, když jsem ti o průzkumy. Bohužel, tento způsob sběru dat není vždy možné. Druhým hlavním řešením je to, co vědci nazývají datové uživatelsky atribut závěr a co sociologové nazývají imputace. V tomto přístupu, výzkumníci používají informace, které mají na některé lidi odvodit vlastnosti jiných lidí. Třetím možným řešením, jeden používal Kossinets a Watts, bylo spojit více zdrojů dat. Tento proces je někdy nazýván sloučení nebo záznam vazba. Moje oblíbená metafora pro tento proces bylo navrženo v prvním odstavci hned v prvním příspěvku kdy byla napsána na rekordní vazbou (Dunn 1946) :

"Každý člověk na světě vytváří Book of Life. Tato kniha začíná narozením a končí smrtí. Jeho stránky jsou tvořeny záznamů principu událostí v životě. Záznam vazba je jméno dané k procesu sestavování stránkami této knihy do svazku. "

Tato pasáž byla napsána v roce 1946, a v té době byli lidé myslí, že kniha života by mohly zahrnovat významné životní události, jako je narození, sňatek, rozvod, a smrt. Avšak nyní, když tolik informací o lidech je zaznamenáno, kniha života by mohl být neuvěřitelně detailní portrét, pokud tyto jednotlivé stránky (tj naši digitální Traces), mohou být svázány. Tato kniha života by mohl být skvělý zdroj pro výzkumníky. Ale kniha života může být také nazýván databázi zkázy (Ohm 2010) , která by mohla být použita pro všechny druhy neetického účely, jak je podrobněji uvedeno níže, pokud mluvím o citlivou povahu informací shromážděných velkými data zdroje pod a v kapitole 6 (etika).