2.3.4 Нецелосни

Без разлика колку се големи вашите големи податоци, веројатно нема информации што сакате.

Повеќето големи извори на податоци се нецелосни , во смисла дека немаат информации што ќе ги сакате за вашето истражување. Ова е заедничка карактеристика на податоците кои се создадени за други цели освен за истражување. Многу општествени научници веќе имаат искуство со справување со некомплетност, како што е постоечка анкета која не го постави прашањето кое беше потребно. За жал, проблемите со некомплетност имаат тенденција да бидат поекстремни во големите податоци. Според моето искуство, големите податоци имаат недостаток од три вида информации користени за социјалните истражувања: демографски информации за учесниците, однесување на други платформи и податоци за операционализирање на теоретските конструкции.

Од трите вида на некомплетност, најтешко е да се реши проблемот со нецелосни податоци за операционализирање на теоретските конструкции. И во моето искуство, често е случајно занемарувано. Грубо, теоретски конструкции се апстрактни идеи дека социолозите го проучуваат и операционализираат теоретскиот начин на создавање средства кои предлагаат некој начин да го зафатат тој конструкт со забележливи податоци. За жал, овој едноставен процес на звук често се покажува многу тешко. На пример, да си замислиме обидувајќи се емпириски да го тестираме очигледно едноставното тврдење дека луѓето кои се поинтелигентни заработуваат повеќе пари. За да го тестирате ова тврдење, ќе треба да ја измерите "интелигенцијата". Но, што е интелигенција? Gardner (2011) тврди дека всушност постојат осум различни форми на разузнавање. И дали постојат процедури кои точно може да ги измерат овие форми на разузнавање? И покрај огромните количини на работа од страна на психолозите, овие прашања сеуште немаат недвосмислени одговори.

Така, дури и релативно едноставно тврдење - луѓето кои се поинтелигентни заработуваат повеќе пари - може тешко да се проценат емпириски, бидејќи може да биде тешко да се операционализираат теоретски конструкции во податоците. Други примери на теоретски конструкции кои се важни, но тешко за операционализација вклучуваат "норми", "социјален капитал" и "демократија". Социјалните научници го нарекуваат натпреварот помеѓу теоретски конструкции и валидноста на конструкцијата на податоците (Cronbach and Meehl 1955) . Како што сугерира оваа кратка листа на конструкции, конструирањето на валидноста е проблем со кој општествените научници се бореа многу долго време. Но, според моето искуство, проблемите со конструирање на валидноста се уште поголеми кога се работи со податоци кои не се создадени за потребите на истражувањето (Lazer 2015) .

Кога го оценувате резултатот од истражувањето, еден брз и корисен начин за оценување на конструктивната валидност е да го земете резултатот, кој обично се изразува во смисла на конструкции, и повторно да го изразите во однос на користените податоци. На пример, размислете за две хипотетички студии кои тврдат дека покажуваат дека луѓето кои се поинтелигентни заработуваат повеќе пари. Во првата студија, истражувачот открил дека луѓето кои добро се осврнуваат на тестот за прогресивни матрици на Равен - добро проучен тест за аналитички разузнавачки податоци (Carpenter, Just, and Shell 1990) - имаат повисоки пријавени приходи за нивните даночни пријави. Во втората студија, истражувачот открил дека луѓето на Твитер кои користеле подолги зборови, најверојатно, ќе споменат луксузни брендови. Во двата случаи, овие истражувачи би можеле да тврдат дека покажале дека луѓето кои се поинтелигентни заработуваат повеќе пари. Сепак, во првата студија теоретските конструкции се добро операционализирани од податоците, додека во втората не се. Понатаму, како што е прикажано во овој пример, повеќе податоци автоматски не ги решаваат проблемите со конструирање на валидноста. Треба да се сомневате во резултатите од втората студија дали станува збор за милион твитови, милијарди твитови или трилиони твитови. За истражувачите кои не се запознаени со идејата за конструирање на валидноста, во табелата 2.2 се дадени некои примери на студии кои ги операционализираат теоретските конструкции користејќи податоци за дигитални траги.

Табела 2.2: Примери на дигитални траги што се користат за операционализирање на теоретските конструкции
Извор на податоци Теоретска конструкција Референци
Е-пошта дневници од универзитет (само мета-податоци) Социјални односи Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Социјални медиуми мислења на Weibo Граѓански ангажман Zhang (2016)
Е-логови од фирмата (мета-податоци и комплетен текст) Културно вклопуваат во организација Srivastava et al. (2017)

Иако проблемот со нецелосни податоци за зафаќање на теоретските конструкции е прилично тешко да се реши, постојат заеднички решенија за другите вообичаени видови на некомплетност: нецелосни демографски информации и нецелосни информации за однесувањето на други платформи. Првото решение е всушност да ги собере потребните податоци; Ќе ви кажам за тоа во глава 3 кога ќе ви кажам за анкети. Второто главно решение е да се направи она што научниците од податоците го нарекуваат инспирација за атрибутот на корисник, а општествените научници ја нарекуваат импутација . Во овој пристап, истражувачите ги користат информациите што ги имаат на некои луѓе за да заклучат атрибути на други луѓе. Трето можно решение е да се комбинираат повеќе извори на податоци. Овој процес понекогаш се нарекува рекордна поврзаност . Мојата омилена метафора за овој процес беше напишана од Dunn (1946) во првиот став од првото издание напишано за рекордна врска:

"Секоја личност во светот создава книга на животот. Оваа книга започнува со раѓање и завршува со смрт. Неговите страници се составени од записи за главните настани во животот. Рекордното поврзување е името дадено на процесот на составување на страниците од оваа книга во обем. "

Кога Дан го напишал тој пасус тој замислувал дека Книгата на животот може да вклучи големи животни настани како раѓање, брак, развод и смрт. Меѓутоа, сега кога е запишано толку многу информации за луѓето, Книгата на животот може да биде неверојатно детален портрет, ако овие различни страници (т.е. нашите дигитални траги) можат да бидат поврзани заедно. Оваа книга на животот може да биде одличен ресурс за истражувачите. Но, исто така, може да се нарече база на податоци за уништување (Ohm 2010) , која може да се користи за сите неетички цели, како што ќе се опише во поглавјето 6 (Етика).