2.3.2.1 Непотпуна

Без обзира колико "велике" ваши "велике податке" вероватно нема жељене информације.

Већина великих извори података су непотпуни, у смислу да немају информацију да ли ће желите за ваше истраживање. Ово је заједничка карактеристика података које су настале у друге сврхе осим истраживања. Многи социолози су већ имали искуства у раду са непотпуности, као што је постојећи истраживања која није поставио питање сте желели. На жалост, проблеми непотпун имају тенденцију да буду екстремно великим подацима. По мом искуству, велики подаци тежи да недостаје три врсте информација корисних за друштвена истраживања: демографске, понашање на другим платформама, као и податке за правилно спровођење теоријске конструкција.

Све три од ових облика непотпун илустроване су у студији Гуеорги Коссинетс и Дунцан Ваттс (2006) еволуцији социјалне мреже на универзитету. Коссинетс и В је почео са балванима емаил са универзитета, који су имали прецизне информације о томе ко је послао маилове у којима у које време (истраживачи нису имали приступ садржају поруке е-поште). Ове емаил записи звуче као невероватних података, али, они су-упркос њиховој величини и гранулација-фундаментално непотпуни. На пример, евиденције емаил не садрже податке о демографским карактеристикама ученика, као што су пол и старост. Даље, евиденције емаил не укључују информације о комуникацији путем других медија, као што су телефонски позиви, текстуалне поруке или лицем-у-лице разговора. Коначно, евиденције емаил директно не укључују информације о односима, теоријских конструкција у многим постојећим теоријама. Касније у поглављу, када говорим о стратегијама, видећете како Коссинетс и В решио ове проблеме.

Три врсте непотпуности, проблем непотпуних података у операционализује теоријске конструкције је најтеже да реши, и по мом искуству, често је случајно превиди научници података. Грубо, теоријски конструкти су апстрактне идеје да друштвени научници проучавају, али, нажалост, ови конструкти не могу увек да се недвосмислено дефинише и мери. На пример, замислимо покушава да емпиријски тестирати очигледно једноставну тврдњу да су људи који су интелигентнији зараде више новца. У циљу тестирања ову тврдњу да би требао да измери "интелигенцију." Али, шта је интелигенција? На пример, Gardner (2011) да заправо постоји осам различитих облика интелигенције. И, да ли постоје процедуре које могу прецизно мере било који од ових облика интелигенције? Упркос огромним количинама рада од стране психолога, ова питања још увек немају недвосмислене одговоре. Тако, чак и релативно једноставан захтев-људи који су интелигентнији зарадите више новца може бити тешко проценити емпиријски јер то може бити тешко да операционализује теоријских конструкција у подацима. Други примери теоријских конструката који су важни, али тешко да се операционализује укључују "норме", "друштвени капитал", и "демократија". Социолози назвати меч између теоријских конструкција и валидности података конструката (Cronbach and Meehl 1955) . И, као ова листа конструката сугерише, изградити ваљаност је проблем који су социолози борили са јако дуго времена, чак и када су радили са подацима који су прикупљени за потребе истраживања. Када радите са подацима који су прикупљени у друге сврхе осим истраживања, проблеми валидности конструкта су још већи изазов (Lazer 2015) .

Када читате истраживачки рад, један брз и користан начин да се процени забринутост због важности конструката је да се главни захтев у новинама, који се обично изражена у погледу конструкције, и поново изразити га у погледу података који се користе. На пример, размотримо две хипотетичке студије које тврде да покаже да више интелигентни људи зарађују више новца:

  • Студија 1: људи који постигну и на Гавран Прогрессиве матрице Тест-добро студирао тест интелигенције аналитичком (Carpenter, Just, and Shell 1990) -Јеси већи је пријавио приходе на својим пореским пријавама
  • Студија 2: људи на Твиттер који се користе дуже речи су веће шансе да поменути луксузних брендова

У оба случаја, научници могу да тврде да су показали да више интелигентни људи зарађују више новца. Али, у првој студији теоретске конструкције су добро операционализација кроз података, ау другом нису. Даље, као што овај пример показује, више података аутоматски не решава проблеме са роком конструкт. Требало би да сумња у резултате студије 2 да ли укључени милион твитова, милијарду твитова, или трилион твеетс. За истраживаче који нису упознати са идејом валидности конструкта, Табела 2.2 даје неке примере студија које су операционализоване тхеоретицал конструкција уз помоћ дигиталних дата траг.

Табела 2.2: Примери дигиталних трагова који се користе као мера више апстрактних теоријских концепата. Социолози зову валидност меч конструкт и да је велики изазов са коришћењем велике изворе података за друштвена истраживања (Lazer 2015) .
дигитални траг теоријски конструкт цитат
емаил евиденције из универзитету (само мета података) друштвене везе Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
социал медиа порука на Веибо Грађански ангажман Zhang (2016)
емаил евиденције из једне фирме (мета-подаци и комплетан текст) Културни уклопити у организацији Goldberg et al. (2015)

Иако је проблем непотпуних података за Операционализација теоријских конструкција је прилично тешко решити, постоје три заједничка решења за проблем непотпуне демографских информација и непотпуних информација о понашању на другим платформама. Први је заправо прикупља податке која вам је потребна; Ја ћу ти рећи о примеру који у поглављу 3, када сам ти рекао да истраживања. На жалост, ова врста прикупљања података није увек могуће. Други главни решење је да уради оно што научници података зовемо корисник-атрибута закључак и шта социолози зову приписивање. У овом приступу, истраживачи користе информације које имају о неким људима да закључити атрибуте других људи. Трећи могући решење-онај који користе Коссинетс и Ваттс-је за комбиновање више извора података. Овај процес се понекад назива спајање или запис веза. Моја омиљена метафора за овај процес је предложен у првом ставу првог рада икада написано на рекордном повезивања (Dunn 1946) :

"Свака особа на свету ствара Боок оф Лифе. Ова књига почиње рођењем и завршава се смрћу. Њене странице су састављене од евиденције принципа догађаја у животу. Запис веза је назив за процес монтаже на страницама ове књиге у волумен. "

Овај пасус је написан 1946. године, а у то време, људи су мислили да је Књига Живота може да обухвати велике животне догађаје као што су рођење, брак, развод и смрт. Међутим, сада када толико информација о људима се снима, Књига Живота може бити невероватно детаљан портрет, ако те различите стране (тј наши дигитални траговима), могу бити везани заједно. Ова Боок оф Лифе би могао бити велики ресурс за истраживаче. Али, Књига Живота се такође може назвати базу података пропасти (Ohm 2010) , који се може користити за све врсте неморално сврхе, као што је описано више у наставку, када говорим о осјетљивости информација прикупљених од стране великих извора података испод и у поглављу 6 (Етхицс).