2.3.2.6 Дирти

Велики извори података могу бити напуњен са смећа и спам.

Неки истраживачи верују да су велики извори података, посебно оних из мрежних извора, су нетакнуте јер се аутоматски прикупљају. У ствари, људи који су радили са великим изворима података знамо да су често прљав. То јест, они често садрже податке који не одражавају стварне активности од интереса за истраживача. Многи социолози су већ упознати са процесом чишћења податке социјалне анкете великих размера, али за чишћење великих извора података је теже из два разлога: 1) нису створили истраживача за истраживаче и 2) истраживача генерално имају мање разумевања како они су створили.

Опасности од прљавих података дигиталне траговима су илустровани Бацк и колеге " (2010) емоционални одговор на нападе од 11. септембра 2001. Истраживачи обично проучава одговор на трагичне догађаје користећи ретроспективне податке прикупљене током месецима или чак годинама. Али, Бацк и колеге пронашао увек на извору дигиталног трагова-у временским ознакама, аутоматски снимљене поруке од 85.000 америчких пејџера-а то је омогућило истраживачима да проучавају емоционалну реакцију на много финије временском року. Назад и колеге створили минут-по-минут емоционалну рок од 11. септембра до кодирање емотивни садржај пејџер порука процентом речи које се односе на (1) туге (нпр, плаче, тугу), (2) страх (на пример, забринути, уплашени), и (3) бес (нпр мржње, критички). Они су утврдили да туга и анксиозност варирао током целог дана без јаке обрасцу, али да је упадљив пораст беса током дана. Ово истраживање изгледа дивно илустрација моћи увек на изворе података: користећи стандардне методе да би било немогуће да се тако високе резолуције рок од непосредног одговора на неочекиваном догађају.

Само годину дана касније, међутим, Синтија Пури (2011) погледао податке пажљивије. Она је открила да је велики број наводно љутих порукама су генерисани од стране једног пејџера и сви су били идентични. Ево шта они наводно ангри поруке саид:

"Ребоот НТ машина [име] у кабинету [име] на [лоцатион]: Цритицал: [датум и време]"

Ове поруке су означени љути јер су укључени реч "критичан", који се обично указују бес, али не у овом случају. Уклањање поруке које генерише овај јединствени аутоматизованог пејџер у потпуности елиминише очигледан пораст беса током дана (слика 2.2). Другим речима, главни резултат у Back, Küfner, and Egloff (2010) је артефакт једне пејџер. Као што овај пример показује, релативно једноставна анализа релативно сложене и неугодним података има потенцијал да озбиљно није у реду.

Слика 2.2: Процјена трендове у бесу током 11. септембра 2001. године на основу 85.000 америчких пејџера (Бацк, КУФНЕР, и Еглофф 2010; Пури 2011, Назад, КУФНЕР, и Еглофф 2011). Оригинално, назад, КУФНЕР, и Еглофф (2010) пријавио образац за повећање бес током целог дана. Међутим, већина ових очигледних бесних порука су створени од стране једног пејџера да у више наврата послала следећу поруку: Ребоот НТ машина [име] у кабинету [име] на [Локација]: Цритицал: [датум и време]. Са ова порука уклони, очигледно повећање у бесу нестаје (Пури 2011; Бацк, КУФНЕР и Еглофф 2011). Ова цифра је репродукција Слици 1Б у Пури (2011).

Слика 2.2: Процјена трендове у бесу током 11. септембра 2001. године на основу 85.000 америчких пејџера (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Оригинално, Back, Küfner, and Egloff (2010) образац за повећање бес током целог дана. Међутим, већина ових очигледних бесних порука су створени од стране једног пејџера који у више наврата поручио је: "Ребоот НТ машина [име] у кабинету [име] на [Локација]: Цритицал: [датум и време]". Са ова порука уклони, очигледно повећање у бесу нестаје (Pury 2011; Back, Küfner, and Egloff 2011) . Ова цифра је репродукција Слици 1Б у Pury (2011) .

Док прљави подаци који се ствара ненамерно-као што је из једне бучне пејџер-се може детектовати разумно пажљивим истраживач, постоје и неки онлине системи који привлаче намјерне спамера. Ове спамери активно генеришу лажне податке, и-често мотивисани профита раде веома напорно да би њихово спам скривено. На пример, политичка активност на Твиттер изгледа да укључи бар неко разумно софистицирани спам, при чему су неки политички разлози намерно направљен да изгледа популарнији него што стварна су (Ratkiewicz et al. 2011) . Истраживачи који раде са подацима који могу да садрже намерно спам суочавају са изазовом убеде публику да су открио и уклонити релевантне спам.

Коначно, оно што се сматра прљавим подаци могу да се ослоне на суптилне начине на својим истраживачким питањима. На пример, многе измене на Википедиа стварају аутоматизованих робота (Geiger 2014) . Уколико сте заинтересовани за екологију Википедиа, онда су ови роботи су важни. Али, ако сте заинтересовани за то како људи доприносе Википедиа, те измене направљене од ових робота треба искључити.

Најбољи начин да се избегну завара прљаве подаци су да разумеју како су ваши подаци створена за обављање једноставно истраживачко анализе, као што је прављење једноставне расејање парцеле.