2.3.9 Vuil

Big databronne kan gelaai word met rommel en spam.

Sommige navorsers glo dat groot databronne, veral aanlynbronne, ongerepte is omdat dit outomaties afgehaal word. Trouens, mense wat met groot databronne gewerk het, weet dat hulle dikwels vuil is . Dit beteken dat hulle dikwels data bevat wat nie werklike aksies van belang vir navorsers weerspieël nie. Die meeste sosiale wetenskaplikes is reeds bekend met die proses van die skoonmaak van grootskaalse sosiale opname data, maar die skoonmaak van groot databronne blyk moeiliker te wees. Ek dink die uiteindelike bron van hierdie probleem is dat baie van hierdie groot databronne nooit bedoel was om vir navorsing gebruik te word nie, en daarom word hulle nie versamel, gestoor en gedokumenteer op 'n manier wat data skoonmaak moontlik maak nie.

Die gevare van vuil digitale spoordata word geïllustreer deur Back en kollegas se (2010) studie van die emosionele reaksie op die aanvalle van 11 September 2001, wat ek kortliks vroeër in die hoofstuk genoem het. Navorsers bestudeer gewoonlik die reaksie op tragiese gebeure deur gebruik te maak van terugwerkende data wat oor maande of selfs jare ingesamel word. Maar, Back en kollegas het 'n voortdurende bron van digitale spore gevind - die tydgestampte, outomaties aangeteken boodskappe van 85.000 Amerikaanse pagers - en dit het hulle in staat gestel om emosionele reaksie op 'n veel fyner tydskaal te studeer. Hulle het 'n minuut-vir-minuut emosionele tydlyn van 11 September geskep deur die emosionele inhoud van die pager boodskappe te koördineer deur die persentasie woorde wat verband hou met (1) hartseer (bv. "Huil" en "hartseer"), (2) angs bv. "bekommerd" en "vreeslik"), en (3) woede (bv. "haat" en "krities"). Hulle het bevind dat hartseer en angs dwarsdeur die dag sonder 'n sterk patroon fluktueer, maar dat daar 'n opvallende toename in woede was gedurende die dag. Hierdie navorsing blyk 'n wonderlike illustrasie te wees van die krag van altyd-op-databronne: as tradisionele databronne gebruik is, sou dit onmoontlik gewees het om so 'n hoëresolusie-tydlyn van die onmiddellike reaksie op 'n onverwagte gebeurtenis te verkry.

Net een jaar later het Cynthia Pury (2011) egter die data noukeuriger gekyk. Sy het ontdek dat 'n groot aantal van die sogenaamde kwaad boodskappe deur 'n enkele pager gegenereer is en hulle was almal identies. Hier is wat hierdie sogenaamde kwaad boodskappe het gesê:

"Reboot NT masjien [naam] in die kabinet [naam] te [plek]: KRITIESE: [datum en tyd]"

Hierdie boodskappe is kwaad aangedui omdat hulle die woord "CRITICAL" ingesluit het, wat oor die algemeen woede kan aandui, maar in hierdie geval nie. Die verwydering van die boodskappe wat gegenereer word deur hierdie enkele outomatiese pager elimineer die skynbare toename in woede oor die loop van die dag (figuur 2.4). Met ander woorde, die Back, Küfner, and Egloff (2010) in Back, Küfner, and Egloff (2010) was 'n artefak van een pager. Soos hierdie voorbeeld illustreer, het relatief eenvoudige analise van relatief komplekse en rommelige data die potensiaal om ernstig verkeerd te gaan.

Figuur 2.4: Geskatte tendense in woede oor die loop van 11 September 2001 gebaseer op 85 000 Amerikaanse pagers (Back, Küfner, en Egloff 2010, 2011; Pury 2011). Oorspronklik het Back, Küfner en Egloff (2010) 'n patroon van toenemende woede deur die loop van die dag gerapporteer. Die meeste van hierdie blykbaar kwaad boodskappe is egter gegenereer deur 'n enkele pager wat die volgende boodskap herhaaldelik uitgestuur het: Herlaai NT masjien [naam] in die kas [naam] by [ligging]: KRITIES: [datum en tyd]. Met hierdie boodskap verwyder, verdwyn die skynbare toename in woede (Parys 2011, Back, Küfner, en Egloff 2011). Aangepas uit Pury (2011), figuur 1b.

Figuur 2.4: Geskatte tendense in woede oor die loop van 11 September 2001 gebaseer op 85 000 Amerikaanse pagers (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Oorspronklik het Back, Küfner, and Egloff (2010) n patroon van toenemende woede deur die loop van die dag gerapporteer. Die meeste van hierdie blykbaar kwaad boodskappe is egter gegenereer deur 'n enkele pager wat die volgende boodskap herhaaldelik uitgestuur het: "Herlaai NT masjien [naam] in kabinet [naam] by [ligging]: KRITIES: [datum en tyd]". Met hierdie boodskap verwyder, verdwyn die skynbare toename in woede (Pury 2011; Back, Küfner, and Egloff 2011) . Aangepas uit Pury (2011) , figuur 1b.

Terwyl vuil data wat onbedoeld geskep word, soos dié van een luidrugtige pager, kan deur 'n redelik versigtige navorser opgespoor word, is daar ook aanlyn-stelsels wat opsetlike spammers lok. Hierdie spammers genereer aktief fake data, en-dikwels gemotiveer deur winswerk, is baie moeilik om hul spamming te verberg. Byvoorbeeld, politieke aktiwiteit op Twitter blyk om ten minste 'n paar redelike gesofistikeerde strooipos in te sluit, waardeur sommige politieke oorsake doelbewus gemaak word om meer gewild te lyk as wat hulle eintlik is (Ratkiewicz et al. 2011) . Ongelukkig kan die verwydering van hierdie opsetlike strooipos redelik moeilik wees.

Natuurlik, wat as vuil data beskou word, kan gedeeltelik afhang van die navorsingsvraag. Byvoorbeeld, baie wysigings aan Wikipedia word geskep deur geautomatiseerde bots (Geiger 2014) . As jy belangstel in die ekologie van Wikipedia, dan is hierdie botgemaakte wysigings belangrik. Maar as jy belangstel in hoe mense bydra tot Wikipedia, dan moet die botgemaakte wysigings uitgesluit word.

Daar is geen enkele statistiese tegniek of benadering wat kan verseker dat uu vuil data voldoende skoongemaak het nie. Op die ou end, dink ek, die beste manier om te verhoed dat jy mislei word deur vuil data, is om soveel as moontlik te verstaan ​​hoe jou data geskep is.