2.3.9

Big Datequellen kann mat Junk an Spam iwwerlaascht sinn.

E puer Fuerscher gleewen datt grouss Datenquelle, besonnesch Internetquellen, oniwwler sinn, well se automatesch gesammelt ginn. Tatsächlech Leit, déi mat groussen Datenquellen geschafft hunn, wëssen, datt et esou oft dreckeg sinn . Dat heescht, si beinhalten oft Daten, déi net wierklech Realiséierung vun Interesse fir Fuerscher reflektéieren. Déi meescht Wëssenschaftler si scho mat dem Prozess vun der Groussreform vu sozialen Ëmfankungsdaten bekannt, awer d'Groussreform vu Datenquellen erschéngt méi schwéier. Ech denken datt d'ultimativ Quelle vun dëser Schwieregkeet ass datt vill vun dësen groussen Datenquellen ni beweise fir Recherchen ze benotzen, sou datt se net gesammelt, gespäichert a dokumentéiert ginn op eng Manéier déi d'Datenreklamatioun erliichtert.

D'Gefore vu verschmotene digitale Spuerendaten sinn illustréiert vun Back and colleagues (2010) Studie vun der emotionaler Reaktioun op d'Attacken vum 11. September 2001, déi ech virdru fréi am Kapitel genannt gouf. D'Fuerscher studéieren normalerweis d'Äntwert op tragesch Evenementer mat retrospektiven Daten, déi iwwer Méint oder méi Joer gesammelt ginn sinn. Mee, Réck a Kollegen hunn eng ëmmer op der Quell vun digitale Spuren fonnt - d'Zäitstemmung, automatesch opgehollen E-Mail vun 85.000 amerikanesche Pager - an dat huet se erméiglecht, emotional Äntwert op eng méi feinere Täscheg ze studéieren. Si hunn eng emotional Timeline vun 11 Sekonnen geschafft, déi den emotionalen Inhalt vun den Pager-Botschaften duerch den Prozentsatz vun de Wierder bezuelt hunn (1) Trauregkeet (zB "Schreiend" an "Trauer") codéieren, (2) Angscht ( zB "beonrouegt" an "Angscht"), a (3) Wut (zB "Haass" a "kritesch"). Si hunn fest fonnt datt d'Trauer a Angscht all Dag ouni e staarken Muster schwankten, awer datt et den Dag méi opfälleg war. Dës Recherche schéngt eng wonnerbar Illustratioun vun der Muecht vu ëmmer op Datenquellen ze ginn: Wann traditionell Datenquelle benotzt ginn, wäerte et net méiglech sinn datt esou eng High-Resolution Timeline vun der direkter Äntwert op e onerwaart Event war.

Just ee Joer méi spéit huet Cynthia Pury (2011) d'Donnéeë méi genee gemaach. Si entdeckt datt eng grouss Unzuel vun den vermeintrëseler rëselen Messagen duerch e puer Pagel generéiert ginn an se sinn all identesch. Hei ass wat déi vermeintlech räicht Messagen gesot hunn:

"Restart Wees Maschinn [Numm] zu Ecoute [Numm] um [Standuert]: kritescher: [Datum an Zäit]"

Dës Messagen ware rosen rosen, well se d'Wuert "KRITIELL" bezeechent ginn, wat normalerweis Är Wäerter uginn, awer an dësem Fall net. Den Message vun den eenzele automatiséierte Pager generéiert net komplett eliminéiert den Iwwerbléck vu Wut iwwer dem Ralldag vum Dag (2,4). An anere Wierder, den Haaptresultater zu Back, Küfner, and Egloff (2010) war e Artefakt vun engem Pager. Wéi dëst Beispill illustréiert, sinn relativ einfach Analyse vu relativ komplexe a bloße Daten de Potenzial fir e seriöch falsch ze goën.

2.4: Estiméiert Trends am Wut iwwer de Laf vum 11. September 2001 baséiert op 85.000 amerikanesche Pager (Back, Küfner, Egloff 2010, 2011; Pury 2011). Ursprénglech, de Back, Küfner a Egloff (2010) bericht de Muster vun de ëmmer méi Zillen ëmmer méi staark. Allerdings sinn déi meescht vun dësen scheinbar rosen Erënnerungen generéiert duerch e puer Pager deen déi folgend Ausso unzefroen huet: NT NT Maschinn [Numm] an den Kaffi [Numm] op [Location]: CRITICAL: [Datum an Zäit]. Dëse Message gëtt ofgeschaaft, verschlechtert d'scheinbar Erhéijung vu Wonneren (Pury 2011, Back, Küfner, Egloff 2011). D'Adaptatioun vum Pury (2011), Figur 1b.

2.4: Estiméiert Trends am Wut iwwer de Laf vum 11. September 2001 baséiert op 85.000 amerikanesche Pager (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Ursprénglech, de Back, Küfner, and Egloff (2010) bericht de Muster vun de ëmmer méi Zillen ëmmer méi staark. Allerdéngs sinn déi meescht vun dësen scheinbar rosen Meldungen generéiert duerch e puer Pager deen d'folgender Noriicht ëmmer erëm verschéckt huet: "NT NT Maschinn [[Name]] am Kabinett [[]] op [Location]: CRITICAL: [Datum an Zäit]". Dëse Message gëtt ofgeschaaft, verschlechtert d'scheinbar Erhéijung vu Wonneren (Pury 2011; Back, Küfner, and Egloff 2011) . D'Adaptatioun vum Pury (2011) , Figur 1b.

Während verschmotzt Daten déi onbestänneg gemaach hunn - wéi déi vun engem lauter Pager - kënnen duerch e vernichtbar Fuerscher erkannt ginn, sinn et och e puer Online-Systeme déi intent spammen. Dës Spammer verëffentlechen aktiv gefälschten Donnéeën, a - oft motivéiert duerch Profitowéierung ganz schwéier fir hir Spamm ze verbannen. Zum Beispill, politesch Aktivitéit op Twitter schéngt op mannst e grad sou raffinéiert Spam, an deem e puer politesch Ursaachen intentiv gemaach ginn, méi populär ze féieren wéi si eigentlech sinn (Ratkiewicz et al. 2011) . Leider kann dës absënneg Spam ka geliewt ginn.

Natierlech kënnt dat wat als verschmotent Daten ugesinn kann hänken, deelweis op d'Fuerscher Froen. Zum Beispill, vill Ännerunge fir Wikipedia ginn duerch automatiséiert Bots (Geiger 2014) . Wann Dir un d'Ökologie vun der Wikipedia interesséiert sidd, sinn dës Bot-Edit Ännerungen wichteg. Awer wann Dir interesséiert sidd a wéi d'Mënschen d'Wikipedia bäidroen, da wäerte d'Bot-Ännerungen ausgeschloss ginn.

Et gëtt keng eenzeg statistesch Technik oder Approche déi Dir suergt datt Dir Är schmutzend Daten genuch hutt. Am Endeffekt denken ech, datt de beschte Wee ass fir ze vermeiden datt Dir schmutzend Donnéeën betrëfft ass ze verstoen esou vill wéi méiglech wéi Är Donnéeën erstallt sinn.