2.3.9

Fonti di dati Big pò esse carricu di jewellery, è un puzzicheghju.

Certi certi ricerchi anu crìdinu chì e grande fonti di dati, in particulari i fonti online, sò pristine perchè sò colugati automaticamente. In fattu, e persone chì anu travagliatu cù e grande infurmazioni di dati sò chì sò spessu tortu . Hè per quessa, inclettenu spiegazioni di dati chì ùn anu micca riflettendu veru accetta di interessu per i ricchieri. A maiò parte di i scientisti suciali sò digià familiarizatu cù u prucessu di pulitica di a sughjetti di a sozione suciale di grande data, ma di puliticanti sò assai più difficiuli. Pensu chì l'ultime fonte di sta diffiulazione hè chì assai di sti grandi fonti di dati ùn sò mai pensati à esse utilizati per a ricerca, è ùn sò micca riuniti, almacenati è documentati in modu chì facilita a limpezza di dati.

I periculi di i traccia di traccia digitale suciale sò illustrati da u studiu di u cullegiu (2010) studiu di a risposta emuzioni à l'attacche di l'11 di settembre di u 2001, chì aghju sughjettu pocu annunziatu in u capitu. I so investigadores sò studienti a risposta per l'avvenimenti tràgichi cù e retrospretive recullati annantu à mesi è ancu anni. Ma, Back è i culleghi trovanu una basa sempre di traces digitale-timestamped, missaggi automaticamente registrati da 85.000 pianfiche americani, è questu permessu di studià a rispunsabilità emutiva in una tempura finora finora. Hà creatu una timeline emissionale di minuti per settimana 11 di u codice di u cuntenutu emuzionale di i missaghji di u paginu per u percentualità di parole riguardanti a (1) tristezza (per esempiu, "chianci" è "grief"), (2) ansietà ( per esempiu, "preoccupatu" è "scantificatu"), è (3) ingerimentu (per esempiu, "odià" è "critiche"). Trovu chì a tristezza è l'ansietà scaricava duru u ghjornu senza un patronu forte, ma chì ci era un incridibile risultatu in còllera in tuttu u ghjornu. Questa ricerca pari esse una maraviglia illustrativa di u putere di e funziunalità di dati sempre: se i traduttorii di dati foru usati, avissi statu impussibule d'acquistà un timeline di alta risulazione di a risposta immediata in un eventu imprevisu.

Unu annu dopu, Cynthia Pury (2011) fighjatu e dettagli più infurmazioni. Scuprì chì un gran numaru di i missaggi erate supersumbrati eranu generati da un paginu unicu è eranu tutti idèntici. Eccu ciò chì i missaggi erate suponiamente dicenu:

"Machine à inoji NT [nome] a spina [nome] a [stage]: critica: [data e ura]"

Questi messagi eranu tichittati in furore, chì inclusi a parolla "CRITICAL", chì pò esse generalmente indettu furore, ma in questu casu micca. Eliminazione di u messagiu generatu da stu paginu automatizatu automaticamente eliminà l'aumentu apparente in furore nantu à u cursu di u ghjornu (figura 2.4). In altri palori, u risultatu principalu in Back, Küfner, and Egloff (2010) era un artefactu di un paginu. Cumu stu esempiu illustra, l'analisi simplice simplice di dati relativamente complexi è malgrafi anu u potenzale per esse gravemente sbagliati.

Figura 2.4: Stentini stimati in còllera annantu à u cursu di l'11 di settembre di u 2001 basatu in 85 000 paggers americani (Torna, Küfner è Egloff 2010, 2011; Pury 2011). Originally, Back, Küfner è Egloff (2010) avianu un mudellu di crescenu ingerimentu in tuttu u ghjornu. Invece, a maiò parte di sti messi in apparente inghjulazione foru generati da un solu paginu chì mandò ripetitu à u messagiu: Reboot NT machine [name] in cabinet [name] in [location]: CRITICAL: [data è ora]. Cù questu missuu sguassatu, l'addendum apparenti di l'ciuma sparisce (Pury 2011; Back, Küfner è Egloff 2011). Adattazione da Pury (2011), figura 1b.

Figura 2.4: Stentini stimati in còllera annantu à u cursu di l'11 di settembre di u 2001 basatu in 85 000 paggers americani (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Originally, Back, Küfner, and Egloff (2010) avianu un mudellu di crescenu ingerimentu in tuttu u ghjornu. Invece, a maiò parte di sti messi in apparente inghjulazione foru generati da un solu paginu chì mandò ripetitu à u messagiu seguente: "Machine Reboot NT [name] in cabinet [name] in [location]: CRITICAL: [date and time]". Cù questu missuu sguassatu, l'addendum apparenti di l'ciuma sparisce (Pury 2011; Back, Küfner, and Egloff 2011) . Adattazione da Pury (2011) , figura 1b.

Mentri i dati soggetti chì hè creatu senza quercia, per esempiu da un paginu zaratrughjettu pò esse detecatu da un investigatore raghjone cun cura, ancu parechji sistemi online chì attruranu spammers intencional. Quelli spammers activamente generate dades falsificate, e, spessu motivatu da u travagliu di u prufittu, assai difficiuli di mantene a so cumpagnie pirate. Per esempiu, l'attività pulitica nantu à Twitter pare avè parechje almenu un spessu raffiguratu assai sofisticatu, induve certe cume causi pulitichi sò intenionalmente fatte parechje più populari di quali fannu veramente (Ratkiewicz et al. 2011) . Sfortunatamente, sguassà stu spam spam intencionatu pò esse assai difficili.

Di sicuru chì hè cunsideratu datu brutta pò esse dipende, in parti, in a dumanda di ricerca. Per esempiu, assai modi di Wikipedia sò creati da robots automatizzati (Geiger 2014) . Se vi interessate in l'ecologia di Wikipedia, in seguita di queste edizioni creati per u bot ci sò impurtanti. Ma se vi interessate nantu à a manera di l'umani cuntribuiscenu à Wikipedia, l'edizioni creati di l'avete esse elliati.

Ùn ci hè micca una sola tecnica statistica o un avvicinamentu chì pò assicurà chì avete suffizciatu bè cù i vostri dritti. In fine, crede chì u megliu modu di evitari di esse fidanzatu da i dati sbucciati hè di cumprenderà quantu pussibuli nantu à cumu i vostri dati sò creati.