2.3.9 Dirty

Big gegevens boarnen kinne wurde laden mei winske en spam.

Guon ûndersikers leauwe dat grutte gegevensboarnen, foaral ynternet boarnen, untbrekke binne om't se automatysk sammele wurde. In feit, minsken dy't wurke hawwe mei grutte gegevensboarnen witte dat se faak drein binne . Dat jildt dat faak dat gegevens dy't net realisearje fan echte aksjes fan belang foar ûndersikers. De measte maatskiplike wittenskippers binne al bekend mei it proses fan skjinmjittige grutte gegevens fan sosjale enkêtes, mar it reinigjen fan grutte gegevensboarnen liket hieltyd dreger te wêzen. Ik tink dat de ultime boarne fan dizze swierrichheid is dat in soad fan dizze grutte data boarnen noait brûkt wurde om te ûndersykjen, en sa wurde se net sammele, opslein en dokumintearre op in manier dat it gegevensferiening makket.

De gefaaringen fan digitale trace-data wurde yllustrearre troch Back and colleagues ' (2010) stúdzje fan' e emosjonele antwurd op 'e oanslaggen fan 11 septimber 2001, dy't ik eartiids yn it haadstik koart neamd waard. Undersikers hawwe yn 't algemien de reaksje op tragyske eveneminten te brûken mei retrospektyf gegevens sammele oer moannen of sels jierren. Mar, Back en kollega's fûn in altyd op boarne fan digitale spoaren - de timestamped, automatysk opnommen fan berjochten fan 85.000 Amerikaanske pagers - en dit soarelearren se emosjonele antwurden te studearjen op in folle finer tiidskale. Se meitsje in minút-by-minuze emosjonele timeline fan 11 septimber troch it kodearjen fan de emosjonele ynhâld fan 'e pager-berjochten troch it persintaazje wurden fan wurden dy't relatearre binne oan (1) traurigens (bgl. "Skrikken" en "grize"), (2) bgl. "soarch" en "freeslik"), en (3) grime (bygelyks "hate" en "kritysk"). Se fûnen dat fertriet en dreech de hiele dei sûnder sterke patroan fluktuearre, mar dat wie yn 'e dei in opfallende groei fan' e lijen. Dit ûndersyk liket in geweldige yllustraasje fan 'e krêft fan altiten op boarnen: as tradisjoneel data boarnen brûkt waarden, soe it net wienen om in soartgelike opslach fan' e direkte reaksje op in ûnferwachte barren te krijen.

Just ien jier letter, lykwols, seach Cynthia Pury (2011) de gegevens mear sertifisearre. Se ûntduts dat in grut oantal fan 'e neamde fergriemde berjochten ûntfongen waarden troch in single pager en se allegear identyk. Hjir is wat de lekker fergrieme berjochten sei:

"Reboot NT masine [namme] yn kabinet [namme] op [lokaasje]: Kritysk: [datum en tiid]"

Dizze berjochten waarden lilk makke omdat se it wurd "CRITICAL" opnommen hawwe, dy't meast allinich kwea oanjouwe, mar yn dit gefal net. It ûntbrekken fan de berjochten dy't generearre wurde troch dizze ienige automatisearre pager folslein eliminearret de skynbere fergrutting fan 'e grime oer de rin fan' e dei (sjoch 2.4). Mei oare wurden, it wichtichste resultaat yn Back, Küfner, and Egloff (2010) wie in artifact fan ien pager. As dit foarbyld illustratearret, is in relatyf ienfâldige analyse fan relatyf komplekse en misdiedige gegevens it potensjaal om serieus ferkeard te gean.

Figure 2.4: Estimearre trends yn wille oer de rin fan 11 septimber 2001 basearre op 85.000 Amerikaanske pagers (Back, Küfner, en Egloff 2010, 2011; Pury 2011). Oarspronklik rapporteare Back, Küfner, en Egloff (2010) in patroan fan ferheegjende grime oer de dei. De measte fan dizze ferwûnderlik ferneatige berjochten waarden lykwols generearre troch in inkele pager dy't de folgjende berjocht werhelle: Reboot NT masine [namme] yn kabinet [namme] op [lokaasje]: CRITICAL: [datum en tiid]. Mei dit berjocht fuorthelle, ferskynt de skynbere ferheging fan 'e grime (Pury 2011; Back, Küfner, en Egloff 2011). Oanpasber út Pury (2011), figuer 1b.

Figure 2.4: Estimearre trends yn wille oer de rin fan 11 septimber 2001 basearre op 85.000 Amerikaanske pagers (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Oarspronklik rapporteare Back, Küfner, and Egloff (2010) in patroan fan ferheegjende grime oer de dei. De measte fan dizze offisjeel ferneatige berjochten waarden lykwols generearre troch in inkele pager dy't de folgjende berjocht werhelle: "Reboot NT masine [namme] yn kabinet [namme] op [lokaasje]: CRITICAL: [datum en tiid]". Mei dit berjocht fuorthelle, ferskynt de skynbere ferheging fan 'e grime (Pury 2011; Back, Küfner, and Egloff 2011) . Oanpasber út Pury (2011) , figuer 1b.

Wylst dreech gegevens dat ûnbeheft skepen wurde, lykas dat fan in rûn pager, kinne troch in ferstannige sertifisearre ûndersiker erkend wurde, binne der ek guon ynternetsystemen dy't yntinsive spammers lûke. Dizze spammers aktivearje foarkommende gegevens, en - faak motivearre troch profyt-wurk, tige hurd om har spamming ferburgen te hâlden. Bygelyks, politike aktiviteit op Twitter liket op syn minst wat subtile smaak fan spam op te nimmen, wêrby't guon politike oarsaken bedoeld binne om populêrer te sjen as it eins binne (Ratkiewicz et al. 2011) . Spitigernôch kin dizze fuotbalsje fuorthelle wêze.

Fansels kin wat beskôge wurde as dreege gegevens kinne dielen op 'e ûndersyksfraach. Bygelyks, in protte feroarings oan Wikipedia binne makke troch automatisearre bots (Geiger 2014) . As jo ​​ynteressearre binne yn 'e ekology fan Wikipedia, dan binne dizze bot-bewurke edits wichtich. Mar as jo ynteressearre binne yn hoefier't minsken bydrage oan Wikipedia, dan moatte de bot-oanpast feroare wêze.

Der is gjin inkele statistyske technyk of oanpak dy't jo soargje kinne dat jo jo soargen gegevens genôch gield hawwe. Oan 'e ein tink ik dat de bêste manier om te foarkommen wurde troch dreech gegevens te begripen om sa folle mooglik te begripen oer hoe jo jo gegevens makke binne.