2.3.2.6 Dirty

Stór gögn heimildir geta vera hlaðinn með rusli og spam.

Sumir vísindamenn telja að stór gögn heimildum, einkum frá netinu heimildum, eru ósnortin vegna þess að þeir eru safnað sjálfkrafa. Í raun, fólk sem hefur unnið með stórum gögn heimildum vita að þeir eru oft óhrein. Það er, þeir eru oft gögn sem endurspegla ekki raunverulegt aðgerðir áhuga á vísindamenn. Margir félagsleg vísindamenn eru nú þegar kunnugt um ferli hreinsun stórfelldum félagslegum kannanagögn, en þrífa stór gögn heimildum er erfiðara fyrir tveimur ástæðum: 1) Þeir voru ekki búin til af vísindamönnum fyrir vísindamenn og 2) vísindamenn almennt hafa minni skilning á því hvernig þeir voru búin til.

The Hætta af óhreinum gögn stafræn snefilefni eru myndskreytt af Aftur og samstarfsmenn " (2010) rannsókn á tilfinningalegum viðbrögðum við árásum þann 11. september 2001. Vísindamenn rannsaka yfirleitt viðbrögð við hörmulega atburði með afturvirka gögn sem safnað yfir mánuði eða jafnvel ár. En, baka og samstarfsmenn fann alltaf-á uppsprettu stafrænu ummerki-the timestamped sjálfkrafa skráð skilaboð frá 85.000 American boðtæki og þetta virkt vísindamenn til að rannsaka tilfinningaleg viðbrögð á mun fínni tímamarka. Aftur og samstarfsmenn skapað mínútu-við-mínútu tilfinningalegt Tímalína 11. september með því að erfðaskrá tilfinningalegt innihald Friðþjófur skilaboð frá hundraðshluta af orðum sem tengjast (1) sorg (td grátur, sorg), (2) við kvíða (td áhyggjur, skelfilegur), og (3) reiði (td hatur, gagnrýninn). Þeir fundu að sorg og kvíða sveiflast allan daginn án þess að sterk mynstur, en það var sláandi aukning í reiði yfir daginn. Þessi rannsókn virðist vera dásamlegt dæmi um kraft alltaf-á gögnum: nota staðlaðar aðferðir það væri ómögulegt að hafa svo sem a hár-einbeitni tímalína nánasta bregðast við óvæntri atburð.

Bara einu ári síðar, þó Cynthia Pury (2011) skoðaði gögn betur. Hún komst að því að mikill fjöldi af talið reiður skilaboð voru búnir með einum Friðþjófur og þeir voru allir eins. Hér er það sem þessir talið reiður skilaboð sagði:

"Endurfæddur NT vél [nafn] í skáp [nafn] á [stað]: Critical: [dagsetning og tími]"

Þessi skilaboð voru merkt reiður vegna þess að þeir ma orðið "gagnrýni", sem getur yfirleitt bent reiði en ekki í þessu tilfelli. Fjarlægi skilaboðum mynda af þessari einu sjálfvirku Friðþjófur útrýma alveg sýnilegt aukning í reiði yfir the rás af the dagur (mynd 2.2). Með öðrum orðum, helstu niðurstöður í Back, Küfner, and Egloff (2010) var artifact af einum Friðþjófur. Þar sem þetta dæmi sýnir, tiltölulega einföld greining á tiltölulega flóknum og sóðalegur gögn hefur tilhneigingu til að fara alvarlega úrskeiðis.

Mynd 2.2: Áætluð þróun í reiði yfir námskeiðið 11. september 2001 á grundvelli 85.000 American pagers (Back, Küfner og Egloff 2010; Pury 2011; Back, Küfner og Egloff 2011). Upphaflega, baka, Küfner og Egloff (2010) greint mynstur af auka reiði yfir daginn. Hins vegar mest af þessum augljósu reiður skilaboð voru búnir með einni Friðþjófur sem ítrekað sendi út eftirfarandi skilaboð: Endurfæddur NT vél [nafn] í skáp [NAME] á [Staðsetning]: Critical: [dagsetning og tími]. Með þessi skilaboð fjarlægt greinileg aukning í reiði hverfur (Pury 2011, aftur, Küfner og Egloff 2011). Þessi tala er endurgerð af Fig 1B í Pury (2011).

Mynd 2.2: Áætluð þróun í reiði yfir námskeiðið 11. september 2001 á grundvelli 85.000 American pagers (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Upphaflega, Back, Küfner, and Egloff (2010) greint mynstur af auka reiði yfir daginn. Hins vegar mest af þessum augljósu reiður skilaboð voru búnir með einni Friðþjófur sem ítrekað sendi út eftirfarandi skilaboð: "Reboot NT vél [nafn] í skáp [nafn] í [Staðsetning]: Critical: [dagsetning og tími]". Með þessi skilaboð fjarlægt greinileg aukning í reiði hverfur (Pury 2011; Back, Küfner, and Egloff 2011) . Þessi tala er endurgerð af Fig 1B í Pury (2011) .

Þó óhreinum gögn sem er búið óviljandi-eins frá einu hávær Friðþjófur-er hægt að uppgötva með nokkuð vandlega rannsóknir, það eru líka sumir online kerfi sem laða vísvitandi spammers. Þessar spammers mynda virkan falsa gögn og-oft áhugasamir um hagnaðarskyni vinna mjög erfitt að halda ruslpóstur þeirra leyndum. Til dæmis, pólitísk virkni á Twitter virðist að innihalda að minnsta kosti sumir sæmilega öflugu spam, þar sumir pólitískum orsakir eru viljandi gert til að líta meira vinsælli en þeir eru raunveruleg (Ratkiewicz et al. 2011) . Vísindamenn sem vinna með gögn sem kunna að innihalda vísvitandi spam frammi fyrir áskorun um að sannfæra áhorfendur þeirra sem þeir hafa uppgötva og fjarri viðeigandi spam.

Að lokum, hvað er talið dirty gögn geta ráðast í fíngerðum hátt á rannsóknum spurningum þínum. Til dæmis eru margir að breytingar á Wikipediu búin til af sjálfvirkum Botswana (Geiger 2014) . Ef þú hefur áhuga á vistfræði Wikipedia, þá eru þessir Botswana eru mikilvæg. En, ef þú ert áhuga á því hvernig menn stuðla að Wikipedia, þessi breytingar sem gerðar eru af þessum forritum skal útiloka.

Besta leiðin til að forðast að vera fíflalæti við dirty gögn eru til að skilja hvernig gögn voru búin að framkvæma einfalda exploratory greiningu, svo sem að gera einfaldar tvístra Lóðir.