2.3.2.6 Dirty

Чоң маалымат булактары таштандыдан жана спамдан менен толтурса болот.

Кээ бир изилдөөчүлөрдүн, алар топтолгон, анткени чоң маалымат булактары, айрыкча, интернет булактарынан да, тунук болуп саналат деп эсептешет. Чынында, чоң маалымат булактары менен иштеген адамдар көп кир экенин билишет. Башкача айтканда, алар көп изилдөөчүлөр үчүн кызыкчылык чыныгы иш-аракеттерин кескин түрдө чагылдырууга тийиш эмес маалыматтарды камтыйт. Көптөгөн коомдук илимпоздор буга чейин ири масштабдагы коомдук сурамжылоо маалыматтарды тазалоо жүрүшү менен таанышып, ал эми чоң маалымат булактарын тазалоо эки себеп менен бир топ оор болуп саналат: 1) жалпы изилдөөчүлөр үчүн илимий жана 2) изилдөөчүлөр тарабынан жаратылган эмес, кандай аз түшүнүк бар алар жаратылган.

Кир санариптик изи маалыматтарды кооптуу Артка жана кесиптештери «мисалында ачык көрүүгө болот (2010) ай, ал тургай, жылдар бою чогултулган мүнөз маалыматтарды колдонуу кайгылуу окуяларга жооп адатта жылдын 11-сентябрындагы № 2001-Окумуштуулар кол изилдеп сезимтал жооп изилдөө. Бирок, кайтуу жана кесиптештери ар дайым боюнча санариптик издери-timestamped булагы жазуусу билдирүүлөрдү 85000 Америка пейжер жана бул өтө кылдат шкаласы боюнча сезимди изилдөө изилдөөнүн жазылган табылган. Кайра жана кесиптештер (1) кайгыга байланыштуу сөздөрдүн пайыз пейжерге кабарлардын дүйнөсү мазмуну код менен 11-сентябрына чейин бир мүнөт сезимдерге хронологиясын түзгөн (мисалы, ыйлап, кайгырып-), (2) тынчсызданууга (мисалы, тынчсызданып, коркуп), жана (3) каары (мисалы, жек көрүү, сын). Алар кайгы жана тынчсыздануу күчтүү үлгү күн бою өзгөрүп деп табылган, бирок, бир күн бою ачууланып каларлык жогорулоосу болгондугун. Бул күтүлбөгөн окуяга түздөн-түз жооп мындай жогорку мөөнөтүн ээ болбой турган стандарттуу ыкмалар менен: бул изилдөө ар дайым жөнүндө маалыматтар булактарын бийликтин сонун мисал болуп саналат.

Бир жылдан кийин болсо, Синтия Pury (2011) жакшылап маалыматтарды карап. Ал калп ачууланып билдирүүлөрдүн көп сандаган бир Арментел тарабынан түзүлгөн жана алардын баары бирдей эмес деп табылган. Бул жерде калп ачууланып кабарлар мындай деген:

«Кайра NT машина [аты] кабинет [аты]-жылы [жайгашкан]: ӨЗГӨЧӨ: [дата жана убакыт]»

Бул билдирүүлөр көбүнчө ачуусун көрсөтүп турат, бирок бул учурда жок кылса болот деген сөз, «өзгөчө оор», анын ичинде, анткени ачуусу белгиленген эле. Бул бир жүктөлсүн Арментел тарабынан билдирүүлөрдү алуудан толугу менен күн (Figure 2.2) бою ачууланып көрүнүп жогорулатууга жок. Башкача айтканда, негизги натыйжасы Back, Küfner, and Egloff (2010) бир абалга бир табылган болчу. Бул мисалдан көрүнүп тургандай, салыштырмалуу татаал жана кир маалыматтардын салыштырмалуу жөнөкөй талдоо олуттуу ката барып, мүмкүнчүлүгү бар.

Тактаганга 2,2: 11-сентябрда бою ачууланып багыттарын болжолдуу, 2001 85000 америкалык пейжер негизинде (Back, Küfner жана Egloff, 2010-жыл; Pury 2011-кайтуу, Küfner жана Egloff 2011-жыл). Алгач, кайра, Küfner жана Egloff (2010) күн бою ачуусун жогорулатуу үчүн үлгү билдирди. Бирок, бул ачык ачууланып билдирүүлөрдүн көбү бир нече жолу төмөнкү билдирүү жиберген бир Арментел тарабынан иштелип чыккан: Өчүрүп NT машина [аты] кабинетте [аты] менен [жайгашкан]: ӨЗГӨЧӨ: [дата жана убакыт]. Бул кабар алып менен, каарым менен айкын өсүшү (Pury 2011; Back, Küfner жана Egloff 2011) жоголот. Бул көрсөткүч Pury (2011) менен сүрөт 1B бир кайра чыгаруу болуп саналат.

Тактаганга 2,2: 11-сентябрда бою ачууланып багыттарын болжолдуу, 2001 85000 америкалык пейжер негизинде (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Алгач, Back, Küfner, and Egloff (2010) күн бою ачуусун жогорулатуу үчүн үлгү билдирди. Бирок, бул ачык ачууланып билдирүүлөрдүн көбү бир нече жолу төмөнкү билдирүү жиберген бир Арментел менен иштелип чыккан: «Кайра NT машина [аты]-жылы өкмөт [аты] менен [жайгашкан]: ӨЗГӨЧӨ: [датасы жана убактысы]». Бул кабар алып менен, каарым менен айкын өсүшү да жоголот (Pury 2011; Back, Küfner, and Egloff 2011) . Бул көрсөткүч менен сүрөт 1B бир кайра чыгаруу болуп саналат Pury (2011) .

бир ызы-чуу эле кокусунан сыяктуу жаратылган кир маалымат Арментел-ала турган акыл-эстүүлүк менен кылдат изилдөөчү тарабынан аныкталат, ал эми ошондой эле атайылап спам тарта кээ бир интернет системалары бар. Бул спам жасоочуларга жигердүү өз Spamming жашырып сактап калуу үчүн жасалган өтө оор пайда иши боюнча жалган маалыматтарды, жана көп учурда түрткү пайда. Мисалы, Twitter боюнча, жок дегенде, кээ бир акыл-эстүүлүк менен татаал спам кирет көрүнөт саясий иш-аракеттер, мында кандайдыр бир саясий себептер атайылап, алар иш жүзүндө алда канча популярдуу карап турат (Ratkiewicz et al. 2011) . атайылап спам камтышы мүмкүн маалыматтар менен иштеген изилдөөчүлөр алар табылган жана тиешелүү спам жок деп, алардын угуучуларды ишендирүү кыйынчылыктарга дуушар болушат.

Акыр-аягы, эмне кир маалыматтар эсептелет изилдөө маселелери боюнча анча байкала бербеген жолдор менен көз каранды болот. Мисалы, Wikipedia көп түзөтүүлөр жүктөлсүн-боттордон сакталган аркылуу жаратылган (Geiger 2014) . Сиз Wikipedia экология кызыкдар болсо, анда бул ботторду маанилүү болуп саналат. Ал эми адамдар Wikipedia салым кандай кызыкдар болсо, бул-боттордон сакталган тарабынан жасалган бул түзөтүүлөр алынып салынат.

кир маалыматтар сиздин ушундай жөнөкөй дыйканды участокторун кабыл алуу сыяктуу, жөнөкөй издөө талдоо жүргүзүү үчүн түзүлгөн кантип түшүнүүгө болот тарабынан алданып калбаш үчүн мыкты жолдору.