2.3.9 Dirty

Чоң маалымат булактары таштандыдан жана спамдан менен толтурса болот.

Кээ бир изилдөөчүлөр чоң маалымат булактары, айрыкча, интернет булактары, алар дароо эле алынат, анткени тунук болуп саналат деп эсептешет. Негизи, чоң маалымат булактары менен иштеген адамдар көп ыплас экенин билишет. Башкача айтканда, алар көп изилдөөчүлөр үчүн кызыкчылык чыныгы иш-аракеттерин кескин түрдө чагылдырууга тийиш эмес маалыматтарды камтыйт. Көпчүлүк коомдук илимпоздор буга чейин ири масштабдагы коомдук сурамжылоо маалыматтарды тазалоо жүрүшү менен таанышып, ал эми чоң маалымат булактарын тазалоо оор окшойт. Мен бул кыйынчылык булагы бул ири маалымат булактарынан көптөгөн изилдөөлөр үчүн пайдалануу үчүн арналган эмес, ошондуктан алар чогултулган, сакталган, жана маалыматтарды тазалоону өбөлгө жол документалдуу чагылдырылган жок деп ойлойм.

Кир санариптик изи маалыматтарды коркунучу жана кесиптештери тарабынан көрүнүп турат " (2010) , мен жогоруда кыскача бөлүмдө айтылгандай, 11-сентябрындагы, 2001-жылдын, анын жан жооп изилдөө. Окумуштуулар, адатта, ай, ал тургай, жылдар бою чогултулган мүнөз маалыматтарды колдонуу кайгылуу окуяларга жооп изилдөө. Бирок, Артка жана кесиптештер 85000 Америка ар дайым боюнча санариптик издери-timestamped булагы жазуусу жазылган кабарлар пейжер жана бул өтө кылдат шкаласы боюнча сезимдерибизди изилдеп, аларга жардам берген жок. Алар бир мүнөт жан мөөнөтүн 11-сентябрга байланыштуу сөздөрдүн пайыз Пейжерге кабарлардын дүйнөсү мазмунду код менен (1) кайгы жараткан (мисалы, жана "кайгы", "ыйлап"), (2), тынчсыздануу ( мисалы, жана "коркунучтуу" "тынчсызданышууда"), жана (3) каары (мисалы, "жек көрүү" жана "оор"). Алар кайгы жана тынчсыздануу күчтүү үлгү күн бою өзгөрүп деп табылган, бирок, бир күн бою ачууланып каларлык өсүшү болгон жок. Бул изилдөөлөр дайыма боюнча маалымат булактары бийликтин сонун мисал болуп калды көрүнөт: салттуу маалымат булактары колдонулуп келген болсо, анда ал бир күтүлбөгөн окуяга түздөн-түз жооп мындай жогорку мөөнөтүн алуу мүмкүн болмок эмес.

Бир жыл өткөндөн кийин, бирок, Синтия Pury (2011) жакшылап маалыматтарды карап. Ал калп ачууланып билдирүүлөрдүн көп сандаган бир Пейжерге тарабынан түзүлгөн жана алардын баары бирдей эле болду. Мына ошол калп ачууланып кабарлар эмне деп жатат:

«Кайра NT машина [аты] кабинет [аты]-жылы [жайгашкан]: ӨЗГӨЧӨ: [дата жана убакыт]»

Бул билдирүүлөр: алар сөздү "оор" кирген, анткени, негизинен, ачуусун көрсөтүп турат, бирок бул учурда эмес, ачууланып ачаар болду. Бул төш Пейжерге тарабынан билдирүүлөрдү алып салуу толугу менен күн бою ачууланып көрүнүп өсүшү (сүрөт 2.4) жок. Башкача айтканда, негизги натыйжасы Back, Küfner, and Egloff (2010) бир Пейжерге бир буюм эмес. Бул мисал көрсөтүп тургандай, салыштырмалуу татаал жана кир маалыматтардын салыштырмалуу жөнөкөй талдоо олуттуу күнөө барып, мүмкүнчүлүгү бар.

Figure 2.4: 11-сентябрында бою ачууланып багыттарын эсептелген, 2001-жылы 85000 америкалык пейжер (Артка, Küfner жана Egloff 2010, 2011; Pury 2011) негизделген. Башында, талап, Küfner жана Egloff (2010) күнү бою ачуусун жогорулатуу үчүн үлгү билдирди. Ошентсе да, бул, сыягы, ачууланып билдирүүлөрдүн көпчүлүгү бир нече жолу төмөнкү билдирүү жиберген бир Пейжерге тарабынан иштелип чыккан: Өчүрүп NT машина [аты] кабинетте [аты] боюнча [жайгашкан]: КРИТИКАЛЫК: [датасы жана убактысы]. Бул кабар алынып менен, каарым менен айкын өсүшү (Pury, 2011-жыл; Back, Küfner жана Egloff 2011) жок. Pury (2011) ылайыкташтырылган, көрсөткүч 1b.

Figure 2.4: 11-сентябрында бою ачууланып багыттарын эсептелген, 2001-жылы 85000 америкалык пейжер негизинде (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Башында, Back, Küfner, and Egloff (2010) күнү бою ачуусун жогорулатуу үчүн үлгү билдирди. Ошентсе да, бул, сыягы, ачууланып билдирүүлөрдүн көпчүлүгү бир нече жолу төмөнкү билдирүү жиберген бир Пейжерге тарабынан иштелип чыккан: "Кайра NT машина [аты]-жылы өкмөт [аты] боюнча [жайгашкан]: КРИТИКАЛЫК: [датасы жана убактысы]". Бул кабар алынып менен, каарым менен айкын өсүшү жок (Pury 2011; Back, Küfner, and Egloff 2011) . Рубрикасына Pury (2011) , сан 1b.

бир ызы-чуу ошол эле кокусунан сыяктуу жаратылган кир маалыматтар Пейжерге-ала жетишерлик кылдат изилдөөчү менен аныкталат, ал эми ошондой эле атайылап спам тарта кээ бир интернет системалары бар. Бул спам жасоочуларга жигердүү өз спамдарды жашырып абдан кыйын пайда иши боюнча жалган маалыматтарды, жана көп учурда түрткү пайда. Мисалы, Twitter саясий иш-аракеттер, жок дегенде, кээ бир негиздүү татаал спам кирет окшойт, турган кээ бир саясий себептер атайылап, алар иш жүзүндө алда канча популярдуу карап турат (Ratkiewicz et al. 2011) . Тилекке каршы, бул атайылап спам алып салуу өтө оор болушу мүмкүн.

Албетте, кир маалыматтар эсептелет кандай изилдөөлөр боюнча, жарым-жартылай көз каранды болот. Мисалы, Wikipedia көп түзөтүүлөр дардын-боттордон сакталган тарабынан түзүлгөн (Geiger 2014) . Сиз Wikipedia экология кызыкдар болсо, анда бул бот-жараткан түзөтүүлөр маанилүү болуп саналат. Эгер адамдар Wikipedia салым кандай кызыкдар болсо, анда бот-жараткан түзөтүүлөр алынып керек.

Эгер жетиштүү сиздин кир маалыматтарды тазалап деп кепилдик бере алабыз, эч бир статистикалык ыкма жана мамиле деген жок. Акыр-аягы, мен кир маалыматтар алданып калбаш үчүн мыкты жолу сиздин кандайча жаратылды жөнүндө мүмкүн болушунча көбүрөөк түшүнүп турат деп ойлойм.