2.3.2.6 Dirty

ကြီးမားတဲ့ data တွေကိုသတင်းရပ်ကွက် junk နှင့် spam များကိုတင်ဆောင်နိုင်ပါသည်။

တချို့ကသုတေသီများကကြီးမားတဲ့ data တွေကိုသတင်းရပ်ကွက်များယုံကြည်သူတို့အလိုအလျှောက်စုဆောင်းနေသောကြောင့်, အထူးသဖြင့်သူတို့အားအွန်လိုင်းအရင်းအမြစ်များမှ, သဘာဝရှိပါတယ်။ တကယ်တော့ကြီးမားတဲ့ data တွေကိုသတင်းရပ်ကွက်များနှင့်အတူအလုပ်လုပ်ခဲ့ကြသူကလူသူတို့မကြာခဏညစ်ပတ်ပေရေဖြစ်ကြောင်းကိုသင်တို့သိကြ၏။ ဒါကသူတို့မကြာခဏသုတေသီများမှအကျိုးစီးပွားကိုမှန်ကန်လုပ်ရပ်ရောင်ပြန်ဟပ်မ data ကိုပါဝင်ဖြစ်ပါတယ်။ အများစုကလူမှုရေးသိပ္ပံပညာရှင်များကပြီးသားအကြီးစားလူမှုရေးစစ်တမ်းဒေတာသန့်ရှင်းရေး၏ဖြစ်စဉ်ကိုအကျွမ်းတဝင်သော်လည်း, ကြီးမားတဲ့ data တွေကိုသတင်းရပ်ကွက်များသန့်ရှင်းရေးအကြောင်းရင်းနှစ်ခုအဘို့ပိုပြီးခက်ခဲသည်: 1) သူတို့သုတေသီများနှင့် 2 အဘို့အသုတေသီများကအသုံးပြုနေသူများကဖန်တီးကြသည်မဟုတ်) သုတေသီများယေဘုယျအားဖြင့်ဘယ်လိုနည်းဥာဏ်ရှိသည် သူတို့ဖန်တီးထားကြသည်။

ညစ်ပတ်ပေရေဒစ်ဂျစ်တယ်သဲလွန်စဒေတာသို့ပြန်သွားရန်နှင့်လုပ်ဖော်ကိုင်ဖက်များက '' အားဖြင့်သရုပ်ဖော်ကြသည်၏အန်တရာယျ (2010) ခုနှစ်စက်တင်ဘာလ 11 တိုက်ခိုက်မှုဖို့စိတ်ခံစားမှုတုန့်ပြန်၏လေ့လာမှု, 2001 သုတေသီများကပုံမှန်အားဖြင့်ပင်လအတွင်းသို့မဟုတ်နှစ်ကျော်စုဆောင်းနောက်ကြောင်းပြန်ဒေတာကို အသုံးပြု. ကြေကွဲဖွယ်ဖြစ်ရပ်များမှတုန့်ပြန်လေ့လာဖို့။ သို့သော်သို့ပြန်သွားရန်နှင့်လုပ်ဖော်ကိုင်ဖက်များကဒစ်ဂျစ်တယ်ခြေရာတွေ-The TIMESTAMP ၏အရင်းအမြစ်အမြဲ-အပေါ်တစ်ဦးကိုတွေ့ 85,000 အမေရိကန်ပေဂျာနှင့်ဒီကနေအလိုအလြောကျမှတျတမျးတငျထားမက်ဆေ့ခ်ျတာအသေးစိတ် timescale အပေါ်စိတ်ခံစားမှုတုန့်ပြန်လေ့လာသုတေသီ enabled ။ နောက်ကျောနှင့်လုပ်ဖော်ကိုင်ဘက်များ (1) ဝမ်းနည်းမှု (ဥပမာ, ဟစျကျွော, ဝမ်းနည်းခြင်း), (2) စိုးရိမ်ပူပန်မှု (ဥပမာ, ဆက်စပ်သောစကားလုံးများ၏ရာခိုင်နှုန်းအားဖြင့်ပေဂျာမက်ဆေ့ခ်ျ၏စိတ်ခံစားမှုအကြောင်းအရာ coding အားဖြင့်စက်တင်ဘာလ 11 တစ်မိနစ်-by-​​မိနစ်စိတ်ခံစားမှုအချိန်ဇယားဖန်တီး , စိုးရိမ်နေကြ) ၌လည်းကြောက်မက်ဘွယ်သော, နှင့် (3) အမျက်ဒေါသ (ဥပမာ, အမုန်း, ဝေဖန်) ။ သူတို့ကဝမ်းနည်းမှုနှင့်စိုးရိမ်ပူပန်မှုအားကြီးသောပုံစံမပါဘဲသောနေ့ရက်ကာလကိုတစ်လျှောက်လုံးမြန်သည်ကိုတွေ့ရှိပေမယ့်နေ့ကိုတလျှောက်လုံးအမျက်ဒေါသအတွက်ဒီကဗျာတိုးလာရှိကွောငျး။ ဒီသုတေသနကိုဒေတာသတင်းရပ်ကွက်အမြဲ-on ရဲ့အာဏာကိုတစ်ဦးအံ့သြဖွယ်ပုံဥပမာကိုဖြစ်ဟန်: စံနည်းလမ်းများသုံးပြီးကမျှော်လင့်မထားတဲ့အဖြစ်အပျက်မှချက်ချင်းတုန့်ပြန်၏ထိုကဲ့သို့သော high-resolution ကိုအချိန်ဇယားရှိသည်ဖို့မဖြစ်နိုင်ဘူးလိမ့်မည်။

ရုံတစျနှစျနောကျပိုငျးတှငျ, သို့သော်, စင်သီယာ Pury (2011) ကိုပိုမိုဂရုတစိုက် data တွေကိုကြည့်ရှု။ သူမသည်နေလည်းအမျက်ထွက်မက်ဆေ့ခ်ျ၏ကြီးမားသောအရေအတွက်တစ်ခုတည်းပေဂျာများကနေထုတ်လုပ်လိုက်တဲ့ထိုသူအပေါင်းတို့သည်တူညီခဲ့ကြသည်ကြောင်းရှာဖွေတွေ့ရှိခဲ့သည်။ ဒီနေရာမှာသူတို့အနေလည်းအမျက်ထွက်မက်ဆေ့ခ်ျကပြောကြားခဲ့သည်ယျ:

"Reboot NT စက် [အမည်] ကက်ဘိနက်ထဲမှာ [အမည်] [တည်နေရာ] မှာ: ဝေဖန်မှုများ: [နေ့စွဲနှင့်အချိန်]"

သူတို့ယေဘုယျအားဖြင့်အမျက်ဒေါသညွှန်ပြပေမယ့်ဒီအမှု၌မစေခြင်းငှါအရာစကားလုံး "ဝေဖန်မှု" ထည့်သွင်းသောကွောငျ့ဤအမက်ဆေ့ခ်ျအမျက်ထွက်တံဆိပ်ကပ်ခဲ့သည်။ ဒီတစ်ခုတည်း automated ပေဂျာကနေထုတ်လုပ်လိုက်တဲ့မက်ဆေ့ခ်ျကိုဖယ်ရှားခြင်းလုံးဝနေ့၏သင်တန်းကိုကျော်အမျက်ဒေါသအတွက်သိသာတိုး (ပုံ 2.2) ရှင်းလင်းစေပါတယ်။ တစ်နည်းဆိုရသော်အတွက်အဓိကရလဒ် Back, Küfner, and Egloff (2010) တစ်ပေဂျာတစ်ဦးရှေးဟောင်းပစ္စည်းခဲ့သည်။ ဒီဥပမာသရုပ်ဖော်အဖြစ်, အတော်လေးရှုပ်ထွေးပြီးရှုပ်ထွေးအချက်အလက်များ၏အတော်လေးရိုးရှင်းတဲ့ခွဲခြမ်းစိတ်ဖြာအလေးအနက်မှားသွားကြဖို့အလားအလာရှိပါတယ်။

(; Pur​​y 2011 ခုနှစ်, Back ကို, Küfnerနှင့် Egloff 2011 ခုနှစ်သို့ပြန်သွားရန်, Küfnerနှင့် Egloff 2010) 85,000 အမေရိကန်ပေဂျာအပေါ်အခြေခံပြီးစက်တင်ဘာလ 11, 2001 ခုနှစ်၏သင်တန်းကျော်အမျက်ဒေါသအတွက်ခန့်မှန်းခေတ်ရေစီးကြောင်း: 2.2 ပုံ။ မူလက, Back Küfnerနှင့် Egloff (2010) သောနေ့ရက်ကာလကိုတစ်လျှောက်လုံးအမျက်ဒေါသတိုးပွားလာတဲ့ပုံစံကဖော်ပြခဲ့သည်။ ဝေဖန်မှု: [နေ့စွဲနှင့်အချိန်] [တည်နေရာ] မှာကက်ဘိနက်ထဲမှာ Reboot NT စက် [အမည်] [အမည်]: သို့သော်လည်းဤသရုပ်အမျက်ထွက်မက်ဆေ့ခ်ျ၏အများဆုံးအကြိမ်ကြိမ်အောက်ပါသတင်းစကားကိုထွက်စေလွှတ်တော်မူသောတစ်ခုတည်းပေဂျာအားဖြင့်ထုတ်ပေးခဲ့ကြသည်။ ဤသတင်းစကားကိုဖယ်ရှားနှင့်အတူ, အမျက်ဒေါသအတွက်သိသာတိုး (Pury 2011 ခုနှစ်, Back နဲ့Küfnerနှင့် Egloff 2011) ပျောက်ကွယ်သွားခြင်းဖြစ်ပါတယ်။ ဒီကိန်းဂဏန်း Pury အတွက်ပုံ 1B (2011) ၏မျိုးပွားဖြစ်ပါတယ်။

85,000 အမေရိကန်ပေဂျာအပေါ်အခြေခံပြီးစက်တင်ဘာလ 11, 2001 ခုနှစ်၏သင်တန်းကျော်အမျက်ဒေါသအတွက်ခန့်မှန်းခေတ်ရေစီးကြောင်း: 2.2 ပုံ (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) ။ မူလက, Back, Küfner, and Egloff (2010) သောနေ့ရက်ကာလကိုတစ်လျှောက်လုံးအမျက်ဒေါသတိုးပွားလာတဲ့ပုံစံကဖော်ပြခဲ့သည်။ "ဝန်ကြီးအဖွဲ့အတွင်းပြန်ဖွင့ NT စက် [အမည်] [အမည်] [တည်နေရာ] မှာ: ဝေဖန်မှုများ: [နေ့စွဲနှင့်အချိန်]" သို့သော်လည်းဤသရုပ်အမျက်ထွက်မက်ဆေ့ခ်ျ၏အများဆုံးအကြိမ်ကြိမ်အောက်ပါသတင်းစကားကိုထွက်စေလွှတ်တော်မူသောတစ်ခုတည်းပေဂျာအားဖြင့်ထုတ်ပေးခဲ့ကြသည်။ ဤသတင်းစကားကိုဖယ်ရှားနှင့်အတူ, အမျက်ဒေါသအတွက်သိသာတိုးပျောက်ကွယ်သွား (Pury 2011; Back, Küfner, and Egloff 2011) ။ ဤသည်ကိုပုံပုံ 1B တစ်မျိုးပွားဖြစ်ပါတယ် Pury (2011)

တဦးတည်းဆူညံထံမှအဖြစ်သတိလစ်-ထိုကဲ့သို့သောနေသူများကဖန်တီးသောအညစ်ပတ်ပေရေဒေတာတစ်ခုဖြစ်နိုင်သလိုသတိထားသုတေသီများကတွေ့ရှိပေဂျာ-နိုင်ပါတယ်နေစဉ်, ရည်ရွယ်ချက်ရှိရှိ Spam တွေကိုဆွဲဆောင်သောသူအချို့အွန်လိုင်းစနစ်များလည်းရှိပါသည်။ ဤရွေ့ကား Spam တွေကိုတက်တက်ကြွကြွအတုဒေတာ generate နှင့်-မကြာခဏဖုံးကွယ်သူတို့၏ spam ဖြန်စောင့်ရှောက်ဖို့အလွန်ခဲယဉ်းအမြတ်-အလုပ်အားဖြင့်လှုံ့ဆော်။ ဥပမာအားဖြင့်, Twitter တွင်နိုင်ငံရေးအရလှုပ်ရှားမှုအချို့နိုင်ငံရေးအရအကြောင်းတရားများရည်ရွယ်ချက်ရှိရှိသူတို့အမှန်တကယ်ထက်ပိုပြီးလူကြိုက်များကြည့်ဖို့လုပ်နေကြတယ်မထွက်ရအနည်းဆုံးအချို့ဖြစ်နိုင်သလိုခေတ်မီဆန်းပြားကို spam, ပါဝင်ဟန်များမှာ (Ratkiewicz et al. 2011) ။ ရည်ရွယ်ချက်ရှိရှိ spam များကိုဆံ့သောငှါဒေတာနဲ့အလုပ်လုပ်သုတေသီများကသူတို့ရှာဖွေတွေ့ရှိနှင့်သက်ဆိုင်ရာ spam များကိုဖယ်ရှားပစ်ကြပြီသူတို့ရဲ့ပရိသတ်ကိုနားချဖို့ဆိုတာများ၏စိန်ခေါ်မှုနှင့်ရင်ဆိုင်ရ။

နောက်ဆုံးတွင်အဘယ်ညစ်ပတ်ပေရေဒေတာစဉ်းစားသည်သင်တို့၏သုတေသနမေးခွန်းများအပေါ်သိမ်မွေ့နည်းလမ်းများအတွက်မှီခိုနိုင်ပါတယ်။ ဥပမာအားဖြင့်, ဝီကီပီးဒီးယားဖို့အများကြီးတည်းဖြတ်အလိုအလျောက် bot တွေဟာအသုံးပြုနေသူများကဖန်တီးနေကြတယ် (Geiger 2014) ။ သငျသညျဝီကီပီးဒီးယား၏ဂေဟဗေဒကိုစိတ်ဝင်စားလျှင်, ဤ bot တွေဟာအရေးကြီးလှသည်။ သငျသညျလူသားမြားကိုဝီကီပီးဒီးယားအထောက်အကူပြုဘယ်လောက်စိတ်ဝင်စားလျှင်မူကား, ဤ bot တွေဟာအားဖြင့်ဖန်ဆင်းသည်ဤတည်းဖြတ်ဖယ်ထုတ်လိုက်ရပါမည်။

ညစ်ပတ်ပေရေဒေတာများကအရူးလုပ်ခံရရှောင်ရှားဖို့အကောင်းဆုံးနည်းလမ်းများသင့်ရဲ့ဒေတာကိုဒီလိုရိုးရှင်းတဲ့ကြဲဖြန့်ကွက်အောင်အဖြစ်, ရိုးရှင်းတဲ့ရေနံဓါတ်ငွေ့ရှာဖွေရေးခွဲခြမ်းစိတ်ဖြာဖျော်ဖြေဖို့ဖန်တီးခဲ့ကြပုံကိုနားလည်သဘောပေါက်ရန်ဖြစ်ပါသည်။