2.3.9 Dirty

ကြီးမားတဲ့ data တွေကိုသတင်းရပ်ကွက် junk နှင့် spam များကိုတင်ဆောင်နိုင်ပါသည်။

တချို့ကသုတေသီများကြောင်းကြီးတွေဒေတာအရင်းအမြစ်, အထူးသဖြင့်အွန်လိုင်းအရင်းအမြစ်များကိုယုံကြည်သူတို့အလိုအလျှောက်စုဆောင်းကြောင့်, သဘာဝဖြစ်ကြသည်။ တကယ်တော့ကြီးမားတဲ့ data တွေကိုသတင်းရင်းမြစ်နှင့်အတူအလုပ်လုပ်ခဲ့ကြသူတွေကိုသူတို့ကမကြာခဏညစ်ပတ်နေကြသည်ကိုငါသိ၏။ သောသူတို့သည်မကြာခဏသုတေသီများမှအကျိုးစီးပွားအစစ်အမှန်လုပ်ရပ်တွေကိုပြန်ပါလာမည်မဟုတ်ကြဘူးကြောင်းဒေတာများပါဝင်သည်ဖြစ်ပါသည်။ အများစုမှာလူမှုရေးသိပ္ပံပညာရှင်များပြီးသားအကြီးစားလူမှုရေးစစ်တမ်း data တွေကိုသန့်ရှင်းရေး၏ဖြစ်စဉ်ကိုအကျွမ်းတဝင်ရှိပါတယ်, ဒါပေမယ့်ကြီးမားတဲ့ data တွေကိုသတင်းရင်းမြစ်သန့်ရှင်းရေးကိုပိုမိုခက်ခဲဖြစ်ဟန်ရှိသည်။ ငါသည်ဤအခက်အခဲများ၏အန္တိမအရင်းအမြစ်သည်ဤကြီးမားသောဒေတာအရင်းအမြစ်များစွာကိုသုတေသနအတွက်အသုံးပြုခံရဖို့ရည်ရွယ်ဘယ်တော့မှခဲ့ကြသည်, ဒါကြောင့်သူတို့စုဆောင်းကြသည်မဟုတ်, သိမ်းဆည်းထားများနှင့်ဒေတာများသန့်ရှင်းရေးနိုင်အောင်စီစဉ်ပေးထားတယ်တဲ့လမ်းအတွက်မှတ်တမ်းတင်ကြောင်းထင်ပါတယ်။

ညစ်ပတ်ပေရေဒစ်ဂျစ်တယ်သဲလွန်စအချက်အလက်များ၏အန္တရာယ်များသို့ပြန်သွားရန်နှင့်လုပ်ဖော်ကိုင်ဖက်များက '' အားဖြင့်သရုပ်ဖော်ကြသည် (2010) ကျွန်မခေတ္တအစောပိုင်းကအခန်းတွင်ဖော်ပြထားသောအရာစက်တင်ဘာလ 11, 2001 များ၏တိုက်ခိုက်မှုမှစိတ်ပိုင်းဆိုင်ရာတုံ့ပြန်မှု၏လေ့လာမှု။ သုတေသီများပုံမှန်အားဖြင့်ပင်လ, နှစ်ကျော်စုဆောင်းနောက်ကြောင်းပြန် data တွေကိုသုံးပြီးကြေကွဲဖွယ်ဖြစ်ရပ်များဖို့တုန့်ပြန်လေ့လာ။ ဒါပေမယ့်ပြန်သွားရန်နှင့်လုပ်ဖော်ကိုင်ဖက်များကဒစ်ဂျစ်တယ်ခြေရာတွေ-The TIMESTAMP တစ်ခုအမြဲ-အပေါ်အရင်းအမြစ်တွေ့ 85,000 အမေရိကန်ပေဂျာနှင့်ဒီကနေအလိုအလျှောက်မှတ်တမ်းတင်ထားသောမက်ဆေ့ခ်ျတာအသေးစိတ် timescale အပေါ်စိတ်ခံစားမှုတုံ့ပြန်မှုလေ့လာဖို့သူတို့ကို enabled ။ သူတို့ (2) စိုးရိမ်ပူပန် (, (1) ဝမ်းနည်းမှု (ဥပမာ, "ငို" နှင့် "ဝမ်းနည်းခြင်း") နှင့်ဆက်စပ်သောစကားလုံးများ၏ရာခိုင်နှုန်းအားဖြင့်ပေဂျာမက်ဆေ့ခ်ျ၏စိတ်ခံစားမှုအကြောင်းအရာ coding များကစက်တင်ဘာ 11 ရက်တစ်မိနစ်-by-မိနစ်စိတ်ခံစားမှုအချိန်ဇယား created ဥပမာ, "စိုးရိမ်" နှင့် "ကြောက်") နှင့် (3) အမျက်ဒေါသ (ဥပမာ, "အမုန်း" နှင့် "ဝေဖန်") ။ သူတို့ကဝမ်းနည်းမှုနှင့်စိုးရိမ်ပူပန်မှုအားကြီးသောပုံစံမပါဘဲတစ်နေ့တစ်လျှောက်လုံးမြန်ကြောင်းတွေ့ရှိရပေမယ့်တစ်နေ့တစ်လျှောက်လုံးအမျက်ဒေါသအတွက်ဒီကဗျာတိုးရှိကွောငျး။ ဒါဟာသုတေသနဒေတာသတင်းရင်းမြစ်အမြဲ-on ရဲ့အာဏာကိုတစ်ဦးအံ့သြစရာပုံဥပမာကိုဖြစ်ဟန်: ရိုးရာဒေတာသတင်းရင်းမြစ်ကိုအသုံးပြုခဲ့လျှင်, မမျှော်လင့်တဲ့အဖြစ်အပျက်မှချက်ချင်းတုန့်ပြန်၏ထိုကဲ့သို့သော high-resolution ကိုအချိန်ဇယားရရှိရန်မဖြစ်နိုင်ကြပြီ။

ရုံတစ်နှစ်အကြာတွင်သို့သော်စင်သီယာ Pury (2011) ကိုပိုမိုဂရုတစိုက် data တွေကိုကြည့်ရှု။ သူမသည်ပါမယ်ဒေါသထွက်နေတဲ့မက်ဆေ့ခ်ျ၏ကြီးမားသောအရေအတွက်ကတစ်ခုတည်းပေဂျာများကနေထုတ်လုပ်လိုက်တဲ့ထိုသူအပေါင်းတို့သည်တူညီခဲ့ကြသည်ခဲ့ရှာဖွေတွေ့ရှိခဲ့သည်။ ဤတွင်သူတို့အားပါမယ်ဒေါသထွက်နေတဲ့မက်ဆေ့ခ်ျကဆိုပါတယ်ဘာလဲ:

"Reboot NT စက် [အမည်] ကက်ဘိနက်ထဲမှာ [အမည်] [တည်နေရာ] မှာ: ဝေဖန်မှုများ: [နေ့စွဲနှင့်အချိန်]"

သူတို့ယေဘုယျအားဖြင့်အမျက်တော်ကိုညွှန်ပြပေမယ့်ဒီအမှု၌မစခွေငျးငှါသောစကားလုံး "ဝေဖန်မှု" ပါဝင်သည်ကြောင့်ဤမက်ဆေ့ခ်ျအမျက်ထွက်တံဆိပ်ကပ်ခဲ့သည်။ ဒီတစ်ခုတည်း automated ပေဂျာကနေထုတ်လုပ်လိုက်တဲ့မက်ဆေ့ခ်ျကိုဖယ်ရှားခြင်းလုံးဝနေ့၏သင်တန်းကျော်အမျက်ဒေါသအတွက်သိသာတိုး (ပုံ 2.4) ရှင်းလင်းစေပါတယ်။ တစ်နည်းအတွက်အဓိကရလဒ် Back, Küfner, and Egloff (2010) တဦးတည်းပေဂျာတစ်ဦးရှေးဟောင်းပစ္စည်းဖြစ်ခဲ့သည်။ ဒီဥပမာသရုပ်ဖော်အဖြစ်, အတော်လေးရှုပ်ထွေးပြီးရှုပ်ထွေးအချက်အလက်များ၏အတော်လေးရိုးရှင်းတဲ့ခွဲခြမ်းစိတ်ဖြာအလေးအနက်ထားတာမှားသွားကြဖို့အလားအလာရှိပါတယ်။

85,000 အမေရိကန်ပေဂျာ (; Pury 2011 ခုနှစ်သို့ပြန်သွားရန်, Küfnerနှင့် Egloff 2010, 2011) အပေါ်အခြေခံပြီးစက်တင်ဘာလ 11, 2001 ၏သင်တန်းကျော်အမျက် ထွက်. ခန့်မှန်းခေတ်ရေစီးကြောင်း: 2.4 ပုံ။ မူလက, Back Küfnerနှင့် Egloff (2010) နေ့ကိုတလျှောက်လုံးအမျက်ဒေါသတိုးပွားလာတဲ့ပုံစံကဖော်ပြခဲ့သည်။ ဝေဖန်မှု: [နေ့စွဲနှင့်အချိန်] [တည်နေရာ] မှာဝန်ကြီးအဖွဲ့အတွင်းပြန်ဖွင့ NT စက် [အမည်] [အမည်]: သို့သော်လည်းဤပုံအမျက်ထွက်မက်ဆေ့ခ်ျများအများစုထပ်တလဲလဲအောက်ပါမက်ဆေ့ခ်ျကိုထွက်စေလွှတ်တော်မူသောတစ်ခုတည်းပေဂျာများကနေထုတ်လုပ်လိုက်တဲ့ခဲ့ကြသည်။ ဤသတင်းစကားကိုဖယ်ရှားနှင့်အတူ, အမျက်ဒေါသအတွက်သိသာတိုး (Pury 2011 ခုနှစ်, Back နဲ့Küfnerနှင့် Egloff 2011) ပျောက်သွားမှာ။ Pury (2011), ပုံ 1B ကနေအဆင်ပြေအောင်။

85,000 အမေရိကန်ပေဂျာအပေါ်အခြေခံပြီးစက်တင်ဘာလ 11, 2001 ၏သင်တန်းကျော်အမျက် ထွက်. ခန့်မှန်းခေတ်ရေစီးကြောင်း: 2.4 ပုံ (Back, Küfner, and Egloff 2010, 2011; Pury 2011) ။ မူလက, Back, Küfner, and Egloff (2010) နေ့ကိုတလျှောက်လုံးအမျက်ဒေါသတိုးပွားလာတဲ့ပုံစံကဖော်ပြခဲ့သည်။ "ဝန်ကြီးအဖွဲ့အတွင်းပြန်ဖွင့ NT စက် [အမည်] [အမည်] [တည်နေရာ] မှာ: ဝေဖန်မှုများ: [နေ့စွဲနှင့်အချိန်]" သို့သော်ဤပုံအမျက်ထွက်မက်ဆေ့ခ်ျများအများစုထပ်တလဲလဲအောက်ပါမက်ဆေ့ခ်ျကိုထွက်စေလွှတ်တော်မူသောတစ်ခုတည်းပေဂျာများကနေထုတ်လုပ်လိုက်တဲ့ခဲ့ကြသည်။ ဤသတင်းစကားကိုဖယ်ရှားနှင့်အတူ, အမျက်ဒေါသအတွက်သိသာတိုးပျောက်ကွယ်သွား (Pury 2011; Back, Küfner, and Egloff 2011) ။ ကနေအဆင်ပြေအောင် Pury (2011) , ပုံ 1B ။

တဦးတည်းဆူညံနေအဖြစ်သတိလစ်-ထိုကဲ့သို့သောနေသူများကဖန်တီးသောအညစ်ပတ်ဒေတာတစ်ခုကျိုးကြောင်းဆီလျော်သတိထားသုတေသီများကတွေ့ရှိပေဂျာ-နိုင်ပါတယ်နေစဉ်, ရည်ရွယ်ချက်ရှိရှိ Spam တွေကိုဆွဲဆောင်အချို့အွန်လိုင်းစနစ်များလည်းရှိပါသည်။ ဤရွေ့ကား Spam တွေကိုတက်တက်ကြွကြွအတုဒေတာ generate နှင့်-မကြာခဏဖုံးကွယ်သူတို့ရဲ့ spam ဖြန်စောင့်ရှောက်ဖို့အလွန်ခဲယဉ်းအမြတ်-အလုပ်အားဖြင့်လှုံ့ဆော်။ ဥပမာအားဖြင့်, Twitter တွင်နိုင်ငံရေးလှုပ်ရှားမှုများအချို့သောနိုင်ငံရေးအကြောင်းတရားများရည်ရွယ်ချက်ရှိရှိသူတို့တကယ်ရှိပါတယ်ထက်ပိုပြီးလူကြိုက်များကြည့်ဖို့လုပ်နေကြတယ်မထွက်ရကအနည်းဆုံးအချို့ကျိုးကြောင်းဆီလျော်ခေတ်မီဆန်းပြားကိုစပမ်, ပါဝင်သည်ဟန် (Ratkiewicz et al. 2011) ။ ကံမကောင်းစွာပဲ, ဒီရည်ရွယ်ချက်ရှိရှိ spam များကိုဖယ်ရှားခြင်းအတော်လေးခက်ခဲနိုင်ပါတယ်။

၏သင်တန်းသောအရာကိုညစ်ပတ် data တွေကိုသုတေသနဆိုတဲ့မေးခွန်းကိုပေါ်တစ်စိတ်တစ်ပိုင်းထဲမှာမူတည်နိုင်ပါတယ်စဉ်းစားသည်။ ဥပမာအားဖြင့်, ဝီကီပီးဒီးယားဖို့အများကြီးတည်းဖြတ်အလိုအလျောက် bot တွေဟာအသုံးပြုနေသူများကဖန်တီးနေကြသည် (Geiger 2014) ။ သငျသညျဝီကီပီးဒီးယား၏ဂေဟဗေဒကိုစိတ်ဝင်စားနေကြသည်လျှင်, ထိုအ bot ဖန်တီးတည်းဖြတ်အရေးကြီးလှသည်။ သငျသညျလူသားမြားသဝီကီပီးဒီးယားအထောက်အကူပြုဘယ်လောက်စိတ်ဝင်စားလျှင်မူကား, ထို့နောက် bot ဖန်တီးတည်းဖြတ်ဖယ်ထုတ်လိုက်ရပါမည်။

သင်သည်သင်၏ညစ်ပတ် data တွေကိုလုံလုံလောက်လောက်သန့်ရှင်းကြပြီသေချာနိုင်သည်ကိုအဘယ်သူမျှမတစ်ခုတည်းစာရင်းအင်း technique ကိုသို့မဟုတ်ချဉ်းကပ်မှုရှိပါသည်။ အဆုံးမှာတော့ကျွန်မညစ်ပတ်ဒေတာများကအရူးလုပ်ခံရခြင်းကိုရှောင်ကြဉ်ဖို့အကောင်းဆုံးနည်းလမ်းတစ်ခုသင့်ရဲ့ဒေတာကိုဖန်ဆင်းခဲ့ကြပုံကိုအကြောင်းကိုတတ်နိုင်သမျှနားလည်ရန်ဖြစ်ပါသည်ထင်ပါတယ်။