2.3.9 ഡർട്ടി

ബിഗ് ഡാറ്റ ഉറവിടങ്ങളിൽ ജങ്ക് സ്പാം കയറ്റി കഴിയും.

വലിയ ഡാറ്റാ സ്രോതസ്സുകൾ, പ്രത്യേകിച്ച് ഓൺലൈൻ ഉറവിടങ്ങൾ, അവ സ്വയമേവ ശേഖരിക്കുന്നു എന്നതിനാൽ ചില ഗവേഷകർ വിശ്വസിക്കുന്നു. വാസ്തവത്തിൽ, വലിയ ഡാറ്റാ സ്രോതസ്സുകളുമായി പ്രവർത്തിച്ച ആളുകൾ പലപ്പോഴും അവർ വൃത്തികെട്ടവരാണെന്ന് അറിയാം. അതായത്, ഗവേഷകർക്ക് താൽപര്യമുള്ള യഥാർത്ഥ പ്രവർത്തനങ്ങളെ പ്രതിഫലിപ്പിക്കാത്ത ഡാറ്റ ഉൾപ്പെടുന്നു. ഭൂരിഭാഗം സാമൂഹിക ശാസ്ത്രജ്ഞന്മാരും വൻ തോതിലുള്ള സോഷ്യൽ സർവ്വെ ഡാറ്റ ക്ലീൻ ചെയ്യാനുള്ള പ്രക്രിയയെക്കുറിച്ച് മുൻകൂട്ടി അറിഞ്ഞിട്ടുണ്ട്, എന്നാൽ വലിയ ഡാറ്റാ സ്രോതസ്സുകൾ വൃത്തിയാക്കുന്നു എന്നത് കൂടുതൽ ബുദ്ധിമുട്ടുള്ളതായി തോന്നുന്നു. ഈ പ്രശ്നത്തിന്റെ ആത്യന്തിക ഉറവിടം ഗവേഷണത്തിനായി ഉപയോഗിക്കാൻ ഉദ്ദേശിച്ചവയല്ല എന്നതിനാലാണ് ഇത്രയും വലിയ ഡാറ്റ സ്രോതസ്സുകൾ ഉണ്ടാക്കിയത്, അതിനാൽ അവർ ശേഖരിക്കുന്നതും സൂക്ഷിക്കപ്പെടുന്നതും രേഖപ്പെടുത്താൻ തയ്യാറാകുന്നതുമായ വിവരങ്ങളില്ല.

വൃത്തികെട്ട ഡിജിറ്റൽ ട്രെയ്സ് ഡേറ്റയുടെ അപകടങ്ങളെക്കുറിച്ച് ബാക്ക് ആൻഡ് സഹകാരികളുടെ (2010) വിവരണങ്ങൾ വ്യക്തമാക്കുന്നു. 2001 സെപ്റ്റംബർ 11 ആക്രമണത്തെക്കുറിച്ചുള്ള വികാരപരമായ പ്രതികരണം, അത് ഞാൻ നേരത്തെ പരാമർശിച്ച അധ്യായത്തിൽ പരാമർശിച്ചിരുന്നു. മാസത്തിലുടനീളം അല്ലെങ്കിൽ വർഷങ്ങൾകൊണ്ട് ശേഖരിച്ച മുൻകാലസ്വാധീനമുള്ള വിവരങ്ങൾ ഉപയോഗിച്ച് ഗവേഷകർ സാധാരണഗതിയിൽ ദുരന്ത സംഭവങ്ങളിലേക്കുള്ള പ്രതികരണങ്ങൾ പഠിക്കുന്നു. എന്നാൽ, 85,000 അമേരിക്കൻ പേജർമാരിൽ നിന്നുള്ള ടൈംസ്റ്റാമ്പഡ്, ഓട്ടോമാറ്റിക്കായി രേഖപ്പെടുത്തിയിരിക്കുന്ന സന്ദേശങ്ങൾ, എല്ലായ്പ്പോഴും ഡിജിറ്റൽ ട്രെയ്സുകളുടെ ഉറവിട സ്രോതസ്സിൽ തിരിച്ചെത്തി, സഹപ്രവർത്തകരെ കണ്ടെത്തുകയുണ്ടായി. ഇത് കൂടുതൽ മികച്ച സമയങ്ങളിൽ വൈകാരിക പ്രതികരണം പഠിക്കാൻ അവരെ പ്രാപ്തരാക്കി. (1) ദുഃഖം (ഉദാ: "കരയുന്നതും" "ദുഃഖം"), (2) ഉത്കണ്ഠ (2) ആശങ്ക ( ഉദാ: "ദുഃഖിതനും ഭയങ്കരനുമായ"), (3) കോപം (ഉദാ: "വെറുപ്പ്", "ഗുരുതരമായ"). ശക്തമായ പാറ്റേൺ ഇല്ലാതെ ദിവസം മുഴുവൻ വേദനയും ഉത്കണ്ഠയും വ്യതിചലിച്ചുവെന്ന് അവർ കണ്ടെത്തി, എന്നാൽ ദിവസം മുഴുവൻ ഉഗ്രമായ ഉഗ്രമായ വർദ്ധനവ് ഉണ്ടായി. ഈ ഗവേഷണം എല്ലായ്പ്പോഴും ഊർജ്ജസ്വലമായ ഒരു ഊർജ്ജ സ്രോതസ്സായി കണക്കാക്കപ്പെടുന്നു: പരമ്പരാഗത വിവര സ്രോതസ്സുകൾ ഉപയോഗിച്ചിട്ടുണ്ടെങ്കിൽ, അപ്രതീക്ഷിതമായ സംഭവത്തിലേക്കുള്ള അടിയന്തിര പ്രതികരണത്തിൻറെ അത്തരമൊരു ഉയർന്ന നിലവാരത്തിലുള്ള കാലഘട്ടം ലഭിക്കുക അസാധ്യമാണ്.

എന്നാൽ ഒരു വർഷം കഴിഞ്ഞ്, സിന്താരിയ പുരി (2011) കൂടുതൽ ശ്രദ്ധാപൂർവം പരിശോധിച്ചു. ഒരുപാട് പേപ്പറുകൾ ഉണ്ടെങ്കിൽ, ഒരൊറ്റ ബാജർ ഉണ്ടാക്കിയതാണെന്ന് അവർ കണ്ടെത്തി, അവ എല്ലാം ഒരേപോലെ തന്നെയായിരുന്നു. കോപാകുലരായ ആ സന്ദേശങ്ങൾ ഇങ്ങനെയാണ് പറഞ്ഞിരിക്കുന്നത്:

"റീബൂട്ട് എൻ.ടി. മെഷീൻ [പേര്] മന്ത്രിസഭയിൽ [പേര്] [ലൊക്കേഷൻ] ചെയ്തത്: ഗുരുതരമായ: [തീയതിയും സമയവും]"

ഈ സന്ദേശങ്ങൾ കോപം എന്ന് ലേബൽ ചെയ്തിരുന്നു, കാരണം അവർ "CRITICAL" എന്ന വാക്ക് ഉൾപ്പെട്ടിരുന്നു, അത് സാധാരണയായി കോപം സൂചിപ്പിക്കുമെങ്കിലും ഈ സാഹചര്യത്തിൽ. ഈ ഒറ്റ ഓട്ടോമേറ്റഡ് പേജറിലൂടെ സൃഷ്ടിക്കപ്പെടുന്ന സന്ദേശങ്ങൾ നീക്കം ചെയ്യുന്നത് ദിവസം മുഴുവൻ ക്രമാനുഗതമായ വർദ്ധനവിനെ പൂർണ്ണമായും ഇല്ലാതാക്കുന്നു (ചിത്രം 2.4). മറ്റു വാക്കുകളിൽ പറഞ്ഞാൽ, Back, Küfner, and Egloff (2010) പ്രധാന ഫലം ഒരു Back, Küfner, and Egloff (2010) ഒരു കലാരൂപമായിരുന്നു. ഈ ഉദാഹരണത്തിൽ വിവരിക്കുന്നതുപോലെ, താരതമ്യേന സങ്കീർണ്ണവും കുഴഞ്ഞുമറിഞ്ഞ ഡാറ്റയും താരതമ്യേന ലളിതമായ വിശകലനം ഗുരുതരമായ തെറ്റാകാനുള്ള സാധ്യതയുണ്ട്.

ചിത്രം 2.4: 85,000 അമേരിക്കൻ പേജർമാർ (ബാക്ക്, കുഫ്നർ, എഗ്ലോഫ് 2010, 2011, 2011, പുരി 2011) അടിസ്ഥാനമാക്കിയുള്ള 2001 സെപ്റ്റംബർ 11 കാലഘട്ടത്തിൽ നടത്തിയ ക്രോമസോം പരിക്രമണം. തുടക്കത്തിൽ, ബാക്ക്, കുഫ്നർ, എഗ്ലോഫ് (2010) ദിവസം മുഴുവൻ വർദ്ധിച്ചുവരുന്ന കോപം പ്രഖ്യാപിച്ചു. എന്നിരുന്നാലും, മിക്ക പേരുകളും ഒരേ പേജർ സൃഷ്ടിച്ചതായിരുന്നു, താഴെപ്പറയുന്ന സന്ദേശങ്ങൾ ആവർത്തിച്ചു അയച്ചത്: കാബിനറ്റിൽ [പേര്] [എൻറർ] റീബൂട്ട് എൻട്രോണിക്സ് [പേര്]: ക്രിട്ടിക്കൽ: [തീയതിയും സമയവും]. ഈ സന്ദേശം നീക്കം ചെയ്തതോടെ, കോപത്തിന്റെ വർദ്ധനവ് ക്രമേണ ഇല്ലാതായിരിക്കുന്നു (Pury 2011; Back, Küfner, Egloff 2011). പുരിയിൽ നിന്ന് മാറി (2011), ചിത്രം 1 ബി.

ചിത്രം 2.4: 85,000 അമേരിക്കൻ പേജർമാർ (Back, Küfner, and Egloff 2010, 2011; Pury 2011) അടിസ്ഥാനമാക്കിയുള്ള 2001 സെപ്റ്റംബർ 11 കാലഘട്ടത്തിൽ നടത്തിയ (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . തുടക്കത്തിൽ, Back, Küfner, and Egloff (2010) ദിവസം മുഴുവൻ വർദ്ധിച്ചുവരുന്ന കോപം പ്രഖ്യാപിച്ചു. എന്നിരുന്നാലും, മിക്ക പേരുകളും ഒരേ പേജർ സൃഷ്ടിച്ചതായിരുന്നു, തുടർന്നുവന്ന സന്ദേശം, "ക്യാബിനറ്റിൽ [പേര്] [ലൊക്കേഷനിൽ] എൻ.റ്റി. മഷീൻ [പേര്]: ഘടനാപരമായ: [തീയതിയും സമയവും]". ഈ സന്ദേശം നീക്കം ചെയ്തതോടെ, കോപത്തിന്റെ വർദ്ധനവ് ക്രമേണ ഇല്ലാതായിരിക്കുന്നു (Pury 2011; Back, Küfner, and Egloff 2011) . Pury (2011) നിന്ന് മാറി Pury (2011) , ചിത്രം 1 ബി.

മനഃപൂർവ്വം സൃഷ്ടിക്കുന്ന വൃത്തികെട്ട ഡാറ്റ, ഒരു ശബ്ദപദാർത്ഥം മുതൽ, ഒരു ശ്രദ്ധാപൂർവ്വം ശ്രദ്ധാപൂർവ്വമുള്ള ഗവേഷകൻ കണ്ടെത്തുമ്പോൾ, ഉദ്ദേശിക്കുന്ന സ്പാമർമാരെ ആകർഷിക്കുന്ന ചില ഓൺലൈൻ സംവിധാനങ്ങളും ഉണ്ട്. ഈ സ്പാമർ സജീവമായി വ്യാജ ഡാറ്റ സൃഷ്ടിക്കുകയും, പലപ്പോഴും ലാഭം സൃഷ്ടിക്കുകയും അവരുടെ സ്പാമിംഗ് മറച്ചുവെയ്ക്കാൻ വളരെ പ്രയാസമാണ്. ഉദാഹരണത്തിന്, ട്വിറ്ററിലെ രാഷ്ട്രീയ പ്രവർത്തനങ്ങൾ കുറഞ്ഞത് ചില (Ratkiewicz et al. 2011) ചെയ്ത സ്പാമുകൾ ഉൾക്കൊള്ളുന്നു, ചില രാഷ്ട്രീയ കാരണങ്ങൾ യഥാർഥത്തിൽ (Ratkiewicz et al. 2011) കൂടുതൽ (Ratkiewicz et al. 2011) . നിർഭാഗ്യവശാൽ, ഈ താൽക്കാലിക സ്പാമുകൾ നീക്കം ചെയ്യുന്നത് വളരെ പ്രയാസകരമാണ്.

തീർച്ചയായും, മോശമായ ഡാറ്റയെക്കുറിച്ച് ഗവേഷണ ചോദ്യത്തിലോ ഭാഗികമായോ ആശ്രയിക്കാൻ കഴിയും. ഉദാഹരണത്തിന്, വിക്കിപീഡിയയിലേക്കുള്ള പല എഡിറ്റുകളും ഓട്ടോമേറ്റഡ് ബോട്ടുകൾ (Geiger 2014) . താങ്കൾ വിക്കിപീഡിയയുടെ പരിസ്ഥിതിയിൽ താത്പര്യമെങ്കിൽ ഈ ബോട്ട് നിർമ്മിച്ച എഡിറ്റുകൾ പ്രധാനമാണ്. പക്ഷേ, മനുഷ്യർ വിക്കിപീഡിയയിൽ സംഭാവന ചെയ്യുന്നത് എങ്ങനെ, എങ്കിൽ ബോട്ട് സൃഷ്ടിച്ച എഡിറ്റുകൾ ഒഴിവാക്കണം.

നിങ്ങളുടെ വൃത്തികെട്ട ഡാറ്റ മതിയായ എന്ന് ഉറപ്പുവരുത്താൻ ഒരൊറ്റ സ്റ്റാറ്റിസ്റ്റിക്കൽ ടെക്നിക്കവും സമീപനവുമില്ല. അവസാനമായി, വൃത്തികെട്ട ഡാറ്റ മൂലം ഒഴിവാക്കാൻ ഏറ്റവും നല്ല മാർഗം നിങ്ങളുടെ ഡാറ്റ എങ്ങനെ സൃഷ്ടിച്ചു എന്നതിനെക്കുറിച്ച് എത്രത്തോളം മനസ്സിലാക്കാൻ കഴിയുമെന്ന് ഞാൻ കരുതുന്നു.