2.3.2.6 කුනු

බිග් දත්ත මූලාශ්රයන් නිසරු හා ස්පෑම් භාවිතයට යොදා ගත හැකිය.

ඔවුන් ස්වයංක්රීයවම එකතු කරන නිසා සමහර පර්යේෂකයන් විශ්වාස කරන බව විශාල දත්ත මූලාශ්රයන්, විශේෂයෙන් සමඟ අමුත්තන් මූලාශ්ර වලින් අය, අතරට එක්වූ දකුණු ලක අගනගරය වේ. ඇත්ත වශයෙන්ම, ඔවුන් නිතර අපිරිසිදු බව මහා දත්ත මූලාශ්රයන් සමඟ වැඩ කර ඇත ජනතාව දන්නවා. ඔවුන් නිතර නිතර පර්යේෂකයන් මූර්ත පොලී ක්රියා පිළිබිඹු නොකරන බව දත්ත ඇතුළත් වේ. බොහෝ සමාජ විද්යාඥයින් දැනටමත් මහා පරිමාණ සමාජ සමීක්ෂණ දත්ත පිරිසිදු කිරීමේ ක්රියාවලිය හුරු පුරුදු, නමුත් විශාල දත්ත මූලාශ්රයන් පිරිසිදු හේතු දෙකක් වඩාත් අපහසු වන්නේ: 1) ඔවුන් පර්යේෂකයන් සහ 2 සඳහා පර්යේෂකයන් විසින් නිර්මාණය නැත) පර්යේෂකයන් සාමාන්යයෙන් ආකාරය අඩු අවබෝධයක් ඔවුන් නිර්මාණය කරන ලදී.

අපිරිසිදු ඩිජිටල් හෝඩුවාවක් දත්ත ආපසු සහ සගයන් 'විසින් පැහැදිලි කිරීම සිදු වේ අනතුරු (2010) සැප්තැම්බර් 11 ප්රහාර හැඟීම්බර ප්රතිචාර අධ්යයනය, පර්යේෂකයන් 2001 සාමාන්යයෙන් පවා මාස හෝ වසර ගණනාවක් පුරා එකතු නෙත් යොමා බලන දත්ත භාවිතා ඛේදජනක සිද්ධීන් ප්රතිචාරය හදාරන. එහෙත්, ආපසු සහ සගයන් ඩිජිටල් අංශු මාත්ර වන timestamped ප්රභවය සෑම විටම-මත සොයා, .85,000 ඇමරිකානු පේජර්-සහ මෙම ඉබේම වාර්තා පණිවුඩ වඩා හොඳ මඟින්ද අවධාරණය මත මානසික ප්රතිචාරය අධ්යයනය කිරීම සඳහා පර්යේෂකයන් හැකි වුණා. ආපසු සහ සගයන් (1) දුක (උදා, හැඬීම, දුක), (2) කාංසාව (උදා, අදාළ වචන ප්රතිශතය විසින් පේජරය පණිවිඩ මානසික අන්තර්ගතයට කේතනය සැප්තැම්බර් මස 11 වෙනි දින විනාඩියක්-විසින්-විනාඩි මානසික කාල සටහනකට නිර්මාණය කනස්සල්ලට, බිය), සහ (3) වන කෝපය (උදා, වෛරය, විවේචනාත්මක). ඔවුන් දුක හා කාංසාව ප්රබල රටාව තොරව දවස පුරා උච්ඡාවචනය බව සොයා, නමුත් දවස පුරා කෝපයෙන් කැපී පෙනෙන වර්ධනයක් පවතින බව. එය අනපේක්ෂිත සිදුවීමක් වහාම ප්රතිචාර එවැනි ඉහළ-විභේදන කාල සටහනකට කිරීමට නොහැකි වනු ඇත ක්රමවේද භාවිතා: මෙම පර්යේෂණ දත්ත ආරංචි මාර්ග සැමවිටම මත බලය පුදුමාකාර උපමාව බව පෙනේ.

එක් වසරකට පසු, කෙසේ වෙතත්, සින්තියා Pury (2011) දත්ත දී වඩා හොඳින් බැලුවා. ඇය කෝපයෙන් සිටින යයි කියන පණිවිඩ විශාල ගණනක් තනි පේජරය විසින් ජනනය කරන ලද අතර ඔවුන් සියලු සමාන බව සොයා ගන්නා ලදී. මෙන්න අයට තරහ යයි කියන පණිවිඩ කිව්වේ:

"නැවත ආරම්භ NT යන්ත්රය [නම] කැබිනට් [නම] [ස්ථානයේ] දී: විවේචනාත්මක: [දිනය හා වේලාව]"

සාමාන්යයෙන් ඒවා කෝපය පෙන්නුම් නමුත් මෙම නඩුවේ නැත ඉඩ ඇති "විවේචනාත්මක" යන වචනය ඇතුළත් නිසා මෙම පණිවිඩ තරහ ලේබල් කරන ලදී. මේ එකම ස්වයංක්රීය පේජරය විසින් ජනනය කරන ලද පණිවුඩ ඉවත් කිරීම සම්පූර්ණයෙන්ම දවසේ පාඨමාලාව කෝපය දී පැහැදිලි වර්ධනයක් (රූපය 2.2) ඉවත්වේ. වෙනත් වචන වලින් කිවහොත්, ප්රධාන ප්රතිඵලයක් Back, Küfner, and Egloff (2010) එක් පේජරය ක පුරාවස්තුවක් විය. මෙම උදාහරණය පෙන්නුම් ලෙස, සාපේක්ෂ ලෙස සංකීර්ණ සහ ව්යාකූල දත්ත සාපේක්ෂව සරල විශ්ලේෂණයක් බරපතල වැරදි යන්න ගැනීමට හැකියාවක් පවතිනවා.

Figure 2.2: ඇස්තමේන්තුගත ඇමරිකානු පේජර් .85,000 මත පදනම්ව, 2001 සැප්තැම්බර් 11 ක් පුරා කෝපය ප්රවණතා (ආපසු, කුෆ්නර්, සහ Egloff 2010; Pury 2011; ආපසු, කුෆ්නර්, සහ Egloff 2011). ආරම්භයේදීම, ආපසු, කුෆ්නර්, සහ Egloff (2010) දවස පුරා ම කෝපය වැඩි වන රටාවක් වාර්තා කර ඇත. විවේචනාත්මක:: [දිනය හා වේලාව] [ස්ථානයේ] දී [නම] කැබිනට් නැවත ආරම්භ NT යන්ත්රය [නම]: කෙසේ වෙතත්, නැවත නැවතත් පහත සඳහන් පණිවුඩය යවා ඇති තනි පේජරය මගින් මෙම පැහැදිලි තරහ පණිවුඩ බොහෝ ජනනය කරන ලදී. මෙම පණිවිඩය ඉවත් සමග, කෝපය දී පැහැදිලි වර්ධනයක් අතුරුදහන් (2011 Pury; ආපසු, කුෆ්නර්, සහ Egloff 2011). මෙම සංඛ්යාව Pury දී පය 1B (2011) ක ප්රති නිෂ්පාදනයක් වේ.

Figure 2.2: ඇස්තමේන්තුගත ඇමරිකානු පේජර් .85,000 මත පදනම්ව, 2001 සැප්තැම්බර් 11 ක් පුරා කෝපය ප්රවණතා (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . ආරම්භයේදීම, Back, Küfner, and Egloff (2010) දවස පුරා ම කෝපය වැඩි වන රටාවක් වාර්තා කර ඇත. "කැබිනට් මණ්ඩලයේ නැවත ආරම්භ NT යන්ත්රය [නම] [නම] [ස්ථානයේ] දී:: විවේචනාත්මක: [දිනය හා වේලාව]" කෙසේ වෙතත්, මෙම පැහැදිලි තරහ පණිවිඩ වඩාත් නැවත නැවතත් පහත සඳහන් පණිවුඩය යවා ඇති තනි පේජරය විසින් ජනනය කරන ලදී. මෙම පණිවිඩය ඉවත් සමග, කෝපය දී පැහැදිලි වර්ධනයක් අතුරුදහන් (Pury 2011; Back, Küfner, and Egloff 2011) . මෙම සංඛ්යාවේ පය 1B ක ප්රති නිෂ්පාදනයක් වන Pury (2011) .

එක් ඝෝෂාකාරී සිට නොසිතාම-එවැනි නිර්මාණය කිරීමයි අපිරිසිදු දත්ත සෑහෙන පරිස්සම් පර්යේෂකයෙකු විසින් හඳුනා ගත පේජරය-කළ හැකි අතර, ද මතා spammers ආකර්ෂණය බව සමහර සමඟ අමුත්තන් පද්ධති තිබෙනවා. මෙම spammers ක්රියාකාරීව ව්යාජ දත්ත නිර්මාණය, සහ-බොහෝ විට සැගවී ඔවුන්ගේ ස්පෑම් තබා ගැනීමට ඉතා දුෂ්කර ලාභ වැඩ පෙලඹී. උදාහරණයක් ලෙස, Twitter මත දේශපාලන ක්රියාකාරකම් සමහර දේශපාලන හේතු හිතාමතාම ඔවුන් සැබෑ වඩා ජනප්රිය බැලීමට සිදු සේවක් අඩු තරමේ යම් සාධාරණ නවීන අයාචිත තැපැල්, ඇතුළත් කර ගැනීමට පෙනේ වේ (Ratkiewicz et al. 2011) . මතා ස්පෑම් අඩංගු විය හැකි බව දත්ත සමග වැඩ පර්යේෂකයන් ඔවුන් අනාවරණය සහ අදාළ ස්පෑම් ලෙස ඉවත් කර ඇති බව ඔවුන්ගේ ප්රේක්ෂක ඒත්තු අභියෝගය මුහුණ දීමට සිදු වේ.

අවසාන වශයෙන්, අපිරිසිදු දත්ත සැලකේ ඔබේ පර්යේෂණ ප්රශ්න මත සියුම් ක්රම රඳා හැක. උදාහරණයක් ලෙස, විකිපීඩියා, නිදහස් විශ්වකෝෂය බොහෝ සංස්කරණයන්, ස්වයංක්රීය රොබෝ විසින් නිර්මාණය කරනු (Geiger 2014) . ඔබ විකිපීඩියා, නිදහස් විශ්වකෝෂය පිළිබඳ පරිසර විද්යාව ගැන සැලකිලිමත් වන්නේ නම්, එවිට මෙම රොබෝ වැදගත් වේ. ඒත්, ඔයා මිනිසුන් විකිපීඩියා, නිදහස් විශ්වකෝෂය දායක වන ආකාරය ගැන උනන්දුවන්නේ නම්, මෙම රොබෝ විසින් කරන ලද මෙම සංස්කරණයන් බැහැර කළ යුතු ය.

අපිරිසිදු දත්ත මුලා කරමින් වැළකී සිටීමට ගත හැකි හොඳම ඔබගේ දත්ත එවැනි සරල විසිරණය ඉඩම් කට්ටි කිරීම වැනි සරල ගවේෂණ විශ්ලේෂණය සිදු කිරීමට නිර්මාණය කර අවබෝධ කර ගැනීමට ය.