బిగ్ డేటా మూలాల వ్యర్థ మరియు స్పామ్ లోడ్ చేయవచ్చు.
కొంతమంది పరిశోధకులు పెద్ద సమాచార వనరులు, ముఖ్యంగా ఆన్లైన్ వనరులు, సహజంగా ఉంటాయి ఎందుకంటే వారు స్వయంచాలకంగా సేకరిస్తారు. నిజానికి, పెద్ద డేటా వనరులతో పని చేసిన వారు తరచుగా మురికివాడని తెలుసు. అంటే, పరిశోధకులకు ఆసక్తినిచ్చే నిజ చర్యలను ప్రతిబింబించే డేటాను అవి తరచూ కలిగి ఉంటాయి. చాలామంది సాంఘిక శాస్త్రవేత్తలు పెద్ద ఎత్తున సామాజిక సర్వే డేటాను శుభ్రపరిచే ప్రక్రియతో ఇప్పటికే సుపరిచితులుగా ఉన్నారు, కానీ పెద్ద సమాచార వనరులను శుభ్రం చేయడం మరింత క్లిష్టంగా ఉంది. నేను ఈ సమస్య యొక్క అంతిమ మూలం ఈ పెద్ద డేటా మూలాల యొక్క అనేక పరిశోధనల కోసం ఉద్దేశించబడలేదు, అందువలన అవి సేకరించబడవు, నిల్వ చేయబడతాయి మరియు డేటా శుభ్రపరిచే సదుపాయం కల్పించబడలేదు.
మురికి డిజిటల్ ట్రేస్ డేటా ప్రమాదాల సెప్టెంబర్ 11, 2001 దాడులకు భావోద్వేగ ప్రతిస్పందన వెనుక మరియు సహచరులు ' (2010) అధ్యయనం ద్వారా ఉదహరించారు, నేను సంక్షిప్తంగా అధ్యాయంలో పేర్కొన్న ఇది. పరిశోధకులు సాధారణంగా నెలల లేదా సంవత్సరాల్లో సేకరించిన పునరావృత్త డేటాను ఉపయోగించి విషాద సంఘటనలకు ప్రతిస్పందనను అధ్యయనం చేస్తారు. కానీ తిరిగి మరియు సహచరులు 85000 అమెరికన్ పేజర్స్ నుండి డిజిటల్ ట్రేస్ల యొక్క టైమ్స్టాంపెడ్, స్వయంచాలకంగా నమోదు చేయబడిన సందేశాల మూలాన్ని కనుగొన్నారు-మరియు ఇది వారికి మరింత మెరుగైన సమయ వ్యవధిలో భావోద్వేగ ప్రతిస్పందనను అధ్యయనం చేసేందుకు వీలు కల్పించింది. (1) బాధపడటం (ఉదా., "ఏడుపు" మరియు "దుఃఖం"), (2) ఆందోళన (2) ఆందోళన (2) ఆందోళన (పేజి సందేశాల భావోద్వేగ విషయాలు కోడింగ్ ద్వారా సెప్టెంబర్ 11 యొక్క ఒక నిమిషం- ఉదా., "భయపడి" మరియు "భయంకరమైన") మరియు (3) కోపం (ఉదా., "ద్వేషం" మరియు "క్లిష్టమైన"). వారు ధృడమైన మరియు ఆతురత ఒక బలమైన నమూనా లేకుండా రోజంతా హెచ్చుతగ్గులకు గురయ్యారు, కానీ రోజంతా కోపంతో పెరుగుతున్నది. ఈ పరిశోధన ఎల్లప్పుడూ డేటా వనరుల శక్తి యొక్క అద్భుతమైన దృష్టాంతంగా ఉంది: సాంప్రదాయిక సమాచార మూలాలను ఉపయోగించినట్లయితే, ఊహించని సంఘటనకు తక్షణ ప్రతిస్పందన యొక్క అధిక-రిజల్యూషన్ కాలపట్టిక పొందడానికి ఇది అసాధ్యంగా ఉండేది.
అయితే ఒక సంవత్సరం తరువాత, సింథియా పియర్ (2011) మరింత జాగ్రత్తగా సమాచారాన్ని చూశారు. దయ్యం కోపంతో ఉన్న సందేశాలు పెద్ద సంఖ్యలో ఒకే పేజర్ ద్వారా ఉత్పత్తి చేయబడ్డాయి మరియు అవి ఒకేలా ఉన్నాయి. ఆ దయ్యం కోపం సందేశాలు ఇలా ఉన్నాయి:
"రీబూట్ NT యంత్రం [పేరు] క్యాబినెట్కు [పేరు] [స్థానాన్ని] వద్ద: విమర్శనాత్మక: [తేదీ మరియు సమయం]"
ఈ సందేశాలు కోపంతో లేబుల్ చేయబడ్డాయి ఎందుకంటే అవి "CRITICAL" అనే పదాన్ని కలిగి ఉన్నాయి, ఇది సాధారణంగా కోపంను సూచిస్తుంది కానీ ఈ సందర్భంలో లేదు. ఈ సింగిల్ ఆటోమేటెడ్ పేజర్ ద్వారా సృష్టించబడిన సందేశాలను తీసివేయడం, రోజు మొత్తం మీద కోపంతో స్పష్టంగా పెరుగుతుంది (Figure 2.4). మరో మాటలో చెప్పాలంటే, Back, Küfner, and Egloff (2010) లలో ప్రధాన ఫలితం ఒక పేజర్ యొక్క కళాకృతి. ఈ ఉదాహరణ వివరిస్తుంది, సాపేక్షంగా సంక్లిష్టమైన మరియు దారుణమైన సమాచారం యొక్క సాపేక్షంగా సరళమైన విశ్లేషణ తీవ్రంగా తప్పు చేయగల సామర్థ్యాన్ని కలిగి ఉంటుంది.
మూర్తి 2.4: సెప్టెంబరు 11, 2001 న 85,000 అమెరికన్ పేజర్స్ (Back, Küfner, and Egloff 2010, 2011; Pury 2011) ఆధారంగా కోపంతో అంచనావేయబడిన పోకడలు. వాస్తవానికి, Back, Küfner, and Egloff (2010) రోజంతా పెరుగుతున్న కోపాన్ని Back, Küfner, and Egloff (2010) . అయినప్పటికీ, వీటిలో చాలా స్పష్టంగా కోపంతో ఉన్న సందేశాలు ఒకే పేజర్ చేత సృష్టించబడ్డాయి, ఈ క్రింది సందేశాన్ని పదే పదే పంపింది: "క్యాబినెట్ [పేరు] లో [పేరు] లో రీబూట్ NT మెషీన్ [పేరు]: క్రిటికల్: [తేదీ మరియు సమయం]". ఈ సందేశాన్ని తీసివేసినట్లయితే, కోపం యొక్క స్పష్టమైన పెరుగుదల అదృశ్యమవుతుంది (Pury 2011; Back, Küfner, and Egloff 2011) . Pury (2011) , ఫిగర్ 1b నుండి స్వీకరించబడింది.
అనుకోకుండా సృష్టించబడిన మురికి సమాచారం, ఒక ధ్వని పేజర్ నుండి-ఒక సహేతుక జాగ్రత్తగా పరిశోధకుడు గుర్తించవచ్చు, కావాలనే స్పామర్లు ఆకర్షించే కొన్ని ఆన్లైన్ వ్యవస్థలు కూడా ఉన్నాయి. ఈ స్పామర్లు నకిలీ డేటాను చురుకుగా ఉత్పత్తి చేస్తారు, మరియు తరచుగా వారి స్పామింగ్ను రహస్యంగా ఉంచడానికి లాభం-పని చాలా కష్టపడతారు. ఉదాహరణకు, ట్విట్టర్లో రాజకీయ కార్యకలాపాలు కనీసం కొంత సహేతుక అధునాతన స్పామ్ను కలిగి ఉంటాయి, అందుచేత కొన్ని రాజకీయ కారణాలు ఉద్దేశపూర్వకంగా వీటిని పోలిస్తే మరింత జనాదరణ పొందాయి (Ratkiewicz et al. 2011) . దురదృష్టవశాత్తూ, ఈ కావాలనే స్పామ్ తీసివేయడం చాలా కష్టం.
వాస్తవానికి, డర్టీ డేటా ఏమనగా, పరిశోధన ప్రశ్నపై ఆధారపడి ఉంటుంది. ఉదాహరణకు, వికీపీడియాకు అనేక సవరణలు స్వయంచాలక బాట్లను (Geiger 2014) . మీరు వికీపీడియా యొక్క ఆవరణశాస్త్రంలో ఆసక్తి కలిగి ఉంటే, ఈ బోట్ సృష్టించిన సవరణలు ముఖ్యమైనవి. కానీ మానవులు వికీపీడియాకు ఎలా దోహదపడుతున్నారో మీకు ఆసక్తి ఉంటే, బోట్ సృష్టించిన సవరణలు మినహాయించాలి.
మీరు మీ డర్ట్ డేటాను సరిగ్గా శుభ్రం చేసారని నిర్ధారించడానికి ఏ ఒక్క గణాంక పద్ధతి లేదా పద్ధతి లేదు. చివరికి, మురికి సమాచారాన్ని మోసగించడం నివారించడానికి ఉత్తమ మార్గం మీ డేటా ఎలా సృష్టించబడింది అనే దాని గురించి సాధ్యమైనంత అర్థం చేసుకోవడానికి నేను భావిస్తున్నాను.