2.3.9 ડર્ટી

મોટા માહિતી સ્ત્રોત જંક અને સ્પામ સાથે લોડ કરી શકાય છે.

કેટલાક સંશોધકો માને છે કે મોટું ડેટા સ્રોત, ખાસ કરીને ઓનલાઈન સ્ત્રોતો, નૈસર્ગિક છે કારણ કે તે આપોઆપ એકત્રિત કરવામાં આવે છે. હકીકતમાં, મોટા ડેટા સ્ત્રોતો સાથે કામ કરતા લોકો જાણે છે કે તેઓ વારંવાર ગંદા છે . એટલે કે, તેઓ વારંવાર એવા ડેટાને શામેલ કરે છે જે સંશોધકોને રુચિના પ્રત્યક્ષ ક્રિયાઓ દર્શાવતા નથી. મોટાભાગના સામાજિક વૈજ્ઞાનિકો મોટા પાયે સોશિયલ સર્વેક્ષણ ડેટા સફાઈ કરવાની પ્રક્રિયાથી પહેલાથી જ પરિચિત છે, પરંતુ મોટું ડેટા સ્ત્રોતો સફાઈ વધુ મુશ્કેલ લાગે છે. મને લાગે છે કે આ મુશ્કેલીનો અંતિમ સ્રોત એ છે કે મોટાભાગનાં મોટાભાગનાં ડેટા સ્રોતો સંશોધન માટે ઉપયોગમાં લેવાના હેતુથી નથી, અને તેથી તે એકત્રિત કરવામાં, સંગ્રહિત કરવામાં અને દસ્તાવેજમાં નોંધાયેલી નથી કે જે ડેટા સફાઈની સુવિધા આપે છે.

ગંદા ડિજિટલ ટ્રેસ ડેટાના જોખમો બેક એન્ડ સાથીઓ (2010) 11 સપ્ટેમ્બર, 2001 ના હુમલાના ભાવનાત્મક પ્રતિભાવનો અભ્યાસ કરવામાં આવ્યો છે, જેનો મેં થોડા સમય પહેલા પ્રકરણમાં ઉલ્લેખ કર્યો હતો. સંશોધકો ખાસ કરીને મહિના અથવા વર્ષ સુધી એકત્રિત પૂર્વવર્તી માહિતીનો ઉપયોગ કરીને દુ: ખદ ઘટનાઓના પ્રતિભાવનો અભ્યાસ કરે છે. પરંતુ, બેક અને સહકાર્યકરોએ ડિજિટલ ટ્રેસનો હંમેશા સ્રોત મેળવ્યો છે- ટાઇમસ્ટેમ્પડ, 85,000 અમેરિકન પેજર્સથી સ્વયંચાલિત રેકોર્ડ કરેલા સંદેશા-અને આને કારણે તેમને વધુ સારી સમયના સમયક્રમ પર ભાવનાત્મક પ્રતિભાવનો અભ્યાસ કરવા સક્ષમ બનાવ્યું હતું. તેઓ (1) ઉદાસી (દા.ત., "રડતા" અને "દુઃખ"), (2) અસ્વસ્થતાથી સંબંધિત શબ્દોની ટકાવારી દ્વારા પેજર સંદેશાની લાગણીશીલ સામગ્રીને કોડિંગ દ્વારા સપ્ટેમ્બર 11 ની એક મિનીટિક પ્રતિ મિનિટ લાગણીશીલ સમયરેખા બનાવી છે ( દા.ત., "ચિંતિત" અને "ભયભીત"), અને (3) ગુસ્સો (દા.ત., "નફરત" અને "જટિલ"). તેઓ જાણતા હતા કે સમગ્ર દિવસ દરમિયાન ઉદાસી અને ચિંતામાં બદલાવ આવે છે, પરંતુ સમગ્ર દિવસ દરમિયાન ગુસ્સામાં નોંધપાત્ર વધારો થયો છે. આ સંશોધન હંમેશાંના ડેટા સ્રોતોની શક્તિનો એક અદ્ભુત ઉદાહરણ છે: જો પરંપરાગત ડેટા સ્રોતોનો ઉપયોગ કરવામાં આવ્યો હોય તો, અણધારી ઇવેન્ટના તાત્કાલિક પ્રતિસાદની આટલી ઉચ્ચ રીઝોલ્યુશન સમયરેખા મેળવવાનું અશક્ય હતું.

માત્ર એક વર્ષ પછી, જોકે, સિન્થિયા પ્યુરી (2011) ડેટાને વધુ કાળજીપૂર્વક જોતા હતા તેણીએ શોધ્યું કે મોટાભાગના ગુસ્સો સંદેશાઓ એક જ પેજર દ્વારા જનરેટ કરવામાં આવ્યા હતા અને તે બધા સમાન હતા. અહીં તે માનવામાં ગુસ્સો સંદેશાઓ શું કહ્યું છે:

"રીબુટ એનટી મશીન કેબિનેટ [name] ને [name] ને [સ્થાન] જટિલ: [તારીખ અને સમય]"

આ સંદેશાને ગુસ્સામાં લેબલ આપવામાં આવ્યું હતું કારણ કે તેમાં "સકારાત્મક" શબ્દનો સમાવેશ થતો હતો જે સામાન્ય રીતે ગુસ્સાને સૂચવી શકે છે પરંતુ આ કિસ્સામાં નથી. આ સિંગલ સ્વયંચાલિત પેજર દ્વારા જનરેટ કરેલા સંદેશાઓને સંપૂર્ણપણે દૂર કરવાથી દિવસ દરમિયાન (2 આકૃતિ 2.4) ગુસ્સામાં સ્પષ્ટ વધારો દૂર કરવામાં આવે છે. બીજા શબ્દોમાં, Back, Küfner, and Egloff (2010) મુખ્ય પરિણામ એક Back, Küfner, and Egloff (2010) આર્ટિફેક્ટ હતો. જેમ જેમ આ ઉદાહરણ સમજાવે છે, પ્રમાણમાં જટિલ અને અવ્યવસ્થિત ડેટાના પ્રમાણમાં સરળ વિશ્લેષણમાં ગંભીરતાપૂર્વક ખોટી જવાની ક્ષમતા છે.

આકૃતિ 2.4: સપ્ટેમ્બર 11, 2001 ના રોજ 85,000 અમેરિકન પેજર્સ (બેક, કુફનર, અને ઇગલોફ 2010, 2011; પુરી 2011) ના આધારે ગુસ્સાના અનુમાનિત પ્રવાહો. મૂળ, બેક, કુફનર, અને ઇગલોફ (2010) એ સમગ્ર દિવસ દરમિયાન ગુસ્સો વધવાના એક પેટર્નની નોંધ લીધી. જો કે, મોટાભાગના દેખીતી રીતે ગુસ્સે થયેલા સંદેશા એક જ પેજર દ્વારા પેદા થયા હતા જે વારંવાર નીચેનો મેસેજ મોકલ્યો છે: રિબૂટ એનટી મશીન [નામ] કેબિનેટમાં [નામ] [સ્થાન] પર: કૈરાટિક: [તારીખ અને સમય] આ સંદેશ દૂર કર્યા પછી, ગુસ્સોમાં સ્પષ્ટ વધારો અદૃશ્ય થઈ જાય છે (પીરી 2011; બેક, કુફનર, અને ઇગલોફ 2011). પ્યુરી (2011), આકૃતિ 1 બી થી સ્વીકારાયું

આકૃતિ 2.4: સપ્ટેમ્બર 11, 2001 ના રોજ 85,000 અમેરિકન પેજર્સ (Back, Küfner, and Egloff 2010, 2011; Pury 2011) આધારે ગુસ્સાના અનુમાનિત પ્રવાહો. મૂળ, Back, Küfner, and Egloff (2010) એ સમગ્ર દિવસ દરમિયાન ગુસ્સો Back, Küfner, and Egloff (2010) એક પેટર્નની નોંધ લીધી. જો કે, તેમાંના મોટાભાગના દેખીતા ગુસ્સો સંદેશાઓ એક પેજર દ્વારા પેદા થયા હતા જે વારંવાર નીચેનો સંદેશો મોકલ્યો હતો: "રિબૂટ એનટી મશીન [નામ] કેબિનેટમાં [નામ] [સ્થાન] પર: કૈરાટિક: [તારીખ અને સમય]". આ સંદેશ દૂર કર્યા પછી, (Pury 2011; Back, Küfner, and Egloff 2011) સ્પષ્ટ વધારો અદૃશ્ય થઈ જાય છે (Pury 2011; Back, Küfner, and Egloff 2011) . Pury (2011) , આકૃતિ 1 બી થી સ્વીકારાયું

અશ્લીલ ડેટા કે જે અજાણતા રીતે બનાવવામાં આવે છે- જેમ કે એક ઘોંઘાટ પેજરથી - એક નોંધપાત્ર સાવચેત સંશોધક દ્વારા શોધી શકાય છે, ત્યાં કેટલીક ઓનલાઈન સિસ્ટમ્સ પણ છે જે ઇરાદાપૂર્વકના સ્પામર્સને આકર્ષિત કરે છે. આ સ્પામર્સ નકલી માહિતી સક્રિય રીતે બનાવતા હોય છે, અને ઘણી વાર તેમના સ્પામિંગને છુપાવી રાખવા માટે ખૂબ જ મુશ્કેલ હોય છે. ઉદાહરણ તરીકે, ટ્વિટર પર રાજકીય પ્રવૃત્તિમાં ઓછામાં ઓછા કેટલાક વ્યાજબી સ્પામ શામેલ હોવાનું જણાય છે, જેમાં કેટલાક રાજકીય કારણો ઈરાદાપૂર્વક કરવામાં આવે છે જે વાસ્તવમાં તેઓ કરતા વધુ લોકપ્રિય જોવા માટે છે (Ratkiewicz et al. 2011) . કમનસીબે, આ હેતુસરનું સ્પામ દૂર કરવું ખૂબ મુશ્કેલ હોઈ શકે છે.

અલબત્ત, જે ગંદા માહિતી ગણવામાં આવે છે તે, સંશોધન પ્રશ્ન પર, ભાગમાં, આધાર આપી શકે છે. ઉદાહરણ તરીકે, વિકિપિડિયામાં ઘણા સંપાદનો આપોઆપ બૉટ્સ (Geiger 2014) દ્વારા બનાવવામાં આવે છે. જો તમે વિકિપીડિયાના ઇકોલોજીમાં રસ ધરાવો છો, તો પછી આ બોટ-બનાવતા સંપાદનો મહત્વપૂર્ણ છે. પરંતુ જો તમે કેવી રીતે લોકો વિકિપીડિયા પર યોગદાન આપે છે તેમાં રસ છે, તો પછી બોટ-બનાવતા સંપાદનો બાકાત રાખવો જોઈએ.

ત્યાં કોઈ એક આંકડાકીય તકનીક અથવા અભિગમ નથી કે જે ખાતરી કરી શકે કે તમે તમારી ગંદા માહિતીને પૂરતા પ્રમાણમાં સાફ કર્યું છે. અંતે, મને લાગે છે કે ગંદા માહિતી દ્વારા fooled રહી ટાળવા માટે શ્રેષ્ઠ માર્ગ એ છે કે તમારા ડેટા કેવી રીતે બનાવવામાં આવ્યા હતા તેટલું શક્ય સમજવું.