2.3.1 મોટા

મોટા ડેટાસેટ્સ અંત એક સાધન છે; તેઓ પોતાની જાતને એક અંત નથી.

મોટા ડેટા સ્ત્રોતોનું સૌથી વધુ વ્યાપકપણે ચર્ચા કરવામાં આવ્યું છે કે તેઓ મોટા છે. ઉદાહરણ તરીકે, ઘણા કાગળો, ચર્ચા દ્વારા અને ક્યારેક અહંકારમાં દ્વારા શરૂ થાય છે-તે કેટલી માહિતીનું વિશ્લેષણ કર્યું. ઉદાહરણ તરીકે, ગૂગલ બુક્સ કોર્પસમાં શબ્દ-ઉપયોગના વલણનો અભ્યાસ કરતી સાયન્સમાં પ્રકાશિત થયેલા એક પેપરમાં નીચેનાનો સમાવેશ થાય છે (Michel et al. 2011) :

"અમારી [કોર્પસ] 500 અબજથી વધુ શબ્દો ધરાવે છે, અંગ્રેજીમાં (361 અબજ), ફ્રેન્ચ (45 અબજ), સ્પેનિશ (45 અબજ), જર્મન (37 અબજ), ચીની (13 અબજ), રશિયન (35 અબજ), અને હીબ્રુ (2 બિલિયન). સૌથી જૂની કામો 1500 માં પ્રકાશિત કરવામાં આવી હતી પ્રારંભિક દાયકાઓ દર વર્ષે માત્ર થોડા પુસ્તકો દ્વારા રજૂ કરવામાં આવે છે, જેમાં અનેક લાખ શબ્દોનો સમાવેશ થાય છે. 1800 સુધીમાં, કોર્પસ દર વર્ષે 98 મિલિયન શબ્દો વધે છે; 1 9 00 સુધીમાં, 1.8 બિલિયન; અને 2000 સુધીમાં, 11 બિલિયન આ કોર્પસ માનવ દ્વારા વાંચી શકાતો નથી. જો તમે ફક્ત 2000 વર્ષથી જ ઇંગ્લીશ ભાષાની એન્ટ્રીઓ વાંચવા માટે પ્રયત્ન કર્યો હોત તો, 200 શબ્દો / મિનિટની વ્યાજબી ઝડપે, ખાદ્ય અથવા ઊંઘ માટે વિક્ષેપો વિના, તેને 80 વર્ષ લાગશે. પત્રોનો ક્રમ માનવ જિનોમથી 1000 ગણો વધારે છે: જો તમે તેને સીધી રેખામાં લખ્યું હોત, તો તે ચંદ્ર સુધી પહોંચશે અને 10 ગણી વધારે હશે. "

આ ડેટાના સ્કેલ નિઃશંકપણે અસરકારક છે, અને અમે બધા નસીબદાર છીએ કે ગૂગલ બુક્સ ટીમ દ્વારા આ ડેટા જાહેર જનતા માટે પ્રકાશિત થયો છે (હકીકતમાં, આ પ્રકરણના અંતમાં કેટલીક પ્રવૃત્તિઓ આ ડેટાનો ઉપયોગ કરે છે) પરંતુ, જ્યારે તમે આના જેવું કંઈક જોશો ત્યારે તમારે પૂછવું જોઈએ: શું એ બધી માહિતી ખરેખર કંઇક કરી રહી છે? જો આ માહિતી ચંદ્ર સુધી પહોંચે અને માત્ર એક જ વાર પાછા આવી જાય તો શું તેઓ એ જ સંશોધન કરી શક્યા હોત? જો ડેટા માઉન્ટ એવરેસ્ટ અથવા એફિલ ટાવરની ટોચ પર પહોંચે તો શું?

આ કિસ્સામાં, તેમના સંશોધનમાં, હકીકતમાં, કેટલાક તારણો હોય છે જેના માટે લાંબા સમયના ગાળામાં શબ્દોનો મોટો ભાગ હોવો જરૂરી છે. ઉદાહરણ તરીકે, એક વસ્તુ જે તેઓ અન્વેષણ કરે છે તે વ્યાકરણનું ઉત્ક્રાંતિ છે, ખાસ કરીને અનિયમિત ક્રિયાપદના સંયોજનમાં દરમાં ફેરફાર થાય છે. કેટલાક અનિયમિત ક્રિયાપદો ખૂબ જ દુર્લભ હોવાથી, સમય જતાં ફેરફારોને શોધવાની જરૂર છે. ઘણીવાર, જો કે, સંશોધકો મોટા ડેટા સ્રોતના કદને અંત સુધી સારવારમાં લાગે છે- "વધુ માહિતી માટે હું કેટલી ભીડ કરી શકું છું તે જુઓ" - કોઈ વધુ મહત્વના વૈજ્ઞાનિક ઉદ્દેશ્યના સાધન કરતાં.

મારા અનુભવમાં, દુર્લભ ઘટનાઓનો અભ્યાસ એ ત્રણ વિશિષ્ટ વૈજ્ઞાનિક અંતનો એક છે જે મોટા ડેટાસેટ્સ સક્રિય કરે છે. બીજું એ વિવિધતાની અભ્યાસ છે, જેમને યુનાઇટેડ સ્ટેટ્સમાં સામાજિક ગતિશીલતા પર રાજ ચેટ્ટી અને સહકાર્યકરો (2014) દ્વારા એક અભ્યાસ દ્વારા સચિત્ર કરી શકાય છે. ભૂતકાળમાં, ઘણા સંશોધકોએ માતા-પિતા અને બાળકોનાં જીવનનાં પરિણામોની સરખામણી કરીને સામાજિક ગતિશીલતાનો અભ્યાસ કર્યો છે. આ સાહિત્યમાંથી સાતત્યપૂર્ણ શોધ એ છે કે ફાયદાકારક માબાપને લાભદાયી બાળકો હોય છે, પરંતુ આ સંબંધની મજબૂતાઈ સમય અને સમગ્ર દેશોમાં બદલાય છે (Hout and DiPrete 2006) . તાજેતરમાં જ, જોકે, ચેટ્ટી અને સહકાર્યકરો 40 મિલિયન લોકોના યુનાઇટેડ સ્ટેટ્સના આંકડાઓ (આકૃતિ 2.1) માં આંતર-ઉત્પાદક ગતિશીલતામાં વિવિધતાના અંદાજ માટે કર રેકોર્ડનો ઉપયોગ કરી શક્યા હતા. ઉદાહરણ તરીકે, તેમને મળ્યું છે કે સંભાવના છે કે બાળકે ક્વિન્ટાઇલની નીચેથી એક કુટુંબમાંથી રાષ્ટ્રીય આવક વિતરણના ટોચના ક્વોન્ટાઇલ સુધી પહોંચ્યું છે, જે કેલિફોર્નિયાના સેન જોસમાં લગભગ 13% છે, પરંતુ ઉત્તર કેરોલિનામાં ચાર્લોટમાં માત્ર 4% છે. જો તમે એક ક્ષણ માટે આકૃતિ 2.1 જોશો, તો તમને આશ્ચર્ય થશે કે કેટલાક સ્થળોએ ઇન્ટરજનેરેશનલ ગતિશીલતા અન્ય કરતાં વધારે છે. ચેટ્ટી અને સહકર્મીઓનો એક જ પ્રશ્ન છે, અને તેમને જાણવા મળ્યું છે કે ઉચ્ચ-ગતિશીલતા ધરાવતા વિસ્તારોમાં ઓછો રહેણાંક અલગતા, ઓછી આવક અસમાનતા, વધુ સારી પ્રાથમિક શાળાઓ, મોટી સામાજિક મૂડી અને મોટી કુટુંબની સ્થિરતા છે. અલબત્ત, એકલા આ સહસંબંધો એ દર્શાવતા નથી કે આ પરિબળો ઉચ્ચ ગતિશીલતાને કારણ આપે છે, પરંતુ તેઓ સંભવિત પદ્ધતિઓ સૂચવે છે કે જે આગળ કામમાં શોધી શકાય છે, જે ચોકલેટ અને સહકર્મીઓએ અનુગામી કાર્યોમાં કરેલા છે. નોંધ કરો કે આ પ્રોજેક્ટમાં ડેટાનું કદ ખરેખર મહત્વનું હતું જો ચેટ્ટી અને તેના સાથીદારોએ 4 કરોડની જગ્યાએ 40 હજાર લોકોના ટેક્સ રેકોર્ડનો ઉપયોગ કર્યો હોય, તો તેઓ પ્રાદેશિક વૈવિધ્યનો અંદાજ કાઢવા સક્ષમ ન હોત અને તેઓ આ પરિવર્તનની રચના કરવા માટેની પદ્ધતિઓ ઓળખવા માટે અનુગામી સંશોધન કરવા સક્ષમ ન હોત.

આકૃતિ 2.1: નીચે આપેલા 20% (ચેટ્ટી એટ અલ. 2014) માં માતાપિતાને આપેલી આવકના વિતરણના ટોચના 20% સુધી પહોંચવાની બાળકની તકોનું અંદાજ. પ્રાદેશિક સ્તરે અંદાજો, જે વિવિધતા દર્શાવે છે, કુદરતી રીતે મહત્વપૂર્ણ અને મહત્વના પ્રશ્નો તરફ દોરી જાય છે જે કોઈ એક રાષ્ટ્રીય સ્તરના અંદાજમાંથી ઉદ્ભવતા નથી. આ પ્રાદેશિક-સ્તરનાં અંદાજો ભાગમાં શક્ય બન્યાં હતાં કારણ કે સંશોધકો મોટા મોટા ડેટા સ્રોતનો ઉપયોગ કરતા હતા: 40 મિલિયન લોકોના ટેક્સ રેકોર્ડ્સ. Http://www.equality-of-opportunity.org/ પર ઉપલબ્ધ ડેટામાંથી બનાવેલ.

આકૃતિ 2.1: નીચે આપેલા 20% (Chetty et al. 2014) માં માતાપિતાને આપેલી આવકના વિતરણના ટોચના 20% સુધી પહોંચવાની બાળકની તકોનું અંદાજ. પ્રાદેશિક સ્તરે અંદાજો, જે વિવિધતા દર્શાવે છે, કુદરતી રીતે મહત્વપૂર્ણ અને મહત્વના પ્રશ્નો તરફ દોરી જાય છે જે કોઈ એક રાષ્ટ્રીય સ્તરના અંદાજમાંથી ઉદ્ભવતા નથી. આ પ્રાદેશિક-સ્તરનાં અંદાજો ભાગમાં શક્ય બન્યાં હતાં કારણ કે સંશોધકો મોટા મોટા ડેટા સ્રોતનો ઉપયોગ કરતા હતા: 40 મિલિયન લોકોના ટેક્સ રેકોર્ડ્સ. Http://www.equality-of-opportunity.org/ પર ઉપલબ્ધ ડેટામાંથી બનાવેલ.

છેવટે, દુર્લભ ઘટનાઓનો અભ્યાસ કરવા ઉપરાંત વિવિધતાઓનો અભ્યાસ કરવાથી, મોટા ડેટાસેટ્સ પણ સંશોધકોને નાના તફાવતો શોધી શકે છે. હકીકતમાં, ઉદ્યોગમાં મોટા મોટા ડેટા પર ધ્યાન કેન્દ્રિત કરવું તે આ નાના તફાવતો વિશે છે: જાહેરાત પરના 1% અને 1.1% ક્લિક-થ્રુ રેટ્સ વચ્ચેના તફાવતને વિશ્વસનીય રીતે શોધી કાઢીને વધારાની આવકમાં લાખો ડોલરનું ભાષાંતર કરી શકાય છે. કેટલાક વૈજ્ઞાનિક સેટિંગ્સમાં, જો કે, આવા નાના તફાવતો ખાસ કરીને મહત્વપૂર્ણ ન પણ હોઈ શકે, જો તેઓ આંકડાકીય રીતે નોંધપાત્ર (Prentice and Miller 1992) . પરંતુ, કેટલીક નીતિઓની સેટિંગ્સમાં, જ્યારે તે એકંદરે જુએ ત્યારે મહત્વપૂર્ણ બની શકે છે. ઉદાહરણ તરીકે, જો ત્યાં બે જાહેર આરોગ્ય દરમિયાનગીરીઓ છે અને એક અન્ય કરતાં સહેજ વધારે અસરકારક છે, તો વધુ અસરકારક હસ્તક્ષેપ પસંદ કરીને હજારો વધારાના જીવન બચાવશે.

જો યોગ્ય રીતે ઉપયોગ કરવામાં આવે ત્યારે bigness સામાન્ય રીતે સારી મિલકત છે, તેમ છતાં, મેં નોંધ્યું છે કે તે કેટલીક વખત એક કાલ્પનિક ભૂલ તરફ દોરી શકે છે. કેટલાક કારણોસર, bigness સંશોધકો તેમની માહિતી કેવી રીતે પેદા કરવામાં આવી હતી અવગણવા દોરી લાગે છે. જ્યારે બેગ્નેસ રેન્ડમ એરર વિશે ચિંતા કરવાની જરૂરિયાતને ઘટાડે છે, તો તે વાસ્તવમાં પદ્ધતિસરની ભૂલો વિશે ચિંતા કરવાની જરૂરિયાતને વધારી દે છે, ભૂલોનું પ્રકાર કે જે હું નીચે વર્ણન કરું છું કે જે માહિતી કેવી રીતે બનાવવામાં આવે છે તે પૂર્વગ્રહથી ઊભી થાય છે. દાખલા તરીકે, આ પ્રકરણમાં હું પાછળથી આ પ્રકરણમાં વર્ણન કરું છું, સંશોધકોએ આતંકવાદી હુમલા (Back, Küfner, and Egloff 2010) ની પ્રતિક્રિયાના ઉચ્ચ-રીઝોલ્યુશન લાગણીશીલ સમયરેખાને ઉત્પન્ન કરવા માટે સપ્ટેમ્બર 11, 2001 ના રોજ પેદા થયેલ સંદેશાઓનો ઉપયોગ કર્યો હતો. કારણ કે સંશોધકો પાસે મોટી સંખ્યામાં સંદેશા હતા, તેમને ખરેખર ચિંતા કરવાની જરૂર ન હતી કે તેઓ જે દાખલાઓ જોતા હતા - દિવસ દરમિયાન ગુસ્સો વધી રહ્યો છે - રેન્ડમ વેરિયેશન દ્વારા સમજાવી શકાય છે. ત્યાં ખૂબ માહિતી હતી અને પેટર્ન જેથી સ્પષ્ટ છે કે તમામ આંકડાકીય આંકડાકીય પરીક્ષણો સૂચવે છે કે આ એક વાસ્તવિક પેટર્ન હતું પરંતુ, આ આંકડાકીય પરીક્ષણો એ કેવી રીતે માહિતી બનાવવામાં આવી હતી તે અજાણ હતા. વાસ્તવમાં, તે બહાર આવ્યું છે કે ઘણા પેટર્ન એક બોટને આભારી છે જે સમગ્ર દિવસોમાં વધુ અને વધુ અર્થવાળા સંદેશા પેદા કરે છે. આ એક બોટને દૂર કરવાથી કાગળના કેટલાક મુખ્ય તારણોને સંપૂર્ણપણે નાશ કરવામાં આવ્યો (Pury 2011; Back, Küfner, and Egloff 2011) . તદ્દન સરળ, સંશોધકો જે વ્યવસ્થિત ભૂલ વિશે ન વિચારે છે, તેમના મોટા ડેટાસેટ્સનો ઉપયોગ બિનજરૂરી જથ્થોનો ચોક્કસ અંદાજ મેળવવાના જોખમને સામનો કરે છે, જેમ કે સ્વયંચાલિત બોટ દ્વારા ઉત્પન્ન થયેલ નિરર્થક સંદેશાની લાગણીશીલ સામગ્રી.

નિષ્કર્ષમાં, મોટા ડેટાસેટ્સ પોતે અંત નથી, પરંતુ તેઓ દુર્લભ ઘટનાઓના અભ્યાસ, વિભિન્નતાના અંદાજ અને નાના તફાવતોની શોધ સહિત ચોક્કસ પ્રકારનાં સંશોધનને સક્ષમ કરી શકે છે. મોટા ડેટાસેટ્સ પણ કેટલાક સંશોધકોને તેમનો ડેટા કેવી રીતે બનાવવામાં આવ્યો તે અવગણવા માટે દોરી જણાય છે, જે તેમને બિનમહત્વપૂર્ણ જથ્થાના ચોક્કસ અંદાજ મેળવવા માટે દોરી શકે છે.