2.4.1 ગણવા ​​વસ્તુઓ

જો તમે સારી માહિતી સાથે એક સારો પ્રશ્ન ભેગા સરળ ગણતરી રસપ્રદ હોઈ શકે છે.

તેમ છતાં તે આધુનિક-લાંબાં ભાષામાં જોડાયેલી છે, ઘણા બધા સામાજિક સંશોધન ખરેખર વસ્તુઓની ગણતરી કરે છે મોટા ડેટાના યુગમાં, સંશોધકો ક્યારેય કરતાં વધુ ગણતરી કરી શકે છે, પરંતુ તેનો અર્થ એ નથી કે તેઓએ માત્ર હાંકેલા ગણાય તે શરૂ કરવું જોઈએ. તેના બદલે, સંશોધકોએ પૂછવું જોઈએ: શું વસ્તુઓ ગણાય છે? આ એક સંપૂર્ણપણે વ્યક્તિલક્ષી બાબત જેવું લાગે છે, પરંતુ કેટલાક સામાન્ય પેટર્ન છે

વારંવાર વિદ્યાર્થીઓ તેમના ગણના સંશોધનને ઉત્સાહિત કરે છે: હું એવી કોઈ ગણતરી કરું છું જે કોઈએ ક્યારેય પહેલાં ગણાવી નથી. ઉદાહરણ તરીકે, એક વિદ્યાર્થી એવું કહી શકે છે કે ઘણા લોકોએ પ્રવાસીઓનો અભ્યાસ કર્યો છે અને ઘણા લોકોએ જોડિયાનો અભ્યાસ કર્યો છે, પરંતુ કોઈએ પ્રયાણ જોડિયાનો અભ્યાસ કર્યો નથી. મારા અનુભવમાં, આ વ્યૂહરચના, જે હું ગેરહાજરીથી પ્રેરણા કરું છું, તે સામાન્ય રીતે સારા સંશોધન તરફ દોરી જતું નથી. ગેરહાજરીથી પ્રોત્સાહન એવું કહીને જેવું છે કે ત્યાં એક છિદ્ર છે, અને હું તેને ભરવા માટે ખૂબ જ સખત કામ કરીશ. પરંતુ દરેક છિદ્રને ભરવાની જરૂર નથી.

ગેરહાજરીથી પ્રેરિત થવાને બદલે, હું વિચારું છું કે મહત્વપૂર્ણ અથવા રસપ્રદ (અથવા આદર્શ રીતે બંને) સંશોધન પ્રશ્નો શોધવાનું વધુ સારું વ્યૂહરચના છે. આ બંને શબ્દો વ્યાખ્યાયિત કરવા માટે ખૂબ જ મુશ્કેલ છે, પરંતુ મહત્વપૂર્ણ સંશોધન વિશે વિચારવાનો એક માર્ગ એ છે કે તેની પાસે કેટલીક માપી શકાય તેવી અસર અથવા ફીડ્સ છે, જે નીતિ ઘડવૈયાઓ દ્વારા મહત્વપૂર્ણ નિર્ણયોમાં છે. ઉદાહરણ તરીકે, બેરોજગારીના દરને માપવું મહત્વનું છે કારણ કે તે અર્થતંત્રનું સૂચક છે જે નીતિના નિર્ણયોને ચલાવે છે. સામાન્ય રીતે, મને લાગે છે કે સંશોધકોને શું મહત્વનું છે તે ખૂબ સારી સમજ છે. તેથી, આ વિભાગના બાકીના ભાગમાં, હું બે ઉદાહરણો આપવા જઈ રહ્યો છું જ્યાં મને લાગે છે કે ગણતરી રસપ્રદ છે. દરેક કિસ્સામાં, સંશોધકો અયોગ્ય ગણતા ન હતા; તેના બદલે, તેઓ ખૂબ જ ચોક્કસ સેટિંગ્સમાં ગણતરી કરતા હતા કે જે સામાજિક સિસ્ટમો કેવી રીતે કાર્ય કરે છે તે વિશે વધુ સામાન્ય વિચારોમાં મહત્વપૂર્ણ સૂક્ષ્મદ્રષ્ટિનું પ્રકાશન કરે છે. બીજા શબ્દોમાં કહીએ તો, આ ખાસ ગણનાત્મક કસરતોને રસપ્રદ બનાવે છે તે ઘણું બધું ડેટા નથી, આ વધુ સામાન્ય વિચારોથી આવે છે.

ગણતરીની સરળ શક્તિનું એક ઉદાહરણ હેનરી ફાબર (2015) ન્યૂ યોર્ક સિટી ટેક્સી ડ્રાઇવરોના વર્તનનો અભ્યાસ પરથી આવે છે. તેમ છતાં આ જૂથ સ્વાભાવિક રીતે રસપ્રદ ન બોલ શકે, તે મજૂર અર્થશાસ્ત્રમાં બે સ્પર્ધાત્મક સિદ્ધાંતો પરીક્ષણ માટે વ્યૂહાત્મક રિસર્ચ સાઇટ છે . ફાબરના સંશોધન માટે, ટેક્સી ડ્રાઈવરોના કામના પર્યાવરણ વિશે બે મહત્વના લક્ષણો છે: (1) તેમની કલાકદીઠ વેતન દિવસ-થી-દિવસે બદલાય છે, જે હવામાન જેવી પરિબળો પર આધારિત છે અને (2) કલાકોની સંખ્યા કામ તેમના નિર્ણયોના આધારે દરેક દિવસમાં વધઘટ થઈ શકે છે. આ લક્ષણો કલાકદીઠ વેતન અને કામ કરેલ કલાક વચ્ચેના સંબંધ વિશે રસપ્રદ પ્રશ્ન તરફ દોરી જાય છે. અર્થશાસ્ત્રમાં નિયોક્લાસિકલ મૉડલનો અંદાજ છે કે ટેક્સી ડ્રાઈવરો એવા દિવસો પર વધુ કાર્ય કરશે કે જ્યાં તેમની પાસે કલાકમાં વધુ વેતન હોય. વૈકલ્પિક રીતે, વર્તણૂંક અર્થશાસ્ત્રના મોડલ બરાબર વિરુદ્ધની આગાહી કરે છે. જો ડ્રાઇવરો કોઈ ચોક્કસ આવક લક્ષ્ય નિર્ધારિત કરે તો - દરરોજ $ 100 અને તે લક્ષ્યાંક પૂર્ણ થાય ત્યાં સુધી કામ કરો, પછી ડ્રાઇવર્સ દિવસો પર વધુ સમય કામ કરશે, જે વધુ કમાણી કરે છે. ઉદાહરણ તરીકે, જો તમે લક્ષ્ય કમાનાર હોત, તો તમે એક સારા દિવસ (કલાક દીઠ 25 ડોલર) અને ખરાબ દિવસ ($ 20 પ્રતિ કલાક) પર પાંચ કલાક કામ કરી શકો છો. તેથી, શું ડ્રાઇવરો દિવસમાં વધુ કલાકના વેતન સાથે (વધુ નિયોક્લાસિકલ મોડલ દ્વારા આગાહી કરે છે) અથવા ઓછા કલાકની વેતન (વર્તણૂકીય આર્થિક મોડેલ દ્વારા આગાહી) સાથે દિવસોમાં વધુ કલાકો કામ કરે છે?

આ પ્રશ્નના જવાબ માટે, ફર્બરએ 2009 થી 2013 સુધી ન્યૂ યોર્ક સિટી કેબ દ્વારા લેવામાં આવેલી દરેક ટેક્સી સફર પર ડેટા પ્રાપ્ત કર્યો છે, જે હવે જાહેરમાં ઉપલબ્ધ છે તે ડેટા. આ ડેટા - જે ઇલેક્ટ્રોનિક મીટર દ્વારા એકત્રિત કરવામાં આવ્યા હતા જેમાં શહેરને ઉપયોગમાં લેવા માટે ટેક્સીઓની આવશ્યકતા છે-દરેક ટ્રિપ વિશેની માહિતીનો સમાવેશ કરો: પ્રારંભ સમય, પ્રારંભ સ્થાન, સમાપ્તિ સમય, અંતિમ સ્થાન, ભાડું અને ટિપ (જો ટીપ ક્રેડિટ કાર્ડથી ચૂકવવામાં આવે તો) . આ ટેક્સી મીટર ડેટાનો ઉપયોગ કરીને, ફર્બરને જાણવા મળ્યું છે કે મોટાભાગના ડ્રાઇવરો દિવસો પર વધુ કામ કરે છે જ્યારે વેતન ઊંચી હોય છે, નિયોક્લાસિકલ સિદ્ધાંત સાથે સુસંગત છે.

આ મુખ્ય તારણો ઉપરાંત, ફર્બર વિભિન્નતા અને ગતિશીલતાની વધુ સારી સમજ માટે ડેટાના કદનો ઉપયોગ કરવા સક્ષમ હતો. સમય જતાં, નવા ડ્રાઇવરો ધીમે ધીમે ઉચ્ચ વેતન દિવસોમાં વધુ કલાકો કામ કરતા શીખે છે (દા.ત., તેઓ નિયોક્લાસિકલ મોડેલની આગાહી કરે છે તે પ્રમાણે વર્તે છે). અને નવા ડ્રાઈવરો જે લક્ષ્ય કમાણી કરનારની જેમ વર્તે છે તેઓ વધુ ટેક્સી ડ્રાઇવરો છોડી જવાની શક્યતા છે. આ વધુ બારીક તારણો, જે વર્તમાન ડ્રાઇવર્સના અવલોકન કરાયેલા વર્તનને સમજાવવામાં મદદ કરે છે, ફક્ત ડેટાસેટના કદને કારણે શક્ય છે. અગાઉના અભ્યાસમાં શોધી શકાય તેવું અશક્ય હતું, જે ટૂંકા ગાળામાં થોડો સમયથી ટેક્સી ડ્રાઈવરો (Camerer et al. 1997) પેપર ટ્રીપ (Camerer et al. 1997) .

ફાર્બરનો અભ્યાસ મોટા ડેટા સ્રોતનો ઉપયોગ કરીને રિસર્ચ માટે શ્રેષ્ઠ-કેસ દૃશ્યની નજીક હતો કારણ કે શહેર દ્વારા એકત્રિત કરવામાં આવેલી માહિતી તે ડેટાથી ખૂબ નજીક છે જે ફારબેરે એકત્રિત કરી હશે (એક તફાવત એ છે કે ફારર્ને કુલ ડેટા માગ્યા હતા વેતન-ભાડા વત્તા ટીપ્સ -પરંતુ શહેરના ડેટામાં ફક્ત ક્રેડિટ કાર્ડ દ્વારા ચૂકવવામાં આવેલી ટિપ્સ શામેલ છે). જો કે, એકલા ડેટા પૂરતા ન હતા. ફારર્બના સંશોધનની ચાવીએ ડેટાને રસપ્રદ પ્રશ્ન ઉઠાવ્યો હતો, આ પ્રશ્ન માત્ર આ વિશિષ્ટ સેટિંગને બાદ કરતા મોટા અસરો ધરાવે છે.

ગણતરીની વસ્તુઓનો બીજો દાખલો ચીની સરકાર દ્વારા ગેરી કિંગ, જેનિફર પાન અને મોલી રોબર્ટ્સ (2013) દ્વારા ઓનલાઇન સેન્સરશીપ દ્વારા સંશોધનમાંથી આવે છે. આ કિસ્સામાં, તેમ છતાં, સંશોધકોએ પોતાનું મોટું ડેટા એકત્ર કરવું પડ્યું હતું અને તેમને હકીકત એ છે કે તેમનો ડેટા અપૂર્ણ છે તેની સાથે વ્યવહાર કરવો હતો.

કિંગ અને સહકર્મીઓ હકીકત એ છે કે ચાઇના માં સોશિયલ મીડિયા પોસ્ટ્સ એક પ્રચંડ રાજ્ય ઉપકરણ કે જે હજારો લોકો સમાવેશ થાય છે માનવામાં આવે છે સેન્સર દ્વારા પ્રેરિત કરવામાં આવી હતી સંશોધકો અને નાગરિકો, જોકે, આ સેન્સર કેવી રીતે સામગ્રી કાઢી નાખવા જોઈએ તે નક્કી કેવી રીતે ઓછી સમજ છે. ચાઇનાના વિદ્વાનોમાં વિવાદાસ્પદ અપેક્ષાઓ છે કે જેના વિશેની પોસ્ટ્સને કાઢી નાખવાની સૌથી વધુ સંભાવના છે. કેટલાક માને છે કે સેન્સર એવી બાબતો પર ધ્યાન કેન્દ્રિત કરે છે કે જે રાજ્યની ટીકા કરે છે, જ્યારે અન્ય લોકો માને છે કે તેઓ પોસ્ટ પર ધ્યાન કેન્દ્રિત કરે છે જે સામૂહિક વર્તનને પ્રોત્સાહન આપે છે, જેમ કે વિરોધ. આમાંથી કઈ અપેક્ષાઓ સાચી છે તે જાણવાથી સંશોધકો માટે ચીન અને અન્ય સરમુખત્યારશાહી સરકારો કે જે સેન્સરશીપમાં સંલગ્ન છે તે સમજવા માટેના આઘાત દર્શાવે છે. તેથી, રાજા અને સહકર્મીઓ એવી પોસ્ટ્સની સરખામણી કરવા માંગતા હતા કે જે પ્રકાશિત કરવામાં આવી હતી અને ત્યારબાદ તે પોસ્ટ્સ સાથે કાઢી નાખવામાં આવી હતી કે જે પ્રકાશિત થઈ અને ક્યારેય કાઢી નખાયા.

આ પોસ્ટ ભેગા સામેલ સંબંધિત પોસ્ટ્સ વિવિધ પાનું લેઆઉટ શોધવાની, અને પછી આ પોસ્ટ revisiting જોવા માટે કે જે ત્યારબાદ કાઢી હતી સાથે 1,000 કરતાં વધુ ચિની સામાજિક મીડિયા વેબસાઇટ્સ-દરેક ક્રોલ અમેઝિંગ ઈજનેરી પરાક્રમ. મોટા પાયે વેબ ક્રાઉલિંગ સાથે સંકળાયેલ સામાન્ય એન્જિનિયરિંગ સમસ્યાઓ માટે વધુમાં, આ પ્રોજેક્ટ વધારાનું પડકાર છે કે તે અત્યંત ઝડપી હોય છે, કારણ કે ઘણા સેન્સર પોસ્ટ્સ કરતાં ઓછી 24 કલાકમાં ઉતારી લેવામાં આવે છે માટે જરૂરી હતી. અન્ય શબ્દોમાં, ધીમી ક્રાઉલર પોસ્ટ્સ સેન્સર હતા ઘણાં ચૂકી જશે. વધુમાં, ક્રોલર્સ કદાચ સામાજિક મીડિયા વેબસાઇટ્સ ઍક્સેસ બ્લૉક અથવા તો અભ્યાસ જવાબમાં તેમની નીતિઓ બદલી જ્યારે શોધ છૂટવા આ બધી માહિતી સંગ્રહ કરી હતી.

આ મોટા પાયે ઈજનેરી કાર્ય પૂર્ણ થઈ ગયું તે સમય સુધીમાં, કિંગ અને સહકર્મીઓએ 85 અલગ અલગ પ્રસ્તાવિત વિષયો પર લગભગ 11 મિલિયન પોસ્ટ મેળવી હતી, દરેક સંવેદનશીલતાના સ્તર સાથે. ઉદાહરણ તરીકે, ઉચ્ચ સંવેદનશીલતા વિષય એ વેઇવી, અસંતુષ્ટ કલાકાર છે; મધ્ય સંવેદનશીલતાનો વિષય ચિની ચલણની પ્રશંસા અને અવમૂલ્યન છે, અને ઓછી સંવેદનશીલતાની વિષય વિશ્વ કપ છે. આ 11 મિલિયન પોસ્ટ્સમાંથી લગભગ 2 મિલિયન સેન્સર કરવામાં આવી હતી. કેટલેક અંશે આશ્ચર્યજનક રીતે, કિંગ અને સહકર્મીઓએ શોધી કાઢ્યું હતું કે અત્યંત સંવેદનશીલ વિષયો પરના પોસ્ટ્સ મધ્ય-અને ઓછી સંવેદનશીલતાવાળા વિષયો પરની પોસ્ટ્સ કરતાં માત્ર થોડી વધુ વાર સેન્સર કરવામાં આવ્યાં છે. બીજા શબ્દોમાં કહીએ તો, ચીનની સેન્સર એઇ વેઇવેઇને પોસ્ટમાં સેન્સર કરવાની શક્યતા છે જે વિશ્વ કપનો ઉલ્લેખ કરે છે. આ તારણો વિચારને સમર્થન આપતા નથી કે સરકાર સંવેદનશીલ મુદ્દાઓ પરની બધી પોસ્ટ્સને સેન્સર કરે છે.

વિષય દ્વારા સેન્સરશિપ દરની આ સરળ ગણતરી ભ્રામક હોઇ શકે છે, જોકે. ઉદાહરણ તરીકે, સરકાર એવી પોસ્ટ્સને સેન્સર કરી શકે છે કે જે એ વેઇવીની સમર્થન ધરાવે છે, પરંતુ તેની ટીકા કરતા હોદ્દા છોડી દો. પોસ્ટ્સ વચ્ચે વધુ કાળજીપૂર્વક તફાવત કરવા માટે, સંશોધકોએ દરેક પોસ્ટની લાગણીને માપવા માટે જરૂરી છે. કમનસીબે, ખૂબ કામ હોવા છતાં, પૂર્વ અસ્તિત્વમાંના શબ્દકોશોનો ઉપયોગ કરીને લાગણીની શોધની સંપૂર્ણ સ્વયંસંચાલિત પદ્ધતિઓ ઘણી પરિસ્થિતિઓમાં હજુ પણ ખૂબ જ સારી નથી (વિભાગ 2.3.9 માં વર્ણવેલ 11 સપ્ટેમ્બર, 2001 ના ભાવનાત્મક સમયરેખાને લગતી સમસ્યાઓ પર વિચાર કરો). તેથી, કિંગ અને સહકર્મીઓએ 11 મિલિયન સોશિયલ મીડિયા પોસ્ટ્સને લેબલ કરવાનો માર્ગ જરૂરી હતો કે શું તેઓ (1) રાજ્યના ટીકાકાર, (2) રાજ્યના સહાયક, અથવા (3) ઘટનાઓ વિશે અપ્રસ્તુત અથવા હકીકતલક્ષી અહેવાલો. આ મોટા પાયે નોકરીની જેમ લાગે છે, પરંતુ તે એક શક્તિશાળી યુક્તિનો ઉપયોગ કરીને હલ કરી જે માહિતી વિજ્ઞાનમાં સામાન્ય છે પરંતુ સામાજિક વિજ્ઞાનમાં ભાગ્યે જ દુર્લભ છે: નિરીક્ષણ કરેલ શિક્ષણ ; આકૃતિ 2.5 જુઓ.

સૌપ્રથમ, પૂર્વપ્રોસેસિંગ નામના એક પગલામાં, સંશોધકોએ સોશિયલ મીડિયા પોસ્ટ્સને દસ્તાવેજ-સમયની મેટ્રિક્સમાં રૂપાંતરિત કરી હતી, જેમાં દરેક દસ્તાવેજ અને એક કૉલમની એક પંક્તિ હતી કે જે પોસ્ટમાં વિશિષ્ટ શબ્દ (દા.ત. વિરોધ અથવા ટ્રાફિક) શામેલ છે તે રેકોર્ડ કરવામાં આવ્યું હતું. . આગળ, સંશોધન મદદનીશોના એક જૂથએ પોસ્ટ્સના નમૂનાનું નેતૃત્વ કર્યું. તે પછી, તેઓ આ હેન્ડલ લેબલવાળા ડેટાને મશીન લર્નિંગ મોડેલ બનાવવા માટે ઉપયોગમાં લીધા હતા જે તેના લક્ષણો પર આધારિત પોસ્ટની લાગણીનું અનુમાન કરી શકે છે. છેવટે, તેમણે આ મોડેલનો ઉપયોગ તમામ 11 મિલિયન પોસ્ટ્સની લાગણીનો અંદાજ કાઢવા માટે કર્યો.

આમ, મેન્યુઅલ વાંચવા અને લેબલ કરવાના 11 મિલિયનની પોસ્ટ્સને બદલે- જે લોજિસ્ટિક રીતે અશક્ય હશે-કિંગ અને સહકર્મીઓએ મેન્યુઅલી નાની સંખ્યામાં પોસ્ટ્સનું લેબલ કર્યું અને પછી તમામ પોસ્ટ્સની લાગણીનો અંદાજ કાઢવા નિરીક્ષણ કરેલ શિક્ષણનો ઉપયોગ કર્યો. આ વિશ્લેષણ પૂરું કર્યા બાદ, તેઓ એવા નિષ્કર્ષ પર આવ્યા હતા કે, આશ્ચર્યજનક બાબત એ છે કે, પોસ્ટ કાઢી નાંખવાની સંભાવના કોઈ સંબંધી નથી કે તે રાજ્યની ટીકાત્મક અથવા રાજ્યની સહાયક હતી.

આકૃતિ 2.5: 11 મિલિયન ચાઇનીઝ સોશિયલ મીડિયા પોસ્ટ્સની લાગણીનો અંદાજ કાઢવા માટે રાજા, પાન અને રોબર્ટ્સ (2013) દ્વારા ઉપયોગમાં લેવાતી પ્રક્રિયાના સરળ યોજનાકીય. પ્રથમ, પ્રિપ્રોસેસિંગ પગલામાં, સંશોધકોએ સોશિયલ મીડિયા પોસ્ટ્સને દસ્તાવેજ-ટર્મ મેટ્રિક્સમાં રૂપાંતરિત કરી (વધુ માહિતી માટે ગ્રિમર અને સ્ટુઅર્ટ (2013) જુઓ). બીજું, તેઓએ પોસ્ટ્સના નાના નમૂનાની લાગણીઓને હાથથી કોડેડ કરી. ત્રીજું, તેમણે પોસ્ટ્સની લાગણીને વર્ગીકૃત કરવા માટે એક નિરીક્ષણ કરેલ શિક્ષણ મોડેલને તાલીમ આપી. ચોથી, તેમણે તમામ પોસ્ટ્સની લાગણીનો અંદાજ કાઢવા નિરીક્ષણ કરેલ શિક્ષણ મોડેલનો ઉપયોગ કર્યો. વધુ વિગતવાર વર્ણન માટે કિંગ, પાન અને રોબર્ટ્સ (2013), પરિશિષ્ટ બી જુઓ.

આકૃતિ 2.5: 11 મિલિયન ચાઇનીઝ સોશિયલ મીડિયા પોસ્ટ્સની લાગણીનો અંદાજ કાઢવા માટે King, Pan, and Roberts (2013) દ્વારા ઉપયોગમાં લેવાતી પ્રક્રિયાના સરળ યોજનાકીય. પ્રથમ, પ્રિપ્રોસેસિંગ પગલામાં, સંશોધકોએ સોશિયલ મીડિયા પોસ્ટ્સને દસ્તાવેજ-ટર્મ મેટ્રિક્સમાં રૂપાંતરિત કરી (વધુ માહિતી માટે Grimmer and Stewart (2013) જુઓ). બીજું, તેઓએ પોસ્ટ્સના નાના નમૂનાની લાગણીઓને હાથથી કોડેડ કરી. ત્રીજું, તેમણે પોસ્ટ્સની લાગણીને વર્ગીકૃત કરવા માટે એક નિરીક્ષણ કરેલ શિક્ષણ મોડેલને તાલીમ આપી. ચોથી, તેમણે તમામ પોસ્ટ્સની લાગણીનો અંદાજ કાઢવા નિરીક્ષણ કરેલ શિક્ષણ મોડેલનો ઉપયોગ કર્યો. વધુ વિગતવાર વર્ણન માટે King, Pan, and Roberts (2013) , પરિશિષ્ટ બી જુઓ.

અંતે રાજા અને તેના સાથીઓએ શોધ્યું હતું કે માત્ર ત્રણ પ્રકારની પોસ્ટ્સ નિયમિત રીતે સેન્સર કરવામાં આવી હતી: પોર્નોગ્રાફી, સેન્સરની ટીકા, અને જે સામૂહિક સક્રિય કલા વીજસ્થિતિમાન ધરાવતા હતા (એટલે ​​કે મોટા પાયે વિરોધીઓ તરફ દોરી જાય છે). કાઢી નાખવામાં આવેલી પોસ્ટ્સની મોટી સંખ્યા અને પોસ્ટ્સ કાઢી નખાયા હતા તે જોઈને, કિંગ અને સહકાર્યકરો એ જાણવા સક્ષમ હતા કે સેન્સર્સ કેવી રીતે કામ કરે છે અને ગણતરી કરી રહ્યા છે. વધુમાં, આ પુસ્તકમાં થતી એક એવી થીમની રજૂઆત કરે છે, જે નિરીક્ષણ કરેલ શિક્ષણ અભિગમ કે જે તેમણે કેટલાક પરિણામો હાથ-લેબલિંગ કર્યા હતા અને પછી બાકીના લેબલ માટે મશીન લર્નિંગ મોડેલનું નિર્માણ કર્યું હતું - ડિજિટલ વયમાં સામાજિક સંશોધનમાં ખૂબ જ સામાન્ય બની ગયું છે . તમે પ્રકરણ 3 (પ્રશ્નો પૂછવા) અને 5 (સામૂહિક જોડાણનું સર્જન) માં આકૃતિ 2.5 જેવા ચિત્રો જોશો; આ અનેક વિચારોમાંથી એક છે જે બહુવિધ પ્રકરણોમાં દેખાય છે.

આ ઉદાહરણો- ન્યૂ યોર્કમાં ટેક્સી ડ્રાઇવરોનું કામચલાઉ વર્તણૂંક અને ચીની સરકારના સામાજિક માધ્યમ સેન્સરશીપના વર્તન-દર્શાવે છે કે મોટા પ્રમાણમાં માહિતી સ્ત્રોતોની સરખામણીમાં સરળ ગણાય છે, કેટલીક પરિસ્થિતિઓમાં, રસપ્રદ અને મહત્વપૂર્ણ સંશોધન તરફ દોરી જાય છે બન્ને કિસ્સાઓમાં, જોકે, સંશોધકોએ મોટા ડેટા સ્રોતમાં રસપ્રદ પ્રશ્નો ઉભા કર્યા હતા; માહિતી પોતે જ પૂરતી ન હતી