3.6.1 પૂછવા સમૃદ્ધ

આ અનુવાદ કમ્પ્યુટર દ્વારા બનાવવામાં આવી હતી. ×

3.6.1 પૂછવા સમૃદ્ધ

સમૃદ્ધ પૂછપરછમાં, સર્વેક્ષણ ડેટા મોટા ડેટા સ્રોતની આસપાસનો સંદર્ભ બનાવે છે જેમાં કેટલાક મહત્વપૂર્ણ માપનો સમાવેશ થાય છે પરંતુ અન્ય લોકોની અભાવ હોય છે.

મોજણી માહિતી અને મોટા માહિતી સ્ત્રોત ભેગા એક માર્ગ એક પ્રક્રિયા છે કે હું સમૃદ્ધ પૂછવા કૉલ પડશે. સમૃદ્ધ પૂછપરછમાં, મોટા ડેટા સ્રોતમાં કેટલીક મહત્વપૂર્ણ માપનો સમાવેશ થાય છે પરંતુ અન્ય માપનો અભાવ હોય છે જેથી સંશોધક આ મોજણીમાં ગુમ થયેલ માપને એકત્રિત કરે છે અને ત્યારબાદ બંને ડેટા સ્ત્રોતોને એકસાથે લિંક કરે છે. સમૃદ્ધ Burke and Kraut (2014) એક ઉદાહરણ Burke and Kraut (2014) દ્વારા અભ્યાસ Burke and Kraut (2014) છે કે શું ફેસબુક પર ક્રિયાપ્રતિક્રિયા મિત્રતા મજબૂતાઈ વધે છે, જે મેં વિભાગ 3.2 માં વર્ણવ્યું છે. તે કિસ્સામાં, બર્ક અને ક્રુટ સંયુક્ત લોગ ડેટા સાથે મોનિટર ડેટા.

સેટિંગ જેમાં બર્ક અને ક્રુટ કામ કરતા હતા, તેમનો અર્થ એવો થયો કે સંશોધકોએ બે મોટી સમસ્યાઓનો સામનો કરવો પડ્યો ન હતો જે સંશોધકોએ ખાસ કરીને ચહેરાથી સમૃદ્ધ કર્યા હતા. સૌપ્રથમ, વ્યક્તિગત સ્તરના ડેટા સમૂહોને એકસાથે લિંક કરવી, રેકોર્ડ લિંક્સ તરીકે ઓળખાતી પ્રક્રિયા મુશ્કેલ હોઈ શકે જો ત્યાં ડેટા સ્રોતોમાં કોઈ વિશિષ્ટ ઓળખકર્તા ન હોય તો તે એક ડેટાસેટમાં સાચું રેકોર્ડ યોગ્ય રેકોર્ડ સાથે મેળ ખાતું હોય તેની ખાતરી કરવા માટે ઉપયોગમાં લઇ શકાય છે અન્ય ડેટાસેટમાં સમૃદ્ધ પુછવા સાથે બીજી મુખ્ય સમસ્યા એ છે કે મોટા ડેટા સ્રોતની ગુણવત્તાને સંશોધકો માટે આકારણી કરવી મુશ્કેલ હોય છે કારણ કે જે પ્રક્રિયા દ્વારા ડેટા બનાવવામાં આવે છે તે પ્રોપરાઇટરી હોઈ શકે છે અને પ્રકરણ 2 માં વર્ણવેલ ઘણી સમસ્યાઓ માટે સંવેદનશીલ હોઇ શકે છે. અન્ય શબ્દોમાં કહીએ તો સમૃદ્ધ પૂછપરછમાં વારંવાર અજાણ્યા જાતના બ્લેક-બોક્સ ડેટા સ્ત્રોતોમાં સર્વેક્ષણોને જોડવામાં ભૂલ-ભરેલું સામેલ હશે. આ સમસ્યાઓ છતાં, જોકે, સમૃદ્ધ લોકોની પૂછપરછ કરવા માટે મહત્વપૂર્ણ સંશોધનો કરવા માટે ઉપયોગ કરી શકાય છે, જેમ કે યુનાઇટેડ સ્ટેટ્સમાં મતદાનની પદ્ધતિઓ પર તેમના સંશોધનમાં સ્ટીફન અન્સોલબેયર અને ઇયાન હર્શે (2012) દ્વારા દર્શાવવામાં આવ્યું હતું.

મતદાન મતદાન રાજકીય વિજ્ઞાનમાં વ્યાપક સંશોધનનો વિષય છે, અને, ભૂતકાળમાં, કોણ મતદાન કરે છે તે સંશોધકોની સમજ અને શા માટે મોટેભાગે સર્વેક્ષણ ડેટાના વિશ્લેષણ પર આધારિત છે. યુનાઇટેડ સ્ટેટ્સમાં મતદાન, જો કે, એક અસામાન્ય વર્તન છે, જેમાં સરકારે નોંધ્યું છે કે દરેક નાગરિકે મતદાન કર્યું છે (અલબત્ત, સરકાર દરેક નાગરિકના મતદાન માટે રેકોર્ડ કરે છે) ઘણાં વર્ષો સુધી, આ સરકારી મતદાન નોંધો કાગળના સ્વરૂપો પર ઉપલબ્ધ હતા, જે દેશભરની વિવિધ સ્થાનિક સરકારી કચેરીઓમાં વિખેરી નાખવામાં આવ્યા હતા. આનાથી તે ખૂબ જ મુશ્કેલ છે, પરંતુ અશક્ય નથી, રાજકીય વૈજ્ઞાનિકો માટે મતદારોની સંપૂર્ણ ચિત્ર હોવાની અને તેમના વાસ્તવિક મતદાન વર્તન (Ansolabehere and Hersh 2012) સાથે મતદાન વિશે સર્વેક્ષણમાં લોકો શું કહે છે તેની સરખામણી કરવા માટે.

પરંતુ આ મતદાન રેકોર્ડ્સ હવે ડિજિટાઇઝ કરવામાં આવ્યા છે, અને સંખ્યાબંધ ખાનગી કંપનીઓએ વ્યવસ્થિતપણે એકત્રિત કરવામાં આવે છે અને તેમને વ્યાપક માસ્ટર મતદાન ફાઇલો બનાવવા માટે મર્જ કર્યા છે જેમાં તમામ અમેરિકીઓના મતદાન વર્તનનો સમાવેશ થાય છે. અન્સોલબેયર અને હર્શએ આમાંની એક કંપની-કેટાલિસ્ટ એલસીસી સાથે ભાગીદારી કરી - મતદારોની વધુ સારી ચિત્ર વિકસાવવામાં મદદ માટે તેમની મુખ્ય મતદાન ફાઇલનો ઉપયોગ કર્યો. વધુમાં, કારણ કે તેમના અભ્યાસમાં ડિજિટલ રેકોર્ડ પર સંગ્રહ કરવામાં આવ્યો હતો અને એક એવી કંપની દ્વારા એકત્રિત કરવામાં આવી હતી કે જેણે ડેટા સંગ્રહણ અને એકસૂત્રતામાં નોંધપાત્ર સ્ત્રોતોનું રોકાણ કર્યું હતું, તે કંપનીઓની સહાય વિના કરવામાં આવેલા એન્હાલૉગ રેકોર્ડ્સ દ્વારા અને એન્ગલૉગ રેકોર્ડ્સનો ઉપયોગ કરીને પહેલાંના પ્રયત્નો કરતાં ઘણા ફાયદા ઓફર કરે છે.

પ્રકરણ 2 માં મોટાભાગના મોટા ડેટા સ્રોતોની જેમ, કેટાલિસ્ટ માસ્ટર ફાઇલમાં મોટાભાગના વસ્તીવિષયક, વર્તન, અને વર્તણૂકની માહિતીનો સમાવેશ થતો નથી, જે અન્સોલબેયર અને હર્શની જરૂર છે. વાસ્તવમાં, માન્યકૃત મતદાન વર્તન (એટલે કે કેટેલિસ્ટ ડેટાબેઝમાં માહિતી) સાથે સર્વેક્ષણોમાં નોંધાયેલા મતદાન વર્તનની સરખામણીમાં તેઓ ખાસ કરીને રસ ધરાવતા હતા. તેથી અન્સોલબેયરે અને હર્શએ આ પ્રકરણમાં અગાઉ જણાવેલ સી.સી.ઈ.એસ., મોટું સામાજિક સર્વેક્ષણ ઇચ્છતા હતા. પછી તેમણે કેટાલિસ્ટને તેમનો ડેટા આપ્યો, અને કેટાલિસ્ટે તેમને મર્જર ડેટા ફાઇલ પાછા આપી દીધી જેમાં પ્રમાણિત મતદાન વર્તન (કેટાલિસ્ટથી), સેલ્ફ-રિપોર્ટિંગ મતદાન વર્તન (સીસીઇએસ દ્વારા) અને ઉત્તરદાતાઓના વસ્તીવિષયક અને વલણ (સીસીઇએસ દ્વારા) (આકૃતિ 3.13). બીજા શબ્દોમાં કહીએ તો, અન્સોલબેયરે અને હર્શએ સર્વેક્ષણ ડેટા સાથે મતદાન રેકોર્ડ ડેટાને સંયુક્ત રીતે કરવા માટે સંશોધન કર્યું હતું, જે ડેટા સ્રોત સાથે વ્યક્તિગત રીતે શક્ય ન હતું.

આકૃતિ 3.13: અન્સોલબેયર અને હર્શ દ્વારા અભ્યાસના યોજનાકીય (2012). માસ્ટર ડેટાફાઇલ બનાવવા માટે, કેટાલિસ્ટ ઘણી જુદી જુદી સ્રોતોમાંથી માહિતીને જોડે છે અને સુમેળ કરે છે. મર્જીંગની આ પ્રક્રિયા, ભલે તે સાવચેત હોય, મૂળ ડેટા સ્રોતોમાં ભૂલોનો પ્રચાર કરશે અને નવી ભૂલો રજૂ કરશે. ભૂલોનો બીજો સ્રોત સર્વેક્ષણ ડેટા અને માસ્ટર ડેટાફાઇલ વચ્ચેના રેકોર્ડ લિન્કેડ છે. જો દરેક વ્યક્તિ પાસે બંને ડેટા સ્રોતોમાં એક સ્થિર, અનન્ય ઓળખકર્તા હોય, તો પછી જોડાણ ટૂંકા હશે. પરંતુ, કટ્ટરિસ્ટને આ કેસ નામ, લિંગ, જન્મ વર્ષ અને ઘરના સરનામામાં અપૂર્ણ ઓળખકર્તાઓનો ઉપયોગ કરીને જોડાણ કરવું પડ્યું હતું. કમનસીબે, ઘણા કિસ્સાઓમાં અપૂર્ણ અથવા અચોક્કસ માહિતી હોઈ શકે છે; હોમર સિમ્પ્સન નામના મતદાર હોમર જય સિમ્પસન, હોમી જે સિમ્પ્સન, અથવા તો હોમર સેમ્પ્સીન પણ હોઈ શકે છે. કેટાલ્સ્ટ માસ્ટર ડેટાફીલમાં ભૂલો માટે સંભવિત હોવા છતાં અને રેકોર્ડ લિંક્સમાં ભૂલો, અન્સોલેબહેર અને હર્શ તેમના અંદાજોમાં વિવિધ પ્રકારના તપાસ દ્વારા આત્મવિશ્વાસ આપવા સક્ષમ હતા.

આકૃતિ 3.13: Ansolabehere and Hersh (2012) દ્વારા અભ્યાસના યોજનાકીય Ansolabehere and Hersh (2012) . માસ્ટર ડેટાફાઇલ બનાવવા માટે, કેટાલિસ્ટ ઘણી જુદી જુદી સ્રોતોમાંથી માહિતીને જોડે છે અને સુમેળ કરે છે. મર્જીંગની આ પ્રક્રિયા, ભલે તે સાવચેત હોય, મૂળ ડેટા સ્રોતોમાં ભૂલોનો પ્રચાર કરશે અને નવી ભૂલો રજૂ કરશે. ભૂલોનો બીજો સ્રોત સર્વેક્ષણ ડેટા અને માસ્ટર ડેટાફાઇલ વચ્ચેના રેકોર્ડ લિન્કેડ છે. જો દરેક વ્યક્તિ પાસે બંને ડેટા સ્રોતોમાં એક સ્થિર, અનન્ય ઓળખકર્તા હોય, તો પછી જોડાણ ટૂંકા હશે. પરંતુ, કટ્ટરિસ્ટને આ કેસ નામ, લિંગ, જન્મ વર્ષ અને ઘરના સરનામામાં અપૂર્ણ ઓળખકર્તાઓનો ઉપયોગ કરીને જોડાણ કરવું પડ્યું હતું. કમનસીબે, ઘણા કિસ્સાઓમાં અપૂર્ણ અથવા અચોક્કસ માહિતી હોઈ શકે છે; હોમર સિમ્પ્સન નામના મતદાર હોમર જય સિમ્પસન, હોમી જે સિમ્પ્સન, અથવા તો હોમર સેમ્પ્સીન પણ હોઈ શકે છે. કેટાલ્સ્ટ માસ્ટર ડેટાફીલમાં ભૂલો માટે સંભવિત હોવા છતાં અને રેકોર્ડ લિંક્સમાં ભૂલો, અન્સોલેબહેર અને હર્શ તેમના અંદાજોમાં વિવિધ પ્રકારના તપાસ દ્વારા આત્મવિશ્વાસ આપવા સક્ષમ હતા.

તેમની સંયુક્ત ડેટા ફાઇલ સાથે, એસોલોબેયર અને હર્શે ત્રણ મહત્વપૂર્ણ નિષ્કર્ષ પર આવ્યા હતા પ્રથમ, મતદાનનો ઓવર-રિપોર્ટ પ્રબળ છે: નૉનવૉટર્સના લગભગ અડધા મતદાનની નોંધણી કરે છે, અને જો કોઈ વ્યક્તિ મતદાનની જાણ કરે છે, તો માત્ર 80% તક તેઓ ખરેખર મતદાન કરે છે. બીજું, ઓવર-રિપોર્ટિંગ રેન્ડમ નથી: ઉચ્ચ-આવક, સારી રીતે શિક્ષિત, જે લોકો જાહેર બાબતોમાં રોકાયેલા હોય છે, તેઓમાં ઓવર-રિપોર્ટિંગ વધુ સામાન્ય છે. બીજા શબ્દોમાં કહીએ તો, જે મતદાનની સૌથી વધુ સંભાવના હોય છે તે લોકો પણ મતદાન અંગે જૂઠ્ઠાં થવાની સંભાવના ધરાવે છે. ત્રીજું, અને સૌથી વધુ વિવેચનાત્મક, ઓવર-રિપોર્ટિંગના વ્યવસ્થિત પ્રકૃતિને કારણે, મતદારો અને નૉનવૉટર્સ વચ્ચેનો વાસ્તવિક તફાવત સર્વેક્ષણો કરતાં માત્ર નાના દેખાય છે. ઉદાહરણ તરીકે, સ્નાતકની ડિગ્રી ધરાવતા લોકો મતદાનની જાણ કરતા લગભગ 22 ટકા વધુ પોઇન્ટ્સ ધરાવે છે, પરંતુ વાસ્તવમાં મત આપવા માટે ફક્ત 10 ટકા વધારે છે. તે આશ્ચર્યજનક નથી, કદાચ આશ્ચર્યજનક નથી, મતદાનની પ્રવર્તમાન સ્રોત-આધારિત સિદ્ધાંતો જે મતદાનની જાણ કરશે (જે ભૂતકાળમાં સંશોધકોએ ઉપયોગ કર્યો હોય તે માહિતી છે) ની આગાહી કરતા વધુ સારી છે, જે વાસ્તવમાં મત આપે છે કે જે મત આપે છે. આમ, Ansolabehere and Hersh (2012) ના પ્રયોગમૂલક શોધે મતદાનની સમજણ અને આગાહી કરવા નવા સિદ્ધાંતોનો Ansolabehere and Hersh (2012) .

પરંતુ આ પરિણામો પર અમારે કેટલો વિશ્વાસ કરવો જોઈએ? યાદ રાખો, આ પરિણામો ભૂલની ખામીને આધારે કાળા-બૉક્સ ડેટા સાથે જોડવામાં ભૂલ પર આધારિત છે. વધુ વિશિષ્ટ રીતે, પરિણામો બે મુખ્ય પગલાઓ પર અસર કરે છે: (1) કેટલાયસ્ટની ક્ષમતાને કારણે ઘણા નિષ્પક્ષ ડેટા સ્રોતોને એક સચોટ માસ્ટર ડેટાફાઇલ બનાવવામાં આવે છે અને (2) તેના માસ્ટર ડેટાફીલમાં સર્વેક્ષણ ડેટાને લિંક કરવા માટે કેટેલિસ્ટની ક્ષમતા. આ દરેક પગલાઓ મુશ્કેલ છે, અને કોઈ પણ પગલામાં ભૂલો સંશોધકોને ખોટા તારણો તરફ દોરી શકે છે. જો કે, ડેટા પ્રોસેસિંગ અને લિંકિંગ કંપની તરીકે કેટાલિસ્ટના સતત અસ્તિત્વ માટે મહત્વપૂર્ણ છે, તેથી તે આ સમસ્યાઓને હલ કરવા માટે સંસાધનોનું રોકાણ કરી શકે છે, ઘણી વખત એવા કોઈ સ્કેલ પર કે જે કોઈ શૈક્ષણિક સંશોધક મેળ ખાતા નથી. તેમના કાગળમાં, અન્સોલબેયર અને હર્શ આ બે પગલાઓના પરિણામોને ચકાસવા માટે ઘણા પગલાંઓમાંથી પસાર થાય છે-ભલે તેમાંના કેટલાક માલિકીનું હોય અને આ તપાસ અન્ય સર્જકોને બ્લેક-બૉક્સના મોટા ડેટા સાથે લિંક કરવા માટે સહાયરૂપ થઈ શકે. સૂત્રો

સામાન્ય પાઠ સંશોધનકર્તાઓ આ અભ્યાસમાંથી શું ડ્રો કરી શકે છે? પ્રથમ, મોટું ડેટા સ્ત્રોતોને મોટું ડેટા સ્રોત અને મોટું ડેટા સ્ત્રોતો સાથે મોજણી ડેટાને સમૃદ્ધ બનાવવાથી જબરદસ્ત મૂલ્ય છે (તમે આ અભ્યાસ ક્યાં તો જોઈ શકો છો). આ બે ડેટા સ્ત્રોતોને સંયોજિત કરીને, સંશોધકો તે કાંઈક કરી શકતા હતા કે જે વ્યક્તિગત રૂપે ક્યાંક અશક્ય હતા. બીજો સામાન્ય પાઠ એવો છે કે, કટ્ટરલિસ્ટના ડેટા જેવા વ્યાપારી ડેટા સ્ત્રોતો, કેટલાક કિસ્સાઓમાં, "ગ્રાઉન્ડ સત્ય" ન હોવા જોઈએ, તે ઉપયોગી હોઈ શકે છે. સંશયકારો ક્યારેક આ એકંદર, વાણિજિયક ડેટા સ્રોતને સંપૂર્ણ સત્ય સાથે સરખાવે છે અને નિર્દેશ કરે છે કે આ ડેટા સ્રોતો ટૂંકા હોય છે. જો કે, આ કિસ્સામાં, સંશયકારો ખોટી સરખામણી કરી રહ્યા છે: સંશોધકોનો ઉપયોગ સંપૂર્ણ સત્યના ટૂંકા ગાળાથી થાય છે. તેના બદલે, અન્ય ઉપલબ્ધ ડેટા સ્ત્રોતો (દા.ત., સ્વ-જાણિત મતદાન વર્તન) સાથે એકત્રિત, વ્યાવસાયિક ડેટા સ્રોતોની તુલના કરવી વધુ સારી છે, જે અવારનવાર ભૂલો પણ ધરાવે છે. છેલ્લે, અન્સોલબેયર અને હર્શના અભ્યાસના ત્રીજા સામાન્ય પાઠ એ છે કે કેટલીક પરિસ્થિતિઓમાં, સંશોધકોને વિશાળ રોકાણોથી ફાયદો થઈ શકે છે કે જે ઘણી ખાનગી કંપનીઓ જટિલ સામાજિક ડેટા સમૂહો એકત્ર કરવા અને સુમેળ કરવા માટે કરે છે.