2.2 ബിഗ് ഡാറ്റ

ഗവേഷണയല്ലാതെ മറ്റ് ആവശ്യങ്ങൾക്ക് വേണ്ടി കമ്പനികളും സർക്കാരുകളും വൻതോതിൽ സൃഷ്ടിക്കുകയും ശേഖരിക്കുകയും ചെയ്യുന്നു. ഗവേഷണത്തിനായി ഈ ഡാറ്റ ഉപയോഗിക്കുന്നത്, വീണ്ടും ശ്രമിക്കേണ്ടതുണ്ട്.

ഡിജിറ്റൽ യുഗത്തിൽ സാമൂഹ്യ ഗവേഷണം നടത്തുന്ന നിരവധി ആളുകൾ വലിയ ഡാറ്റ എന്ന് വിളിക്കപ്പെടുന്നു. ഈ പദത്തിന്റെ വ്യാപകമായ ഉപയോഗം ഉണ്ടായിരുന്നിട്ടും, വലിയ അളവിലുള്ള ഡാറ്റയെക്കുറിച്ച് യാതൊരു ധാരണയുമില്ല. എന്നിരുന്നാലും, വലിയ ഡാറ്റയുടെ ഏറ്റവും സാധാരണമായ നിർവചനങ്ങൾ, "3 Vs": വോള്യം, വൈവിധ്യം, വേലോസിറ്റി എന്നിവയിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു. ഏതാണ്ട് പല ഫോർമാറ്റിലും ഡാറ്റ ധാരാളം ഉണ്ട്, അത് നിരന്തരം സൃഷ്ടിക്കുന്നു. വലിയ ഡാറ്റയുടെ ചില ആരാധകർ വെറൈറ്റി, മൂല്യം എന്നിവപോലുള്ള മറ്റ് "എതിരാളികളെ" ചേർക്കുന്നു, ചില വിമർശകർ അത്തരം അശ്ലീല, വാക്ചറേൻ പോലെയുണ്ട്. സോഷ്യൽ റിസർച്ചിന്റെ ആവശ്യത്തിനായി 3 "Vs" (അല്ലെങ്കിൽ 5 "Vs" അല്ലെങ്കിൽ 7 "Vs") എന്നതിനേക്കാൾ, ഒരു മികച്ച സ്ഥലം ആരംഭിക്കാൻ ഞാൻ 5 "WS" ആണ്: ആരാണ്, എന്ത്, എപ്പോൾ , എന്തുകൊണ്ട്. വാസ്തവത്തിൽ, വലിയ ഡാറ്റ ഉറവിടങ്ങൾ സൃഷ്ടിച്ച നിരവധി വെല്ലുവിളികളും അവസരങ്ങളും ഒരേയൊരു "W" ൽ നിന്ന് പിന്തുടരുന്നുവെന്ന് ഞാൻ കരുതുന്നു.

അനലോഗ് പ്രായത്തിൽ, ഗവേഷണം നടത്തുന്നതിന് സാമൂഹ്യ ഗവേഷണത്തിനായി ഉപയോഗിക്കപ്പെട്ട മിക്ക ഡാറ്റയും സൃഷ്ടിച്ചു. എന്നിരുന്നാലും, ഡിജിറ്റൽ വയസിൽ, ഗവേഷണത്തേയും, സേവനങ്ങൾ നൽകുന്നതിനെയും ലാഭം സൃഷ്ടിക്കുന്നതിനെയും നിയമങ്ങൾ നൽകുന്നതിനെയും പോലുള്ള ആവശ്യങ്ങൾക്കായി കമ്പനികളും സർക്കാരുകളും വലിയ അളവിൽ ഡാറ്റ സൃഷ്ടിക്കുന്നു. എന്നിരുന്നാലും ഗവേഷണത്തിനായി നിങ്ങൾക്ക് ഈ കോർപ്പറേറ്റ്, സർക്കാർ ഡാറ്റ പുനഃസ്ഥാപിക്കാൻ കഴിയും എന്ന് ക്രിയേറ്റീവ് ആളുകൾ തിരിച്ചറിഞ്ഞു. കലയെ സൃഷ്ടിക്കുന്നതിനുള്ള കണ്ടെത്തിയ വസ്തുവിനെ ഡുഷാമ്പിന്റെ പുനർവിവാഹം പോലെ തന്നെ, 1-ാം അദ്ധ്യായത്തിൽ ആർട്ട് സമാനമാണെന്നു ചിന്തിക്കുക.

പുനർരൂപകൽപ്പനയ്ക്ക് സംശയകരമായ അവസരങ്ങളുണ്ടെങ്കിലും ഗവേഷണാവശ്യങ്ങൾക്കായി സൃഷ്ടിക്കാത്ത ഡാറ്റ ഉപയോഗിച്ച് പുതിയ വെല്ലുവിളികൾ അവതരിപ്പിക്കുന്നു. ഉദാഹരണമായി, ട്വിറ്റർ പോലെയുള്ള ഒരു സോഷ്യൽ മീഡിയ സേവനം, ജനറൽ സോഷ്യൽ സർവേ പോലെയുള്ള പരമ്പരാഗത പൊതു അഭിപ്രായ സർവ്വേയ്ക്കൊപ്പം താരതമ്യം ചെയ്യുക. ട്വിറ്റർ പ്രധാന ലക്ഷ്യങ്ങൾ അതിന്റെ ഉപയോക്താക്കൾക്ക് ഒരു സേവനവും ലാഭവും ഉണ്ടാക്കുക എന്നതാണ്. ജനറൽ സോഷ്യൽ സർവേ, മറുവശത്ത്, സോഷ്യൽ ഗവേഷണത്തിനുള്ള പൊതു ഉദ്ദേശ്യാവിത ഡാറ്റ സൃഷ്ടിക്കുന്നതിലാണ്, പ്രത്യേകിച്ചും പൊതുജനാഭിപ്രായ ഗവേഷണത്തിനായി. ലക്ഷ്യങ്ങളിൽ ഈ വ്യത്യാസം സൂചിപ്പിക്കുന്നത് ട്വിറ്റർ സൃഷ്ടിച്ചതും ജനറൽ സോഷ്യൽ സർവേയിൽ സൃഷ്ടിക്കപ്പെട്ടതും പൊതു സ്വഭാവം പഠിക്കാൻ ഉപയോഗിക്കാമെങ്കിലും, വ്യത്യസ്തങ്ങളായ സവിശേഷതകളാണ്. ജനറൽ സോഷ്യൽ സർവെയ്ക്കുമായി യോജിക്കുന്ന തരത്തിലുള്ള വേഗതയും വേഗതയും ട്വിറ്റർ നടത്തുന്നുണ്ട്, എന്നാൽ, പൊതു സോഷ്യൽ സർവെയിൽ നിന്ന് വ്യത്യസ്തമായി, ട്വിറ്റർ ഉപയോക്താക്കളെ മാതൃകയാക്കി കാണിക്കുന്നില്ല, കാലക്രമേണ താരതമ്യപദവികളെ നിലനിർത്തുന്നില്ല. ഈ രണ്ട് ഡാറ്റ സ്രോതസ്സുകളും വളരെ വ്യത്യസ്തമാണ് കാരണം, ജനറൽ സോഷ്യൽ സർവേ ട്വിറ്ററിലും ട്വിറ്ററിലും മികച്ചതാണെന്ന് പറയാനാകില്ല. നിങ്ങൾ ആഗോള മാനസികാവസ്ഥയുടെ മണിക്കൂറുകൾ ആവശ്യമെങ്കിൽ (ഉദാഹരണം Golder and Macy (2011) ), ട്വിറ്റർ Golder and Macy (2011) . മറുവശത്ത്, അമേരിക്കൻ ഐക്യനാടുകളിലെ മനോഭാവങ്ങളുടെ ധ്രുവീകരണത്തിൽ (ഉദാ: DiMaggio, Evans, and Bryson (1996) ) ദീർഘകാലമാറ്റങ്ങൾ മനസിലാക്കാൻ നിങ്ങൾ ആഗ്രഹിക്കുന്നുണ്ടെങ്കിൽ ജനറൽ സോഷ്യൽ സർവേ ഏറ്റവും മികച്ച തെരഞ്ഞെടുപ്പാണ്. വലിയ ഡാറ്റ സ്രോതസ്സുകളെക്കാളും മികച്ച ഡാറ്റ ഉറവിടങ്ങളേക്കാളേയോ കൂടുതൽ മോശമായതോ ആണെന്ന് വാദിക്കാൻ ശ്രമിക്കുന്നതിനേക്കാൾ വലിയതോതിലുള്ള ഗവേഷണ ചോദ്യങ്ങൾ വലിയ ഡാറ്റ സ്രോതസ്സുകൾക്ക് ആകർഷകമാക്കാം. ഏത് തരത്തിലുള്ള ചോദ്യങ്ങൾക്ക് അവർ അനുയോജ്യം.

വലിയ ഡാറ്റ സ്രോതസ്സുകളെക്കുറിച്ച് ചിന്തിക്കുമ്പോൾ, തിരയൽ എഞ്ചിൻ ലോഗുകളും സോഷ്യൽ മീഡിയ പോസ്റ്റുകളും പോലുള്ള കമ്പനികൾ സൃഷ്ടിച്ചതും ശേഖരിച്ചതുമായ ഓൺലൈൻ ഡാറ്റയെക്കുറിച്ച് ഗവേഷകർ ഉടൻ ശ്രദ്ധിക്കുന്നു. എന്നിരുന്നാലും, ഈ പരിമിതമായ ഫോക്കസ് വലിയ രണ്ട് വിവരങ്ങളുടെ വലിയ ഉറവിടങ്ങൾ ഒഴിവാക്കുന്നു. ആദ്യം, വർദ്ധിച്ചുവരുന്ന കോർപ്പറേറ്റ് വലിയ ഡാറ്റ സ്രോതസ്സുകൾ ഫിസിക്കൽ ലോകത്തിലെ ഡിജിറ്റൽ ഉപകരണങ്ങളിൽ നിന്നും വരുന്നു. ഉദാഹരണമായി, ഈ അധ്യായത്തിൽ, ഒരു തൊഴിലാളിയുടെ ഉൽപാദനക്ഷമതയെ അതിന്റെ സഹപാഠികളുടെ ഉൽപാദനക്ഷമത (Mas and Moretti 2009) എങ്ങനെ ബാധിക്കുന്നുവെന്നതിനെക്കുറിച്ച് പഠിക്കാൻ ഒരു സൂപ്പർമാർക്കറ്റ് ചെക്ക് ഔട്ട് ഡാറ്റയെക്കുറിച്ച് ഞാൻ നിങ്ങൾക്ക് പഠിക്കാം. പിന്നീട്, അടുത്ത അധ്യായങ്ങളിൽ, ഞാൻ മൊബൈൽ ഫോണുകൾ (Blumenstock, Cadamuro, and On 2015) , (Blumenstock, Cadamuro, and On 2015) , ഇലക്ട്രോണിക് യൂട്ടിലിറ്റികൾ സൃഷ്ടിച്ച ബില്ലിംഗ് ഡാറ്റകൾ (Allcott 2015) കോൾ റെക്കോർഡുകൾ ഉപയോഗിച്ച (Blumenstock, Cadamuro, and On 2015) ഞാൻ നിങ്ങളെ അറിയിക്കും. ഈ ഉദാഹരണങ്ങൾ വ്യക്തമാക്കുമ്പോൾ, കോർപ്പറേറ്റ് വലിയ ഡാറ്റ ഉറവിടങ്ങൾ വെറും ഓൺലൈൻ പെരുമാറ്റത്തേക്കാൾ കൂടുതലാണ്.

ഓൺലൈൻ പെരുമാറ്റം നിസ്സാരമായ ശ്രദ്ധയിൽപ്പെട്ട വലിയ ഡാറ്റയുടെ രണ്ടാമത്തെ സുപ്രധാന ഉറവിടം സർക്കാരുകൾ സൃഷ്ടിച്ച ഡാറ്റയാണ്. ഗവൺമെന്റ് അഡ്മിനിസ്ട്രേറ്റിവ് രേഖകളിൽ ഗവേഷകകർ രേഖപ്പെടുത്തിയ രേഖകൾ, സ്കൂൾ റെക്കോർഡുകൾ, സുപ്രധാന സ്ഥിതിവിവരക്കണക്കുകൾ രേഖകൾ (ഉദാ: ജനന-മരണ രജിസ്റ്ററികൾ) എന്നിവയാണ് ഗവേഷകരുടെ എണ്ണം. സാമൂഹിക ശാസ്ത്രജ്ഞന്മാർ എത്രകാലം കഴിഞ്ഞിട്ടും നൂറുകണക്കിന് വർഷങ്ങൾ, സാമൂഹിക ശാസ്ത്രജ്ഞർ തുടങ്ങിയവർ ഇത്തരം രീതികൾ ഉപയോഗപ്പെടുത്തുന്നു. ഡിജിറ്റൽവത്ക്കരണം മാറ്റിയാൽ എന്തു മാറ്റം സംഭവിച്ചിരിക്കുന്നു, ഡാറ്റ ശേഖരിക്കാനും വിതരണം ചെയ്യാനും സംഭരിക്കാനും വിശകലനം ചെയ്യാനും ഗവൺമെന്റുകൾക്ക് ഇത് കൂടുതൽ എളുപ്പമാക്കിത്തീർത്തിരിക്കുന്നു. ഉദാഹരണത്തിന്, ഈ അദ്ധ്യായത്തിൽ, തൊഴിൽ സാമ്പത്തികശാസ്ത്രത്തിൽ (Farber 2015) ഒരു അടിസ്ഥാന ചർച്ച നടത്താൻ ന്യൂയോർക്ക് നഗര സർക്കാരിന്റെ ഡിജിറ്റൽ ടാക്സി മീറ്റുകളിൽ നിന്നുള്ള ഡാറ്റയെ അപഗ്രഥിച്ച ഒരു പഠനത്തെ കുറിച്ച് ഞാൻ നിങ്ങളെ അറിയിക്കും. പിന്നീട്, അടുത്ത അധ്യായങ്ങളിൽ ഗവൺമെന്റ് ശേഖരിച്ച വോട്ടിങ് റെക്കോർഡുകൾ ഒരു സർവേയിലും (Ansolabehere and Hersh 2012) പരീക്ഷിച്ചുവെന്നും (Bond et al. 2012) ഒരു പരീക്ഷണമായിരുന്നുവെന്നും ഞാൻ പറയാം.

വലിയ ഡാറ്റാ സ്രോതസ്സുകളിൽ നിന്ന് പഠിക്കുന്നതിനുള്ള അടിസ്ഥാനമാണ് repurposing എന്ന ആശയം, അതിനാൽ വലിയ ഡാറ്റ സ്രോതസുകളുടെ (വിഭാഗം 2.3) ഉള്ള സവിശേഷതകളെക്കുറിച്ചും ഗവേഷണങ്ങളിൽ ഇത് എങ്ങനെ ഉപയോഗിക്കാമെന്നും (വിഭാഗം 2.4) കൂടുതൽ വ്യക്തമായി സംസാരിക്കുന്നതിന് മുമ്പ് ഞാൻ ആഗ്രഹിക്കുന്നു പുനർ നിർണ്ണയിക്കലിനെക്കുറിച്ചുള്ള രണ്ട് കഷണങ്ങൾ പൊതു നിർദ്ദേശം വാഗ്ദാനം ചെയ്യാൻ. ഒന്നാമത്തേത്, "ലഭ്യമായ" ഡാറ്റയും "രൂപകൽപ്പന ചെയ്ത" ഡാറ്റയും തമ്മിൽ ഞാൻ സജ്ജമാക്കിയിരിക്കുന്ന തീവ്രതയെക്കുറിച്ച് ചിന്തിക്കാൻ പ്രലോഭിപ്പിച്ചേക്കാം. അത് വളരെ അടുത്താണ്, പക്ഷേ അത് തികച്ചും ശരിയായതല്ല. ഗവേഷകരുടെ കാഴ്ചപ്പാടിൽ നിന്ന്, വലിയ ഡാറ്റ സ്രോതസ്സുകൾ "കണ്ടെത്തി," അവ ആകാശത്തു നിന്ന് വീഴുന്നില്ല. അതിനുപകരം, ഗവേഷകരുടെ "കണ്ടെത്തി" എന്ന സ്രോതസ്സുകൾ ചില ഉദ്ദേശ്യങ്ങൾക്കായി ഒരാൾ രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു. "കണ്ടെത്ത" ഡേറ്റാ ഒരാൾ രൂപകൽപ്പന ചെയ്തിരിക്കുന്നതിനാൽ, നിങ്ങളുടെ ഡാറ്റ സൃഷ്ടിക്കുന്ന ആളുകളെയും പ്രോസസുകളെയും കുറിച്ച് കഴിയുന്നത്രയും മനസ്സിലാക്കാൻ നിങ്ങൾ ശ്രമിക്കാമെന്ന് ഞാൻ എപ്പോഴും ശുപാർശ ചെയ്യുന്നു. രണ്ടാമതായി, നിങ്ങൾ ഡാറ്റ പുനഃസ്ഥാപിക്കുകയാണെങ്കിൽ, നിങ്ങളുടെ പ്രശ്നത്തിന് അനുയോജ്യമായ ഡാറ്റാഗണത സങ്കൽപ്പിക്കാൻ വളരെ സഹായകരമാണ്, തുടർന്ന് നിങ്ങൾ ഉപയോഗിക്കുന്ന ഏറ്റവും മികച്ച ഡാറ്റാഗണത താരതമ്യം ചെയ്യുക. നിങ്ങളുടെ ഡാറ്റ നിങ്ങൾ ശേഖരിച്ചിട്ടില്ലെങ്കിൽ, നിങ്ങൾക്കാവശ്യമുള്ളതും നിങ്ങൾക്ക് ഉള്ളതും തമ്മിൽ പ്രധാന വ്യത്യാസങ്ങൾ ഉണ്ടാകാനിടയുണ്ട്. ഈ വ്യത്യാസങ്ങൾ നിങ്ങൾക്ക് മനസിലാക്കാൻ കഴിയുന്നത്, നിങ്ങൾക്ക് ഉള്ള ഡാറ്റയിൽ നിന്നും പഠിക്കാൻ കഴിയില്ല, ഒപ്പം നിങ്ങൾ ശേഖരിക്കേണ്ട പുതിയ ഡാറ്റ നിർദ്ദേശിക്കാനിടയുണ്ട്.

എന്റെ അനുഭവത്തിൽ സാമൂഹിക ശാസ്ത്രജ്ഞരും വിവര ശാസ്ത്രജ്ഞരും വളരെ വ്യത്യസ്തമായ രീതിയിലാണ് പുനർരൂപകൽപ്പന നടത്തുന്നത്. ഗവേഷണത്തിനു വേണ്ടി രൂപകൽപ്പന ചെയ്തിരിക്കുന്ന വിവരങ്ങളുമായി പ്രവർത്തിക്കാൻ താൽപര്യമുള്ള സാമൂഹ്യ ശാസ്ത്രജ്ഞർ, അതിന്റെ ശക്തികളെ അവഗണിക്കാതെ തന്നെ repurposed ഡാറ്റയുള്ള പ്രശ്നങ്ങൾ ചൂണ്ടിക്കാട്ടി വേഗത്തിൽ നടക്കുന്നു. മറുവശത്ത്, ഡാറ്റ ശാസ്ത്രജ്ഞർ, അതിന്റെ ബലഹീനതകൾ അവഗണിച്ചുകൊണ്ട്, repurposed ഡാറ്റയുടെ ഗുണങ്ങൾ സൂചിപ്പിക്കാൻ വേഗം നടക്കുന്നു. സ്വാഭാവികമായും മികച്ച സമീപനം ഒരു സങ്കരമാണ്. അതായത്, നല്ലതും ചീത്തയുമുള്ള വലിയ വിവര സ്രോതസുകളുടെ സ്വഭാവം മനസിലാക്കാൻ ഗവേഷകർ ശ്രമിക്കേണ്ടതുണ്ട്, എന്നിട്ട് അവയിൽ നിന്ന് എങ്ങനെ പഠിക്കണം എന്ന് മനസ്സിലാക്കുക. ഈ അധ്യായത്തിന്റെ അവശേഷിക്കുന്ന പദ്ധതിയാണിത്. അടുത്ത സെക്ഷനിൽ, വലിയ ഡാറ്റാ സ്രോതസ്സുകളുടെ പത്തു സവിശേഷതകളെ ഞാൻ വിവരിക്കും. അത്തരം വിവരങ്ങളുമായി നന്നായി പ്രവർത്തിക്കുന്നതിന് കഴിയുന്ന മൂന്ന് ഗവേഷണ പ്രബന്ധങ്ങൾ താഴെപ്പറയുന്നു.