2.3.2.1 അപൂർണം

എന്തുതന്നെ "വലിയ" നിങ്ങളുടെ "വലിയ ഡാറ്റ" എങ്ങനെ ഒരുപക്ഷേ നിങ്ങൾക്ക് ആവശ്യമുള്ള വിവരങ്ങൾ ഇല്ല.

ഏറ്റവും വലിയ ഡാറ്റ വൃത്തങ്ങൾ നിങ്ങളുടെ ഗവേഷണ ആഗ്രഹിക്കുന്ന വിവരങ്ങൾ ഇല്ല എന്ന അർഥത്തിൽ, അപൂർണ്ണമാണ്. ഈ ഗവേഷണ ആവശ്യങ്ങൾക്ക് സൃഷ്ടിച്ച ഡാറ്റയുടെ ഒരു സാധാരണ ഫീച്ചർ ആണ്. ധാരാളം സാമൂഹിക ശാസ്ത്രജ്ഞർ ഇതിനകം നിങ്ങളെ ആഗ്രഹിച്ചു ചോദ്യം ചോദിക്കാൻ വന്നില്ല നിലവിലുള്ള സർവേ പോലുള്ള incompleteness ഇടപെടുന്നതിൽ അനുഭവം നമുക്കുണ്ട്. നിർഭാഗ്യവശാൽ, incompleteness പ്രശ്നങ്ങൾ വലിയ ഡാറ്റ കൂടുതൽ അങ്ങേയറ്റത്തെ സാദ്ധ്യത. സൈദ്ധാന്തിക രീതികളായ പ്രാബല്യത്തിൽ പ്രേക്ഷകസമൂഹങ്ങൾ, മറ്റ് പ്ലാറ്റ്ഫോമുകളിൽ പെരുമാറ്റം, ഡാറ്റ: എന്റെ അനുഭവം വൻകിട ഡാറ്റ സോഷ്യൽ റിസർച്ച് ഉപയോഗപ്രദമായ വിവരങ്ങൾ മൂന്നു തരം നഷ്ടമായി ചെയ്യുന്നത് കുറവുമാണ്.

Incompleteness രൂപങ്ങളെ മൂന്നു Gueorgi Kossinets ആൻഡ് ഡങ്കൻ വാട്ട്സ് നടത്തിയ ഒരു പഠനത്തിൽ പ്രതിപാദിക്കുന്നുണ്ട് ചെയ്യുന്നു (2006) ഒരു സർവകലാശാലയിൽ സോഷ്യൽ നെറ്റ്വർക്ക് പരിണാമത്തെ കുറിച്ച്. Kossinets ആൻഡ് വാട്ട്സ് ഏത് (ഗവേഷകർ ഇമെയിലുകൾ ഉള്ളടക്കം ആക്സസ് ലഭ്യമല്ലായിരുന്നു) ഏത് സമയം ഉദ്ദേശിക്കുന്നവർക്ക് ഇമെയിലുകൾ അയച്ച കുറിച്ച് കൃത്യമായ വിവരങ്ങൾ ഉണ്ടായിരുന്നു യൂണിവേഴ്സിറ്റിയിലെ ഇമെയിൽ രേഖകൾ ഉപയോഗിച്ച് ആരംഭിക്കുക. ഈ ഇമെയിൽ രേഖകള് ഒരു അത്ഭുതകരമായ ഡാറ്റാഗണത്തിന്റെ മുഴങ്ങുന്നു, പക്ഷേ, അവർ-ഉണ്ടായിട്ടും അവരുടെ വലിപ്പവും ഗ്രാനുലാരിറ്റിയുടെ-അടിസ്ഥാനപരമായി അപൂർണ്ണമായ. ഉദാഹരണത്തിന്, ഇമെയിൽ രേഖകൾ ലിംഗഭേദം, പ്രായം വിദ്യാർത്ഥികളുടെ ജനസംഖ്യാപരമായ സ്വഭാവങ്ങളും കുറിച്ച് ഡാറ്റ ഉൾപ്പെടുന്നില്ല. എന്നുതന്നെയല്ല, ഇമെയിൽ രേഖകൾ പോലുള്ള ഫോൺ കോളുകൾ, ടെക്സ്റ്റ് സന്ദേശം, അല്ലെങ്കിൽ മുഖാമുഖം വരെ മുഖാമുഖ സംഭാഷണം മറ്റ് മീഡിയ, ആശയവിനിമയത്തിന്റെ കുറിച്ചുള്ള വിവരങ്ങൾ ഉൾപ്പെടുത്തിയിട്ടില്ല. ഒടുവിൽ, ഇമെയിൽ രേഖകൾ നേരിട്ട് ബന്ധങ്ങൾ, നിലവിലുള്ള അനേകം സിദ്ധാന്തങ്ങളിൽ സൈദ്ധാന്തിക രീതികളായ കുറിച്ചുള്ള വിവരങ്ങൾ ഉൾപ്പെടുന്നില്ല. പിന്നീട് അധ്യായത്തിൽ ഞാൻ ഗവേഷണ തന്ത്രങ്ങൾ കുറിച്ച് സംസാരിക്കുമ്പോൾ, നിങ്ങൾ Kossinets ആൻഡ് വാട്ട്സ് ഈ പ്രശ്നങ്ങൾ പരിഹരിച്ച എങ്ങനെ കാണും.

incompleteness മൂന്നു വസ്തുക്കളുടെയും സൈദ്ധാന്തികമായി രീതികളായ പ്രാബല്യത്തിൽ അപൂർണ്ണമായ ഡാറ്റ പ്രശ്നം, പരിഹരിക്കാൻ വലുതായി എന്റെ അനുഭവം പലപ്പോഴും അബദ്ധത്തിൽ ഡാറ്റ ശാസ്ത്രജ്ഞന്മാർ എഴുതിനിരുത്തണം. ഏകദേശം സൈദ്ധാന്തികമായി രീതികളായ നിർഭാഗ്യവശാൽ, ഈ രീതികളായ എപ്പോഴും unambiguously നിർവചിക്കപ്പെടും അളന്നു സാധ്യമല്ല സാമൂഹിക ശാസ്ത്രജ്ഞർ പഠിക്കാൻ അമൂർത്തമായ ആശയങ്ങൾ, പക്ഷേ,. ഉദാഹരണത്തിന്, ആശങ്കകളെ കൂടുതൽ ബുദ്ധിയുള്ള ചെയ്ത ആളുകളുടെ കൂടുതൽ പണം സമ്പാദിക്കുന്ന പ്രത്യക്ഷമായും ലളിതമായ ക്ലെയിം പരിശോധിക്കുന്നതിന് ശ്രമിക്കുകയാണ് എന്നിരിക്കട്ടെ ചെയ്യട്ടെ. ഈ ക്ലെയിം നിങ്ങൾ അളക്കാൻ ആവശ്യം പരിശോധിക്കുന്നതിന് "ഇന്റലിജൻസ്." ക്രമത്തിൽ എന്നാൽ ഇന്റലിജൻസ് എന്താണ്? ഉദാഹരണത്തിന്, Gardner (2011) രഹസ്യാന്വേഷണ എട്ട് വിവിധ രൂപങ്ങൾ യഥാർത്ഥത്തിൽ ഉണ്ട് വാദിച്ചു. പിന്നെ അവിടെ കൃത്യമായി രഹസ്യാന്വേഷണ രൂപങ്ങളെ ഏതെങ്കിലും അളക്കാൻ കഴിഞ്ഞില്ല നടപടിക്രമങ്ങൾ എവിടെ? മനഃശാസ്ത്രജ്ഞന്മാരുടെ സൃഷ്ടിയുടെ വമ്പിച്ച അളവിൽ നൽകിയിട്ടും ഈ ചോദ്യങ്ങൾ ഇപ്പോഴും കൃത്യതയും ഉത്തരങ്ങൾ ഇല്ല. അങ്ങനെ, താരതമ്യേന ലളിതമായ ക്ലെയിം-ജനം കൂടുതൽ ബുദ്ധിയുള്ള ആർ കൂടുതൽ നേടാൻ പണം-കഴിയും ആശങ്കകളെ വിലയിരുത്താൻ ബുദ്ധിമുട്ടാണ് ഡാറ്റ സൈദ്ധാന്തിക രീതികളായ പ്രാബല്യത്തിൽ ബുദ്ധിമുട്ടാണ് കാരണം. "മാനദണ്ഡങ്ങളും," "സോഷ്യൽ തലസ്ഥാനമായ" എന്നും "ജനാധിപത്യത്തെ ഉൾപ്പെടുത്താൻ പ്രാബല്യത്തിൽ പ്രധാനപ്പെട്ടത് പക്ഷേ പ്രയാസമാണെങ്കിലും അവ സൈദ്ധാന്തിക രീതികളായ മറ്റ് ഉദാഹരണങ്ങൾ." സോഷ്യൽ ശാസ്ത്രജ്ഞർ സൈദ്ധാന്തിക രീതികളായ ഡാറ്റ പരവലയങ്ങൾക്കു് സാധുത തമ്മിലുള്ള മത്സരം വിളിക്കും (Cronbach and Meehl 1955) . പിന്നെ, തയ്യാറാക്കിയതായിരുന്നു ഈ ലിസ്റ്റ് സാധുത നിർമിക്കുക സൂചിപ്പിക്കുന്നതു പോലെ സാമൂഹിക ശാസ്ത്രജ്ഞന്മാർ വളരെ നീണ്ട കാലം അവർ ഗവേഷണത്തിന്റെ ആവശ്യത്തിനായി ശേഖരിച്ച ഡാറ്റ കൂട്ടാളികളായ പോലും വേണ്ടി പൊരുതി എന്നു ഒരു പ്രശ്നമല്ല. ഗവേഷണ ആവശ്യങ്ങൾക്ക് ശേഖരിച്ച ഡാറ്റ ഉപയോഗിച്ച് പ്രവർത്തിക്കുന്ന സമയത്ത്, പരവലയങ്ങൾക്കു് സാധുത പ്രശ്നങ്ങൾ കൂടുതൽ വെല്ലുവിളി ആകുന്നു (Lazer 2015) .

നിങ്ങൾ ഒരു ഗവേഷണ പ്രബന്ധം വായിച്ചശേഷം പരവലയങ്ങൾക്കു് സാധുത കുറിച്ച് ആശങ്കകൾ വിലയിരുത്താൻ ഒറ്റ പെട്ടെന്നുള്ള ഉപയോഗപ്രദവുമായ വഴി സാധാരണയായി രീതികളായ കണക്കിലെടുത്ത് പ്രകടിപ്പിച്ച ഏത് പേപ്പർ, പ്രധാന ക്ലെയിം എടുത്തു ഉപയോഗിക്കുന്ന കണക്കുകളുടെ അടിസ്ഥാനത്തിൽ വീണ്ടും Express ആണ്. ഉദാഹരണത്തിന്, കൂടുതൽ ബുദ്ധിയുള്ള ആളുകൾ കൂടുതൽ പണം സമ്പാദിക്കാൻ കാണിക്കാൻ അവകാശപ്പെടുന്ന രണ്ടു സാങ്കൽപ്പിക പഠനങ്ങൾ പരിഗണിക്കുക:

  • പഠിക്കുക 1: നമ്മള് പുരോഗമന മെട്രിക്സ് ടെസ്റ്റ്-ഒരു വിശകലന ഇൻറലിജൻസിൻറെ നന്നായി പഠിച്ചു ടെസ്റ്റ് നന്നായി സ്കോർ ആളുകൾക്ക് (Carpenter, Just, and Shell 1990) വ്യക്തതയുള്ള അവരുടെ നികുതി റിട്ടേണിൽ വരുമാനം റിപ്പോർട്ട് -have
  • 2 സ്റ്റഡി: ട്വിറ്ററിൽ ജനം ഇനി വാക്കു ഉപയോഗിച്ച ആഡംബര മറന്ന കൂടുതൽ സാധ്യത

രണ്ട് കേസുകളിൽ, ഗവേഷകർ കൂടുതൽ ബുദ്ധിയുള്ള ജനം കൂടുതൽ പണം സമ്പാദിക്കാൻ കാണിയ്ക്കുന്നത് വാദിക്കുന്നു കഴിഞ്ഞില്ല. എന്നാൽ, ആദ്യ പഠനത്തിൽ സൈദ്ധാന്തിക രീതികളായ നന്നായി ഡാറ്റ operationalized ചെയ്യുന്നു, രണ്ടാം അങ്ങനെ ചെയ്തിട്ടില്ല. കൂടാതെ, ഈ ഉപമ വിവരിച്ചുതന്നിരിക്കുന്നു പോലെ കൂടുതൽ ഡാറ്റ സ്വയം പരവലയങ്ങൾക്കു് സാധുത പ്രശ്നങ്ങൾ പരിഹരിക്കാൻ ഇല്ല. താങ്കൾക്ക് ഒരു ദശലക്ഷം ട്വീറ്റുകൾ, ഒരു ബില്യൺ ട്വീറ്റുകൾ, അല്ലെങ്കിൽ ഒരു ട്രില്യൺ ട്വീറ്റുകൾ ഉൾപ്പെട്ട എന്നത് സ്റ്റഡി 2 ഫലങ്ങൾ സംശയിച്ചു വേണം. ഗവേഷകർ പരവലയങ്ങൾക്കു് സാധുത എന്ന ആശയം പരിചയിച്ചിട്ടില്ലാത്ത വേണ്ടി, ടേബിൾ 2.2 ഡിജിറ്റൽ ട്രെയ്സ് ഡാറ്റ ഉപയോഗിച്ച് സൈദ്ധാന്തിക രീതികളായ operationalized എന്നു പഠനങ്ങൾ ചില ഉദാഹരണങ്ങൾ നൽകുന്നു.

പട്ടിക 2.2: ഊന്നാത്ത താത്വിക സങ്കൽപ്പങ്ങൾ വിലയിരുത്തുന്നതിനായി ഉപയോഗിക്കുന്ന ഡിജിറ്റൽ ജലരേഖകളെ ഉദാഹരണങ്ങൾ. സാമൂഹിക ശാസ്ത്രജ്ഞന്മാർ ഈ മത്സരത്തിൽ പരവലയങ്ങൾക്കു് സാധുത വിളിക്കുകയും അത് സോഷ്യൽ റിസർച്ച് വലിയ ഡാറ്റ ഉറവിടങ്ങൾ ഉപയോഗിച്ച് ഒരു പ്രധാന വെല്ലുവിളിയാണ് (Lazer 2015) .
ഡിജിറ്റൽ ട്രെയ്സ് തിയററ്റിക്കൽ പരവലയങ്ങൾക്കു് ഉദ്ധരണി
ഒരു സർവകലാശാല (മെറ്റാ-ഡാറ്റ മാത്രം) നിന്നും രേഖകൾ സോഷ്യൽ ബന്ധങ്ങൾ Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
വെയ്ബോയിൽ സോഷ്യൽ മീഡിയ കുറിപ്പുകൾ ഇടപെടൽ Zhang (2016)
ഒരു ഉറച്ച (മെറ്റാ-ഡാറ്റയും പൂർണ്ണമായ ടെക്സ്റ്റ്) നിന്നും രേഖകൾ ഒരു ഓർഗനൈസേഷനിൽ സാംസ്കാരിക ഫിറ്റ് Goldberg et al. (2015)

operationalizing സൈദ്ധാന്തിക രീതികളായ അപൂർണമാണ് ഡാറ്റ പ്രശ്നം പരിഹരിക്കുന്നതിന് പ്രെറ്റി ഹാർഡ് ആണെങ്കിലും അപൂർണ്ണമായ ജനസംഖ്യാപരമായ വിവരങ്ങളും മറ്റ് പ്ലാറ്റ്ഫോമുകളിൽ പെരുമാറ്റം ന് അപൂർണ്ണമായ വിവരങ്ങൾ പ്രശ്നം മൂന്നു സാധാരണ പരിഹാരങ്ങൾ ഉണ്ട്. ആദ്യത്തെ യഥാർത്ഥത്തിൽ നിങ്ങൾക്ക് ആവശ്യമായ ഡാറ്റ ശേഖരിക്കാൻ ആണ്; ഞാൻ സര്വേ കുറിച്ച് പറയാന് ഞാന് അദ്ധ്യായം 3 ആ ഒരു ഉദാഹരണം കുറിച്ച് പറയാം. നിർഭാഗ്യവശാൽ, ഡാറ്റ ശേഖരണം ഇത്തരത്തിലുള്ള എല്ലായ്പ്പോഴും അത്ര എളുപ്പമല്ല. രണ്ടാം പ്രധാന പരിഹാരം ഡാറ്റ ശാസ്ത്രജ്ഞർ ഉപയോക്തൃ-ആട്രിബ്യൂട്ട് നിഗമനത്തിന്റെ എന്തു സാമൂഹിക ശാസ്ത്രജ്ഞന്മാർ ബിഷപ്പ് വിളിക്കും വിളിക്കുന്ന ചെയ്യാൻ ആണ്. ഈ സമീപനം ഗവേഷകർ മറ്റ് ആളുകളുടെ ഗുണവിശേഷങ്ങൾ അനുമാനിക്കാൻ ചില ആളുകൾ അവർ ഉണ്ടു എന്നു വിവരങ്ങൾ ഉപയോഗിക്കും. മൂന്നാം സാധ്യത പരിഹാരം-Kossinets ആൻഡ് ഉപയോഗിച്ചതായിരിക്കാം ഒന്നിലധികം ഡാറ്റ സ്രോതസ്സുകൾ സംയോജിപ്പിച്ച് വാട്ട്സ്-ആയിരുന്നു. ഈ പ്രക്രിയ ചിലപ്പോൾ സംയോജിപ്പിച്ചുകൊണ്ട് അല്ലെങ്കിൽ റെക്കോർഡ് ബന്ധം വിളിക്കുന്നു. ഈ പ്രക്രിയ എന്റെ പ്രിയപ്പെട്ട ചടുലത ആദ്യത്തെ പേപ്പർ ആദ്യ ഖണ്ഡിക എന്നേക്കും റെക്കോർഡ് ബന്ധം എഴുതിയിരിക്കുന്ന നിർദിഷ്ട ചെയ്തു (Dunn 1946) :

"ലോകത്തിലെ ഓരോ വ്യക്തിയും ലൈഫ് ഒരു ഗ്രന്ഥം സൃഷ്ടിക്കുന്നു. ഈ ഗ്രന്ഥം ജനനത്തിനു ആരംഭിക്കുന്നു മരണവും അവസാനിക്കുന്നു. അതിന്റെ പേജുകൾ ജീവിതത്തിൽ തത്ത്വം സംഭവങ്ങളുടെ റെക്കോഡുകൾ നിർമ്മിച്ചിരിക്കുന്നത്. റെക്കോർഡ് ബന്ധം ഒരു വോള്യം ഈ ഗ്രന്ഥം എന്ന അസംബ്ലി പ്രക്രിയയിൽ പേര്. "

ഈ ഭാഗത്തുകൂടി 1946 എഴുതിയിരിക്കുന്നു, ആ കാലത്തു, ജനം ജീവന്റെ പുസ്തകം ജനനം, വിവാഹം, വിവാഹമോചനം, മരണം തുടങ്ങിയ ജീവിതത്തിലെ സംഭവങ്ങൾ ഉൾപ്പെട്ടേക്കാവുന്ന ചിന്തിക്കുകയായിരുന്നു ചെയ്തു. എന്നാൽ ഇപ്പോൾ ആളുകളെ കുറിച്ച് ഇത്രയധികം വിവരങ്ങൾ രേഖപ്പെടുത്തിയിട്ടുണ്ട്, ജീവന്റെ പുസ്തകം അവിശ്വസനീയമാംവിധം വിശദമായ പോർട്രെയ്റ്റ് ഇനി ആ വ്യത്യസ്ത പേജുകൾ (അതായത്, ഞങ്ങളുടെ ഡിജിറ്റൽ പ്രകടമാകുന്നത്) എങ്കിൽ ബന്ധിക്കപ്പെട്ട കഴിയും. ജീവിതത്തിന്റെ ഈ ഗ്രന്ഥം ഗവേഷകർക്കും ഒരു സഹായമാകും കഴിഞ്ഞില്ല. എന്നാൽ, ലൈഫ് പുസ്തകം പുറമേ നാശത്തിൻറെ ഒരു ഡാറ്റാബേസ് വിളിക്കപ്പെടും കഴിഞ്ഞില്ല (Ohm 2010) , ഞാൻ താഴെയുള്ള വലിയ ഡാറ്റ ഉറവിടങ്ങളിൽ ശേഖരിച്ച വിവരങ്ങളുടെ സെൻസിറ്റീവ് സ്വഭാവം കുറിച്ച് സംസാരിക്കുമ്പോൾ കൂടുതൽ താഴെ പറഞ്ഞിരിക്കുന്ന പോലെ, അധാർമികനാണെന്ന് ആവശ്യങ്ങൾക്ക് എല്ലാ തരത്തിലുള്ള ഉപയോഗിക്കാൻ കഴിയാത്ത പാഠം 6 (എത്തിക്സ്) ൽ.