2.3.2.1 முழுமையற்ற

விஷயம் இல்லை "பெரிய" உங்கள் ", பெரிய தரவு" அது ஒருவேளை நீங்கள் விரும்பும் தகவலை இல்லை என்பதை.

மிக பெரிய தரவு மூலங்கள் அவர்கள் நீங்கள் உங்கள் ஆராய்ச்சி செய்ய வேண்டும் என்று தகவல் இல்லை என்ற அர்த்தத்தில், முழுமையில்லாத. இந்த ஆராய்ச்சி தவிர, வேறு எந்த படைக்கப்பட்டன என்று தரவு ஒரு பொதுவான அம்சம். பல சமூக விஞ்ஞானிகள் ஏற்கனவே நீங்கள் விரும்பிய கேள்வி கேட்கவில்லை என்று ஒரு இருக்கும் கணக்கெடுப்பு போன்ற, முற்றுப்பெறாத கையாள்வதில் அனுபவம். துரதிருஷ்டவசமாக, முற்றுப்பெறாத பிரச்சினைகளை பெரிய தரவு, இன்னும் தீவிர இருக்க முனைகின்றன. தத்துவார்த்த கட்டமைப்புகளை நடைமுறைப்படுத்தும் விளக்கப்படங்கள், மற்ற தளங்களில் நடத்தை, மற்றும் தரவு: என் அனுபவத்தில், பெரிய தரவு சமூக ஆராய்ச்சி பயனுள்ள தகவல்களை மூன்று வகையான காணாமல் கொள்ள முனைகிறது.

முற்றுப்பெறாத இந்த படிவங்களை அனைத்து மூன்று Gueorgi Kossinets மற்றும் டங்கன் வாட்ஸ் மேற்கொண்ட ஒரு ஆய்வில் விளக்கப்பட்டுள்ளது (2006) ஒரு பல்கலைக்கழகத்தில் சமூக நெட்வொர்க் பரிணாம வளர்ச்சி பற்றிய. Kossinets மற்றும் வாட்ஸ் இது (ஆராய்ச்சியாளர்கள் மின்னஞ்சல்கள் உள்ளடக்கத்தை அணுக இல்லை) என்ன நேரத்தில் யாரை அனுப்பிய மின்னஞ்சல் பற்றி யார் துல்லியமான தகவல் கொண்டிருந்த பல்கலைக்கழக இருந்து மின்னஞ்சல் பதிவுகள், தொடங்கியது. இந்த மின்னஞ்சல் பதிவுகள் ஒரு அற்புதமான தரவுத்தொகுப்பின் போன்ற ஒலி, ஆனால், அவை போதிலும், அவற்றின் அளவு மற்றும் நுணுக்கத்தை-அடிப்படையில் முழுமையற்ற. உதாரணமாக, மின்னஞ்சல் பதிவுகள் போன்ற பாலினம் மற்றும் வயது மாணவர்கள் தொகை பண்புகள் பற்றிய தரவை சேர்க்க வேண்டாம். மேலும், மின்னஞ்சல் பதிவுகள் போன்ற தொலைபேசி அழைப்புகள், உரை செய்தி, அல்லது நேருக்கு நேரான உரையாடல்களை மற்ற ஊடகங்கள், மூலம் தொடர்பு பற்றி தகவல் சேர்க்க வேண்டாம். இறுதியாக, மின்னஞ்சல் பதிவுகள் நேரடியாக உறவுகள், பல இருக்கும் கோட்பாடுகள் தத்துவார்த்த கட்டமைப்புகளை பற்றி தகவல் இல்லை. பிந்தைய அத்தியாயத்தில் நான் ஆராய்ச்சி உத்திகள் பற்றி பேசும் போது, நீங்கள் Kossinets மற்றும் வாட்ஸ் இப்பிரச்சினைகள் தீர்க்கப்பட எப்படி என்று பார்ப்போம்.

முற்றுப்பெறாத மூன்று வகையான, தத்துவார்த்த கட்டமைப்புகளை செயல்படுத்த முழுமையற்ற தரவு பிரச்சினை, தீர்க்க கடினமான மற்றும் என் அனுபவத்தில், அது பெரும்பாலும் தற்செயலாக தரவு விஞ்ஞானிகள் மூலம் கண்காணிக்கவில்லை. சுமார், தத்துவார்த்த கட்டமைப்புகளை துரதிருஷ்டவசமாக, இந்த கட்டமைப்புகள் எப்போதும் எப்படி குழப்பத்திற்கு இடமின்றி வரையறுக்கப்பட்ட மற்றும் அளவிட முடியும் இல்லை சமூக விஞ்ஞானிகள் ஆய்வு என்று சுருக்க கருத்துக்கள் உள்ளன, ஆனால்,. உதாரணமாக, அனுபவத்தால் மேலும் அறிவார்ந்த மக்கள் யார் அதிக பணம் சம்பாதிக்க என்று வெளிப்படையாக எளிய கூற்றை சோதிக்க முயற்சி கற்பனை செய்வோம். இந்த கூற்றை சோதிக்க பொருட்டு நீங்கள், அளவிட வேண்டும் என்று "உளவுத்துறை." ஆனால் உளவுத்துறை என்ன? உதாரணமாக, Gardner (2011) உளவுத்துறை எட்டு வெவ்வேறு வடிவங்களில் உண்மையில் உள்ளன என்று வாதிட்டார். மற்றும், துல்லியமாக உளவுத்துறை இந்த படிவங்களை எந்த அளவிட முடியும் என்று நடைமுறைகள் உள்ளன? உளவியலாளர்கள் வேலை பெருமளவிலான போதிலும், இந்த கேள்விகளுக்கு இன்னும் தெளிவான பதில்களை இல்லை. ஆக, ஒரு ஒப்பீட்டளவில் எளிமையான கூற்றை-மக்கள் இன்னும் அறிவார்ந்த யார் சம்பாதிக்க பணம் முடியும் தரவுகளில் உள்ள தத்துவார்த்த கட்டமைப்புகளை நடைமுறைப்படுத்தும் கடினமாக இருக்க முடியும் என்பதால் அனுபவத்தால் மதிப்பிட கடினமாக இருக்கும். "நெறிகள்," "சமூக மூலதனம்," மற்றும் "ஜனநாயகம் அடங்கும் நடைமுறைப்படுத்தும் முக்கியம் ஆனால் கடினமாக இருக்கும் என்று தத்துவார்த்த கட்டமைப்புகளை பிற உதாரணங்கள் ஆகும்." சமூக விஞ்ஞானிகள் தத்துவார்த்த கட்டமைப்புகளை மற்றும் தரவு கட்டமைப்பாக செல்லுபடியாகும் இடையே போட்டி அழைக்க (Cronbach and Meehl 1955) . மற்றும், கட்டமைப்புகளை இந்த பட்டியலில் குறிப்பிடுவதை போல, செல்லுபடியாகும் சமூக விஞ்ஞானிகள் ஒரு மிக நீண்ட நேரம் போராடியது வேண்டும் என்று ஒரு பிரச்சனை இருக்கிறது, அவர்கள் ஆராய்ச்சி நோக்கத்திற்காக சேகரிக்கப்பட்ட என்று தரவு வேலை இருந்தாலும் கூட கட்ட. ஆராய்ச்சி தவிர, வேறு எந்த சேகரிக்கப்பட்ட தரவு பணிபுரியும் போது, கட்டமைப்பாக செல்லுபடியாகும் பிரச்சினைகள் இன்னும் சவாலான உள்ளன (Lazer 2015) .

நீங்கள் ஒரு ஆராய்ச்சி காகித படிக்கும் போது, ஒரு விரைவான மற்றும் பயனுள்ள வழியில் கட்டமைப்பாக நம்பகத்தன்மை குறித்து கவலைகள் பொதுவாக கட்டமைப்புகளை அடிப்படையில் வெளிப்படுத்தப்படுகிறது எந்த காகித, முக்கிய கூற்றை எடுத்து உள்ளது மதிப்பிட, மற்றும் பயன்படுத்தப்படும் தரவு அடிப்படையில் அதை மீண்டும் வெளிப்படுத்த. உதாரணமாக, இன்னும் அறிவார்ந்த மக்கள் அதிக பணம் சம்பாதிக்க என்று காட்ட முடியும் என்றும் கூறுகின்றனர் என்று இரண்டு அனுமான ஆய்வுகள் கருத்தில்:

  • ஆய்வு 1:-ஒரு டெஸ்ட் பகுப்பாய்வு உளவுத்துறை நன்கு ஆராயப்பட்ட சோதனை ராவன் முன்னேற்ற அணிகளில் நன்றாக அடித்த மக்கள் (Carpenter, Just, and Shell 1990) அதிக பதிவாகும் வருமானம் தங்கள் வரி வருமானத்தை ஈட்டவில்லை
  • ஆய்வு 2: Twitter இல் மக்கள் நீண்ட வார்த்தைகள் ஆடம்பர பிராண்ட்கள் குறிப்பிட வாய்ப்பு அதிகமாக இருக்கிறது பயன்படுத்தப்படும் யார்

இரண்டு சந்தர்ப்பங்களில், ஆராய்ச்சியாளர்கள் அவர்கள் இன்னும் அறிவார்ந்த மக்கள் அதிக பணம் சம்பாதிக்க என்று காட்டுகின்றன என்று நிலைநிறுத்திக்கொள்ள முடியும். ஆனால், முதல் ஆய்வில் தத்துவார்த்த கட்டமைப்புகளை நன்கு தரவு மூலம் செயற்படுத்தப்பட்டு, மற்றும் இரண்டாவது அவர்கள் இல்லை. மேலும், இந்த உதாரணம் என, இன்னும் தரவு தானாக கட்டமைப்பாக செல்லுபடியாகும் கொண்டு பிரச்சினைகளை தீர்க்க முடியாது. இது ஒரு மில்லியன் ட்வீட்ஸ், ஒரு பில்லியன் ட்வீட், அல்லது ஒரு டிரில்லியன் ட்வீட் தொடர்பு என்பதை நீங்கள் ஆய்வு 2 முடிவுகளை சந்தேகம் வேண்டும். கட்டமைப்பாக செல்லுபடியாகும் யோசனை தெரிந்திருந்தால் இல்லை ஆராச்சியாளர்கள், டேபிள் 2.2 டிஜிட்டல் சுவடு தரவு பயன்படுத்தி கற்பிதமான கட்டமைப்புகளை நடைமுறைப்படுத் என்று ஆய்வுகள் சில உதாரணங்கள் வழங்குகிறது.

அட்டவணை 2.2: மேலும் சுருக்க கோட்பாட்டு கருத்துக்கள் தொடர்பான நடவடிக்கைகளை பயன்படுத்தப்படும் என்று டிஜிட்டல் தடயங்கள் எடுத்துக்காட்டுகள். சமூக விஞ்ஞானிகள் இந்த போட்டியில் கட்டமைப்பாக செல்லுபடியாகும் அழைக்கிறேன் அது சமூக ஆராய்ச்சி பெரிய தரவு மூலங்கள் பயன்படுத்தி ஒரு முக்கிய சவாலாக உள்ளது (Lazer 2015) .
டிஜிட்டல் சுவடு கோட்பாட்டு கட்டமைப்பாக சான்று
ஒரு பல்கலைக்கழக இருந்து மின்னஞ்சல் பதிவுகள் (மெட்டா தரவு மட்டும்) சமூக உறவுகள் Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Weibo மீது சமூக ஊடக பதிவுகள் குடிமை நிச்சயதார்த்தம் Zhang (2016)
ஒரு நிறுவனம் இருந்து மின்னஞ்சல் பதிவுகள் (மெட்டா தரவு மற்றும் முழுமையான உரை) ஒரு நிறுவனத்தில் கலாச்சார பொருத்தம் Goldberg et al. (2015)

செயல்படுத்த தத்துவார்த்த கட்டமைப்புகளை முழுமையற்ற தரவு பிரச்சினையை தீர்க்க செய்வது மிகவும் கடினமாக உள்ளது என்றாலும், முழுமையற்ற மக்கள் தொகை தகவல் மற்றும் மற்ற தளங்களில் நடத்தை மீது முழுமையில்லாத தகவலை பிரச்சினைக்கு மூன்று பொதுவான தீர்வுகள் உள்ளன. முதல் உண்மையில் உங்களுக்கு தேவையான தரவுகளை சேகரிக்க வேண்டும்; நான் ஆய்வுகள் பற்றி சொல்லும் போது நான் 3-ம் அதிகாரத்தில் என்று ஒரு உதாரணம் பற்றி சொல்கிறேன். துரதிருஷ்டவசமாக, தரவு சேகரிப்பு இந்த வகையான எப்போதும் சாத்தியமாகாது. இரண்டாவது முக்கிய தீர்வு தரவு விஞ்ஞானிகள் பயனர் பண்பு அனுமானம் என்ன சமூக விஞ்ஞானிகள் சுட்டிக்காட்டுவதற்கு அழைக்க அழைக்க என்ன செய்ய உள்ளது. இந்த அணுகுமுறையில், ஆராய்ச்சியாளர்கள் மற்ற மக்கள் பண்புகளை உய்த்துணர அவர்கள் சில மக்கள் மீது வேண்டும் என்று தகவல் பயன்படுத்த. பல தரவு மூலங்கள் இணைக்க மூன்றாவது சாத்தியமான தீர்வு-Kossinets மற்றும் பயன்படுத்தப்படும் ஒரு வாட்ஸ்-இருந்தது. இந்த செயல்முறை சில நேரங்களில் இணைத்தல் அல்லது பதிவு இத்தொடர்பு அழைக்கப்படுகிறது. இந்த செயல்முறை எனக்கு பிடித்த உருவகம் முதல் காகித எப்போதும் சாதனை இத்தொடர்பு எழுதப்பட்ட முதல் பத்தி முன்மொழியப்பட்டது (Dunn 1946) :

"உலகில் ஒவ்வொரு நபர் வாழ்க்கை ஒரு புத்தக உருவாக்குகிறது. இந்த புத்தக பிறந்த தொடங்குகிறது மற்றும் மரணம் முடிவடைகிறது. அதன் பக்கங்கள் வாழ்க்கையில் கொள்கை நிகழ்வுகள் பதிவுகள் ஆனவை. பதிவு கருதி தொகுதி இந்த புத்தகத்தின் பக்கங்களை கூடியிருந்தனர் செயல்முறை கொடுக்கப்பட்ட பெயர். "

இந்த பத்தியில் 1946 இல் எழுதப்பட்ட, மற்றும் அந்த நேரத்தில், மக்கள் வாழ்க்கை புத்தகத்தில் பிறப்பு, திருமணம், விவாகரத்து, மற்றும் மரணம் போன்ற முக்கிய வாழ்க்கை நிகழ்வுகளை அடங்கும் என்று நினைத்துக்கொண்டு இருந்தது. எனினும், இப்போது மக்கள் பற்றி நிறைய தகவல் பதிவு என்று, வாழ்க்கை புத்தகத்தில் ஒரு நம்பமுடியாத விரிவான ஓவியங்களை அந்த வெவ்வேறு பக்கங்கள் (அதாவது, நம் டிஜிட்டல் தடயங்கள்), ஒன்றாக பிணைக்கப்பட்டுள்ளது முடியும் என்றால் இருக்க முடியும். வாழ்க்கை இந்த புத்தக ஆராய்ச்சியாளர்கள் ஒரு பெரிய ஆதாரம் இருக்க முடியும். ஆனால், வாழ்க்கை புத்தகத்தில் கூட நாசமடைந்த தகவல் என்று முடியும் (Ohm 2010) நியாயமற்ற நோக்கங்களுக்காக அனைத்து வகையான பயன்படுத்த முடியும், இது, நான் தகவல் உணர்வு பூர்வமான கீழே உள்ள பெரிய தரவு மூலங்கள் மூலம் சேகரிக்கப்பட்ட பற்றி பேசும் போது, இன்னும் கீழே விவரிக்கப்பட்டுள்ளது போல மற்றும் அத்தியாயம் 6 (நெறிமுறைகள்) இல்.