2.5 தீர்மானம்

பெரிய தரவு ஆதாரங்கள் எல்லா இடங்களிலும் உள்ளன, ஆனால் சமூக ஆராய்ச்சிக்கு அவற்றைப் பயன்படுத்துவது தந்திரமானதாக இருக்கலாம். என் அனுபவத்தில், தரவிற்கான "இலவச மதிய உணவு" விதி போன்ற ஒன்று உள்ளது: நீங்கள் நிறைய வேலைகளை சேகரிக்கவில்லையென்றால், நீங்கள் நிறைய வேலைகளை செய்ய வேண்டும், அதை பகுப்பாய்வு.

இன்றைய பெருமளவிலான தரவு மூலங்கள் மற்றும் ஒருவேளை நாளை - 10 குணாதிசயங்கள் உள்ளன. இவைகளில் மூன்று பொதுவாக (ஆனால் எப்போதும் இல்லை) ஆராய்ச்சிக்கு உதவியாக இருக்கும்: பெரிய, எப்போதும்-மீது, மற்றும் nonreactive. ஏழு பொதுவாக பொதுவாக (ஆனால் எப்போதும் இல்லை) ஆராய்ச்சிக்கு சிக்கல்: முழுமையற்ற, அணுக முடியாதது, குறிக்கப்படாதது, டிரிஃப்டிங், அல்காரிக்டிமிகளால் குழப்பம், அழுக்கு மற்றும் உணர்திறன். சமூகத் ஆராய்ச்சி நோக்கத்திற்காக பெரிய தரவு ஆதாரங்கள் உருவாக்கப்படவில்லை என்பதால் இந்த பண்புகள் பலவற்றால் இறுதியில் எழுகின்றன.

இந்த அத்தியாயத்தில் உள்ள கருத்துக்களை அடிப்படையாகக் கொண்டு, பெரிய தரவு ஆதாரங்கள் சமூக ஆராய்ச்சிக்கு மிகவும் மதிப்புமிக்கதாக இருக்கும் என்று மூன்று முக்கிய வழிகள் உள்ளன என்று நான் நினைக்கிறேன். முதலாவதாக, ஆராய்ச்சியாளர்கள் போட்டியிடும் கோட்பாட்டு கணிப்புக்களுக்கு இடையே முடிவு செய்ய முடியும். இந்த வகையான வேலைகளில் Farber (2015) (நியூயார்க் டாக்ஸி டிரைவர்கள்) மற்றும் King, Pan, and Roberts (2013) (சீனாவில் தணிக்கை) ஆகியவை அடங்கும். இரண்டாவதாக, பெரிய தரவு ஆதாரங்கள் இப்போது காலாவதியாகும் மூலம் கொள்கைக்கு மேம்படுத்தப்பட்ட அளவீடுகளை செயல்படுத்த முடியும். இந்த வகையான வேலை ஒரு உதாரணம் Ginsberg et al. (2009) (Google Flu Trends). இறுதியாக, பெரிய தரவு ஆதாரங்கள் ஆராய்ச்சியாளர்கள் சோதனைகள் நடத்தாமல் காரண காரியங்களை மதிப்பீடு செய்ய உதவுகின்றன. இந்த வகையான வேலைகள் Mas and Moretti (2009) (உற்பத்தித்திறன் மீதான சக தோற்றங்கள்) மற்றும் Einav et al. (2015) (eBay இல் ஏலத்தில் ஆரம்ப விலைகளின் விளைவு). ஆயினும் இந்த அணுகுமுறைகளில் ஒவ்வொருவரும் ஆராய்ச்சியாளர்களை தரவுகளுக்கு நிறைய எடுத்துக் கொள்ள வேண்டும், அதாவது மதிப்பீடு செய்ய வேண்டிய முக்கியத்துவம் அல்லது போட்டியிடும் கணிப்புகளை உருவாக்கும் இரண்டு கோட்பாடுகள் போன்றவை. எனவே, பெரிய தரவு ஆதாரங்கள் என்ன செய்யலாம் என்பதைப் பற்றி சிந்திக்க சிறந்த வழி, சுவாரஸ்யமான மற்றும் முக்கியமான கேள்விகளைக் கேட்கக்கூடிய ஆய்வாளர்களுக்கு உதவ முடியும் என்பதாகும்.

முடிவுக்கு முன்பாக, தரவு மற்றும் கோட்பாட்டிற்கும் இடையிலான உறவில் பெரிய தரவு ஆதாரங்கள் ஒரு முக்கிய விளைவைக் கொண்டிருக்கலாம் என்று கருதுவதால் நான் நினைக்கிறேன். இதுவரை, இந்த அத்தியாயம் தியரி-இயக்கப்படும் அனுபவ ரீதியான ஆராய்ச்சி அணுகுமுறையை எடுத்துள்ளது. ஆனால் பெரிய தரவு ஆதாரங்கள் ஆய்வாளர்கள் தற்செயலாக இயங்கும் தியரிசிங் செய்வதற்கு உதவுகின்றன. அதாவது, அனுபவமிக்க உண்மைகள், வடிவங்கள் மற்றும் புதிர்கள் ஆகியவற்றின் கவனமாக குவிப்பு மூலம், ஆராய்ச்சியாளர்கள் புதிய கோட்பாடுகளை உருவாக்க முடியும். கோட்பாட்டிற்கான இந்த மாற்று, தரவு-முதல் அணுகுமுறை புதிது அல்ல, மேலும் அது மிக அடிப்படையான பார்னி கிளாசர் மற்றும் அன்செம் ஸ்ட்ராஸ் (1967) ஆகியவற்றால் உந்தப்பட்ட கோட்பாட்டிற்காக அவர்களின் அழைப்பை வெளிப்படுத்தியது. டிஜிட்டல் வயதில் (Anderson 2008) ஆராய்ச்சியைப் பற்றி சில பத்திரிகைகளில் கூறப்பட்டிருப்பதால், இந்த தரவு முதல் அணுகுமுறை "கோட்பாட்டின் முடிவை" குறிக்கவில்லை. மாறாக, தரவுச் சூழலில் மாற்றங்கள் ஏற்படுகையில், தரவு மற்றும் கோட்பாட்டிற்கும் இடையே உள்ள உறவில் மறு சமப்படுத்தலை எதிர்பார்க்க வேண்டும். தரவு சேகரிப்பு விலையுயர்ந்த ஒரு உலகில், கோட்பாடுகள் மிகவும் பயனுள்ளதாக இருக்கும் என்று மட்டுமே தரவு சேகரிக்க அர்த்தம். ஆனால், உலகில் ஏராளமான தரவு ஏற்கனவே இலவசமாக கிடைக்கக்கூடிய ஒரு உலகில், ஒரு தரவு முதல் அணுகுமுறை (Goldberg 2015) முயற்சிக்கவும் இது அர்த்தம் (Goldberg 2015) .

இந்த அத்தியாயத்தில் நான் காட்டியுள்ளபடி, ஆராய்ச்சியாளர்கள் மக்களைப் பார்ப்பதன் மூலம் நிறைய கற்றுக்கொள்ள முடியும். அடுத்த மூன்று அத்தியாயங்களில், நாங்கள் எங்கள் தரவு சேகரிப்பு மற்றும் நேரடியாக கேள்விகளை (அத்தியாயம் 3), சோதனைகள் (அத்தியாயம் 4), மற்றும் அவற்றை உள்ளடக்கிய ஆராய்ச்சி செயல்முறையில் நேரடியாக (அத்தியாயம் 5).