2.2 பெரிய தரவு

ஆராய்ச்சியைத் தவிர வேறு எந்த நோக்கத்திற்காக நிறுவனங்களும் அரசாங்கங்களும் பெரிய தரவு உருவாக்கப்பட்டு சேகரிக்கப்படுகின்றன. ஆராய்ச்சிக்கான இந்தத் தரவைப் பயன்படுத்துவதால், மீண்டும் தேவைப்படுகிறது.

பல மக்கள் டிஜிட்டல் வயதில் சமூக ஆய்வுகளை எதிர்கொள்ளும் முதல் வழி பெரும்பாலும் பெரிய தரவு என அழைக்கப்படுகிறது. இந்த வார்த்தையின் பரவலான பயன்பாடு இருந்த போதினும், பெரிய தரவு என்ன என்பது பற்றி எந்தவிதமான கருத்தும் இல்லை. எனினும், பெரிய தரவு மிகவும் பொதுவான வரையறைகள் ஒரு "3 Vs" கவனம்: தொகுதி, வெரைட்டி, மற்றும் வேகத்தை. குறைந்தபட்சம், தரவு நிறைய உள்ளது, பல்வேறு வடிவங்களில், அது தொடர்ந்து உருவாக்கப்பட்டு வருகிறது. பெரிய தரவு சில ரசிகர்கள் கூட போன்ற மதிப்பு மற்றும் மதிப்பு போன்ற மற்ற "Vs" சேர்க்க, சில விமர்சகர்கள் போன்ற தெளிவற்ற மற்றும் vacuous போன்ற சேர்க்க. சமூக ஆராய்ச்சிக்கான நோக்கங்களுக்காக 3 "Vs" (அல்லது 5 "Vs" அல்லது 7 "Vs") விட, 5 "WS" என்பது ஒரு சிறந்த இடம் என்று நான் நினைக்கிறேன்: யார், எங்கே, எப்போது , மேலும் ஏன். உண்மையில், பெரிய தரவு ஆதாரங்களால் உருவாக்கப்பட்ட பல சவால்கள் மற்றும் வாய்ப்புகள் ஒரே ஒரு "W" யிலிருந்து பின்வருமாறு கூறுகின்றன: ஏன்?

அனலாக் வயதில், ஆராய்ச்சிக்கான நோக்கத்திற்காக சமூக ஆராய்ச்சிக்காக பயன்படுத்தப்படும் பெரும்பாலான தரவு உருவாக்கப்பட்டது. ஆயினும், டிஜிட்டல் வயதில், நிறுவனங்கள், அரசாங்கங்கள் ஆகியவற்றின் ஆராய்ச்சி, சேவைகளை வழங்கும், இலாபத்தை உருவாக்கி, சட்டங்களை நிர்வகிப்பது போன்ற நோக்கங்களுக்காக, ஒரு பெரும் அளவு தரவு உருவாக்கப்படுகிறது. இருப்பினும் கிரியேட்டிவ் மக்கள், இந்த கார்ப்பரேட் மற்றும் அரசாங்க தரவை ஆராய்வதற்கு நீங்கள் மறுபரிசீலனை செய்ய முடியும் என்பதை உணர்ந்துள்ளனர். Duchamp கலை உருவாக்க ஒரு கண்டறியப்பட்ட பொருள் repurposed போல், அத்தியாயம் 1 கலை ஒப்புமை மீண்டும் நினைத்து, விஞ்ஞானிகள் இப்போது ஆராய்ச்சி உருவாக்க தரவு கண்டுபிடிக்க முடியாது.

மறுபரிசீலனை செய்வதற்கு சந்தேகத்திற்கு இடமின்றி பெரிய வாய்ப்புகள் இருந்தாலும், ஆராய்ச்சியின் நோக்கத்திற்காக உருவாக்கப்படாத தரவுகளைப் பயன்படுத்தி புதிய சவால்களை அளிக்கிறது. எடுத்துக்காட்டாக, பொது சமூக கருத்துரை போன்ற பாரம்பரிய பொது கருத்துக்கணிப்புடன் ட்விட்டர் போன்ற ஒரு சமூக ஊடக சேவையை ஒப்பிடுக. ட்விட்டரின் முக்கிய இலக்குகள் அதன் பயனர்களுக்கு ஒரு சேவையை வழங்குவதோடு, இலாபத்தை உருவாக்குவதும் ஆகும். மறுபுறம் பொது சமூக ஆய்வு, சமூக ஆராய்ச்சிக்கான பொது நோக்கத்திற்கான தரவுகளை உருவாக்குவதன் மீது கவனம் செலுத்துகிறது, குறிப்பாக பொது கருத்திட்ட ஆராய்ச்சிக்கு. இலக்குகளில் உள்ள இந்த வேறுபாடு, பொது சமூக கருத்துக்கணிப்பில் உருவாக்கப்பட்ட ட்விட்டர் மற்றும் தரவு ஆகியவை பொது கருத்துக்களைப் படிப்பதற்காகப் பயன்படுத்தப்படலாம் என்றாலும், வேறுபட்ட பண்புகள் உள்ளன. ட்விட்டர் ஜெனரல் சோஷியல் சர்வீஸ் பொருந்தக்கூடாது என்று ஒரு அளவிலும் வேகத்திலும் இயங்குகிறது, ஆனால், பொது சமூக சர்வே போலல்லாமல், ட்விட்டர் கவனமாக மாதிரியாக வடிவமைக்கவில்லை மற்றும் காலப்போக்கில் ஒப்பிட்டு பராமரிக்க கடினமாக உழைக்கவில்லை. இந்த இரு தரவு மூலங்கள் மிகவும் வித்தியாசமாக இருப்பதால், பொது சமூக ஆய்வு என்பது ட்விட்டர் அல்லது அதற்கு நேர்மாறாக இருப்பதைப் பற்றிச் சொல்ல முடியாது. உலகளாவிய மனநிலையின் மணிநேர நடவடிக்கைகளை நீங்கள் விரும்பினால் (எ.கா., Golder and Macy (2011) ), ட்விட்டர் சிறந்தது. மறுபுறம், ஐக்கிய மாகாணங்களில் (எ.கா., DiMaggio, Evans, and Bryson (1996) ஆகியவற்றின் துருவமுனைப்புகளில் நீண்ட கால மாற்றங்களை நீங்கள் புரிந்து கொள்ள விரும்பினால், பொது சமூக ஆய்வு என்பது சிறந்த தேர்வாகும். மேலும் பொதுவாக, பெரிய தரவு ஆதாரங்கள் மற்ற வகை தரவுகளைக் காட்டிலும் சிறந்தவை அல்லது மோசமானவை என்று வாதிடுவதற்கு பதிலாக, இந்த அத்தியாயம், எந்த வகையான ஆராய்ச்சிக் கேள்விகளுக்கு பெரிய தரவு மூலங்கள் கவர்ச்சிகரமான பண்புகளைக் கொண்டிருக்கின்றன, ஏற்றதாக.

பெரிய தரவு ஆதாரங்களைப் பற்றி சிந்திக்கையில், பல ஆராய்ச்சியாளர்கள் உடனடியாக தேடல் இயந்திரத்தின் பதிவுகள் மற்றும் சமூக ஊடக இடுகைகள் போன்ற நிறுவனங்களால் உருவாக்கப்பட்ட மற்றும் சேகரிக்கப்பட்ட ஆன்லைன் தரவரிசையில் கவனம் செலுத்துகின்றனர். எனினும், இந்த குறுகிய கவனம் பெரிய தரவு இரண்டு முக்கிய முக்கிய ஆதாரங்கள் விட்டு. முதலாவதாக, பெருகிய முறையில் பெரிய பெரிய தரவு ஆதாரங்கள் டிஜிட்டல் சாதனங்களில் இருந்து உடல் உலகில் வந்துள்ளன. உதாரணமாக, இந்த அத்தியாயத்தில், ஒரு தொழிலாளி உற்பத்தித்திறன் தனது தோழர்களின் உற்பத்தித்திறன் (Mas and Moretti 2009) எவ்வாறு பாதிக்கப்படுகிறது என்பதைப் பற்றிக் கற்றுக்கொள்வதற்காக, திருத்தியமைக்கப்பட்ட பல்பொருள் அங்காடி காசோலைத் தரவு பற்றிய ஒரு ஆய்வு பற்றி நான் உங்களுக்குச் சொல்கிறேன். பின்னர், அடுத்த அத்தியாயங்களில், நான் மொபைல் போன்களில் (Blumenstock, Cadamuro, and On 2015) மின்சார பயன்பாடுகள் (Allcott 2015) உருவாக்கப்பட்ட பில்லிங் தரவுகளிலிருந்து அழைப்புகளை பயன்படுத்தும் ஆராய்ச்சியாளர்களைப் பற்றி உங்களுக்குத் தெரிவிப்பேன். இந்த எடுத்துக்காட்டுகள் போல, பெருநிறுவன பெரிய தரவு ஆதாரங்கள் வெறும் ஆன்லைன் நடத்தையை விட அதிகம்.

ஆன்லைன் நடத்தை மீது ஒரு குறுகிய கவனத்தைத் தவறவிட்ட பெரிய தரவுகளின் இரண்டாவது முக்கிய ஆதாரம் அரசாங்கங்களால் உருவாக்கப்பட்ட தரவு ஆகும். ஆராய்ச்சியாளர்கள் அரசாங்க நிர்வாக பதிவுகள் என்று அழைக்கப்படும் இந்த அரசாங்கத் தகவல்கள், வரிச் சான்றுகள், பள்ளி பதிவுகள் மற்றும் முக்கிய புள்ளியியல் பதிவுகள் (எ.கா., பிறப்பு மற்றும் இறப்பு பதிவகங்கள்) போன்றவற்றை உள்ளடக்கியது. சமூக விஞ்ஞானிகள் இருந்தபோதே, சில சந்தர்ப்பங்களில், நூற்றுக்கணக்கான ஆண்டுகள், சமூக அறிவியலாளர்கள் ஆகியோருக்கு இந்த வகையான தரவு உருவாக்கப்பட்டுள்ளது. எவ்வாறாயினும், மாறிவிட்டது, டிஜிட்டலாக்கம், தரவுகளை சேகரிக்கவும், அனுப்பவும், சேமிக்கவும், பகுப்பாய்வு செய்யவும் அரசாங்கங்களுக்கு இது எளிதாக்கியது. உதாரணமாக, இந்த அத்தியாயத்தில், உன்னதமான விவாதம், தொழிலாளர் பொருளாதாரம் (Farber 2015) தொடர்பாக நியு யார்க் நகர அரசாங்கத்தின் டிஜிட்டல் டாக்ஸி மீட்டரிடமிருந்து தரவுகளைத் திருப்பிவிட்ட ஒரு ஆய்வு பற்றி நான் உங்களிடம் கூறுவேன். பின்னர், பின்னர் அத்தியாயங்களில், நான் ஒரு கணக்கெடுப்பு (Ansolabehere and Hersh 2012) மற்றும் ஒரு பரிசோதனை (Bond et al. 2012) அரசாங்க சேகரிக்கப்பட்ட வாக்களிப்பு பதிவுகளை பயன்படுத்த எப்படி பற்றி நான் சொல்கிறேன்.

பெரிய தரவு ஆதாரங்களின் பண்புகள் (பிரிவு 2.3) மற்றும் எவ்வாறு ஆய்வு (பிரிவு 2.4) ஆகியவற்றின் பண்புகளைப் பற்றி பேசுவதற்கு முன்னர், பெரிய தரவு ஆதாரங்களில் இருந்து கற்றுக்கொள்வதற்கான அடிப்படை ஆகும் மறுபரிசீலனை யோசனை, நான் விரும்புகிறேன் மறுபரிசீலனை பற்றி இரண்டு பொது அறிவுரைகளை வழங்குதல். முதலில், "கண்டுபிடித்த" தரவுக்கும் "வடிவமைக்கப்பட்ட" தரவிற்கும் இடையே அமைக்கப்பட்டுள்ள வேறுபாட்டைப் பற்றி சிந்திக்கத் தூண்டக்கூடியதாக இருக்கும். அது நெருங்கியது, ஆனால் அது சரியாக இல்லை. ஆய்வாளர்களின் பார்வையில், பெரிய தரவு ஆதாரங்கள் "கண்டுபிடித்தன," என்றாலும் அவை வானத்திலிருந்து விழவில்லை. அதற்கு பதிலாக, ஆராய்ச்சியாளர்கள் "கண்டுபிடித்த" தரவு ஆதாரங்கள் சில நோக்கங்களுக்காக யாரோ வடிவமைக்கப்பட்டுள்ளது. ஏனென்றால் "கண்டுபிடித்த" தரவு யாரோ வடிவமைக்கப்பட்டுள்ளது, உங்கள் தரவு உருவாக்கிய மக்களையும் செயல்முறைகளையும் பற்றி முடிந்த அளவுக்கு புரிந்துகொள்ள முயற்சிப்பதாக நான் எப்போதும் பரிந்துரைக்கிறேன். இரண்டாவதாக, நீங்கள் தரவுகளைத் திருப்பிச் செய்யும் போது, ​​உங்கள் பிரச்சினைக்கு ஏற்ற தரவுதளத்தை கற்பனை செய்வது மிகவும் பயனுள்ளதாக இருக்கும், மேலும் நீங்கள் பயன்படுத்தும் அந்த சிறந்த தரவுத்தொகையை ஒப்பிடவும். உங்கள் தரவை நீங்களே சேகரித்திருந்தால், உங்களுக்கும் என்ன தேவைக்கும் இடையே முக்கியமான வேறுபாடுகள் இருக்கும். இந்த வேறுபாடுகளை கவனிப்பதால், நீங்கள் எதைப் பற்றிய தகவல்களைத் தெளிவுபடுத்துகிறீர்கள், உங்களிடம் உள்ள தரவுகளில் இருந்து கற்றுக்கொள்ள முடியாது, மேலும் நீங்கள் சேகரிக்கும் புதிய தரவை இது குறிக்கலாம்.

என் அனுபவத்தில், சமூக விஞ்ஞானிகள் மற்றும் தரவு விஞ்ஞானிகள் மிக வித்தியாசமாக மறுபரிசீலனை செய்வதை அணுகுவர். ஆராய்ச்சிக்காக வடிவமைக்கப்பட்ட தரவோடு பணிபுரியும் பழக்கமுள்ள சமூக அறிவியலாளர்கள், அதன் வலிமைகளை புறக்கணித்துவிட்டுத் திருப்பி தரப்பட்ட தரவுகளுடன் சிக்கல்களை சுட்டிக்காட்டும் வகையில் விரைவாக விரைகின்றனர். மறுபுறம், தரவு விஞ்ஞானிகள், அதன் பலவீனங்களை புறக்கணித்துவிட்டு, repurposed தரவு நன்மைகள் சுட்டிக்காட்ட பொதுவாக விரைவு உள்ளன. இயல்பாகவே, சிறந்த அணுகுமுறை ஒரு கலப்பு ஆகும். அதாவது, பெரிய தரவு ஆதாரங்களின் குணாம்சங்களை ஆராய்வோர் புரிந்து கொள்ள வேண்டும் - நல்லது மற்றும் கெட்ட இருவரும் - பின்னர் அவர்களிடமிருந்து கற்றுக்கொள்வது எப்படி என்பதைக் கண்டறியவும். மற்றும், இந்த அத்தியாயத்தின் மீதமுள்ள திட்டம். அடுத்த பிரிவில், பெரிய தரவு மூலங்களின் பத்து பொதுவான பண்புகளை நான் விவரிக்கிறேன். பின், பின்வரும் பிரிவில், நான் மூன்று தரவு அணுகுமுறைகளை விவரிக்கப் போகிறேன்.