2.2 මහා දත්ත

බිග් දත්ත පර්යේෂණ වඩා වෙනත් අරමුණු සඳහා ආණ්ඩු විසින් නිර්මාණය හා එකතු කරනු ලබයි. පර්යේෂණ සඳහා මෙම දත්ත භාවිතා කරමින්, ඒ නිසා, repurposing අවශ්ය වේ.

සමාජ විද්යාත්මක පර්යේෂණ සඳහා පරිපූර්ණ දැක්ම විද්යාඥයෙකු අදහසක් ඇති හා පසුව ඒ අදහස පරීක්ෂා කිරීමට දත්ත එකතු හැඟෙනු ඇත. පර්යේෂණ මෙම වර්ගයේ පර්යේෂණ ප්රශ්නය සහ දත්ත අතර දැඩි සුදුසු මඟ පෙන්වන, නමුත් තනි පර්යේෂකයෙකු බොහෝ විට, විශාල පොහොසත්, හා ජාතිකව නියෝජිත දත්ත ලෙස, ඔවුන් අවශ්ය දත්ත රැස් කිරීමට අවශ්ය සම්පත් නැති නිසා එය සීමා වේ. ඒ නිසා, අතීතයේ දී සමාජ විද්යාත්මක පර්යේෂණ ගොඩක් වැනි සාමාන්ය සමාජ සමීක්ෂණ (GSS), ඇමරිකානු ජාතික මැතිවරණ අධ්යයනය (ANES), සහ ආදායම් ඩයිනමික්ස් මණ්ඩලය අධ්යයනය (PSID) ලෙස මහා පරිමාණ සමාජීය සමීක්ෂණ, භාවිතා කර ඇත. මෙම මහා පරිමාණ සමීක්ෂණය සාමාන්යයෙන් පර්යේෂක කණ්ඩායමක් විසින් පවත්වාගෙන කරන අතර, ඔවුන් බොහෝ පර්යේෂකයන් විසින් භාවිතා කළ හැකි දත්ත නිර්මාණය කිරීමට නිර්මාණය කර ඇත. මන්ද, මේ මහා පරිමාණ සමීක්ෂණ පිළිබඳ අරමුණු, ඉතාම පරෙස්සමින් දත්ත රැස් කිරීම සහ එය පර්යේෂකයන් විසින් භාවිතය සඳහා එහි ප්රතිඵලයක් දත්ත සකස් තුලට දමා ඇත. මෙම දත්ත පර්යේෂකයන් විසින් හා පර්යේෂකයන් සඳහා වේ.

ඩිජිටල් යුගයේ ආරංචි මාර්ග භාවිතා බොහෝ සමාජ විද්යාත්මක පර්යේෂණ, කෙසේ වෙතත්, සහමුලින්ම වෙනස් ය. පර්යේෂකයන් විසින් හා පර්යේෂකයන් සඳහා එකතු කල දත්ත භාවිත කරනවා වෙනුවට, එය එවැනි, ලාභ ලබන සේවාවක් ලබා, හෝ නීතිය පාලනය තමන්ගේ ම කටයුතු සඳහා ව්යාපාර සහ රාජ්ය විසින් නිර්මාණය හා එකතු කරන ලදී ඇති දත්ත, මූලාශ්ර භාවිතා කරයි. මෙම ව්යාපාරික හා රාජ්ය දත්ත මූලාශ්රයන් විශාල දත්ත කියනු පැමිණ ඇත. විශාල දත්ත සමඟ පර්යේෂණ කිරීමෙන් මුලින් පර්යේෂණ සඳහා නිර්මාණය වූ දත්ත සමඟ පර්යේෂණ කරන වඩා වෙනස් වේ. එවැනි සාමාන්ය සමාජ සමීක්ෂණ (GSS) ලෙස සාම්ප්රදායික මහජන මතය සමීක්ෂණය සමග, උදාහරණයක් ලෙස, සසඳන්න, එවැනි ට්විටර් වැනි සමාජ මාධ්ය වෙබ් අඩවිය. ට්විටර් ප්රධාන ඉලක්ක එහි පරිශීලකයන්ට සේවා සැපයීම හා ලාභ ලබා ගැනීමට ය. මෙම අරමුණු ඉටු කිරීමේ ක්රියාවලිය තුළ, ට්විටර් මහජන මතය ඇතැම් පැති අධ්යයනය සඳහා ප්රයෝජනවත් විය හැකි බව දත්ත නිර්මාණය කරයි. එහෙත්, සාමාන්ය සමාජ සමීක්ෂණ (GSS) මෙන් නොව, ට්විටර් මූලික වශයෙන් සමාජ විද්යාත්මක පර්යේෂණ කෙරෙහි අවධානය යොමු කර නැත.

කාලීන ලොකු දත්ත frustratingly අපැහැදිලි වන අතර, එය කණ්ඩායම් බොහෝ දේ එකට. සමාජ විද්යාත්මක පර්යේෂණ කාර්යයන් සඳහා, මම එය විශාල දත්ත මූලාශ්රයන් වර්ග දෙකක් කිරීම පැහැදිළිව වටහා ගැනීම ප්රයෝජනවත් වේ හිතන්නේ:. රජයේ පරිපාලන වාර්තා සහ ව්යාපාරික පරිපාලන වාර්තා රජය පරිපාලන වාර්තා දෛනික කාර්යයන්ට කොටසක් ලෙස ආන්ඩු විසින් නිර්මාණය කළ දත්ත වේ. උපත අධ්යයනය ප්රජා විද්යාඥයන්, විවාහ හා මරණ වාර්තා-නමුත් ආණ්ඩු වඩ එකතු analyzable ආකාරයේ සවිස්තරාත්මක වාර්තා නිකුත් කරන බැවින්, වාර්තා මේ පිළිබඳ විවිධ ආඛ්යාන පසුගිය-වැනි පර්යේෂකයන් විසින් භාවිතා කර ඇත. උදාහරණයක් ලෙස, නිව් යෝර්ක් නගරයේ රජයේ නගරයේ සෑම ටැක්සි ඇතුළත ඩිජිටල් මීටර් සවි. මෙම මීටර් රියදුරු, රියදුරු ආරම්භ වේලාව හා ස්ථානය, අතර stop වේලාව හා ස්ථානය, සහ බස් ගාස්තු ඇතුළු එක් එක් කුලී රථ සවාරියක් ගැන දත්ත, සියලු වර්ගවල වාර්තාව. මම මෙම පරිච්ඡේදයේ පසුව කියන්නම් බව අධ්යයනය, හෙන්රි ෆාබර් (2015) පැයකට වරක් වැටුප් හා වැඩ පැය සංඛ්යාව අතර ඇති සම්බන්ධය ගැන ශ්රම ආර්ථික විද්යාව මූලික විවාදය ඇමතීමට මෙම දත්ත repurposed.

සමාජ විද්යාත්මක පර්යේෂණ සඳහා විශාල දත්ත දෙවන ප්රධාන වර්ගය ව්යාපාර පරිපාලන වාර්තා වේ. මෙම ව්යාපාරික දෛනික කාර්යයන්ට කොටසක් ලෙස නිර්මාණය හා එකතු කරන දත්ත වේ. මෙම ව්යාපාරික පරිපාලන වාර්තා බොහෝ විට ඩිජිටල් අංශු මාත්ර ලෙස හැඳින්වේ, හා සෙවුම් යන්ත්රය විමසුම ලඝු-සටහන් වගේ දේවල් ඇතුළත්, සමාජ මාධ්ය තනතුරු, ජංගම දුරකථන වලින් වාර්තා සිටිමු. තීරනාත්මක මෙම ව්යාපාරික පරිපාලන වාර්තා පමණක් සමඟ අමුත්තන් හැසිරීම ගැන නොවේ. උදාහරණයක් ලෙස, පරීක්ෂා-ඉවත් ස්කෑනර් යන්ත්ර භාවිතා කරන ගබඩා සේවක ඵලදායිතාව පිළිබඳ තත්ය කාලීන පියවර නිර්මානය කරයි. මම පසුව මෙම පරිච්ඡේදයේ ගැන ඔබට කියන්නම් බව අධ්යයනයේදී, ඇලෙක්සැන්ඩර් Mas හා එන්රිකෝ Moretti (2009) , කම්කරුවන්ගේ ඵලදායිතාව තම මිතුරන් ඵලදායීතාව විසින් ඇතිකරන ආකාරය අධ්යයනය කිරීමට මෙම සුපිරි වෙළඳ සැල් පරික්ෂා-ඉවත් දත්ත repurposed.

මේ උදාහරණ දෙක පැහැදිලි ලෙස, repurposing අදහස විශාල දත්ත ඉගෙන අතිමූලික වේ. මගේ අත්දැකීම් දී, සමාජ විද්යාඥයන් හා දත්ත විද්යාඥයන් වෙනස් ලෙස repurposing මේ කතා. එහි ශක්තීන් නොතකමින්, පර්යේෂණ සඳහා නිර්මාණය කර ඇති දත්ත සමග වැඩ කිරීමට පුරුදු වී සිටින සමාජ විද්යාඥයන්, repurposed දත්ත සමඟ ගැටලු පෙන්වා ඉක්මන් වේ. අනෙක් අතට, දත්ත විද්යාඥයන් එහි දුර්වලතා නොතකමින්, repurposed දත්ත ප්රතිලාභ පෙන්වා ඉක්මන් වේ. ස්වභාවයෙන්ම, හොඳම ප්රවේශය දෙමුහුන් වනු ඇත. බව පර්යේෂකයෝ දත්ත-දෙකම හොඳ හා මෙම නව ආරංචි මාර්ග ලක්ෂණ තේරුම් නරක හා ඉන් පසු ඔවුන්ව සිට ඉගෙන ගන්නා ආකාරය හොයාගන්න ඕනේ, වේ. ඒ වගේම, මේ පරිච්ඡේදයේ ඉතිරි සඳහා වූ සැලසුම වේ. ඊළඟට, මම ව්යාපාරික හා රජයේ පරිපාලන දත්ත පොදු ලක්ෂණ දහයක් විස්තර කරනු ඇත. ඊට පස්සේ, මම මේ දත්ත සමග භාවිතා කල හැකි පර්යේෂණ ප්රවේශයන් තුනක්, මෙම දත්ත ලක්ෂණ ඉතා යෝග්ය බව ප්රවේශයන් විස්තර කරනු ඇත.