2.2 මහා දත්ත

පර්යේෂණ සඳහා හැර වෙනත් අරමුණු සඳහා සමාගම් සහ ආණ්ඩු විසින් විශාල දත්ත නිර්මාණය කොට එකතු කරනු ලැබේ. එමනිසා, පර්යේෂණ සඳහා මෙම දත්ත භාවිතා කිරීමෙන් ප්රතිස්ථාපනය කිරීම අවශ්ය වේ.

ඩිජිටල් යුගයේ බොහෝ පුද්ගලයන් සමාජ විද්යාත්මක පර්යේෂනවලට මුහුණ දෙන පළමු ක්රමය වන්නේ විශාල දත්ත ලෙස හැඳින්වෙන දේ හරහාය. මෙම යෙදුම පුලුල්ව පැතිර තිබුන ද, විශාල දත්ත පවා කවරේ ද යන්න පිළිබඳ එකඟත්වයක් නොමැත. කෙසේ වෙතත් විශාල දත්තවල බහුල අර්ථ දැක්වීම්වලින් එකක් "3 vs": පරිමාව, විවිධත්වය සහ ප්රවේගය යන දෙසට අවධානය යොමු කරයි. කලාතුරකිනි, විවිධාකාර ආකෘතිවලින් දත්ත ගොඩක් තිබේ, එය නිරන්තරයෙන් නිර්මාණය වෙමින් පවතී. විශාල දත්ත පංකා තවත් සත්යයක් සහ සාරය වැනි අනෙකුත් "එක්ස්" එකතු කරයි. සමහර විවේචකයින් නොපැහැදිලි සහ වකුගෝ වැනි අය එකතු කරති. 3 "Vs" (හෝ 5 "Vs" හෝ 7 "Vs") වඩා සමාජ පර්යේෂණ සඳහා අරමුණු කර ගත්තාම, මම ආරම්භ කිරීමට වඩා හොඳ ස්ථානයක් වන්නේ 5 "Ws": කවුද, කුමක්, කොහේද, කවුද , සහ ඇයි. සැබැවින්ම, විශාල දත්ත ප්රභවයන් විසින් නිර්මාණය කරන ලද අභියෝග සහ අවස්ථා බොහොමයක් එක් "W" වලින් පමණක් අනුගමනය කරන්නේ: මම සිතන්නේ.

සමාලෝචන යුගයේ දී, පර්යේෂණය කිරීම සඳහා සමාජ පර්යේෂණ සඳහා භාවිතා කරන ලද බොහෝ දත්තයන් නිර්මාණය කරන ලදී. කෙසේ වෙතත්, ඩිජිටල් යුගයේ දී, සේවාවන් සැපයීම, ලාභ උපයමින් සහ නීති පාලනය කිරීම වැනි පර්යේෂණ සඳහා හැර වෙනත් කාර්යයන් සඳහා සමාගම් සහ ආණ්ඩු විසින් විශාල දත්ත ප්රමාණයක් නිර්මාණය කර ඇත. කෙසේවෙතත්, නිර්මාණශීලී ජනතාව පර්යේෂණ කිරීමට මෙම සංගත හා රජයේ දත්ත නැවත ප්රතිසංස්කරණය කළ හැකි බව අවබෝධ කර ගෙන ඇත. 1 වන පරිච්ඡේදයේ කලා කෘතිවලට නැවත සිතා බැලීම, කලාව නිර්මාණය කිරීම සඳහා සොයාගත් වස්තුවක් ඩිච්කම්ප් විසින් සොයා ගෙන ඇති අතර, විද්යාඥයින්ට පර්යේෂණ සොයා ගැනීමට සොයාගත හැකි දත්ත නැවත ලබා ගත හැකිය.

ප්රතිනිර්මාණය කිරීම සඳහා දැවැන්ත අවස්ථාවන් තිබිය හැකි නමුත්, පර්යේෂණයන් සඳහා නිර්මාණය නොකරන ලද දත්ත භාවිතා කිරීම ද නව අභියෝග ද ඉදිරිපත් කරයි. උදාහරණයක් ලෙස, ට්වීටර් වැනි සමාජ මාධ්ය සේවාවක්, සාමාන්ය සමාජ සමීක්ෂණය වැනි සාම්ප්රදායික මහජන මතයන් සමීක්ෂණය සමඟ සසඳා බලන්න. ට්විටර් හි ප්රධාන අරමුණු නම් එහි පරිශීලකයින්ට සේවාවක් සැපයීම හා ලාභයක් ලබා ගැනීමයි. සාමාන්ය සමාජ සමීක්ෂණය, අනෙක් අතට, විශේෂයෙන්ම මහජන මතය සඳහා පොදු පර්යේෂණ සඳහා සමාජ අරමුණු නිර්මාණය කිරීම කෙරෙහි අවධානය යොමු කරයි. ඉලක්කයන්හි මෙම වෙනස යනු ජනවාරිය විසින් නිර්මාණය කරන ලද දත්ත සහ සාමාන්ය සමාජ සමීක්ෂණය මගින් නිර්මාණය කරන ලද දත්ත, පොදු දේ අධ්යයනය සඳහා යොදා ගත හැකි වුවද, එකිනෙකට වෙනස් ගුණාංග ඇත. ට්විටර් සාමාන්ය සමාජ සමීක්ෂණයට ගැලපෙන පරිණත හා වේගය අනුව ක්රියාත්මක නොවේ. සාමාන්ය සමාජ සමීක්ෂණය මෙන් නොව, ට්වීටර් පරිශිලකයන් නියැදි නියැළී නැති අතර කාලය සමග සංසන්දනය කිරීමට අසමත් වේ. මෙම දත්ත මූලාශ්ර දෙකම එතරම් වෙනස් නිසා, සාමාන්ය සමාජ සමීක්ෂණය ට්විටර් ට වඩා හොඳ නැතහොත් අනෙක් පැත්තෙන් කිව හැකිය. ඔබ ගෝලීය මනෝගතියක ​​පැයක පමණ වේලාවක් අවශ්ය නම් ( Golder and Macy (2011) ), ට්විටර් හොඳම ය. අනෙක් අතට, ඇමෙරිකාවේ ආකල්පවල දී ධ්රැවීකරණය කිරීමේ දිගු කාලීන වෙනස්කම් තේරුම් ගැනීමට අවශ්ය නම් (උදාහරණයක් ලෙස DiMaggio, Evans, and Bryson (1996) ), සාමාන්ය සමාජ සමීක්ෂණය හොඳම තේරීම වේ. පොදුවේ, වෙනත් දත්ත වර්ගයන්ට වඩා විශාල දත්ත මූලාශ්ර වඩා හොඳ හෝ නරක යැයි තර්ක කිරීමට වඩා උත්සාහ කිරීම වෙනුවට, මෙම පරිච්ඡේදය මගින් පර්යේෂකයන්ගේ ප්රශ්න බොහෝ ප්රභවයන්ගේ ප්රභවයන් ආකර්ෂණීය ගුණ ඇති අතර ඒවා කුමන වර්ගයේ ප්රශ්න සඳහා කදිමයි.

විශාල දත්ත මූලාශ්ර ගැන සිතන විට, බොහෝ පර්යේෂකයන් ක්ෂණිකව අවධානය යොමු කරනු ලබන්නේ සෙවුම් එන්ජින් හා සමාජ මාධ්ය තනතුරු වැනි සමාගම් විසින් නිර්මාණය කරන ලද සහ එකතු කරන ලද මාර්ගගත දත්ත මතයි. කෙසේ වෙතත්, මෙම පටු අවධානයෙන් විශාල දත්ත වල තවත් ප්රභවයන් දෙකක් ඉතිරි වේ. පළමුව, වඩ වඩාත් සංගත විශාල දත්ත ප්රභවයන් භෞතික ලෝකයෙහි ඩිජිටල් උපාංග වලින් පැමිණේ. නිදසුනක් වශයෙන්, මෙම පරිච්ඡේදයේ, සේවකයාගේ ඵලදායීතාවය ඇගේ මිතුරන්ගේ ඵලදායීතාවයට බලපාන්නේ කෙසේදැයි අධ්යයනය කිරීම සඳහා සුපිරි වෙළඳසැල් පරීක්ෂා කිරීමේ දත්ත ප්රතිනිර්මාණය කරන ලද අධ්යයනයක් පිළිබඳව මා ඔබට පවසනු ඇත (Mas and Moretti 2009) . ඊළඟට පරිච්ඡේදවල, ජංගම දුරකථනවලින් (Blumenstock, Cadamuro, and On 2015) ඇමතුම් (Blumenstock, Cadamuro, and On 2015) දුරකථන ඇමතුම් වාර්තා භාවිතා කරන පර්යේෂකයින් (Blumenstock, Cadamuro, and On 2015) විදුලි උපයෝගීතාවයෙන් නිර්මාණය කරන ලද බිල්පත් දත්ත (Allcott 2015) ගැනත් මම ඔබට කියන්නම්. මෙම උදාහරණ නිදර්ශනය වන පරිදි, සංගත විශාල දත්ත ප්රභවයන් මාර්ගගත හැසිරීම් වලට වඩා වැඩි යමක් වේ.

සබැඳි හැසිරීම සම්බන්ධයෙන් පටු අවධානයක් ලබා දීමෙන් විශාල දත්ත දෙවන වැදගත් මූලාශ්රය වන්නේ රජය විසින් නිර්මාණය කරන ලද දත්තයි. රජයේ පරිපාලන වාර්තාවන් පර්යේෂකයන් හඳුන්වන මෙම රජයේ දත්ත, බදු වාර්තා, පාසල් වාර්තා සහ වැදගත් සංඛ්යාලේඛන වාර්තා (නිද., උපත් හා මරණ ලියාපදිංචි කිරීම්) ඇතුළත් වේ. ඇතැම් අවස්ථාවල දී සියවස් ගණනාවක් තිස්සේ මේ ආකාරයේ දත්ත සම්පාදනය කර ඇති අතර සමාජ විද්යාඥයන් සමාජ විද්යාඥයන් මෙන් ම ඔවුන් සූරා කමින් සිටිති. කෙසේ වෙතත්, වෙනස් වී ඇත්තේ, ඩිජිටිස්කරණය, දත්තයන් එකතු කිරීම, සම්ප්රේෂණය, ගබඩා කිරීම සහ විශ්ලේෂණය කිරීමට ආන්ඩුවලට නාටකාකාරව පහසු කර ඇති නිසාය. නිදසුනක් වශයෙන්, මෙම පරිච්ඡේදයේ, නිව් යෝර්ක් නගරයේ රජයේ ඩිජිටල් ටැක්ස්රිවල දත්ත විශ්ලේෂණය කරන ලද අධ්යයනයක් ගැන මම ඔබට කියමි, ශ්රම ආර්ථිකය පිළිබඳ මූලික විවාදයකට (Farber 2015) විසඳා ගැනීමට. ඊළඟට, පරිච්ඡේදවල දී, රජයේ සමීක්ෂණ ඡන්ද පත්රිකා සමීක්ෂණය (Ansolabehere and Hersh 2012) සහ අත්හදා බැලීම් (Bond et al. 2012) .

විශාල දත්ත ප්රභවයන්ගෙන් ඉගෙන ගැනීම සඳහා විශාල දත්ත මූලාශ්ර වලින් ඉගෙන ගැනීමට මූලික වශයෙන්ම මූලික අදහස වන්නේ, විශාල දත්ත මූලාශ්රවල ගුණාංග (2.3 වගන්තිය) සහ ඒවා පර්යේෂණ සඳහා යොදා ගත හැකි ආකාරය (2.4 වගන්තිය) මා කැමතියි ප්රතිස්ථාපනය කිරීම සඳහා සාමාන්ය උපදෙස් දෙකක් ඉදිරිපත් කිරීම. පළමුව, "සොයාගත්" දත්ත සහ "සැලසුම් කරන ලද" අතර දත්තයන් ලෙස මා විසින් සකස් කර ඇති වෙනස ගැන සිතීමට පෙළඹවීමක් විය හැකිය. ඒක කිට්ටුයි. නමුත් එය හරිම නිවැරදි නැහැ. පර්යේෂකයන්ගේ ඉදිරිදර්ශනය අනුව, විශාල දත්ත මූලාශ්ර "සොයාගත හැකි" වුවත්, ඒවා අහසෙන් වැටෙන්නේ නැත. ඒ වෙනුවට, පර්යේෂකයන් විසින් "සොයා ගන්නා" දත්ත මූලාශ්ර සමහරෙකු විසින් යම් අරමුණක් සඳහා නිර්මාණය කර ඇත. "සොයාගත්" දත්ත යම් පුද්ගලයෙකු විසින් නිර්මාණය කර ඇති නිසා, මා විසින් සෑම විටම ඔබ ඔබගේ දත්ත නිර්මාණය කරන ලද පුද්ගලයින් සහ ක්රියාවලීන් ගැන හැකි තරම් හැකි තරම් තේරුම් ගැනීමට උත්සාහ කරන්න. දෙවනුව, ඔබ ප්රතිසාධනය කරන විට, ඔබගේ ගැටළුව සඳහා පරමාදර්ශී දත්ත කට්ටලයක් උපකල්පනය කිරීම ඉතාම ප්රයෝජනවත් වේ, ඔබ භාවිතා කරන ඔබ සමඟ එම පරමාදර්ශී දත්ත සංසන්දනය කරන්න. ඔබ ඔබගේ දත්ත එකතු නොකළේ නම්, ඔබට අවශ්ය දේ සහ ඔබට ඇති දේ අතර වැදගත් වෙනස්කම් තිබිය හැකිය. ඔබට මෙම වෙනස්කම් සැලකිල්ලට ගත හැකි වනුයේ ඔබට හැකි දේ සහ ඔබට ලබා ගත හැකි දත්ත වලින් පැහැදිලි කළ හැකි වන අතර ඔබ විසින් එකතු කළ යුතු නව දත්ත යෝජනා කරයි.

මගේ අත්දැකීම්වලදී, විද්යාඥයින් සහ දත්ත විද්යාඥයන් ඉතා වෙනස් ආකාරයකින් ප්රතිගාමිත්වයට පිවිසීමට පෙළඹේ. පර්යේෂණයන් සඳහා නිර්මාණය කරන ලද දත්ත සමඟ වැඩ කරන සමාජ විද්යාඥයන්, එහි ශක්තිය නොසලකා හැරෙන අතර ප්රතිස්ථාපිත දත්ත සමඟ ඇති ගැටළු පෙන්වා දීමට ඉක්මන් වනු ඇත. අනික් අතට, දත්ත විද්යාඥයින්ගේ දුර්වලතා නොසලකා හැර, ප්රතිස්ථාපිත දත්ත වල ප්රතිලාභ පෙන්වා දීමට ඉක්මන් වනු ඇත. ඇත්ත වශයෙන්ම, හොඳම ප්රවේශය දෙමුහුන් වේ. එනම්, හොඳ සහ නරක මෙන්ම විශාල දත්ත මූලාශ්රයන්ගේ ගතිගුණ පිළිබඳ පර්යේෂකයන්ට අවබෝධ කර ගත යුතු අතර පසුව ඒවායින් ඉගෙන ගත යුතු ආකාරය සොයා බැලිය යුතුය. මෙම පරිච්ඡේදයේ ඉතිරි කොටස සඳහා එය සැලැස්වීමයි. ඊළඟ කොටසෙහි, විශාල දත්ත ප්රභවයන්ගේ පොදු ලක්ෂණ 10 ක් විස්තර කරන්නෙමි. ඉන්පසුව, පහත සඳහන් කොටසේ, එවැනි දත්ත සමඟ හොඳින් කටයුතු කළ හැකි පර්යේෂණ ප්රවේශයන් තුනක් විස්තර කරන්නෙමි.