2.2 Big Data

Үлкен деректер компаниялар мен үкіметтердің зерттеуден басқа мақсаттар үшін жасалып, жинақталған. Осы деректерді зерттеу үшін пайдалану, сондықтан, қайта бағалауды талап етеді.

Көптеген адамдар сандық ғасырда әлеуметтік зерттеулермен айналысатын алғашқы әдіс үлкен деректер деп аталады. Осы терминді кеңінен қолдануға қарамастан, қандай үлкен деректер туралы бір пікір жоқ. Дегенмен, үлкен деректердің ең көп таралған анықтамаларының бірі «3 Vs»: шоғырланған, көлемі, жылдамдығы. Әрине, әртүрлі форматтарда көптеген деректер бар және үнемі құрылады. Кейбір үлкен деректердің жанкүйерлері «Ver» және «Value» сияқты басқа «Vs» қосады, ал кейбір сыншылар Vs-ді Vague және Vacuous сияқты қосады. Әлеуметтік зерттеулер үшін 3 «Vs» (немесе «Vs» немесе «Vs») қарағанда, 5 «Ws» деп бастаймын деп ойлаймын: Кім, Қандай, Қайда, Қашан және неге. Іс жүзінде, үлкен дерек көздері жасаған көптеген қиындықтар мен мүмкіндіктер бір ғана «В» -дан келеді: неге?

Аналогтық жаста әлеуметтік зерттеулер үшін пайдаланылған деректердің көбісі зерттеу жүргізу мақсатында жасалды. Дегенмен, сандық дәуірде компаниялар мен үкіметтердің қызметтерді ұсыну, пайда алу және заңдарды басқару сияқты зерттеулерден басқа мақсаттарда үлкен көлемде деректер жасалуда. Шығармашылық адамдар, алайда, сіз зерттеу үшін осы корпоративтік және мемлекеттік деректер repurpose мүмкін екенін түсінді. 1-тараудағы өнер ұқсастығын ойлап, Дюппп өнер тудыру үшін табылған объектіні қайта шығарған сияқты, ғалымдар енді зерттеуді жасау үшін табылған деректерді қайта шығара алады.

Дегенмен, қайта құрудың үлкен мүмкіндіктері болса да, зерттеу мақсаттары үшін жасалмаған деректерді пайдалану жаңа қиындықтарды тудырады. Мәселен, Twitter сияқты әлеуметтік медиа қызметін салыстыра отырып, Жалпы Әлеуметтік сауалдаманы дәстүрлі қоғамдық пікірмен салыстырыңыз. Twitter-тің басты мақсаты - пайдаланушыларға қызмет көрсету және пайда табу. Жалпыға ортақ әлеуметтік сауалнама әлеуметтік зерттеулерге, әсіресе қоғамдық пікірді зерттеуге арналған жалпы мақсаттағы деректерді жасауға бағытталған. Бұл мақсаттардағы айырмашылық, Твиттер жасаған және Жалпы Әлеуметтік сауалдама жасаған деректердің әртүрлі қасиеттерге ие екендігін білдіреді, бірақ екеуі де қоғамдық пікірді зерттеу үшін пайдаланылуы мүмкін. Twitter жалпы әлеуметтік сауалға сәйкес келмейтін кең ауқымда және жылдамдықпен жұмыс істейді, бірақ Жалпы Әлеуметтік сауалнамаға қарағанда, Twitter тұтынушыларды мұқият іріктеп алып, уақыт бойынша салыстырымдылықты сақтау үшін көп күш жұмсамайды. Бұл екі дерек көзі әртүрлі болғандықтан, Жалпы Әлеуметтік сауалнама Twitter-ден немесе керісінше жақсы деп айтуға болмайды. Егер жаһандық көңіл-күйдің сағаттық шараларын (мысалы, Golder and Macy (2011) ) қаласаңыз, Twitter жақсы. Екінші жағынан, Құрама Штаттардағы (мысалы, DiMaggio, Evans, and Bryson (1996) ) поляризациядағы ұзақ мерзімді өзгерістерді түсіну қажет болса, онда Жалпы Әлеуметтік сауалнама - бұл жақсы таңдау. Жалпы алғанда, деректердің басқа көздеріне қарағанда, деректердің басқа көздеріне қарағанда жақсы немесе нашар деп айтуға қарағанда, осы тарауда үлкен деректер көздерінің тартымды қасиеттері бар зерттеу сұрақтары қандай сұрақтарға жауап беретінін анықтауға тырысады. мінсіз.

Үлкен дерек көздері туралы ойлағанда, көптеген зерттеушілер дереу іздеу жүйелері мен әлеуметтік медиа хабарламалары сияқты компаниялар жасаған және жинаған онлайн деректерге шоғырланады. Дегенмен, бұл тар фокус үлкен деректердің тағы екі маңызды көзін қалдырады. Біріншіден, корпоративтік деректердің үлкен көздері физикалық әлемдегі сандық құрылғылардан келеді. Мысалға, осы тарауда мен супермаркет туралы мәлімет туралы деректерді жұмысшылардың өнімділігіне оның құрдастарының өнімділігіне қалай әсер ететінін білуге ​​арналған зерттеу туралы айтып беремін (Mas and Moretti 2009) . Содан кейін, кейінгі тарауларда ұялы телефондардан (Blumenstock, Cadamuro, and On 2015) сондай-ақ электрқұрылғылармен жасалған деректерді (Allcott 2015) есептік деректерді пайдаланатын зерттеушілер туралы айтып беремін. Бұл мысалдар көрсеткендей, корпоративті үлкен дерек көздері тек онлайн режимінде ғана емес.

Интернеттегі мінез-құлыққа тар шеңберде жіберілген үлкен деректердің екінші маңызды көзі - бұл үкімет жасаған деректер. Зерттеушілер үкіметтік әкімшілік есептер деп аталатын бұл үкімет деректері салық есептілігі, мектеп жазбасы және маңызды статистикалық жазбалар (мысалы, туылу мен өлім туралы тіркеулер) сияқты нәрселерді қамтиды. Үкімет мұндай деректерді кейбір жағдайларда жүздеген жылдар бойы жасаған және әлеуметтанушылар әлеуметтік ғалымдар болғанша оларды пайдалануда. Дегенмен, цифрландыру өзгерді, бұл үкімет деректерді жинауға, беруге, сақтауға және талдауға айтарлықтай жеңілдетеді. Мысалы, осы тарауда сіз Нью-Йорк қалалық үкіметінің сандық таксометрлерінен еңбек экономикасы туралы іргелі пікірталастарды шешу үшін (Farber 2015) қайта алынған мәліметтерді зерттеу туралы айтып беремін. Содан кейін, кейінгі тарауларда, үкіметте жиналған дауыс беру жазбалары сауалнамаға (Ansolabehere and Hersh 2012) және тәжірибеге қалай қолданылғаны туралы айтып беремін (Bond et al. 2012) .

Менің пікірімше, үлкен деректер көздерінен үйрену үшін іріктеу идеясы маңызды, сондықтан үлкен дерек көздерінің қасиеттері туралы (2.3 бөлімі) және оларды зерттеулерде қалай қолдануға болатынын (2.4 бөлім) нақты айтқанға дейін өтемақы туралы жалпы екі кеңес ұсынуға болады. Біріншіден, «табылған» деректер мен «жобаланған» деректер арасында қалыптасқан контраст туралы ойлауға азғыруға болады. Бұл жақын, бірақ бұл дұрыс емес. Дегенмен, зерттеушілер тұрғысынан, үлкен дерек көздері «табылды», бірақ олар аспаннан ғана емес құлдырайды. Оның орнына, зерттеушілердің «табылған» деректер көздері біреу үшін бір мақсатпен жасақталған. «Табылған» деректерді біреу ойлап тапқандықтан, мен сіздің деректеріңізді жасаған адамдар мен процестер туралы мүмкіндігінше түсінуге тырысамын. Екіншіден, сіз деректерді жаңартқан кезде, мәселеңіз үшін керемет деректер жиынтығын елестету өте пайдалы және содан кейін сіз пайдаланатын тамаша деректер жиынтығын салыстырыңыз. Егер сіз өзіңіздің деректеріңізді өзіңіз жинамаған болсаңыз, сіз қалағаныңыз бен сізде бар нәрселер арасында маңызды айырмашылықтар болуы мүмкін. Бұл айырмашылықтарды байқасаңыз, сізде бар деректерден не біле алмайтындығыңызды түсіндіре аласыз және ол сізге жинайтын жаңа деректерді ұсынуы мүмкін.

Менің тәжірибемде әлеуметтанушылар мен деректер ғалымдары басқаларға қайта-қайта жауап беруге бейім. Зерттеуге арналған деректермен жұмыс істеуге үйренген әлеуметтанушылар ғалымдар өз күштерін елеусіз қалдырып, жаңартылған деректермен байланысты проблемаларды тез белгілеуге тырысады. Екінші жағынан, деректер ғалымдары, әдетте, әлсіз жақтарын елемей, қайта алынған деректердің артықшылықтарын көрсете алады. Әрине, ең жақсы тәсіл гибрид болып табылады. Яғни, зерттеушілер үлкен дерек көздерінің сипаттамаларын - жақсы да, жаман да - түсіну керек, содан кейін олардан қалай үйрену керектігін анықтайды. Және осы тараудың қалған бөлігінің жоспары. Келесі бөлімде үлкен деректер көздерінің он жалпы сипаттамасын сипаттайтын боламын. Содан кейін келесі бөлімде мен осындай деректермен жақсы жұмыс істей алатын үш зерттеу тәсілін сипаттайтын боламын.