2.4.1 Бројање ствари

Једноставно бројање може бити занимљиво да комбинују добро питање са добрим подацима.

Мада је то написано на софистицираном језику, много друштвених истраживања стварно само рачунају ствари. У доба великих података, истраживачи могу рачунати више него икада, али то не значи да би требали започети пребројавање случајно. Умјесто тога, истраживачи треба да питају: Које ствари вреди рачунати? Ово може изгледати као сасвим субјективна ствар, али постоје неки општи обрасци.

Често ученици мотивишу своје истраживање бројачем рекавши: Ја ћу рачунати нешто што нико раније није рачунао. На пример, ученик може рећи да су многи људи проучавали мигранте и да су многи људи проучавали близанце, али нико није проучавао блиске мигранте. По мом искуству, ова стратегија, коју називам мотивацијом због одсуства , обично не доводи до доброг истраживања. Мотивација по одсуству је као да кажем да тамо постоји рупа и ја ћу јако радити да га попуњем. Али не мора се свака рупа попунити.

Умјесто да мотивишем због одсуства, мислим да је боља стратегија тражити истраживачка питања која су важна или занимљива (или идеално обоје). Оба ова израза је тешко дефинисати, али један начин размишљања о важним истраживањима јесте то што има одређени мјерљиви утјецај или се храни у важну одлуку од стране креатора политике. На пример, мерење стопе незапослености је важно јер је индикатор економије који води политичке одлуке. Генерално, мислим да истраживачи имају прилично добар смисао за оно што је важно. Дакле, у остатку овог одељка ћу вам дати два примера где мислим да је бројање занимљиво. У сваком случају, истраживачи нису рачунали на случајан случај; пре свега, рачунали су у веома посебним окружењима која су открила важне увиде у више општих идеја о томе како функционирају социјални системи. Другим ријечима, пуно тога што чини ове посебне бројне вјежбе занимљиве, нису сами подаци, већ потиче од ових опћих идеја.

Један пример једноставне моћи пребројавања долази из студије Хенриа Фарбера (2015) о понашању таксистара из Њујорка. Иако ова група можда није звучно интересантна, то је стратешко истраживачко место за тестирање две конкурентске теорије у економији рада. У сврху Фарберовог истраживања постоје две важне карактеристике о радном окружењу таксиста: (1) њихова дневна зарада се дневно флуктуира, дјелимично заснована на факторима као што су временске прилике, и (2) колико сати рад може да дневно флуктуира на основу својих одлука. Ове карактеристике доводе до занимљивог питања о односу између дневних зарада и радног времена. Неокласични модели у економији предвиђају да ће таксисти радити више дана у којима имају веће сатне плате. Алтернативно, модели из економије понашања предвиђају управо супротно. Ако су возачи поставили одређени циљ дохотка - рецимо 100 долара дневно - и раде све док тај циљ не буде испуњен, онда ће возачи завршити рад мање сати у данима да зарађују више. На пример, ако сте били циљни зараде, можда ћете радити четири сата на добар дан (25 долара по сату) и пет сати на лош дан (20 долара по сату). Дакле, да ли возачи раде више сати дневно са вишим сатним плажама (као што предвиђају неокласични модели) или више сати дневно са нижим сатним плажама (како то предвиђају економски модели понашања)?

Да би одговорио на ово питање, Фарбер је добио податке о сваком таксистичком путовању које су узели кабине из Њујорка од 2009. до 2013. године, подаци који су сада доступни јавности. Ови подаци - које су сакупљали електронски бројилници којима град захтијева таксије за кориштење - укључују информације о сваком путовању: вријеме почетка, почетак локације, вријеме завршетка, крајња локација, цијена и врх (ако је савјет плаћен кредитном картицом) . Користећи ове податке о таксометру, Фарбер је нашао да већина возача ради више у данима када су плате веће, у складу са неокласичком теоријом.

Поред овог главног налаза, Фарбер је могао да користи величину података ради бољег разумевања хетерогености и динамике. Открио је да, с временом, новији возачи постепено уче да раде више сати на данима са високим платама (нпр. Они науче да се понашају како предвиђа неокласични модел). И нови возачи који се више понашају као циљани радници, чешће напуштају таксисте. Оба ова суптилнија открића, која помажу у објашњењу посматраног понашања тренутних возача, могућа су само због величине скупа података. Било их је немогуће открити у ранијим студијама које су у кратком временском периоду користиле папирне листове из малих бројева таксиста (Camerer et al. 1997) .

Фарберова студија била је близу најбољег сценарија за истраживање коришћењем великог извора података, јер су подаци који је сакупио град прилично близу података које је Фарбер сакупио (једна разлика је у томе што Фарбер би желио податке о укупном плате и додатке - али градски подаци су укључивали само савјете плаћене кредитном картицом). Међутим, само подаци нису били довољни. Кључ Фарберовог истраживања доносио је интересантно питање за податке, питање које има веће импликације изван овога специфичног окружења.

Други пример пребројавања ствари долази од истраживања Гари Кинга, Јеннифер Пан и Молли Робертс (2013) о цензури на мрежи од стране кинеске владе. Међутим, у овом случају истраживачи су морали прикупити своје велике податке и морали су се бавити чињеницом да су њихови подаци непотпуни.

Кинг и колеге су мотивисани чињеницом да су постови друштвених медија у Кини цензурисани огромним државним апаратом за који се мисли да укључује десетине хиљада људи. Међутим, истраживачи и грађани немају смисла како ови цензори одлучују који садржај треба избрисати. Кинески научници заправо имају конфликтна очекивања о томе које врсте постова ће се највероватније избрисати. Неки мисле да се цензори фокусирају на постс који су критични према држави, док други мисле да се фокусирају на постс који подстичу колективно понашање, као што су протести. Сазнање које од ових очекивања је тачно има утицај на то како истраживачи разумеју Кину и друге ауторитарне владе које се баве цензурирањем. Због тога су Кинг и колеге желели да упореде објављене и касније обрисане постове које су објављене и никада не бришу.

Прикупљање ове поруке укључене невероватну инжењеринг подвиг пузећи више од 1.000 кинеских друштвених медија веб-сваки са различитим изгледи страница за проналажење одговарајуће поруке, а затим осврт ове поруке да се види који су накнадно избрисани. Поред уобичајених проблема инжењеринга у вези са великих размера веб пописивање, овај пројекат је имао додатну изазов који јој је било потребно да будемо веома брзо јер многи цензурисане поруке су узета је у мање од 24 сата. Другим речима, спор финишер би пропустили много мјеста која су цензурисани. Даље, гусеничари морао све ово прикупљање података, док избегава детекцију да не сајтови друштвених медија блокирају приступ или на други начин мењају своју политику као одговор на студије.

До тренутка када је овај велики инжењерски задатак завршен, Кинг и колеге добили су око 11 милиона постова на 85 различитих пре-специфицираних тема, од којих је свака са претпостављеним нивоом осјетљивости. На примјер, тема високе осјетљивости је Аи Веивеи, дисидентски уметник; тема средње осетљивости је апрецијација и девалвација кинеске валуте, а тема слабе осетљивости је Светско првенство. Од ових 11 милиона постова, око 2 милиона је било цензурисано. Донекле изненађујуће, Кинг и колеге су открили да су постови о веома осјетљивим темама били цензурисани само мало чешће од мјеста на средњим и нискосензитивним темама. Другим речима, кинески цензори су у највећој могућој мери цензурирали пост који помиње Аи Веивеи као пост који спомиње Светски куп. Ови налази не подржавају идеју да влада цензурира све постове о осјетљивим темама.

Међутим, ово једноставно израчунавање стопе цензуре по теми може бити погрешно. На примјер, влада може цензурисати постове који подржавају Аи Веивеи, али остављају постове који су критични према њему. Да би пажљиво разликовали постове, истраживачи су морали да измеру осећај сваког поста. Нажалост, упркос пуно рада, потпуно аутоматизоване методе детекције расположења користећи већ постојеће речнике у многим ситуацијама још увијек нису врло добре (размислите о проблемима који стварају емоционални временски период од 11. септембра 2001. описан у одјељку 2.3.9). Због тога су краљу и колегама требали начин да своје 11 милиона постова социјалних медија обележе да ли су оне (1) критичне према држави, (2) подржавају државу, или (3) небитне или чињеничне извјештаје о догађајима. Ово звучи као масиван посао, али су га решили користећи моћни трик који је уобичајен у науци података, али релативно ретко у друштвеним наукама: надгледано учење ; види слику 2.5.

Прво, у кораку који се обично зове префарбирање , истраживачи су претворили поставке друштвених медија у матрицу за документе , где је био један ред за сваки документ и један колумни који је забележио да ли пост садржи одређену реч (нпр. Протест или саобраћај) . Затим, група истраживача померила је знакове узорка порука. Потом су користили ове податке означене са рукама да би направили модел за учење машина који би могао да закључи постовање поста на основу његових карактеристика. Најзад, они су користили овај модел да процене осећај свих 11 милиона постова.

Стога, уместо ручног читања и обележавања 11 милиона постова - што би било логично немогуће - Краљ и колеге ручно су означили мали број постова, а затим су користили надгледано учење како би процијенили расположење свих постова. По завршетку ове анализе, могли су закључити да је, донекле изненађујуће, вероватноћа да се објава брише није везана за то да ли је критична за државу или подржава државу.

Слика 2.5: Поједностављена схема поступка који су користили Кинг, Пан и Робертс (2013) за процену осећаја од 11 милиона кинеских друштвених медија. Прво, у кораку пречеавања, истраживачи су претворили поставке друштвених медија у матрицу за документе (видети Гриммер и Стеварт (2013) за више информација). Друго, руком су кодирали осећања малих узорака постова. Треће, они су обучавали надгледани модел учења да класификују расположење постова. Четврто, они су користили надгледани модел учења како би процијенили осећај свих постова. Видите Кинг, Пан и Робертс (2013), додатак Б за детаљнији опис.

Слика 2.5: Поједностављена схема поступка који су користили King, Pan, and Roberts (2013) за процену осећаја од 11 милиона кинеских друштвених медија. Прво, у кораку пречеавања , истраживачи су претворили поставке друштвених медија у матрицу за документе (видети Grimmer and Stewart (2013) за више информација). Друго, руком су кодирали осећања малих узорака постова. Треће, они су обучавали надгледани модел учења да класификују расположење постова. Четврто, они су користили надгледани модел учења како би процијенили осећај свих постова. Видите King, Pan, and Roberts (2013) , додатак Б за детаљнији опис.

На крају, Кинг и колеге су открили да су само три врсте постова биле редовно цензурисане: порнографија, критике цензора и оне које су имале колективни акциони потенцијал (тј. Могућност вођења великих протеста). Посматрајући велики број порука које су обрисане и постове које нису обрисане, Кинг и колеге су могли научити како цензори раде само гледајући и рачунајући. Осим тога, пред очима теме која ће се појавити током ове књиге, приступ под надзором учења који су користили - ручно означавање неких исхода, а затим изградња модела за учење машина за означавање остатака - испоставља се врло често у друштвеним истраживањима у дигиталном добу . Видећете слике врло сличне као на слици 2.5 у поглављима 3 (Питање питања) и 5 ​​(стварање масовне сарадње); ово је једна од ретких идеја које се појављују у више поглавља.

Ови примери - радно понашање таксиста у Њујорку и понашање кинеске владе о социјалним медијима - показују да релативно једноставно пребројавање великих извора података може у неким ситуацијама довести до занимљивих и важних истраживања. У оба случаја, међутим, истраживачи су морали да дају занимљива питања великом извору података; подаци сами по себи нису били довољни.