2.4.1 Counting рэчы

Просты падлік можа быць цікава , калі аб'яднаць добры пытанне з добрымі дадзенымі.

Нягледзячы на ​​тое, што вытрымана у вытанчаным гучыць мове, шмат сацыяльных даследаванняў сапраўды проста падлік рэчаў. У эпоху вялікіх дадзеных, даследчыкі могуць разлічваць больш чым калі-небудзь, але гэта зусім не азначае, што яны павінны проста пачаць адлік бессістэмна. Замест гэтага, даследчыкі павінны спытаць: Якія рэчы варта падліку? Гэта можа здацца зусім суб'ектыўным пытаннем, але ёсць некаторыя агульныя заканамернасці.

Часта студэнты матывуюць іх падліку даследаванні, кажучы: я буду лічыць тое, што ні адзін ніколі не што падлiчаны раней. Напрыклад, студэнт можа сказаць, што многія людзі вывучалі мігрант, і многія людзі вывучалі блізнюк, але ніхто не вывучаў мігрант блізнят. На маю вопыту, гэтая стратэгія, якую я называю матывацыю адсутнасцю, як правіла , не прыводзіць да добрых даследаваннях. Матывацыя адсутнасць накшталт як кажуць, што ёсць дзірка там, і я буду працаваць вельмі цяжка, каб запоўніць яго. Але не кожнае адтуліну павінна быць запоўнена.

Замест таго , матывуючы адсутнасцю, я думаю , што лепшая стратэгія заключаецца ў пошуку навуковых пытанняў, якія важныя або цікавыя (ці , у ідэале , і іншае). Абодва гэтых тэрміны трохі цяжка вызначыць, але так, каб думаць пра важнае даследаваннем з'яўляецца тое, што яна мае некаторы вымерна ўздзеянне або каналы ў якасці важнага рашэння дырэктыўных органаў. Напрыклад, вымераючы ўзровень беспрацоўя з'яўляецца важным, паколькі яно з'яўляецца індыкатарам эканомікі, які прыводзіць палітычныя рашэнні. Наогул, я думаю, што даследчыкі маюць вельмі добрае пачуццё, што вельмі важна. Такім чынам, у пакінутай часткі гэтага падзелу, я збіраюся прадставіць два прыклады, дзе я думаю, падлічваючы цікава. У кожным выпадку, даследчыкі не разлічвалі бессістэмна; хутчэй, яны разлічвалі ў вельмі пэўных умовах, якія паказалі важную інфармацыю пра больш агульных ўяўленні аб тым, як сацыяльнай рабоце сістэм. Іншымі словамі, шмат таго, што робіць гэтыя канкрэтныя падліковыя практыкаванні цікава не самі дадзеныя, яно зыходзіць ад гэтых больш агульных ідэй.

Адным з прыкладаў просты сілы падліку прыходзіць ад Генры Фарбэр (2015) даследаванняў паводзін кіроўцаў Нью - Ёрк таксі. Хоць гэтая група не можа здацца па сваёй сутнасці цікава, гэта стратэгічны даследчы сайт для тэставання два канкуруючых тэорый ў эканоміцы працы. Для мэт даследавання Фарбэр, ёсць дзве важныя асаблівасці аб рабочай асяроддзі таксістаў: (1) іх пагадзінная заработная плата змяняецца з дня ў дзень, часткова на аснове такіх фактараў, як надвор'е, і (2) колькасць гадзін, яны праца можа вагацца кожны дзень у залежнасці ад іх рашэнняў. Гэтыя асаблівасці прыводзяць да цікавага пытання аб суадносінах паміж пагадзіннай заработнай платай і адпрацаванымі гадзінамі. Неакласічны мадэлі ў эканоміцы прагназуюць, што кіроўцы таксі будуць працаваць у дні, калі яны маюць больш высокую пагадзінную заработную плату. Акрамя таго, мадэлі з паводніцкай эканомікі прадказаць з дакладнасцю да наадварот. Калі вадзіцелі устанавіць канкрэтны даход мэта, скажам, $ 100 у дзень, і праца, пакуль гэтая мэта не будзе дасягнутая, то вадзіцелі будуць у канчатковым выніку працаваць менш гадзін у дні, якія яны зарабляюць больш. Напрыклад, калі вы былі мішэнь здабытчыкам, то ў канчатковым выніку працуе чатыры гадзіны ў добры дзень (25 $ у гадзіну) і пяць-й гадзіне на дрэнны дзень ($ 20 у гадзіну). Так што, кіроўцы працуюць больш гадзін у дні з больш высокім пагадзіннай аплатай працай (як і прадказвала Неакласічны мадэлі) або больш гадзін у дні з больш нізкай пагадзіннай заработнай платай (як прадказвалі паводзіннымі эканамічныя мадэлі)?

Для таго, каб адказаць на гэтае пытанне Фарбэр атрыманы дадзеныя аб кожным таксі паездкі, прынятым Нью-Ёрку кабіны з 2009 па 2013 годзе, дадзеныя, якія ў цяперашні час даступныя для грамадскасці. Гэтыя былі сабраныя з дапамогай электронных лічыльнікаў, што горад патрабуе таксі, да якіх дадзеныя спажывецкай уключаюць інфармацыю аб кожнай паездцы: час пачатку, пачаць месцазнаходжанне, час заканчэння, канчатковае месцазнаходжанне, кошт праезду, і наканечнік (калі наканечнік быў аплочаны з дапамогай крэдытнай карты) , Выкарыстоўваючы гэтыя дадзеныя метровага таксі, Фарбэр выявіў, што большасць кіроўцаў працуюць больш на тыя дні, калі заработная плату вышэй, у адпаведнасці з неакласічнага тэорыяй.

У дадатку да гэтага асноўнага высновы, Фарбэр быў у стане выкарыстаць памер дадзеных для лепшага разумення неаднастайнасці і дынамікі. Ён выявіў, што на працягу доўгага часу, новыя вадзіцелі паступова вучацца працаваць больш гадзін у дні з высокай заработнай платай (напрыклад, яны вучацца паводзіць сябе як неакласічнага мадэль прадказвае). І новыя вадзіцелі, якія вядуць сябе больш як мэтавыя здабытчыка, больш верагодна, перасталі быць таксістамі. Абодва гэтых больш тонкіх высноў, якія дапамагаюць растлумачыць назіранае паводзіны цяперашніх кіроўцаў, было магчыма толькі з-за памеру набору дадзеных. Яны былі немагчыма выявіць у больш ранніх даследаваннях , якія выкарыстоўвалі паперу паездкі лісты з невялікага ліку кіроўцаў таксі ў працягу кароткага перыяду часу (Camerer et al. 1997) і (Camerer et al. 1997) .

Даследаванне Фарбэр было блізка да лепшага нагоды для даследавання з выкарыстаннем вялікай крыніцы дадзеных, так як дадзеныя, якія былі сабраныя ў горадзе былі даволі блізкія да дадзеных, якія Фарбэр сабраў бы (адна розніцы ў тым, што Фарбэр б хацелі дадзеныя па агульным заработная плата-тарыфы плюс парады, але дадзеныя горада ўключаны толькі парады, аплачаныя крэдытнай картай). Тым не менш, дадзеныя самі па сабе не былі дастаткова. Ключ да даследаванняў Фарбэр вёз цікавае пытанне да дадзеных, пытанне, які мае вялікія наступствы не толькі для гэтай канкрэтнай абстаноўкі.

Другі прыклад падліку рэчаў адбываецца ад даследаванні Гэры Кінг, Джэніфер Пан, і Молі Робертс (2013) на інтэрнэт - цэнзуры з боку кітайскага ўрада. У гэтым выпадку, аднак, даследчыкі павінны былі збіраць свае вялікія дадзеныя, і яны павінны былі мець справу з тым, што іх дадзеныя былі няпоўнымі.

Кароль і яго калегі былі матываваныя тым, што паведамленні сацыяльных медыя ў Кітаі цэнзураваць велізарным дзяржаўным апаратам, які, як мяркуюць, ўключаюць у сябе дзесяткі тысяч людзей. Даследчыкі і грамадзяне, аднак, маюць мала сэнсу, як гэтыя цэнзары вырашылі, што ўтрыманне павінна быць выдаленае. Навукоўцы Кітая на самай справе маюць супярэчлівыя чакання аб тым, якія віды пасад, найбольш верагодна, выдаляюцца. Некаторыя лічаць, што цэнзары засяродзіцца на пасаду, якія маюць вырашальнае значэнне дзяржавы, у той час як іншыя лічаць, што яны сканцэнтраваны на пасады, якія заахвочваюць калектыўныя паводзіны, напрыклад, пратэсты. Высветліць, якія з гэтых чаканняў правільна мае значэнне для таго, як даследчыкі разумеюць Кітай і іншыя аўтарытарных урадаў, якія займаюцца цэнзурай. Такім чынам, кароль і яго калегі хацелі параўнаць паведамленні, якія былі апублікаваныя і пасля выдаленыя з пасадамі, якія не былі апублікаваныя і ніколі не выдаляюцца.

Збор гэтых пастоў ўдзельнічае дзіўны інжынерны подзвіг паўзком больш за 1000 кітайскіх сацыяльных медыя сайтаў, кожны з рознымі Макеты старонак-пошуку рэлевантныя паведамленняў, а затым пераглядаюць гэтыя паведамленні, каб убачыць, якія пасля былі выдаленыя. У дадатак да звычайных інжынерных праблем, звязаных з буйнамаштабных вэб-поўзання, гэты праект меў дадатковую праблему, што гэта трэба было вельмі хутка, таму што многія цэнзураваць пасты знятыя менш чым за 24 гадзін. Іншымі словамі, павольны гусенічны прапусціць шмат пастоў, якія былі падвергнуты цэнзуры. Акрамя таго, пошукавыя робаты павінны былі зрабіць усё гэта збор дадзеных у час ўхілення ад выяўлення каб вэб-сайты сацыяльных медыя блакаваць доступ ці іншым чынам змяніць сваю палітыку ў адказ на даследаванні.

Да таго часу, была завершана гэтая масіўная інжынерная задача, кароль і яго калегі атрымалі каля 11 мільёнаў паведамленняў на 85 розных предуказанных тым, кожнае са штучнай узроўнем адчувальнасці. Напрыклад, тэма высокай адчувальнасці Ай Вэйвэй, мастак-дысыдэнт; тэма сярэдняй адчувальнасці курс і дэвальвацыя кітайскай валюты, а тэма нізкай адчувальнасці чэмпіянат свету. З гэтых 11 мільёнаў пастоў, каля 2 мільёнаў былі падвергнуты цэнзуры. Некалькі дзіўна, што кароль і яго калегі выявілі, што паведамленні на высокаадчувальных тэмы былі падвергнуты цэнзуры толькі крыху часцей, чым пасты на сярэднім і нізкім узроўнем адчувальнасці тэмы. Іншымі словамі, кітайскія цэнзары прыкладна гэтак жа, хутчэй за ўсё, цэнзара пост, які згадвае Ай Вэйвэй, як слуп, які згадвае чэмпіянат свету. Гэтыя дадзеныя не падтрымліваюць ідэю аб тым, што ўрад цэнзары ўсе паведамленні на далікатныя тэмы.

Гэты просты разлік хуткасці цэнзуры па тэме можа ўвесці ў зман, аднак. Напрыклад, урад можа падвяргаць цэнзуры паведамленні, якія падтрымліваюць Ай Вэйвэй, але пакідаць паведамленні, якія маюць вырашальнае значэнне яго. Для таго , каб адрозніваць паміж слупамі больш старанна, даследчыкі неабходныя для вымярэння настрою кожнага паста. На жаль, нягледзячы на ​​вялікі аб'ём працы, цалкам аўтаматызаваныя метады выяўлення настрояў з выкарыстаннем загадзя існуючых слоўнікаў да гэтага часу не вельмі добра ў многіх сітуацыях (успомніце праблемы, ствараючы эмацыйны храналогію 11 верасня 2001 апісана ў раздзеле 2.3.9). Такім чынам, кароль і яго калегі патрабаваліся спосабам маркіраваць свае 11 мільёнаў паведамленняў у сацыяльных сетках, ці былі яны (1) крытычнае стану, (2) падтрымка дзяржавы, або (3) неадэкватныя або фактычныя справаздачы аб падзеях. Гэта гучыць як масіўную праца, але яны вырашылі яе з дапамогай магутнага трука , які з'яўляецца агульным ў навуцы дадзеных , але адносна рэдка ў сацыяльных навуках: кантралююцца навучання; глядзі малюнак 2.5.

Ва- першых, на этапе , як правіла , называюць першаснай апрацоўкі, даследчыкі пераўтвараць паведамлення сацыяльных медыя ў дакумент доўгатэрміновай матрыцы, дзе была адна радок для кожнага дакумента і адзін слупок , які запісаны , ці ўтрымоўвае паведамленне канкрэтнае слова (напрыклад, пратэст або трафіку) , Далей, група асістэнтаў ўручную маркіравалі настрою выбаркі паведамленняў. Затым яны выкарыстоўвалі гэтыя руку мечаных дадзеныя для стварэння мадэлі навучання машыны, якія маглі б вывесці настрой пасады на аснове яго характарыстыкі. Нарэшце, яны выкарысталі гэтую мадэль для ацэнкі настрою ўсіх 11 мільёнаў паведамленняў.

Такім чынам, замест таго, каб ўручную чытання і маркіроўкі 11 мільёнаў паведамленняў-якія былі б тэхнічна немагчыма-кароль і яго калегі ўручную пазначаныя невялікая колькасць паведамленняў, а затым выкарыстоўвалі пад наглядам навучання, каб ацаніць настрою ўсіх пастоў. Пасля завяршэння гэтага аналізу, яны былі ў стане зрабіць выснову пра тое, што некалькі дзіўна, верагоднасць пост выдалення ня быў зьвязаны, ці быў ён крытычна дзяржавы або падтрымку дзяржавы.

Малюнак 2.5: Спрошчаная схема працэдуры, якая выкарыстоўваецца Кінг, Пан, і Робертс (2013 года), каб ацаніць настрою 11 мільёнаў кітайскіх паведамленняў у сацыяльнай медыя. Па-першае, на этапе папярэдняй апрацоўкі, даследчыкі пераўтвараць паведамлення сацыяльных медыя ў дакумент доўгатэрміновай матрыцы (гл Grimmer і Сцюарт (2013 года) для атрымання дадатковай інфармацыі). Па-другое, яны перадаюць кадаваныя пачуцці невялікі выбаркі паведамленняў. Па-трэцяе, яны навучалі Кантраляваны мадэль навучання для класіфікацыі настрою пастоў. Па-чацвёртае, яны выкарыстоўвалі кантраляваную мадэль навучання, каб ацаніць настрою ўсіх пастоў. См Цару, Пан, і Робертс (2013 года), прыкладанне B для больш падрабязнага апісання.

Малюнак 2.5: Спрошчаная схема працэдуры , якая выкарыстоўваецца King, Pan, and Roberts (2013) , каб ацаніць настрою 11 мільёнаў кітайскіх паведамленняў у сацыяльнай медыя. Ва- першых, на этапе папярэдняй апрацоўкі, даследчыкі пераўтвараць паведамлення сацыяльных медыя ў дакумент доўгатэрміновай матрыцы (гл Grimmer and Stewart (2013) для атрымання дадатковай інфармацыі). Па-другое, яны перадаюць кадаваныя пачуцці невялікі выбаркі паведамленняў. Па-трэцяе, яны навучалі Кантраляваны мадэль навучання для класіфікацыі настрою пастоў. Па-чацвёртае, яны выкарыстоўвалі кантраляваную мадэль навучання, каб ацаніць настрою ўсіх пастоў. См King, Pan, and Roberts (2013) , прыкладанне B для больш падрабязнага апісання.

У рэшце рэшт, кароль і яго калегі выявілі, што толькі тры тыпу паведамленняў рэгулярна цэнзуры: парнаграфія, крытыку цэнзараў, і тыя, якія мелі калектыўны патэнцыял дзеяння (гэта значыць магчымасць прывесці да буйнамаштабных пратэстаў). Назіраючы велізарная колькасць паведамленняў, якія былі выдалены і пасты, якія не былі выдаленыя, кароль і яго калегі змаглі даведацца, як цэнзары працаваць, проста назіраючы і падліку галасоў. Акрамя таго, прадракаючы тэму, якая будзе адбывацца на працягу ўсёй кнігі, кантраляваны падыход да навучання, які яны выкарыстоўвалі рукі пазначаны некаторых вынікаў, а затым пабудаваць мадэль машыннага навучання, каб маркіраваць астатняе-аказваецца вельмі распаўсюджаная з'ява ў сацыяльных даследаваннях ў эпосе лічбавай тэхналогій , Вы ўбачыце фатаграфіі вельмі падобныя на малюнак 2.5 ў раздзеле 3 (задаваць пытанні) і 5 (Стварэнне масавага супрацоўніцтва); гэта адна з нешматлікіх ідэяў, якая з'яўляецца ў некалькіх раздзелах.

Гэтыя прыклады-працоўнае паводзіны кіроўцаў таксі ў Нью-Ёрку і сацыяльнае паводзіны СМІ цэнзуры кітайскага ўрада-шоу, што адносна просты падлік вялікіх крыніц дадзеных, у некаторых сітуацыях, прывесці да цікавых і важныя даследаванні. У абодвух выпадках, аднак, даследчыкі павінны былі прынесці цікавыя пытанні да вялікага крыніцы дадзеных; дадзеныя па сабе не дастаткова.