2.4.1 affarijiet Għadd

Għadd Sempliċi jista 'jkun interessanti jekk inti jikkombinaw mistoqsija tajba ma' data tajba.

Għalkemm huwa kkopjat f'lingwa sofistikata ta 'ħoss, lottijiet ta' riċerka soċjali huma verament ftit li jgħoddu l-affarijiet. Fl-età ta 'data kbira, ir-riċerkaturi jistgħu jgħoddu aktar minn qatt qabel, iżda dan ma jfissirx li għandhom jibdew jgħoddu bla heda. Minflok, ir-riċerkaturi għandhom jistaqsu: X'inhuma l-affarijiet li jiswew l-għadd? Dan jista 'jidher bħala suġġett kompletament suġġettiv, imma hemm xi mudelli ġenerali.

Ħafna drabi l-istudenti jimmotivaw ir-riċerka tal-għadd tagħhom billi jgħidu: Jiena se ngħodd xi ħaġa li ħadd qatt qabel. Pereżempju, student jista 'jgħid li ħafna nies studjaw migranti u ħafna nies studjaw tewmin, iżda ħadd ma studja tewmin migranti. Fl-esperjenza tiegħi, din l-istrateġija, li nsejjaħ il- motivazzjoni minħabba n-nuqqas , ġeneralment ma twassalx għal riċerka tajba. Motivazzjoni mill-assenza hija tip simili li tgħid li hemm toqba hemmhekk, u jien ser naħdem ħafna biex timlaha. Iżda mhux kull toqba għandha timtela.

Minflok ma jimmotiva bl-assenza, naħseb li strateġija aħjar hija li tfittex mistoqsijiet ta 'riċerka li huma importanti jew interessanti (jew idealment it-tnejn). Dawn iż-żewġ termini huma daqsxejn diffiċli biex jiddefinixxu, iżda mod wieħed biex wieħed jaħseb dwar riċerka importanti huwa li għandu xi impatt li jista 'jitkejjel jew li jidħol f'deċiżjoni importanti minn dawk li jfasslu l-politika. Pereżempju, il-kejl tar-rata tal-qgħad hija importanti għaliex hija indikatur tal-ekonomija li tmexxi d-deċiżjonijiet politiċi. Ġeneralment, naħseb li r-riċerkaturi għandhom sens pjuttost tajjeb ta 'x'inhu importanti. Allura, fil-bqija ta 'din it-taqsima, jien ser nipprovdi żewġ eżempji fejn naħseb li l-għadd huwa interessanti. F'kull każ, ir-riċerkaturi ma kinux qed jingħaddu bla tfixkil; pjuttost, kienu qed jingħaddu f'ambjenti partikolari ħafna li wrew tagħrif importanti dwar ideat aktar ġenerali dwar kif jaħdmu s-sistemi soċjali. Fi kliem ieħor, ħafna minn dak li jagħmel dawn l-eżerċizzji ta 'għadd partikolari interessanti mhuwiex id-dejta nfisha, ġejja minn dawn l-ideat aktar ġenerali.

Eżempju wieħed tas-setgħa sempliċi ta 'l-għadd ġej mill-istudju ta' Henry Farber (2015) dwar l-imġieba tas-sewwieqa tat-taksis ta 'New York City. Għalkemm dan il-grupp jista 'ma jħossx inerenti interessanti, huwa sit ta' riċerka strateġika għall-ittestjar ta 'żewġ teoriji li jikkompetu fl-ekonomija tax-xogħol. Għall-finijiet tar-riċerka ta 'Farber, hemm żewġ karatteristiċi importanti dwar l-ambjent tax-xogħol ta' sewwieqa tat-taksis: (1) il-paga tagħhom fis-siegħa tvarja minn jum għal jum, ibbażata parzjalment fuq fatturi bħat-temp, u (2) ix-xogħol jista 'jvarja kull jum ibbażat fuq id-deċiżjonijiet tagħhom. Dawn il-karatteristiċi jwasslu għal mistoqsija interessanti dwar ir-relazzjoni bejn il-pagi ta 'kull siegħa u s-sigħat maħduma. Mudelli neoklassiċi fl-ekonomija jbassru li s-sewwieqa tat-taksis se jaħdmu aktar fil-ġranet fejn għandhom paga fis-siegħa ogħla. Alternattivament, mudelli minn ekonomija ta 'mġieba jbassru eżattament l-oppost. Jekk is-sewwieqa jiffissaw mira ta 'dħul partikolari - jiġifieri $ 100 kuljum u jaħdmu sakemm tintlaħaq dik il-mira, allura s-sewwieqa jispiċċaw jaħdmu inqas sigħat f'jiem li qed jaqalgħu aktar. Per eżempju, jekk ġejt min jaqla ', tista' tispiċċa taħdem erba 'sigħat f'jum tajjeb ($ 25 fis-siegħa) u ħames sigħat f'jum ħażin ($ 20 fis-siegħa). Għalhekk, is-sewwieqa jaħdmu aktar sigħat f'jiem b'pagi ogħla fis-siegħa (kif previst mill-mudelli neoklassiċi) jew aktar sigħat f'jiem b'pagi ta 'siegħa aktar baxxi (kif previst minn mudelli ekonomiċi ta' mġieba)?

Biex twieġeb din il-mistoqsija Farber kisbet dejta dwar kull vjaġġ tat-taxi meħud mill-kabini ta 'New York City mill-2009 sal-2013, data li issa hija disponibbli pubblikament. Din id-dejta - li nġabret minn arloġġi elettroniċi li l-belt teħtieġ li t-taxis jużaw - jinkludu informazzjoni dwar kull vjaġġ: ħin tal-bidu, bidu tal-post, ħin tat-tmiem, post finali, nol u ponta (jekk il-ponta titħallas bi credit card) . Permezz ta 'din id-dejta dwar it-taxi meter, Farber sabet li ħafna sewwieqa jaħdmu aktar fil-jiem meta l-pagi huma ogħla, konsistenti mat-teorija neoklassika.

Minbarra din is-sejba prinċipali, Farber seta 'juża d-daqs tad-dejta għal fehim aħjar tal-eteroġeneità u d-dinamika. Huwa sab li, maż-żmien, sewwieqa ġodda gradwalment jitgħallmu jaħdmu aktar sigħat fuq ġranet ta 'paga għolja (eż. Jitgħallmu jġibu ruħhom kif jipprevedi l-mudell neoklassiku). U sewwieqa ġodda li jaġixxu aktar bħala persuni li jaqilgħu l-mira huma aktar probabbli li jieqfu milli jkunu sewwieqa tat-taxi. Dawn iż-żewġ sejbiet aktar sottili, li jgħinu jispjegaw l-imġiba osservata tas-sewwieqa attwali, kienu possibbli biss minħabba d-daqs tas-sett tad-dejta. Huma kienu impossibbli li jinstabu fi studji preċedenti li użaw folji tal-vjaġġ tal-karta minn numru żgħir ta 'sewwieqa tat-taksis fuq perjodu qasir ta' żmien (Camerer et al. 1997) .

L-istudju ta 'Farber kien viċin ix-xenarju tal-aħjar każ għal riċerka li tuża sors ta' dejta kbir għaliex id-data li nġabret mill-belt kienet pjuttost qrib id-dejta li Farber kienet tiġbor (differenza hija li Farber riedet data fuq total pagi-tariffi flimkien ma 'pariri - iżda d-dejta tal-belt inkludiet biss pariri mħallsa b'karta ta' kreditu). Madankollu, id-dejta weħidha ma kinitx biżżejjed. Iċ-ċavetta għar-riċerka ta 'Farber kienet qed iġġib kwistjoni interessanti għad-dejta, kwistjoni li għandha implikazzjonijiet akbar lil hinn minn dan l-ambjent speċifiku biss.

It-tieni eżempju ta 'għadd ta' affarijiet ġej minn riċerka minn Gary King, Jennifer Pan u Molly Roberts (2013) dwar iċ-ċensura onlajn mill-gvern Ċiniż. F'dan il-każ, madankollu, ir-riċerkaturi kellhom jiġbru d-data kbira tagħhom stess u kellhom jittrattaw il-fatt li d-dejta tagħhom ma kinitx kompluta.

Re u l-kollegi kienu motivati ​​mill-fatt li l-postijiet tal-midja soċjali fiċ-Ċina huma ċensurati minn apparat statali enormi li hu maħsub li jinkludi għexieren ta 'eluf ta' nies. Ir-riċerkaturi u ċ-ċittadini, madankollu, għandhom ftit sens ta 'kif dawn iċ-ċensuri jiddeċiedu liema kontenut għandu jitħassar. L-istudjużi taċ-Ċina fil-fatt għandhom aspettattivi konfliġġenti dwar liema tipi ta 'postijiet x'aktarx li jitħassru. Xi wħud jaħsbu li ċ-ċensuri jiffukaw fuq postijiet li huma kritiċi tal-istat, filwaqt li oħrajn jaħsbu li jiffukaw fuq postijiet li jħeġġu l-imġiba kollettiva, bħal protesti. Id-determinazzjoni ta 'liema minn dawn l-aspettattivi hija korretta għandha implikazzjonijiet fuq kif ir-riċerkaturi jifhmu ċ-Ċina u gvernijiet awtoritarji oħra li jidħlu f'ċensura. Għalhekk, King u l-kollegi riedu jqabblu l-postijiet li ġew ippubblikati u sussegwentement imħassra b'postijiet li ġew ippubblikati u li qatt ma tħassru.

Ġbir ta 'dawn postijiet involuti l proeza inġinerija aqwa ta' crawling aktar minn 1,000 Ċiniż media soċjali websajts-kull wieħed bil-paġna differenti taqsim-konstatazzjoni postijiet rilevanti, u mbagħad reivedut dawn il-postijiet biex tara li ġew sussegwentement imħassra. Minbarra l-problemi ta 'inġinerija normali assoċjati mal skala kbira web crawling, dan il-proġett kellu l-isfida miżjud li kellha bżonn biex tkun estremament malajr minħabba karigi ċensurati ħafna huma meħuda isfel f'inqas minn 24 siegħa. Fi kliem ieħor, tkaxkir bil-mod titlifx lottijiet ta 'postijiet li kienu ċensurati. Barra minn hekk, il-crawlers kellha tagħmel dan kollu ġbir ta 'dejta filwaqt li jevadu iskoperta lest il-websajts tal-midja soċjali jimblokka l-aċċess jew inkella jbiddlu l-politiki tagħhom bi tweġiba għall-istudju.

Saż-żmien li din il-kompitu enormi ta 'inġinerija tlesta, King u kollegi kienu kisbu madwar 11-il miljun kariga fuq 85 suġġetti predeterminati differenti, kull waħda b'sużumi ta' sensittività. Per eżempju, suġġett ta 'sensittività għolja huwa Ai Weiwei, l-artist dissident; suġġett ta 'sensittività tan-nofs huwa l-apprezzament u l-iżvalutar tal-munita Ċiniża, u suġġett ta' sensittività baxxa huwa t-Tazza tad-Dinja. Minn dawn il-11-il miljun kariga, madwar 2 miljun kienu ċensurati. Daqstant sorprendenti, King u l-kollegi sabu li postijiet fuq suġġetti sensittivi ħafna kienu ċensurati biss ftit iktar spiss milli postijiet fuq suġġetti ta 'sensittività medja u baxxa. Fi kliem ieħor, ċensuri Ċiniżi huma dwar x'aktarx jiċċensuraw post li jsemmi Ai Weiwei bħala post li jsemmi t-Tazza tad-Dinja. Dawn is-sejbiet ma jappoġġjawx l-idea li ċ-ċensuri tal-gvern jagħmlu l-postijiet kollha fuq suġġetti sensittivi.

Madankollu, dan il-kalkolu sempliċi tar-rata ta 'ċensura skond is-suġġett jista' jkun qarrieqi. Per eżempju, il-gvern jista 'jiċċensura postijiet li huma ta' appoġġ ta 'Ai Weiwei, iżda jħallu postijiet li huma kritiċi minnu. Sabiex tiddistingwi bejn il-postijiet aktar bir-reqqa, ir-riċerkaturi meħtieġa biex ikejlu l- sentiment ta 'kull post. Sfortunatament, minkejja ħafna xogħol, metodi kompletament awtomatizzati ta 'sejbien ta' sentiment li jużaw dizzjunarji pre-eżistenti għadhom mhux tajbin ħafna f'ħafna sitwazzjonijiet (aħseb lura għall-problemi li joħolqu kalendarju emozzjonali tal-11 ta 'Settembru 2001 deskritt fit-taqsima 2.3.9). Għalhekk, King u l-kollegi kellhom bżonn it-tikketta tal-11-il miljun post tax-xogħol soċjali tagħhom dwar jekk kinux (1) kritiċi tal-istat, (2) appoġġ tal-istat, jew (3) rapporti irrilevanti jew fattwali dwar l-avvenimenti. Dan jinstema 'biċċa xogħol enormi, iżda jsolvuh billi juża trick b'saħħtu li huwa komuni fix-xjenza tad-data imma relattivament rari fix-xjenza soċjali: tagħlim sorveljat ; ara l-figura 2.5.

L-ewwel, f'pass li tipikament jissejjaħ preproċessar , ir-riċerkaturi kkonvertew il-postijiet tal-midja soċjali f'matriċi ta 'terminu ta ' dokument , fejn kien hemm ringiela waħda għal kull dokument u kolonna waħda li rreġistrat jekk il-post kienx fih kelma speċifika (eż. Protesta jew traffiku) . Imbagħad, grupp ta 'assistenti tar-riċerka bl-idejn ittikkettjaw is-sentiment ta' kampjun ta 'postijiet. Imbagħad, użaw din id-dejta mmarkata bl-idejn biex toħloq mudell ta 'tagħlim bil-magna li jista' jiddeduċi l-sentiment ta 'kariga bbażat fuq il-karatteristiċi tiegħu. Fl-aħħarnett, huma użaw dan il-mudell biex jistmaw is-sentiment tal-postijiet kollha ta '11-il miljun.

Għalhekk, minflok manwalment qari u twaħħal it-tikkettjar ta '11-il miljun post - li jkun loġistikament impossibbli - Ir-Re u l-kollegi jkejlu b'mod manwali numru żgħir ta' postijiet u mbagħad użaw tagħlim sorveljat biex jistmaw is-sentiment tal-postijiet kollha. Wara li tlestew din l-analiżi, setgħu jikkonkludu li, kemmxejn sorprendentement, il-probabbiltà li titħassar pożizzjoni ma kinitx relatata ma 'jekk kienx kritiku tal-istat jew ta' appoġġ tal-istat.

Figura 2.5: Skematika simplifikata tal-proċedura użata minn King, Pan, u Roberts (2013) biex tistima l-sentiment ta '11-il miljun post tax-xogħol soċjali Ċiniż. L-ewwelnett, f'pass ta 'preproċċess, ir-riċerkaturi kkonvertew il-postijiet tal-midja soċjali f'matriċi għal terminu ta' dokument (ara Grimmer u Stewart (2013) għal aktar informazzjoni). It-tieni, ikkodifikaw bl-idejn is-sentimenti ta 'kampjun żgħir tal-postijiet. It-tielet, huma mħarrġa mudell ta 'tagħlim sorveljat biex jikklassifikaw is-sentiment tal-postijiet. Ir-raba ', użaw il-mudell ta' tagħlim sorveljat biex jistmaw is-sentiment tal-postijiet kollha. Ara Re, Pan, u Roberts (2013), l-appendiċi B għal deskrizzjoni aktar dettaljata.

Figura 2.5: Skematika simplifikata tal-proċedura użata minn King, Pan, and Roberts (2013) biex tistima l-sentiment ta '11-il miljun post tax-xogħol soċjali Ċiniż. L-ewwelnett, f'pass ta ' preproċċess , ir-riċerkaturi kkonvertew il-postijiet tal-midja soċjali f'matriċi għal terminu ta ' dokument (ara Grimmer and Stewart (2013) għal aktar informazzjoni). It-tieni, ikkodifikaw bl-idejn is-sentimenti ta 'kampjun żgħir tal-postijiet. It-tielet, huma mħarrġa mudell ta 'tagħlim sorveljat biex jikklassifikaw is-sentiment tal-postijiet. Ir-raba ', użaw il-mudell ta' tagħlim sorveljat biex jistmaw is-sentiment tal-postijiet kollha. Ara King, Pan, and Roberts (2013) , l-appendiċi B għal deskrizzjoni aktar dettaljata.

Fl-aħħar, King u kollegi skoprew li tliet tipi ta 'karigi biss ġew ċċensurati regolarment: il-pornografija, il-kritika taċ-ċensuri u dawk li kellhom potenzjal ta' azzjoni kollettiva (jiġifieri l-possibilità li jwasslu għal protesti fuq skala kbira). Billi osserva għadd kbir ta 'postijiet li tħassru u postijiet li ma tħassrux, King u l-kollegi setgħu jitgħallmu kif iċ-ċensuri jaħdmu biss billi jaraw u jgħoddu. Barra minn hekk, billi tipprevedi tema li se sseħħ matul dan il-ktieb, l-approċċ ta 'tagħlim issorveljat li użaw ittikkettjar bl-idejn ta' xi riżultati u mbagħad jibni mudell ta 'tagħlim tal-magni biex ittajpja l-bqija jinstabx li huwa komuni ħafna fir-riċerka soċjali fl-era diġitali . Se tara stampi simili ħafna għall-figura 2.5 fil-kapitoli 3 (Staqsi mistoqsijiet) u 5 (Ħolqien ta 'kollaborazzjoni tal-massa); din hija waħda mill-ftit ideat li tidher f'kapitoli multipli.

Dawn l-eżempji - l-imġiba tax-xogħol tas-sewwieqa tat-taksis fi New York u l-imġiba taċ-ċensura tal-midja soċjali tal-gvern Ċiniż juru li l-għadd relattivament sempliċi ta 'sorsi kbar ta' data jista 'jwassal għal riċerka interessanti u importanti f'ċerti sitwazzjonijiet. Fiż-żewġ każijiet, madankollu, ir-riċerkaturi kellhom iġibu mistoqsijiet interessanti għas-sors kbir tad-dejta; id-data waħedha ma kinitx biżżejjed.