2.4.1 pag-ihap sa mga butang nga

Yano nga ihap mahimong makapaikag nga kon combine kamo sa usa ka maayo nga pangutana uban sa maayo nga mga data.

Bisan tuod kini nahimutang sa sophisticated-sounding nga pinulongan, kadaghanan sa social research mao gayud ang pag-ihap sa mga butang. Sa edad nga dagko nga datos, ang mga tigdukiduki mahimo nga mag-isip nga mas labaw pa kay sa kaniadto, apan wala kana nagpasabot nga sila kinahanglan magsugod sa pag-ihap sa walay kapuslanan. Hinunoa, ang mga tigdukiduki kinahanglan mangutana: Unsang mga butang ang angay nga ihap? Mahimo kini nga daw usa ka sulud nga butang, apan adunay pipila ka kinatibuk-ang mga sumbanan.

Kasagaran ang mga estudyante nag-aghat sa ilang pag-ihap nga panukiduki pinaagi sa pag-ingon: Mag-ihap ako sa usa ka butang nga wala pa sukad maihap. Pananglitan, ang usa ka estudyante tingali moingon nga daghang mga tawo ang nagtuon sa mga migrante ug daghang mga tawo ang nagtuon sa kaluha, apan walay nagtuon sa mga kaluha nga migrante. Sa akong kasinatian, kini nga estratehiya, nga gitawag ko nga motibasyon pinaagi sa pagkawala , dili kasagaran mosangpot sa maayo nga pagsiksik. Ang pag-awhag pinaagi sa pagkawala daw sama sa pag-ingon nga adunay usa ka lungag didto, ug ako magtrabaho pag-ayo aron mapuno kini. Apan dili tanang lungag kinahanglan nga mapuno.

Imbis nga magpalihok pinaagi sa pagkawala, sa akong hunahuna ang usa ka maayo nga estratehiya mao ang pagpangita alang sa mga pangutana sa panukiduki nga importante o makapaikag (o maayo sa duha). Ang duha nga mga termino lisud ihulagway, apan ang usa ka paagi sa paghunahuna mahitungod sa importante nga panukiduki mao nga kini adunay pipila nga nasayran nga epekto o nagpakaon ngadto sa usa ka mahinungdanon nga desisyon sa mga magbabalaod. Pananglitan, ang pagsukod sa gidaghanon sa walay trabaho importante tungod kay kini usa ka timailhan sa ekonomiya nga nagduso sa mga desisyon sa palisiya. Sa kinatibuk-an, sa akong hunahuna nga ang mga tigdukiduki adunay maayo nga pagbati sa unsay mahinungdanon. Busa, sa nahibilin niini nga seksyon, ako mohatag og duha ka mga pananglitan diin sa akong hunahuna ang pag-ihap makapaikag. Sa matag kahimtang, ang mga tigdukiduki wala mag-ihap sa panagsama; hinoon, sila nag-ihap sa mga partikular nga mga kahimtang nga nagpadayag sa mahinungdanon nga mga pagsabut ngadto sa labaw pa nga kinatibuk-ang mga ideya kon unsaon nga ang mga sistema sa katilingban magtrabaho Sa laing mga pulong, ang daghan nga nakapahimo niining mga partikular nga pagbansay nga makapainteres dili mao ang datos mismo, naggikan kini niining labaw nga kinatibuk-ang mga ideya.

Usa ka pananglitan sa yano nga kusog sa pag-ihap naggikan sa pagtuon ni Henry Farber (2015) sa kinaiya sa mga drayber sa taxi sa New York City. Bisan tuod kini nga grupo dili ingon nga makapainteres, kini usa ka estratehikong dapit sa panukiduki sa pagsulay sa duha ka nagkasumpaki nga mga teyoriya sa ekonomiya sa pamuo. Alang sa mga katuyoan sa panukiduki ni Farber, dunay duha ka mahinungdanong bahin bahin sa palibot sa pagtrabaho sa mga drayber sa taxi: (1) ang ilang hourly nga sweldo nagbalhin-balhin adlaw-adlaw, base sa bahin sa mga hinungdan sama sa panahon, ug (2) Ang trabaho mahimo mag-usab-usab matag adlaw base sa ilang mga desisyon. Kini nga mga bahin nagdala ngadto sa usa ka makapaikag nga pangutana mahitungod sa relasyon tali sa matag oras nga sweldo ug oras nga nagtrabaho. Ang mga neoclassical nga mga modelo sa ekonomiya nagtagna nga ang mga drayber sa taxi magtrabaho pa sa mga adlaw diin adunay mas taas nga suholan kada oras. Sa laing bahin, ang mga modelo gikan sa mga kinaiya sa pamatasan magatagna gayud sa kaatbang. Kon ang mga drayber magtakda sa usa ka partikular nga kinitaan sa kita-moingon og $ 100 matag adlaw-ug magtrabaho hangtud nga ang tumong matubag, unya ang mga drayber mosugod sa pagtrabaho og mas gamay nga oras sa mga adlaw nga mas daghan ang kita. Pananglitan, kung ikaw usa ka target earner, mahimo ka magtrabaho og upat ka oras sa usa ka maayong adlaw ($ 25 kada oras) ug lima ka oras sa dili maayo nga adlaw ($ 20 kada oras). Busa, ang mga drayber ba nagtrabaho og dugang oras sa mga adlaw nga adunay mas taas nga suhol sa matag oras (sumala sa gitagna sa neoclassical nga mga modelo) o daghang mga oras sa mga adlaw nga adunay ubos nga inadlaw nga suhol (sumala sa gitagna sa mga modelo sa pamatasan sa pamatasan)?

Aron sa pagtubag niini nga pangutana si Farber nakabaton og datos sa matag taxi trip nga gikuha sa mga sakyanan sa New York City gikan sa 2009 hangtud 2013, ang mga datos nga anaa na karon sa publiko. Kini nga mga datos-nga gikolekta sa electronic meter nga gikinahanglan sa siyudad nga magamit sa taxi - naglakip sa kasayuran mahitungod sa matag biyahe: pagsugod sa oras, pagsugod sa lugar, oras sa katapusan, dapit sa katapusan, pamasahe, ug tip (kung ang tip gibayad nga usa ka credit card) . Gigamit ang data sa taxi meter, nakit-an ni Farber nga kadaghanan sa mga drayber labaw nga nagtrabaho sa mga adlaw nga ang suhol mas taas, nga nahiuyon sa teoriya sa neoklasikal.

Gawas pa sa kini nga pangita, si Farber nakagamit sa gidak-on sa datos alang sa mas maayo nga pagsabot sa heterogeneity ug dinamika. Iyang nakita nga, sa paglabay sa panahon, ang bag-ong mga drayber hinay-hinay nga nakakat-on sa pagtrabaho og dugang nga mga oras sa mga adlaw sa taas nga suholan (pananglitan, nakakat-on sila sa paggawi ingon nga mga prediksiyon nga neoklasiko nga modelo). Ug ang mga bag-ong drayber nga nagtrabaho nga sama sa mga target earners mas lagmit nga mohunong nga mga drayber sa taxi. Ang duha niining mas katinguha nga mga kaplag, nga makatabang sa pagpatin-aw sa naobserbahan nga kinaiya sa kasamtangang mga drayber, posible lamang tungod sa gidak-on sa dataset. Dili mahimo nga masayran nila ang mga naunang pagtoon nga gigamit ang papel trip sheets gikan sa gamay nga gidaghanon sa mga drayber sa taxi sulod sa mubo nga panahon (Camerer et al. 1997) .

Ang pagtuon ni Farber suod sa usa ka sitwasyon sa labing maayo nga kaso alang sa usa ka panukiduki nga naggamit sa usa ka dakong tinubdan sa datos tungod kay ang datos nga nakolekta sa dakbayan duol sa datos nga nakolekta ni Farber (usa ka kalainan mao nga gusto ni Farber ang datos sa kinatibuk-an sweldo-pamasahe plus mga tip-apan ang datos sa siyudad naglakip lang sa mga tip nga gibayad sa credit card). Bisan pa, ang datos nga nag-inusara dili igo. Ang hinungdan sa panukiduki ni Farber mao ang pagdala sa usa ka makapaikag nga pangutana sa kasayuran, usa ka pangutana nga adunay mas dako nga mga implikasyon nga dili lamang niining piho nga kahimtang.

Ang ikaduha nga ehemplo sa pag-ihap sa mga butang nagagikan sa panukiduki ni Gary King, Jennifer Pan, ug Molly Roberts (2013) sa online nga pag-censor sa gobyerno sa China. Sa kini nga kaso, bisan pa niana, ang mga tigdukiduki kinahanglan nga mangolekta sa ilang kaugalingong dagkong datos ug kinahanglan nila atubangon ang kamatuoran nga ang ilang datos dili kompleto.

Ang hari ug mga kaubanan gipalihok sa kamatuoran nga ang mga poste sa social media sa China gisentensiyahan sa usa ka dako nga makinarya sa estado nga gituohan nga naglakip sa napulo ka liboan nga mga tawo. Hinuon, ang mga tigdukiduki ug mga lungsuranon wala masayod kon giunsa paghukom sa mga tigpasiugda kon unsa nga sulod ang kinahanglan hunungon. Ang mga eskolar sa China sa pagkatinuod adunay nagkasumpaki nga mga gilauman kon unsang mga matang sa mga post ang lagmit makuha. Ang uban naghunahuna nga ang mga censor nag-focus sa mga post nga kritikal sa estado, samtang ang uban naghunahuna nga kini nag-focus sa mga post nga nagdasig sa hiniusang kinaiya, sama sa mga protesta. Ang pagsusi kon hain niini nga mga gilauman husto adunay mga implikasyon kung giunsa sa mga tigdukiduki nga nakasabut sa China ug uban pang mga awtoritaryan nga mga gobyerno nga naghimo sa censorship. Busa, ang Hari ug mga kaubanan gusto nga magpaanggid sa mga post nga gipatik ug sa sunod gibungkag sa mga post nga gipatik ug dili gayud makuha.

Pagpangolekta kini nga mga haligi nga nalambigit sa katingalahang engineering kalampusan sa nagakamang labaw pa kay sa 1,000 ka mga Chinese social media websites-matag usa uban sa lain-laing mga panid layouts-sa pagpangita og may kalabutan nga mga haligi, ug unya nagduaw niini nga mga haligi sa pagtan-aw nga sunod nga thread. Dugang pa sa mga normal nga mga problema sa engineering nga nalangkit sa dako nga scale sa web-nagakamang, proyekto may dugang hagit nga kini gikinahanglan sa hilabihan sa pagpuasa tungod kay daghan censored haligi nga gikuha sa ubos pa kay sa 24 oras. Sa laing mga pulong, usa ka hinay nga crawler nga mingawon daghang mga haligi nga censored. Dugang pa, ang mga crawlers nga sa pagbuhat sa tanan niini nga mga data koleksyon samtang naglikay detection tingali unya ang website sa social media babagan access o sa laing-usab sa ilang mga palisiya sa tubag sa mga pagtuon.

Sa panahon nga kining dako nga buluhaton sa paghimo sa engineering nahuman, ang Hari ug mga kaubanan nakabaton sa mga 11 ka milyon nga mga poste sa 85 ka nagkalainlain nga mga gihisgutan nga mga hilisgutan, ang matag usa adunay gituohan nga lebel sa pagkasensitibo. Pananglitan, ang usa ka hilisgutan sa taas nga pagkasensitibo mao ang Ai Weiwei, ang dissident artist; usa ka hilisgutan sa tunga-tunga nga pagkasensitibo mao ang pagdayeg ug pagbahinbahin sa currency sa China, ug usa ka hilisgutan nga ubos ang pagkasensitibo mao ang World Cup. Niini nga 11 ka milyon nga mga haligi, mga 2 milyones ang gisensitahan. Ingon nga kahibulongan, nakita sa Hari ug mga kaubanan nga ang mga pwesto sa mga sensitibo kaayo nga mga hilisgutan gibasehan lamang sa labing diyutay kay sa mga post sa tunga-tunga ug ubos nga sensitibo nga mga hilisgutan. Sa laing pagkasulti, ang mga magsusulat sa pinulongan nga Chinese nagsulti mahitungod sa posibleng pagsusi sa usa ka post nga naghisgot sa Ai Weiwei isip usa ka post nga naghisgut sa World Cup. Kini nga mga nadiskobre wala nagsuporta sa ideya nga ang mga ahente sa gobierno nagtangtang sa mga butang nga sensitibo.

Hinuon, kining yanong pagkuwenta sa gidaghanon sa censorship pinaagi sa hilisgutan makapahisalaag. Pananglitan, ang gobyerno tingali mag-censor posts nga nagsuporta sa Ai Weiwei, apan pagbiya sa mga post nga kritikal sa kaniya. Aron masayran pag-ayo ang mga pahinumdom, ang mga tigdukiduki kinahanglan nga mosukod sa sentimento sa matag post. Apan, bisan pa sa daghang mga trabaho, ang mga automated nga pamaagi sa pagtuki sa sentimento gamit ang mga daan nga mga diksyonaryo dili pa kaayo maayo sa daghang mga sitwasyon (hunahunaa ang mga problema nga nagmugna sa usa ka emosyonal nga timeline sa Septyembre 11, 2001 nga gihulagway sa seksyon 2.3.9). Busa, ang hari ug mga kaubanan nagkinahanglan sa usa ka paagi sa pag-label sa ilang 11 ka milyon nga mga poste sa social media kung kini (1) kritikal sa estado, (2) pagsuporta sa estado, o (3) wala'y kalabutan o tinuod nga mga taho mahitungod sa mga panghitabo. Kini daw usa ka dako nga trabaho, apan kini nasulbad kini gamit ang usa ka gamhanan nga lansis nga komon sa datos sa datos apan medyo talagsaon sa social science: pinangulohan nga pagkat-on ; tan-awa ang pigura nga 2.5.

Una, sa usa ka lakang nga kasagaran gitawag nga preprocessing , gipulihan sa mga tigdukiduki ang mga poste sa social media ngadto sa usa ka matrix nga termino nga dokumento , diin adunay usa ka laray alang sa matag dokumento ug usa ka kolum nga nagtala kung ang post adunay usa ka piho nga pulong (pananglitan, protesta o trapiko) . Sunod, usa ka pundok sa mga tigtabang nga tigdukiduki nga ginganlan og sulat ang sentimento sa usa ka sample sa mga poste. Dayon, gigamit nila kini nga na-label nga datos sa paghimo sa usa ka modelo sa pagkat-on sa makina nga makahukom sa sentimento sa usa ka posisyon nga gibase sa mga kinaiya niini. Sa katapusan, gigamit nila kini nga modelo sa pagbanabana sa sentimento sa tanang 11 ka milyon nga mga poste.

Busa, imbis nga han-ay ang pagbasa ug pagsulat sa 11 ka milyon nga mga post-nga imposible nga mahimo-ang hari ug mga kaubanan sa kamut nagsulat sa usa ka gamay nga gidaghanon sa mga haligi ug dayon naggamit sa pagdumala sa pagkat-on sa pagtantiya sa sentimento sa tanang mga poste. Human mahuman ang pag-analisar, nakahukom sila nga, ingon og kahibulongan, ang posibilidad nga ang usa ka post nga gipapas wala'y kalabutan kung kini kritikal sa estado o pagsuporta sa estado.

Figure 2.5: Pinasimple nga eskematiko sa pamaagi nga gigamit ni King, Pan, ug Roberts (2013) sa pagtantiya sa sentimento sa 11 ka milyon nga mga post sa social media sa China. Una, sa usa ka preprocessing step, giusab sa mga tigdukiduki ang mga poste sa social media ngadto sa matrix nga termino sa dokumento (tan-awa ang Grimmer ug Stewart (2013) alang sa dugang kasayuran). Ikaduha, ilang gisulat ang mga sentimento sa usa ka gamay nga sample sa mga poste. Ikatulo, gibansay nila ang usa ka supervised learning model sa pagklasipikar sa sentimento sa mga poste. Ikaupat, gigamit nila ang supervised learning model sa pag-estimate sa sentimento sa tanang mga poste. Tan-awa ang Hari, Pan, ug Roberts (2013), Appendix B alang sa mas detalyado nga paghulagway.

Figure 2.5: Pinasimple nga eskematiko sa pamaagi nga gigamit ni King, Pan, and Roberts (2013) sa pagtantiya sa sentimento sa 11 ka milyon nga mga post sa social media sa China. Una, sa usa ka preprocessing step, giusab sa mga tigdukiduki ang mga poste sa social media ngadto sa matrix nga termino sa dokumento (tan-awa ang Grimmer and Stewart (2013) alang sa dugang kasayuran). Ikaduha, ilang gisulat ang mga sentimento sa usa ka gamay nga sample sa mga poste. Ikatulo, gibansay nila ang usa ka supervised learning model sa pagklasipikar sa sentimento sa mga poste. Ikaupat, gigamit nila ang supervised learning model sa pag-estimate sa sentimento sa tanang mga poste. Tan-awa ang King, Pan, and Roberts (2013) , Appendix B alang sa mas detalyado nga paghulagway.

Sa katapusan, nadiskobrehan sa Hari ug mga kaubanan nga tulo lamang ka matang sa mga post ang kanunay nga gi-censor: pornograpiya, pagsaway sa mga censors, ug kadtong adunay mga potensyal nga aksyon (ie, ang posibilidad nga modala ngadto sa dinagko nga mga protesta). Pinaagi sa pag-obserbar sa usa ka dako nga gidaghanon sa mga post nga gitangtang ug mga post nga wala makuha, ang Hari ug mga kaubanan nakakat-on kon giunsa ang mga tensyonan magtrabaho lamang pinaagi sa pagtan-aw ug pag-ihap. Dugang pa, naglandong sa usa ka tema nga mahitabo sa tibuok niini nga libro, ang pagdumala sa pagkat-on nga ilang gigamit-ang pag-label sa pipila ka mga resulta ug dayon pagtukod og usa ka modelo sa pagkat-on sa makina aron sa pagtimaan sa nahabilin-nahimong kasagaran sa paniksik sa katilingban sa digital age . Makita nimo ang mga hulagway nga susama sa numero 2.5 sa mga kapitulo 3 (Pagpangutana og mga pangutana) ug 5 (Paghimo sa pangmasang kolaborasyon); kini usa sa pipila ka mga ideya nga makita sa daghang mga kapitulo.

Kini nga mga pananglitan-ang kinaiya sa mga drayber sa taxi sa New York ug ang mga social media censorship nga panggawi sa gobyerno sa China-nagpakita nga ang medyo yano nga pag-ihap sa dagkong mga tinubdan sa datos mahimo, sa pipila ka mga sitwasyon, modala ngadto sa makapaikag ug mahinungdanon nga panukiduki. Sa duha nga mga kaso, hinoon, ang mga tigdukiduki kinahanglan nga magdala sa makapaikag nga mga pangutana ngadto sa dako nga tinubdan sa datos; ang kasayuran mismo dili igo.