2.4.1 Konte bagay

Senp konte ka enteresan si ou konbine yon bon kesyon ak done bon.

Malgre ke li se couched nan lang sofistike-kònen klewon, anpil nan rechèch sosyal se reyèlman jis konte bagay sa yo. Nan laj de done gwo, chèchè yo ka konte plis pase tout tan, men sa pa vle di ke yo ta dwe jis kòmanse konte azar. Olye de sa, chèchè yo ta dwe mande: Ki bagay sa yo vo konte? Sa a ka sanble tankou yon pwoblèm antyèman subjectif, men gen kèk modèl jeneral.

Souvan elèv yo motive rechèch konte yo lè yo di: Mwen pral konte yon bagay ki pa gen okenn-yon sèl janm konte anvan. Pou egzanp, yon elèv ka di ke anpil moun te etidye imigran ak anpil moun ki te etidye jimo, men pèsonn pa te etidye jimo migran. Nan eksperyans mwen, estrateji sa a, ki mwen rele motivasyon pa absans , pa anjeneral mennen nan bon rechèch. Motivasyon pa absans se kalite tankou li di ke gen yon twou sou la, epi mwen pral travay trè difisil yo ranpli li. Men, se pa tout twou bezwen ranpli.

Olye pou yo motive pa absans, mwen panse ke yon pi bon estrateji se gade pou kesyon rechèch ki enpòtan oswa enteresan (oswa depreferans tou de). Tou de nan tèm sa yo yon ti jan difisil defini, men se yon fason yo panse sou rechèch enpòtan an se ke li gen kèk enpak mezirab oswa manje nan yon desizyon enpòtan pa mizisyen politik. Pou egzanp, mezire pousantaj chomaj enpòtan paske li se yon endikatè nan ekonomi an ki kondwi desizyon politik. Anjeneral, mwen panse ke chèchè yo gen yon sans trè bon nan sa ki enpòtan. Se konsa, nan rès la nan seksyon sa a, mwen pral bay de egzanp kote mwen panse ke konte se enteresan. Nan chak ka, chèchè yo pa te konte azar; Olye de sa, yo te konte nan anviwònman trè patikilye ki devwale Sur enpòtan nan lide plis jeneral sou ki jan sistèm sosyal travay. Nan lòt mo, yon anpil nan sa ki fè sa yo egzak konte an patikilye enteresan se pa done yo tèt li, li soti nan ide sa yo ki pi jeneral.

Yon egzanp sou pouvwa senp konte a soti nan etid Henry Farber (2015) sou konpòtman chofè taksi New York yo. Malgre ke gwoup sa a pa ta ka son natirèlman enteresan, li se yon sit rechèch estratejik pou fè tès de teyori konpetisyon nan ekonomi travay. Pou rezon ki fè rechèch Farber a, gen de karakteristik enpòtan sou anviwonman travay la nan chofè taksi: (1) salè èdtan yo fluktuan de jou an jou, ki baze an pati sou faktè tankou move tan an, ak (2) kantite èdtan yo travay ka varye chak jou ki baze sou desizyon yo. Karakteristik sa yo mennen nan yon kesyon enteresan sou relasyon ki genyen ant salè èdtan ak èdtan te travay. Modèl neoklasik nan ekonomi predi ke chofè taksi ap travay plis nan jou kote yo gen pi wo salè èdtan. Altènativman, modèl soti nan ekonomi konpòtman predi egzakteman opoze an. Si chofè yo mete yon sibvansyon revni patikilye - di $ 100 pou chak jou - epi travay jiskaske sib la satisfè, chofè yo pral fini k ap travay mwens èdtan nan jou ke yo ap touche plis. Pa egzanp, si ou te yon moun ki sib, ou ta ka fini k ap travay kat èdtan nan yon bon jou ($ 25 pa èdtan) ak senk èdtan nan yon move jou ($ 20 pou chak èdtan). Se konsa, chofè yo travay plis èdtan nan jou ak pi wo salè èdtan (tankou prevwa pa modèl yo neoklasik) oswa plis èdtan nan jou ak pi ba salè èdtan (tankou prevwa nan modèl konpòtman ekonomik)?

Pou reponn kesyon Farber la jwenn done sou chak vwayaj taksi pran nan kabinè Vil New York yo depi 2009 rive 2013, done ki disponib kounye a piblikman. Sa yo done-ki te ranmase pa mèt elektwonik ki vil la mande pou taksi yo sèvi ak-gen ladan enfòmasyon sou chak vwayaj: kòmanse tan, kòmanse kote, fen tan, fen kote, pri tikè, ak pwent (si te pwent an peye ak yon kat kredi) . Lè l sèvi avèk sa a mèt taksi done, Farber te jwenn ke pifò chofè travay plis nan jou lè salè yo pi wo, ki konsistan avèk teyori a neoklasik.

Anplis de sa nan jwenn prensipal sa a, Farber te kapab sèvi ak gwosè a nan done yo pou yon pi bon konpreyansyon nan eterogènite ak dinamik. Li te jwenn ke, apre yon tan, chofè pi nouvo yo piti piti aprann travay plis èdtan nan jou ki wo-wo (egzanp, yo aprann konpòte kòm modèl la noklassik predi). Ak chofè nouvo ki konpòte yo pi plis tankou moun kap vize sib yo gen plis chans kite fimen yo te chofè taksi. Tou de nan sa yo rezilta plis sibtil, ki ede eksplike konpòtman an obsève nan chofè aktyèl, yo te sèlman posib paske nan gwosè a nan dataset la. Yo te enposib detekte nan syans pi bonè ki te itilize papye vwayaj papye soti nan yon ti kantite chofè taksi sou yon kout peryòd de tan (Camerer et al. 1997) .

Etid Farber a te fèmen nan yon senaryo pi bon-ka pou yon rechèch lè l sèvi avèk yon sous gwo done paske done yo ke yo te ranmase pa lavil la te trè pre done yo ke Farber ta ranmase (yon diferans se ke Farber ta vle te vle done sou total salè-pri tikè plis konsèy-men done lavil la sèlman enkli konsèy peye pa kat kredi). Sepandan, done yo poukont yo pa t 'ase. Kle a nan rechèch Farber a te pote yon kesyon ki enteresan nan done yo, yon kesyon ki gen pi gwo enplikasyon pi lwen pase jis anviwònman espesifik sa a.

Yon dezyèm egzanp nan konte bagay sa yo soti nan rechèch pa Gary wa, Jennifer Pan, ak Molly Roberts (2013) sou entènèt sansi pa gouvènman Chinwa a. Nan ka sa a, sepandan, chèchè yo te oblije kolekte pwòp done yo gwo epi yo te fè fas ak lefèt ke done yo te enkonplè.

Wa ak kòlèg li yo te motive pa lefèt ke posts medya sosyal nan Lachin yo se yon kontrent pa yon aparèy leta menmen ki te panse yo gen ladan dè dizèn de milye de moun. Chèchè yo ak sitwayen yo, sepandan, gen ti sans nan ki jan sa yo sansè deside ki sa ki kontni yo ta dwe efase. Scholars nan Lachin aktyèlman gen konfli ap atann sou ki kalite posts ki gen plis chans yo jwenn efase. Gen kèk moun ki panse ke sansè yo konsantre sou posts ki kritik nan eta a, pandan ke lòt moun panse ke yo konsantre sou posts ki ankouraje konpòtman kolektif, tankou manifestasyon. Lè n ap kalkile kiyès nan sa yo ap atann ki kòrèk la gen enplikasyon pou jan chèchè konprann Lachin ak lòt gouvènman otoritè ki angaje yo nan sansi. Se poutèt sa, wa ak kòlèg li yo te vle konpare posts ki te pibliye ak imedyatman efase ak posts ki te pibliye epi pa janm efase.

Kolekte sa yo posts patisipe etonan jeni feat a nan rale plis pase 1,000 Chinwa medya sosyal sit-yo chak ak paj diferan kouman-jwenn posts ki enpòtan, ak Lè sa a rvizite sa yo posts yo wè ki te imedyatman efase. Anplis de sa nan pwoblèm sa yo jeni nòmal ki asosye ak gwo echèl web-rale, pwojè sa a te gen defi a te ajoute ke li bezwen yo dwe trè vit paske anpil posts Kontwole yo te pran desann nan mwens pase 24 èdtan. Nan lòt mo, yon krole ralanti ta manke anpil nan posts ki te Kontwole. Pli lwen, robo yo te fè tout bagay sa a koleksyon done pandan y ap si ou evite deteksyon paske sou sit entènèt yo medya sosyal bloke aksè oswa otreman chanje règleman yo pou bay repons pou etid la.

Depi lè sa a travay jeni masiv yo te konplete, wa ak kòlèg yo te jwenn sou 11 milyon posts sou 85 diferan presye sijè, yo chak ak yon nivo sipoze nan sansiblite. Pou egzanp, yon sijè nan sansiblite segondè se Ai Weiwei, atis la opozan; yon sijè nan sansiblite presegondè se apresyasyon ak devalorizasyon nan lajan Chinwa a, ak yon sijè nan sansiblite ki ba se Cup Mondyal la. Nan sa yo 11 milyon posts, apeprè 2 milyon te kontwole. Yon ti jan etonan, Wa ak kòlèg yo te jwenn ke posts sou sijè trè sansib yo te kontwole sèlman yon ti kras pi souvan pase posts sou sijè mwayenn ak ba-sansiblite. Nan lòt mo, sinistè Chinwa yo apepre gen anpil chans pou kontwole yon pòs ki mansyone Ai Weiwei kòm yon pòs ki mansyone Cup Mondyal la. Rezilta sa yo pa sipòte lide ke gouvènman an sansi tout posts sou sijè sansib.

Sa a kalkil senp nan pousantaj sansi pa sijè ta ka bay manti, sepandan. Pou egzanp, gouvènman an ta ka kontwole posts ki sipòte nan Ai Weiwei, men kite posts ki kritik nan l '. Yo nan lòd yo fè distenksyon ant posts plis ak anpil atansyon, chèchè yo bezwen mezire santiman nan chak pòs. Malerezman, malgre travay anpil, metòd konplètman otomatize nan deteksyon santiman lè l sèvi avèk dictionnaires pre-egziste yo toujou pa trè bon nan anpil sitiyasyon (panse tounen nan pwoblèm yo ki kreye yon delè emosyonèl nan 11 septanm 2001 ki dekri nan seksyon 2.3.9). Se poutèt sa, wa ak kòlèg li yo bezwen yon fason pou mete aksan sou 11 milyon medya sosyal yo kòm si yo te (1) kritik nan eta a, (2) sipòte eta a, oswa (3) rapò petwòl oswa reyalite sou evènman yo. Sa a son tankou yon travay masiv, men yo te rezoud li lè l sèvi avèk yon Trick pwisan ki se komen nan syans done men relativman ra nan syans sosyal: aprantisaj sipèvize ; wè figi 2.5.

Premyèman, nan yon etap tipikman rele preprosessing , chèchè yo konvèti posts medya sosyal yo nan yon matris dokiman-tèm , kote te gen yon sèl ranje pou chak dokiman ak yon kolòn ki anrejistre si pòs la genyen yon mo espesifik (egzanp, pwotestasyon oswa trafik) . Next, yon gwoup asistan rechèch men-make santiman an nan yon echantiyon posts. Lè sa a, yo te itilize sa a done men-etikèt yo kreye yon modèl aprantisaj machin ki ta ka afekte santiman an nan yon pòs ki baze sou karakteristik li yo. Finalman, yo itilize modèl sa a pou estime santiman tout 11 milyon posts yo.

Se konsa, olye ke manyèlman lekti ak etikèt 11 milyon posts - ki ta ka lojistikman enposib-wa ak kòlèg li manyèlman make yon ti kantite posts ak Lè sa a, itilize sipèvize aprantisaj estimasyon santiman an nan tout posts yo. Apre yo fin ranpli analiz sa a, yo te kapab konkli ke, yon ti jan surprenante, pwobabilite pou yon pòs ke yo te efase te gen rapò ak si li te kritik nan eta a oswa ki bay sipò nan eta a.

Figi 2.5: senplifye schematic nan pwosedi yo itilize pa King, Pan, ak Roberts (2013) nan estimasyon santiman an nan 11 milyon Chinwa medya sosyal posts. Premyèman, nan yon etap preprocessing, chèchè yo konvèti posts medya sosyal yo nan yon matris dokiman-tèm (al gade Grimmer ak Stewart (2013) pou plis enfòmasyon). Dezyèmman, yo men-kode santiman yo nan yon ti echantiyon posts. Twazyèmman, yo fòme yon modèl aprantisaj sipèvize pou klasifye santiman posts yo. Katriyèmman, yo te itilize modèl aprantisaj sipèvize pou estime santiman tout posts yo. Gade wa, Pan, ak Roberts (2013), Apendis B pou yon deskripsyon pi detaye.

Figi 2.5: senplifye schematic nan pwosedi yo itilize pa King, Pan, and Roberts (2013) nan estimasyon santiman an nan 11 milyon Chinwa medya sosyal posts. Premyèman, nan yon etap preprocessing , chèchè yo konvèti posts medya sosyal yo nan yon matris dokiman-tèm (al gade Grimmer and Stewart (2013) pou plis enfòmasyon). Dezyèmman, yo men-kode santiman yo nan yon ti echantiyon posts. Twazyèmman, yo fòme yon modèl aprantisaj sipèvize pou klasifye santiman posts yo. Katriyèmman, yo te itilize modèl aprantisaj sipèvize pou estime santiman tout posts yo. Gade King, Pan, and Roberts (2013) , Apendis B pou yon deskripsyon pi detaye.

Nan fen a, wa ak kòlèg yo te dekouvri ke sèlman twa kalite posts yo te regilyèman kontwole: pònografi, kritik nan sansè yo, ak moun ki te gen potansyèl aksyon aksyon (sa vle di, posibilite pou mennen nan manifestasyon gwo-echèl). Pa obsève yon nimewo gwo posts ki te efase ak posts ki pa te efase, wa ak kòlèg li yo te kapab aprann ki jan sans nan travay jis pa gade ak konte. Pli lwen, prevwa yon tèm ki pral fèt nan tout liv sa a, apwòch aprantisaj sipèvize yo ke yo itilize-men-etikèt kèk rezilta ak Lè sa a, bati yon modèl aprantisaj machin yo mete etikèt sou rès la-sanble soti trè komen nan rechèch sosyal nan laj dijital la . Ou pral wè foto trè menm jan ak figi 2.5 nan chapit 3 (Poze kesyon) ak 5 (Kreye mas kolaborasyon); sa a se youn nan ide yo kèk ki parèt nan chapit miltip.

Egzanp sa yo-konpòtman k ap travay nan chofè taksi nan New York ak konpòtman sosyal medya sosyal nan Chinwa montre gouvènman an ki konte relativman senp nan gwo done sous ka, nan kèk sitiyasyon, mennen nan rechèch enteresan ak enpòtan. Nan de ka yo, sepandan, chèchè yo te dwe pote kesyon enteresan nan gwo done a sous; done yo pou kont li pa t 'ase.