2.4.1.3 ihamon ti awujo media nipa awọn Chinese ijoba

Oluwadi scraped Chinese awujo media ojula lati iwadi ihamon. Nwọn si jiya pẹlu incompleteness pẹlu wiwaba-aami mu ero jade.

Ni afikun si awọn ńlá data lo ninu awọn meji ti tẹlẹ apeere, awọn oluwadi le tun gba ara wọn observational data, bi a ti wonderfully alaworan nipa Gary King, Jennifer Pan, ati Molly Roberts ' (2013) iwadi lori ihamon nipasẹ awọn Chinese ijoba.

Social media posts ni China ti wa ni censored nipa ohun tobi pupo ipinle ohun elo ti o wa ni ro lati ni mewa ti egbegberun eniyan. Oluwadi ati awọn ilu, sibẹsibẹ, ni kekere ori ti bi awon censors pinnu ohun akoonu yẹ ki o wa ni paarẹ lati awujo media. Ọjọgbọn ti China si gangan ni ori gbarawọn ireti nipa eyi ti iru posts wa julọ seese lati gba paarẹ. Diẹ ninu awọn ro wipe censors idojukọ lori posts ti o wa ni lominu ni ti ipinle nigba ti awon miran ro ti won idojukọ lori posts ti o iwuri fun collective ihuwasi, bi ehonu. Figuring jade eyi ti awọn wọnyi ireti jẹ ti o tọ ni o ni lojo fun bi o oluwadi ni oye China ati awọn miiran authoritarian ijoba ti o olukoni ni ihamon. Nitorina, King ati awọn araa fe lati fi ṣe afiwe posts ti a atejade ati ki o ti paradà paarẹ to posts ti a atejade ati ki o ko paarẹ.

Gba awọn wọnyi posts lowo awọn iyanu ti ina- feat ti jijoko diẹ sii ju 1,000 Chinese awujo media wẹbusaiti-kọọkan pẹlu o yatọ si iwe ipalemo-wiwa ti o yẹ posts, ati ki o revisiting wọnyi posts lati ri eyi ti won ti paradà paarẹ. Ni afikun si awọn deede ina- isoro ni nkan ṣe pẹlu tobi asekale ayelujara-jijoko, yi ise agbese ní kun ipenija ti o nilo lati wa ni lalailopinpin sare nitori ọpọlọpọ awọn censored posts ti wa ni ya si isalẹ ni kere ju 24 wakati. Ni gbolohun miran, a lọra crawler yoo padanu ọpọlọpọ ti posts ti a censored. Siwaju si, awọn crawlers ni lati se gbogbo yi data gbigba nigba ti laipeô erin ki awọn awujo media wẹbusaiti dènà wiwọle tabi bibẹkọ ti yi won imulo ni esi si awọn iwadi.

Lọgan ti yi lowo ina--ṣiṣe ti a pari, ọba ati awọn araa ti gba nipa 11 million posts on 85 o yatọ si ero ti o wà ami-pato orisun lori wọn reti ipele ti ifamọ. Fun apẹẹrẹ, a koko ti ga ifamọ ni Ai Weiwei, awọn dissident olorin; a koko ti arin ifamọ ni riri ati devaluation ti awọn Chinese owo, ati ki o kan koko ti kekere ifamọ ni awọn World Cup. Ninu awọn wọnyi 11 million posts nipa 2 million ti a ti censored, ṣugbọn posts on gíga kókó ero won censored nikan die-die siwaju sii ju igba posts lori arin ati kekere ifamọ ero. Ni gbolohun miran, Chinese censors ni o wa nipa bi seese lati censor a post ti o nmẹnuba Ai Weiwei bi a post ti o nmẹnuba awọn World Cup. Awọn wọnyi awari kò baramu awọn simplistic agutan ti ijoba censors gbogbo awọn posts lori kókó ero.

Yi o rọrun isiro ti ihamon oṣuwọn nipasẹ koko le jẹ sinilona, ​​sibẹsibẹ. Fun apẹẹrẹ, awọn ijoba le censor posts ti o wa ni atilẹyin ti Ai Weiwei, ṣugbọn fi posts ti o wa ni lominu ni ti rẹ. Ni ibere lati se iyato laarin posts diẹ fara, awọn oluwadi nilo lati wiwọn awọn itara ti kọọkan post. Bayi, ona kan lati ro nipa o jẹ wipe awọn itara ti kọọkan post ni ohun pataki wiwaba ẹya-ara ti kọọkan post. Laanu, pelu Elo iṣẹ, ni kikun otomatiki awọn ọna ti itara erin lilo ami-tẹlẹ itumo ni o wa si tun ko dara gan ni ọpọlọpọ awọn ipo (ro pada si awọn isoro ṣiṣẹda ohun imolara Ago of Kẹsán 11, 2001 lati Abala 2.3.2.6). Nitorina, King ati awọn araa ti nilo a ona lati Isami wọn 11 million awujo media posts bi si boya nwọn wà 1) lominu ni ti awọn ipinle, 2) atilẹyin ti ipinle, tabi 3) ​​pataki tabi asọpato iroyin nipa awọn iṣẹlẹ. Eleyi dun bi a lowo job, sugbon ti won re o lilo kan alagbara omoluabi; ọkan ti o jẹ wọpọ ni data Imọ sugbon Lọwọlọwọ jo toje ni awujo Imọ.

First, ni a igbese ojo melo ti a npe ni ami-processing, awọn oluwadi ni iyipada awọn awujo media posts sinu kan iwe-igba sekondiri, ni ibi ti o wa ni o wà ọkan kana fun kọọkan iwe ati ọkan iwe ti o gba silẹ boya awọn post ti o wa ninu kan pato ọrọ (eg, protest, ijabọ, bbl). Next, ẹgbẹ kan ti iwadi arannilọwọ ọwọ-ike awọn itara ti a ayẹwo ti post. Nigbana ni, Ọba ati awọn araa lo yi ọwọ-ike data lati siro a ẹrọ eko awoṣe ti o le infer awọn itara ti a post da lori awọn oniwe-abuda. Níkẹyìn, ti won ti lo yi ẹrọ eko awoṣe to siro itara ti gbogbo 11 million posts. Bayi, kuku ju ọwọ kika ati lebeli 11 million posts (eyi ti yoo je logistically soro), ti won ọwọ ike a kekere nọmba ti posts ati ki o lo ohun ti data sayensi yoo pe àmójútó eko to siro isori ti gbogbo awọn posts. Lẹhin ti ipari yi onínọmbà, Ọba ati awọn araa wà anfani lati pinnu wipe, bikita iyalenu, awọn iṣeeṣe ti a post ni paarẹ wà jọmọ to boya o je lominu ni ti awọn ipinle tabi atilẹyin ti ipinle.

Olusin 2.3: Iwonyi sikematiki fun awọn ilana lo ninu King, Pan, ati Roberts (2013) to esitimeti awọn itara ti 11 million Chinese awujo media posts. First, ni a igbese ojo melo ti a npe ni ami-processing, awọn oluwadi ni iyipada awọn awujo media posts sinu kan iwe-igba sekondiri (wo Grimmer ati Stewart (2013) fun alaye siwaju sii). Keji, awọn oluwadi ọwọ-amin awọn itara kan ti a ti kekere ayẹwo ti posts. Kẹta, awọn oluwadi oṣiṣẹ a àmójútó eko awoṣe to lẹtọ awọn itara ti posts. Ẹkẹrin, awọn oluwadi lo awọn àmójútó eko awoṣe to siro itara ti gbogbo awọn posts. Wo King, Pan, ati Roberts (2013), Àfikún B fun a alaye diẹ apejuwe.

Olusin 2.3: Iwonyi sikematiki fun awọn ilana lo ninu King, Pan, and Roberts (2013) to esitimeti awọn itara ti 11 million Chinese awujo media posts. First, ni a igbese ojo melo ti a npe ni ami-processing, awọn oluwadi ni iyipada awọn awujo media posts sinu kan iwe-igba sekondiri (wo Grimmer and Stewart (2013) fun alaye siwaju sii). Keji, awọn oluwadi ọwọ-amin awọn itara kan ti a ti kekere ayẹwo ti posts. Kẹta, awọn oluwadi oṣiṣẹ a àmójútó eko awoṣe to lẹtọ awọn itara ti posts. Ẹkẹrin, awọn oluwadi lo awọn àmójútó eko awoṣe to siro itara ti gbogbo awọn posts. Wo King, Pan, and Roberts (2013) , Àfikún B fun a alaye diẹ apejuwe.

Ni ipari, Ọba ati awọn araa se awari wipe nikan meta orisi ti posts ti won deede censored: iwokuwo, lodi ti censors, ati awọn ti o ní collective igbese o pọju (ie, awọn seese ti yori si tobi-asekale ehonu). Nípa wíwo kan tobi nọmba ti posts ti a ti paarẹ ati posts ti a ko ni paarẹ, Ọba ati awọn araa wà anfani lati ko bi awọn censors ṣiṣẹ kan nipa wiwo ati kika. Ni tetele iwadi, ti wọn nhu taara intervened sinu Chinese awujo media ilolupo nipa ṣiṣẹda posts pẹlu lilo ọna ti o yatọ si akoonu ati won ti o gba censored (King, Pan, and Roberts 2014) . A yoo ni imọ siwaju sii nipa esiperimenta yonuso ní Orí 4. Siwaju, o nso nipa akori kan ti yoo waye jakejado awọn iwe, awọn wọnyi wiwaba-ro mu ero jade isoro-eyi ti o le ma wa ni re pẹlu àmójútó eko-tan jade lati wa ni gidigidi wọpọ ni awujo iwadi ni digital ori. O yoo ri awọn aworan gidigidi iru lati ro ero 2.3 ni Orí 3 (béèrè ibeere) ati 5 (Ṣiṣẹda ibi-ifowosowopo); o jẹ ọkan ninu awọn diẹ ero ti o han ni ọpọ ori.

Gbogbo awọn mẹta ti awọn wọnyi apeere-awọn ṣiṣẹ ihuwasi ti taxi awakọ ni New York, ore Ibiyi nipa omo ile, ati awujo media ihamon ihuwasi ti awọn Chinese ijoba-show ti o jo o rọrun kika ti observational data le jeki awọn oluwadi lati se idanwo o tumq si asọtẹlẹ. Ni awọn igba miiran, nla data kí o lati se eyi kika jo taara (bi ninu ọran ti New York taxis). Ni awọn igba miran, awọn oluwadi yoo nilo lati gba ara wọn observational data (bi ninu ọran ti Chinese ihamon); wo pẹlu incompleteness nipa parapo data jọ (bi ninu ọran ti nẹtiwọki itankalẹ); tabi sise diẹ ninu awọn fọọmu ti wiwaba-aami mu ero jade (bi ninu ọran ti Chinese ihamon). Bi mo ti lero wọnyi apeere fi, fun oluwadi ti o wa ni anfani lati beere awon ibeere, ńlá Oun ni nla ileri.