2.4.1.3 Xitoy hukumati tomonidan ijtimoiy axborot vositalari senzura

Tadqiqotchilar tsenzura o'rganish uchun Xitoy ijtimoiy media saytlari tashlardi. Ular latent-chiziq chiqaman bilan noto'liqligi bilan shug'ullanadi.

Ajoyib Gary King, Jennifer PAN, va Molly Roberts "tomonidan ko'rsatilgan edi, ikki oldingi misollar ishlatiladigan katta ma'lumotlar bilan bir qatorda, tadqiqotchilar, shuningdek, o'z kuzatuv ma'lumotlarni to'plash mumkin (2013) Xitoy hukumati tomonidan tsenzura haqida tadqiqot.

Xitoyda ijtimoiy media xabarlar o'nlab odamlar minglab o'z ichiga oladi, deb bir katta davlat apparati tomonidan tsenzura qilinadi. Tadqiqotchilar va fuqarolar bilan birga, bu tarmoqni kontent ijtimoiy media ochirilgan bo'lishi kerak nima qaror qanday oz tuyg'usi bor. Xitoy olimlari aslida xabarlar turlari o'chirib uchun eng munosib bo'lgan haqida qarama-qarshi taxminlar bor. Ba'zi tarmoqni boshqalar bunday namoyishlar bo'lib kollektiv xatti rag'batlantirish xabarlar, e'tibor, deb o'ylayman esa davlatning muhim xabarlar haqida o'ylash, deb o'ylayman. Bu taxminlar to'g'ri bo'lgan izlab tadqiqotchilar Xitoy va tsenzura bilan shug'ullanish, boshqa avtoritar hukumatlarga tushunish qanday oqibatlarga ega. Shuning uchun, King va hamkasblari chop etilgan va keyinchalik chop etilgan va hech qachon o'chirildi xabarlar uchun o'chirildi xabarlar solishtirish uchun so'radim.

Bu xabarlar Kollektsiya yig'ish turli sahifa tegishli xabarlar tartibini aniqlash va keyinchalik o'chirildi qaysi ko'rish uchun bu xabarlar revisiting bilan 1000 dan ortiq Xitoy ijtimoiy media saytlari-har emaklay ajoyib muhandislik feat ishtirok. keng ko'lamli veb-emaklay bilan bog'liq normal muhandislik muammolarini tashqari, ushbu loyiha ko'p tsenzura xabarlar kam 24 soat ichida pastga olinadi, chunki u juda tez bo'lishi kerak qo'shiladi muammo bor edi. Boshqa so'zlar bilan aytganda, bir-sekin gusenitsali tsenzura qilingan xabarlar ko'p sog'indim edi. Bundan tashqari, brauzerlarning ijtimoiy media saytlari o'rganish javoban o'z siyosatini o'zgartirishi aks holda to'sib yoki qolmasin aniqlash bo'yin tovlaganlik esa barcha bu ma'lumotlarni yig'ish kerak edi.

Bu katta muhandislik vazifa so'ng, King va hamkasblari oldindan belgilangan sezuvchanlik ularning kutilgan darajada asoslangan edi 85 xil mavzularda taxminan 11 million xabarlar olingan edi. Masalan, yuqori sezgirlik bir mavzu Ai Weiwei, dissident rassom hisoblanadi; o'rta sezgirlik bir mavzu uchun minnatdor va Xitoy valyuta devalvatsiyasi, va past sezgirlik bir mavzu jahon chempionati bo'ladi. Bu 11 million xabarlar qariyb 2 million tsenzura edi, lekin juda nozik mavzularda xabarlar o'rta va past sezuvchanlik mavzularda xabarlar ko'ra, faqat bir oz ko'proq tez-tez tsenzura qilindi. Boshqa so'zlar bilan aytganda, Xitoy tarmoqni Jahon chempionati haqida gapiradi bir post sifatida Ai Weiwei zikr bir post tsenzura haqida sifatida ehtimoli bor. Bu topilmalar hukumat nozik mavzularda barcha postlarini tsenzurasiz deb sodda fikr kelmadi.

mavzu bilan tsenzura stavkasining bu oddiy hisoblash bilan birga, noto'g'ri bo'lishi mumkin. Misol uchun, davlat Ai Weiwei qo'llab-quvvatlovchi, lekin unga tanqid xabarlar tark xabarlar tsenzura mumkin. Ko'proq diqqat xabarlar farqlash uchun, tadqiqotchilar har bir xabarga tuyg'usiga o'lchash kerak. Shunday qilib, bu haqda o'ylash, bir yo'lidir har bir xabarga muhim latent xususiyati har bir xabarga kayfiyat deb. Afsuski, ko'p ish qaramay, oldindan mavjud lug'atlar yordamida sezish aniqlash to'liq avtomatlashtirilgan usullari (bo'lim 2.3.2.6 dan 11 sentyabr, 2001 yil bir hissiy xronologiyasini yaratish muammolari qaytib, deb o'ylayman) hali ko'p vaziyatlarda juda yaxshi emas. Shuning uchun, King va hamkasblari ular) 1 davlatning muhim edi bo'lsin uchun, ularning 11 million ijtimoiy media xabarlar yorliq uchun bir yo'l zarur, 2) davlat yoki voqealar haqida 3) ahamiyatsiz yoki haqiqiy hisobotlarni qo'llab-quvvatlovchi. Bu bir katta ish kabi tovushlar, lekin ular kuchli trik yordamida uni hal; ma'lumotlar fan keng tarqalgan, lekin ijtimoiy fan hozir nisbatan kam bir.

Birinchidan, qadam, odatda oldindan qayta ishlash chaqirib, tadqiqotchilar har bir hujjat uchun bir satr va post muayyan so'z mavjud yoki yo'qligini qayd bir ustun bor edi bir hujjat muddatli matritsasi, ijtimoiy media xabarlar aylanadi (masalan, norozilik, transport va boshqalar). Keyingi, ilmiy hodimlar bir guruh post bir namunasi tuyg'usiga qo'l atadi. So'ngra, King va hamkasblari uning xususiyatlari asosida xabarga tuyg'usiga chiqarsa edi, bir mashina ta'lim modelini tasavvur qilish uchun, bu qo'l bilan belgilangan ma'lumotlarni ishlatiladi. Nihoyat, ular 11 million lavozimidan tuyg'usiga taxmin qilish uchun, bu mashina ta'lim modelini ishlatiladi. Shunday qilib, qo'l bilan o'qish va tamg'alash 11 million xabarlar (texnik imkonsiz bo'lardi) o'rniga, ular qo'l xabarlar bir kichik sonini etiketli va keyin olimlar barcha xabarlar kategoriyasini taxmin qilish uchun nazorat ostidagi o'rganish qo'ng'iroq qanday ma'lumotlar ishlatiladi. Bu tahlil qurib bo'lingandan so'ng, King va hamkasblari biroz ajablanarli bir post ehtimoli u davlatning muhim va davlatning qo'llab-quvvatlovchi edimi bog'liq bo'lmagan edi o'chirilmoqda, deb xulosa qilish imkoniga ega bo'ldi.

11 million Xitoy ijtimoiy media lavozimidan tuyg'usiga baholash uchun King, PAN ishlatiladigan tartibi uchun soddalashtirilgan sxematik va Roberts (2013): 2.3-rasm. Birinchidan, qadam, odatda oldindan qayta ishlash chaqirib, tadqiqotchilar hujjat muddatli matritsasi ijtimoiy media xabarlar aylanadi (qo'shimcha ma'lumot olish uchun Grimmer va Styuart (2013) ga qarang). Ikkinchidan, tadqiqotchilar xabarlar bir kichik namunasi tuyg'usiga-kodlangan qo'l. Uchinchidan, tadqiqotchilar lavozimidan tuyg'usiga tasnifi uchun bir nazorat ostidagi ta'lim modelini ta'lim. To'rtinchidan, tadqiqotchilar barcha xabarlar tuyg'usiga taxmin qilish uchun nazorat ostidagi ta'lim modelini ishlatiladi. batafsil ta'rifi uchun Qiroli, PAN va Roberts (2013), qo'shimcha B qarang.

Ishlatiladigan tartibi uchun soddalashtirilgan sxematik: ko'rsatkich 2,3 King, Pan, and Roberts (2013) 11 million Xitoy ijtimoiy media lavozimidan tuyg'usiga baholash uchun. Birinchidan, qadam, odatda oldindan qayta ishlash chaqirib, tadqiqotchilar hujjat muddatli matritsasi ijtimoiy media xabarlar aylanadi (qarang Grimmer and Stewart (2013) Qo'shimcha ma'lumot olish uchun). Ikkinchidan, tadqiqotchilar xabarlar bir kichik namunasi tuyg'usiga-kodlangan qo'l. Uchinchidan, tadqiqotchilar lavozimidan tuyg'usiga tasnifi uchun bir nazorat ostidagi ta'lim modelini ta'lim. To'rtinchidan, tadqiqotchilar barcha xabarlar tuyg'usiga taxmin qilish uchun nazorat ostidagi ta'lim modelini ishlatiladi. Qarang King, Pan, and Roberts (2013) to`liq uchun, qo'shimcha B.

Nihoyat, shoh va hamkasblari xabarlar faqat uch turdagi muntazam tsenzura deb topilgan: pornografiya, tsenzurasiz tanqid, va jamoaviy harakatlar salohiyatga ega ekanini o'sha (ya'ni, keng ko'lamli namoyishlar olib ehtimoli). o'chirilmaydi edi o'chiriladi va xabarlar qilindi xabarlar katta sonini kuzatib, King va hamkasblari tarmoqni kuzatib va ​​sanab tomonidan faqat ishlash o'rganish imkoniyatiga ega bo'ldi. Keyingi tadqiqotlar, ular aslida bevosita tsenzura olish sistematik turli mazmun va o'lchash bilan xabarlar yaratib Xitoy ijtimoiy media ekotizim ichiga aralashib (King, Pan, and Roberts 2014) . Biz kitob bo'ylab sodir bo'ladi mavzuni bashorat, yanada bobda 4. eksperimental yondashuvlar haqida ko'proq bilib olamiz, bu latent-xususiyati xulosa muammolari-ba'zan bilan hal qilinishi mumkin Boshqariladigan o'quv-navbatida ijtimoiy tadqiqotlar juda keng tarqalgan bo'lishi raqamli yoshi. Siz (ommaviy hamkorlikni yaratish) boblarida 3 (savollarimiz) va 5 2,3 Shakl rasmlar juda o'xshash ko'rasiz; u bir necha boblarda paydo necha g'oyalar biri hisoblanadi.

Bu misollardan Nyu-Yorkda taksi haydovchilar, talabalar tomonidan do'stlik shakllanishi va kuzatish ma'lumotlar nisbatan oddiy hisoblash nazariy oldindan sinash uchun tadqiqotchilar beradi Xitoy hukumati-shou ijtimoiy media tsenzura xatti ishchi xatti barcha uch. Ba'zi hollarda, katta ma'lumotlar (Nyu-York taksidan taqdirda kabi) nisbatan bevosita bu ro'yxatga kiritma qilish imkonini beradi. Boshqa hollarda, tadqiqotchilar (Xitoy tsenzura taqdirda kabi) o'z kuzatuv ma'lumotlarni to'plash kerak bo'ladi; (Tarmoq evolyutsiya holatdagi kabi) bilan birga ma'lumotlarni birlashtirib noto'liqligi bilan shug'ullanish; yoki (Xitoy tsenzura taqdirda kabi) latent-chiziq chiqaman ba'zi formasini amalga. Men umid, bu misollar qiziqarli savollar imkoniyatiga ega tadqiqotchilar uchun, katta tugildi, ko'rsatadi.