3.6.1 Cakepan takon

translation iki digawe dening komputer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.6.1 Cakepan takon

Ndamel pranala survey kanggo ngambah digital bisa kaya takon wong pitakonan Panjenengan ing kabeh kaping.

Takon umume rawuh ing rong kategori utama: survey sampel lan censuses. survey Sample, ngendi sampeyan ngakses nomer cilik wong, bisa dadi fleksibel, pas wektune, lan relatif mirah. Nanging, survey sampel, amarga lagi adhedhasar sampel, asring winates ing résolusi sing; karo survey sampel, iku asring hard kanggo nggawe prakiraan babagan wilayah geografis utawa kanggo klompok demografi tartamtu. Censuses, ing liyane, nyoba kanggo Interview wong ing populasi. Padha duwe résolusi gedhe, nanging lagi umume larang, panah ing fokus (padha mung kalebu nomer cilik pitakonan), lan ora pas wektune (padha kelakon ing jadwal tetep, kayata saben 10 taun) (Kish 1979) . Saiki mbayangno yen peneliti bisa gabungke karakteristik paling saka survey sampel lan censuses; mbayangno yen peneliti bisa takon saben pitakonan kanggo wong saben dina.

Temenan, tansah iki, ono ing ngendi panggonan, tansah ing survey jenis Fantasi ilmu sosial. Nanging, katon yen kita bisa miwiti kanggo wiyar iki dening nggabungke pitakonan saka nomer cilik wong ngambah digital saka akeh wong. Aku nelpon iki jinis kombinasi digedhèkaké takon. Yen rampung uga, iku bisa bantuan kita menehi ngira sing luwih lokal (kanggo wilayah geografis cilik), luwih granular (kanggo grup demografi tartamtu), lan liyane pas wektune.

Tuladha saka nyuwon digedhèkaké asalé saka karya Yosua Blumenstock, sing wanted kanggo ngumpulake data sing bakal bantuan pembangunan guide ing negara miskin. More khusus, Blumenstock wanted kanggo nggawe sistem kanggo ngukur kasugihan lan uga-kang sing nggabungaké nggenepi saka sènsus karo keluwesan lan frekuensi saka survey (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Ing kasunyatan, aku wis diterangake karya Blumenstock kang sedhela ing Pasal 1.

Kanggo miwiti, Blumenstock partnered karo panyedhiya ponsel paling gedhé ing Rwanda. Perusahaan ngewenehi dheweke cathetan transaksi anonymized saka bab 1,5 yuta pelanggan panutup prilaku saka 2005 lan 2009. Ing log ngemot informasi bab saben panggilan lan teks pesen kayata wektu wiwitan, dadi, lan lokasi geografi sing cedhak saka panelpon lan panrima. Sadurunge kita miwiti ngomong bab masalah statistik, iku worth pointing metu sing langkah pisanan iki uga salah siji sing paling angel. Minangka diterangake ing Pasal 2, paling data tilak digital diaksès peneliti. Lan, akeh perusahaan sing justifiably mangu-mangu kanggo nuduhake data sing amarga iku pribadi; sing pelanggan sing mbokmenawa ora nyana yèn cathetan sing bakal dituduhake ing akeh-peneliti. Ing kasus iki, peneliti njupuk langkah-ati kanggo anonymize data lan karya iki overseen dening pihak katelu (IE, IRB sing). Nanging, senadyan efforts iki, data sing mbokmenawa isih dingerteni lan padha kamungkinan ngemot informasi sensitif (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Aku bakal bali menyang iki pitakonan sopan ing Bab 6.

Kelingan sing Blumenstock kasengsem ing ukuran kasugihan lan uga-kang. Nanging, iki sipat ora langsung ing cathetan telpon. Ing tembung liyane, cathetan telpon iki pepak kanggo riset iki, fitur umum ngambah digital sing rembugan ing rinci ing Bab 2. Nanging, misale jek kamungkinan sing cathetan telpon mbokmenawa duwe sawetara informasi bab kasugihan lan uga-kang. Dadi, salah siji cara takon pitakonan Blumenstock kang bisa dadi: iku bisa kanggo prédhiksi kepriyé wong bakal nanggapi kanggo survey a adhedhasar data tilak digital sing? Yèn mangkono, banjur takon wong sawetara kita bisa guess jawaban saka everyone liya.

Netepke iki empirically, Blumenstock lan riset asisten saka Kigali Institute of Science lan Teknologi disebut sampel babagan ewu pelanggan ponsel. Peneliti diterangno gol proyèk kanggo peserta, nyuwun idin kanggo pranala respon survey kanggo cathetan telpon, banjur takon wong seri pitakonan kanggo ngukur kasugihan lan uga-kang, kayata "Kowe duwe radio? "lan" Aja duwe pit? "(ndeleng Tokoh 3,11 kanggo dhaptar sebagean). Kabeh peserta ing survey padha menehi ganti rugi dhuwit.

Sabanjure, Blumenstock digunakake prosedur loro-langkah umum ing ilmu data: engineering fitur ngiring dening learning ngawasi. First, ing langkah engineering fitur, for everyone sing diwawancarai, Blumenstock diowahi cathetan telpon menyang pesawat saka ciri bab saben wong; ilmuwan data bisa nelpon iki ciri "fitur" lan ilmuwan sosial bakal nelpon "kemungkinan." Contone, kanggo saben wong, Blumenstock diwilang nomer total days karo kegiatan, nomer wong béda wong wis ing kontak karo, jumlah dhuwit ngginakaken ing airtime, lan ing. Kritis, apik engineering fitur mbutuhake kawruh saka setelan riset. Contone, yen iku penting kanggo mbedakake antarane telpon domestik lan internasional (kita bisa nyana wong sing nelpon internasional kanggo dadi makmur), banjur iki kudu rampung ing langkah engineering fitur. A peneliti karo sethitik pangerten Rwanda bisa ora kalebu fitur iki, lan banjur ing kinerja prediktif model bakal nandhang sangsara.

Sabanjure, ing langkah learning ngawasi, Blumenstock dibangun model statistik kanggo mrédhiksi nanggepi survey kanggo saben wong adhedhasar fitur sing. Ing kasus iki, Blumenstock digunakake logistik kemunduran karo 10-melu salib-Validation, nanging wis bisa digunakake macem-macem cedhak statistik utawa machine learning liyane.

Dadi carane uga durung bisa? Ana Blumenstock bisa kanggo mrédhiksi jawaban kanggo survey pitakonan kaya "Kowe duwe radio sing?" Lan "Aja duwe pit?" Nggunakake fitur asalé saka cathetan telpon? Urut saka. Akurasi ramalan padha dhuwur kanggo sawetara sipat (Figure 3.11). Nanging, iku tansah penting kanggo mbandhingaké cara prediksi Komplek marang alternatif prasaja. Ing kasus iki, alternatif prasaja kanggo mrédhiksi saben wong bakal menehi jawaban sing paling umum. Contone, 97,3% kacarita ndhuweni radio supaya yen Blumenstock mbadek sing wong bakal laporan ndhuweni radio kang mesthi padha lan akurasi 97,3%, kang kaget padha kanggo kinerja prosedur liyane Komplek kang (akurasi 97,6%). Ing tembung liyane, kabeh data apik lan modeling tambah akurasi prediksi saka 97,3% kanggo 97,6%. Nanging, kanggo pitakonan liyane, kayata "Kowe duwe pit?", Ramalan apik saka 54,4% kanggo 67,6%. More umum, Figure 3,12 nuduhake kanggo sawetara sipat Blumenstock ora nambah akeh ngluwihi mung nggawe prediksi garis dasar prasaja, nanging sing kanggo sipat liyane ana sawetara dandan.

Figure 3,11: akurasi Prediktif kanggo model statistik dilatih karo cathetan telpon. Results saka Tabel 2 of Blumenstock (2014) .

Figure 3,12: Comparison of akurasi prediktif kanggo model statistik dilatih karo cathetan telpon kanggo prediksi garis dasar prasaja. TCTerms sing rada jittered supaya tumpang tindih; ndeleng Tabel 2 of Blumenstock (2014) kanggo angka pas.

Ing titik iki sampeyan bisa uga kudu mikir sing asil iki dicokot kuciwo, nanging mung siji taun salajengipun, Blumenstock lan loro kolega-Gabriel Cadamuro lan Robert On-diterbitake kertas ing Science karo asil mesti luwih (Blumenstock, Cadamuro, and On 2015) . Ana wong loro alasan technical utama kanggo asil dandan: 1) padha digunakake luwih cara canggih (IE, pendekatan anyar kanggo fitur engineering lan mesin model learning luwih canggih) lan 2) tinimbang nyoba kanggo infer respon kanggo pitakonan individu (eg, "Apa kowe duwe radio sing?"), padha nyoba kanggo infer indeks kasugihan gabungan.

Blumenstock lan kolega tontonan kinerja pendekatan ing rong cara. Kawitan, padha ketemu sing kanggo wong ing sampel sing, padha bisa nindakake cantik apik proyek ngiro kasugihan saka cathetan telpon (Figure 3.14). Kapindho, lan tau liyane Jahwéh, Blumenstock lan kolega nuduhake yen prosedur sing bisa gawé prakiraan kualitas distribusi geografis kasugihan ing Rwanda. More khusus, padha digunakake machine model learning, kang dilatih ing sampel sing watara 1000 wong, kanggo mrédhiksi kasugihan kabeh 1.5 yuta wong ing cathetan telpon. Luwih, karo data geospatial ditempelake ing data telpon (kelingan sing data telpon kalebu lokasi menara sel paling cedhak kanggo saben telpon), peneliti padha bisa ngira Panggonan kira-kira saka panggonan saka saben wong. Panggolekan loro iki prakiraan bebarengan, riset diprodhuksi ngira distribusi geografis kasugihan Subscriber ing granularity spasial banget nggoleki. Contone, padha bisa ngira kasugihan rata-rata ing saben Rwanda kang 2148 sel (ing unit administratif cilik ing negara). Iki mbadek angka kasugihan padha supaya granular padha angel kanggo mriksa. Dadi, peneliti dikumpulke asil sing kanggo gawé prakiraan saka kasugihan rata-rata Rwanda 30 kecamatan. prakiraan distrik-tingkat padha banget related kanggo prakiran saka emas survey tradisional standar, ing Rwandan Demografi lan Kesehatan Survey (Figure 3.14). Senajan prakiran saka rong sumber padha padha, prakiran saka Blumenstock lan kolega padha bab 50 kaping luwih murah lan luwih cepet 10 kaping (yen biaya ing diukur ing syarat-syarat biaya global). nyuda serem iki ing biaya tegese tinimbang kang mbukak saben sawetara taun-minangka standar kanggo Demografi lan Kesehatan Survey-Sato saka survey cilik digabungake karo data tilak digital amba bisa mbukak saben sasi.

Figure 3.13: Skematis saka Blumenstock, Cadamuro, lan On (2015). data telpon saka perusahaan telpon iki diowahi kanggo matrik karo saben siji kanggo saben wong lan siji asli kanggo saben fitur (i.e., global). Sabanjure, peneliti dibangun model learning ngawasi kanggo mrédhiksi respon survey saka wong dening matriks fitur. Banjur, ing model learning ngawasi iki digunakake kanggo Kema aturang respon survey for everyone. Ing pet, peneliti digunakake respon saka babagan sewu wong Kema aturang kasugihan watara siji yuta wong. Uga, peneliti kira-kira ing panggonan kira-kira saka panggonan kanggo kabeh 1.5 yuta wong adhedhasar lokasi telpon. Nalika loro iki prakiraan padha digabungake-kira-kira kasugihan lan kira-kira panggonan panggonan-asil padha prakiraan saka Demografi lan Survey Kesehatan, a survey tradisional emas-standar (Figure 3.14).

Figure 3.13: Skematis saka Blumenstock, Cadamuro, and On (2015) . data telpon saka perusahaan telpon iki diowahi kanggo matrik karo saben siji kanggo saben wong lan siji asli kanggo saben fitur (IE, global). Sabanjure, peneliti dibangun model learning ngawasi kanggo mrédhiksi respon survey saka wong dening matriks fitur. Banjur, ing model learning ngawasi iki digunakake kanggo Kema aturang respon survey for everyone. Ing pet, peneliti digunakake respon saka babagan sewu wong Kema aturang kasugihan watara siji yuta wong. Uga, peneliti kira-kira ing panggonan kira-kira saka panggonan kanggo kabeh 1.5 yuta wong adhedhasar lokasi telpon. Nalika loro iki prakiraan padha digabungake-kira-kira kasugihan lan kira-kira panggonan panggonan-asil padha prakiraan saka Demografi lan Survey Kesehatan, a survey tradisional emas-standar (Figure 3.14).

Figure 3,14: Results saka Blumenstock, Cadamuro, lan On (2015). Ing individu-tingkat, peneliti padha bisa nindakake proyek cukup ing ngiro-iro kasugihan wong kang saka cathetan telpon sing. Prakiraan saka distrik-tingkat kasugihan-kang adhedhasar prakiraan individu-tingkat kasugihan lan panggonan panggonan-asil padha asil saka Demografi lan Kesehatan Survey, a survey tradisional emas-standar.

Figure 3,14: Results saka Blumenstock, Cadamuro, and On (2015) . Ing individu-tingkat, peneliti padha bisa nindakake proyek cukup ing ngiro-iro kasugihan wong kang saka cathetan telpon sing. Prakiraan saka distrik-tingkat kasugihan-kang adhedhasar prakiraan individu-tingkat kasugihan lan panggonan panggonan-asil padha asil saka Demografi lan Kesehatan Survey, a survey tradisional emas-standar.

Wusananipun, Blumenstock kang digedhèkaké takon pendekatan digabungake data survey karo data tilak digital kanggo gawé prakiraan iso dibandhingke karo prakiraan survey emas-standar. Contone tartamtu uga clarifies sawetara saka perdagangan-offs antarane nyuwon digedhèkaké lan cara survey tradisional. First, prakiraan takon digedhèkaké padha luwih pas wektune, mesti luwih murah, lan liyane granular. Nanging, ing tangan liyane, ing wektu iki, ora ana basis teori kuwat iki jenis nyuwon digedhèkaké. Sing, contone siji iki ora nuduhake nalika bisa lan nalika iku bakal ora. Luwih, pendekatan takon ing digedhèkaké durung duwe cara apik kanggo ngundhakke kahanan sing durung mesthi sak prakiraan sawijining. Nanging, digedhèkaké takon wis sambungan jero kanggo telung wilayah gedhe ing basis statistik-model kirim-stratification (Little 1993) , imputation (Rubin 2004) , lan ngira-wilayah cilik (Rao and Molina 2015) -Lan aku nyana yen proses bakal dadi cepet.

Digedhèkaké nyuwon nderek resep dhasar sing bisa ngarang kahanan tartamtu. Ana rong úa lan rong langkah. Loro úa 1) a perlengkapan data tilak digital sing sudhut nanging lancip (sing, wis akeh wong nanging ora informasi sing perlu bab saben wong) lan 2) a survey sing panah nanging nglukis (sing, wis mung sawetara wong, nanging nduweni informasi sing perlu bab wong). Banjur, ana rong langkah. First, kanggo wong-wong ing loro sumber data, mbangun model learning mesin sing migunakake tilak data digital kanggo mrédhiksi jawaban survey. Sabanjure, nggunakake model machine learning kanggo Kema aturang jawaban survey wong ing data tilak digital. Mangkono, yen ana sawetara pitakonan sing arep takon kanggo persil saka wong, nggolèki data tilak digital saka wong sing bisa digunakake kanggo prédhiksi jawaban sing.

Mbandingaken Blumenstock kang nyoba pisanan lan kaloro ing masalah uga nggambaraké wulangan penting bab transisi saka jaman kaloro cedhak jaman katelu kanggo survey riset: wiwitan ora wekasan. Sing, kakehan, pendekatan bakal ora dadi apik, nanging yen peneliti terus apa, iku bisa dadi luwih apik. More umum, nalika ngevaluasi cedhak anyar kanggo riset sosial ing umur digital, iku penting kanggo gawe loro evaluasi béda: 1) carane uga ora karya iki saiki lan 2) carane uga kowe mikir iki uga bisa ing mangsa malang data owah-owahan lan minangka peneliti uga nglakoni manungsa waé kanggo masalah. Senajan, peneliti sing dilatih kanggo nggawe jenis pisanan evaluasi (carane apik Piece tartamtu saka penelitian), kapindho kang asring luwih penting.