3.6.1 so'rab Amplified

Raqamli izlar uchun so'rovnoma ulash har doim har bir kishi savol so'rab kabi bo'lishi mumkin.

namuna tadqiqotlari va sayimlannin: so'rab, odatda, ikki asosiy kategoriyalari keladi. Agar odamlar bir kichik sonini kirish namunasi tadqiqotlar, moslashuvchan o'z vaqtida va nisbatan arzon bo'lishi mumkin. ular bir namuna asoslangan, chunki Biroq, misol tadqiqotlar, ko'pincha ularning hal cheklangan; a tanlanma o'rganishlarni bilan, u o'ziga xos geografik mintaqalarda haqida yoki muayyan demografik guruhlar uchun taxmin qilish ko'pincha qiyin. Sayimlannin, boshqa tomondan, aholining har bir intervyu uchun harakat. Ular katta qaror bor, lekin ular odatda, qimmat markazida tor bo'lgan (ular faqat savollarga bir kichik sonini o'z ichiga oladi), va (ular kabi har 10 yil deb, bir qattiq grafigini sodir) emas, balki o'z vaqtida (Kish 1979) . tadqiqotchilar tanlanma o'rganishlar va sayımlarda eng yaxshi xususiyatlarini birlashtirish mumkin tasavvur; tadqiqotchilar har kuni har bir kishi uchun, har bir savol agar bir tasavvur qiling.

Shubhasiz, bu doimiy, hamma joyda, har doim-kuni so'rov ijtimoiy fan xomxayoling bir turidir. Lekin, u biz ko'p odamlardan raqamli izlari bilan odamlar kichik qator tadqiqot savollar birlashtirib, bu yaqin, boshlash mumkin, deb paydo. Men birlashtirish bu turi so'rab amplifike qo'ng'iroq. Ofarin bo'lsa, u bizga (kichik geografik joylari uchun) ko'proq mahalliy taxmin, (muayyan demografik guruhlar uchun) yana granüle, va yana o'z vaqtida beradi yordam berishi mumkin.

amplifike sizdan bir misol kambag'al mamlakatlarda hidoyat rivojlantirish yordam beradi ma'lumotlarni to'plash bo'ldim Joshua Blumenstock, ish keladi. Batafsil ravishda, Blumenstock bir so'rov moslashuvchan va chastotasi bilan sanalgani to'liq birlashgan boylik va farovonligini o'lchash uchun bir tizimni yaratish bo'ldim (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Aslida, men allaqachon bob 1 qisqacha Blumenstock ishini tasvirlangan ayting.

boshlash uchun, Blumenstock Ruandada eng yirik mobil telefon provayderi bilan hamkorlikda. Kompaniya bunday boshlang'ich vaqt, davomiyligi va qiluvchining va qabul qilish taxminiy geografik joylashuvi kabi 2005 va 2009 qaydlar har bir qo'ng'iroq va matnli xabar haqida ma'lumotlarni o'z ichiga dan xatti qamrab 1,5 million mijozlar tomonidan unga anonim bitim yozuvlarni taqdim. Biz statistik masalalar haqida gaplashib boshlash oldin, bu birinchi qadam qiyin biri bo'lishi mumkin, deb ishora arziydi. 2-dars aytilgandek, eng raqamli iz ma'lumotlar tadqiqotchilar uchun borish qiyin bo'lgan. Va, bir qancha kompaniyalar xususiy chunki ularning ma'lumotlar almashish uchun haqli ikkilanib bor; ularning mijozlar ehtimol ularning yozuvlar bilan o'rtoqlashdi-yilda bo'ladi, deb tadqiqotchilar, quyma-bilan kutmagan hisoblanadi. Bu holda, tadqiqotchilar ma'lumotlarni Anonim ehtiyot qadamlar va ularning ish uchinchi partiya (ya'ni, ularning IRB) tomonidan nazorat qilindi. Lekin, bu sa'y-harakatlarga qaramay, bu ma'lumotlar hali ehtimol aniqlash va ular, ehtimol, nozik ma'lumotni o'z ichiga (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Men 6-bobda ham bu axloqiy savolga qaytib olaman.

Blumenstock boylik va farovonligini o'lchash manfaatdor ekanini eslang. Lekin, bu xususiyatlar chaqiriq yozuvlar bevosita emas. Boshqa so'zlar bilan aytganda, bu qo'ng'iroq yozuvlar, bu tadqiqot, 2-bob batafsil muhokama qilindi raqamli izlari umumiy xususiyati uchun to'liq bo'ladi, bu qo'ng'iroq yozuvlar ehtimol boylik va farovonligi haqida ba'zi ma'lumotlar bor ehtimoli ko'rinadi. Shunday qilib, Blumenstock ning savol bo'lishi mumkin so'rash biri yo'li: u kishi o'z raqamli izi ma'lumotlar asosida bir so'roq javob beradi qanday bashorat qilish mumkin? Agar shunday bo'lsa, u holda bir necha odamlarni so'rab, biz boshqa har javoblarni taxmin qilish mumkin.

empirik bu baholash uchun, Kigali fan va texnologiyalar instituti tomonidan Blumenstock va tadqiqot yordamchilari haqida ming mobil telefon mijozlari bir namunasi deb ataladi. tadqiqotchilar Agar sizda bunday "deb, ularning mollarini va farovonligini o'lchash uchun ularga bir qator savollar so'radi, keyin ishtirokchilarga loyihaning maqsadlari bayon qo'ng'iroq yozuvlar uchun so'rov javob bog'langan, ularning roziligi uchun deb so'radi va radio? "va" siz velosiped sizda bormi? »(qisman ro'yxati uchun 3.11 shakl). so'rovda Barcha ishtirokchilar moliyaviy qoplandi.

Nazorat ostidagi ta'lim ortidan xususiyati muhandislik: Keyingi, Blumenstock ma'lumotlar fanda umumiy ikki bosqichli tartib ishlatiladi. Birinchidan, xususiyati muhandislik qadamda, intervyu, har bir kishi, Blumenstock har bir shaxs haqida xususiyatlaridan majmui ichiga qo'ng'iroq yozuvlarni aylanadi; ma'lumotlar olimlar "xususiyatlari" Bu xususiyatlarga qo'ng'iroq mumkin va ijtimoiy olimlar ularni chaqiradi "o'zgaruvchilar." Masalan, har bir kishi uchun, Blumenstock faoliyati bilan kun umumiy sonini hisoblash, bir kishi bilan aloqada bo'lgan turli kishilar soni, miqdori pul hokazo efir vaqti sarflangan va. Tanqidiy, yaxshi xususiyati muhandislik tadqiqot mo'ljallangan bilim talab qiladi. u (biz xalqaro qo'ng'iroq odamlar boy bo'lishi uchun kutish mumkin) ichki va xalqaro qo'ng'iroqlar farqlash uchun muhim bo'lsa, masalan, keyin bu xususiyat muhandislik qadamda amalga oshirilishi lozim. Ruanda oz aql bilan tadqiqotchi ushbu xususiyatni o'z ichiga bo'lmasligi mumkin, keyin model bashoratli ishlashi chekadilar.

Keyingi, nazorat ostidagi ta'lim qadam, Blumenstock ularning xususiyatlari asosida har bir kishi uchun so'rov javob taxmin qilish uchun bir statistik model qurilgan. Bu holda, Blumenstock 10 baravari ko'ndalang tekshirish bilan logistika tushish ishlatiladi, lekin u boshqa statistik yoki mashina ta'lim yondashuvlar turli ishlatilgan bo'lishi mumkin.

Xo'sh, qanday qilib yaxshi ish qildi? Blumenstock "Agar? A radio sizda" va shu kabi savollarga so'roviga javob bashorat qilish ega edi: «Agar bir velosiped sizda bormi?" Call yozuvlar olingan xususiyatlaridan foydalanib? Saralash. tushuncha aniqligi ba'zi xususiyatlari (rasm 3.11) uchun yuqori edi. Lekin, bu oddiy muqobil qarshi kompleks bashorat usuli bilan solishtirish har doim muhim. Bu holda, oddiy muqobil har bir eng keng tarqalgan javob beraman, deb taxmin qilish hisoblanadi. Misol uchun, 97,3% Blumenstock hamma uning uning yanada murakkab tartibi (97,6% aniqligi) bajarish uchun hayratlanarli darajada o'xshaydi 97,3%, bir aniqligini bo'lar edi a radio egalik hisobot, deb bashorat qilgan edi, agar shunday bir radio egalik ma'lum qildi. Boshqa so'zlar bilan aytganda, barcha o'y ma'lumotlar va modellashtirish 97,6% ga 97,3% dan bashorat to'g'riligini oshdi. Shu bilan birga, kabi boshqa masalalar uchun «Agar velosiped sizda bormi?", Bashorati 67,6% ga 54,4% dan yaxshilandi. Batafsil odatda, rasm 3.12 shou ba'zi belgilar bo'yicha Blumenstock faqat oddiy asosiy taxmin qilish orqasida ko'p yaxshilash uchun emas, balki boshqa belgilar bo'yicha bir necha yaxshilash edi.

Rasm 3.11: call yozuvlar bilan ta'lim statistik model uchun Bashoratli aniqligi. Blumenstock (2014) ning 2-jadval natijalari.

Rasm 3.11: call yozuvlar bilan ta'lim statistik model uchun Bashoratli aniqligi. Ning 2-jadval natijalari Blumenstock (2014) .

Rasm 3.12: oddiy asosiy bashoratga qo'ng'iroq yozuvlar bilan ta'lim statistik model uchun bashoratli aniqligi solishtirish. Ballari oz yopishni oldini olish uchun seğirmeli etiladi; aniq qiymatlari uchun Blumenstock (2014) 2-jadval qarang.

Rasm 3.12: oddiy asosiy bashoratga qo'ng'iroq yozuvlar bilan ta'lim statistik model uchun bashoratli aniqligi solishtirish. Ballari oz yopishni oldini olish uchun seğirmeli etiladi; Jadval 2 ko'rish Blumenstock (2014) aniq qiymatlari uchun.

Bu nuqtada siz bu natijalar faqat bir yil o'tgach, Blumenstock va ikki hamkasblar-Gabriel Cadamuro va Robert On-nashr Fan bir qog'oz sezilarli darajada yaxshiroq natijalar bilan bir oz umidsizlik, lekin bu fikr bo'lishi mumkin (Blumenstock, Cadamuro, and On 2015) . Ular ko'proq murakkab usullar ishlatiladi: 1) (ya'ni, yangi yondashuv muhandislik va yanada murakkab mashina ta'lim modelini xususiyati) va 2) aksincha, masalan, (individual tadqiqot savollarga javob chiqarsa harakat ko'ra, ikki asosiy texnik yaxshilash uchun sabablar bor edi "Agar radio sizda bormi?"), ular bir kompozitsion boylik indeks chiqarsa harakat qildi.

Blumenstock va hamkasblari ikki yo'l bilan o'z yondashuv faoliyatini ko'rsatdi. Birinchidan, ular namuna odamlar uchun, ular qo'ng'iroq yozuvlar (rasm 3.14) ularning mollarini taxmin juda yaxshi ish, albatta, mumkin, deb topildi. Ikkinchidan, va hech muhimi, Blumenstock va hamkasblari ularning tartibi Ruandada boylik geografik taqsimlash yuqori sifatli smetasini ishlab chiqarish mumkin, deb ko'rsatdi. Batafsil ravishda, ular qo'ng'iroq yozuvlar barcha 1,5 million odamlarning mollarini bashorat qilish haqida 1000 odamlar o'z namunasi tahsil oldim o'z mashina ta'lim modeli, ishlatiladigan. Bundan tashqari, qo'ng'iroq ma'lumotlar ko'milgan geografik ma'lumotlar bilan (call ma'lumotlar har bir qo'ng'iroq uchun eng yaqin hujayra minora o'rnini o'z ichiga oladi, deb eslang), tadqiqotchilar har bir shaxsning yashash taxminiy o'rnini taxmin qilish imkoniga ega bo'ldi. birga, bu ikki bashorat qo'yib, tadqiqot juda nozik fazoviy donadorligi da abonent boylik geografik taqsimlash kiritish ishlab chiqarilgan. Misol uchun, ular Ruandaning 2148 hujayralari (mamlakatimizda kichik ma'muriy birlik) har bir o'rtacha boylik taxmin mumkin. Bu bashorat boylik qadriyatlar ular tekshirish uchun qiyin edi, shuning uchun donador edi. Shunday qilib, tadqiqotchilar Ruandaning 30 tumanlarida o'rtacha boylik smetasini ishlab chiqarish, ularning natijalarini birlashtiriladi. Bu tuman darajadagi bashorat qilish kuchli bir oltin standart an'anaviy so'rov bo'yicha hisob-kitoblarga tegishli edi, Ruanda demografik va Sog'liqni saqlash tadqiqot (rasm 3.14). ikki manbalardan bashorat qilish kabi bo'lsa-da, Blumenstock va hamkasblari taxminiy (qiymati o'zgarmaydigan xarajatlar jihatidan o'lchanadi) 50 baravar arzon va 10 marta tezroq edi. xarajat bu dramatik kamayishi o'rniga, har bir necha yil-sifatida ishlatish, deb-tadqiqotlari katta raqamli iz ma'lumotlar bilan birga, kichik tadqiqot gibrid har oy ishlatish mumkin demografik va Sog'liqni saqlash uchun standart bo'lib, degan ma'noni anglatadi.

Rasm 3.13: Blumenstock, Cadamuro şematik va kuni (2015). telefon kompaniyasi Call ma'lumotlar har bir kishi uchun, bir satr va har bir xususiyati (ya'ni, o'zgaruvchan) uchun bir ustun bilan matritsa aylanadi edi. Keyingi, tadqiqotchilar xususiyati matritsasi tomonidan shaxsdan tadqiqot javob taxmin qilish uchun bir nazorat ostidagi ta'lim modelini qurilgan. So'ngra, nazorat ostidagi ta'lim modeli barcha uchun so'rov javob ayblash uchun ishlatilgan. Yuragida, tadqiqotchilar bir million odamlarning mollarini ayblash uchun taxminan bir ming odamlar javob ishlatiladi. Bundan tashqari, tadqiqotchilar o'z qo'ng'iroqlar er bilan asoslangan, barcha 1,5 million odamlar uchun yashash taxminiy o'rnini taxmin. bu ikki bashorat qilish bug'-qachon taxmin boyligi va yashash-natijalarini taxmin joy demografik va Sog'liqni saqlash tadqiqotlari, oltin-standart an'anaviy so'rov (rasm 3.14) dan hisob-kitoblarga o'xshash edi.

Rasm 3.13: şematik Blumenstock, Cadamuro, and On (2015) . telefon kompaniyasi Call ma'lumotlar har bir xususiyati (ya'ni, o'zgaruvchan) uchun har bir kishi uchun, bir satr va bir ustun bilan matritsa aylanadi edi. Keyingi, tadqiqotchilar xususiyati matritsasi tomonidan shaxsdan tadqiqot javob taxmin qilish uchun bir nazorat ostidagi ta'lim modelini qurilgan. So'ngra, nazorat ostidagi ta'lim modeli barcha uchun so'rov javob ayblash uchun ishlatilgan. Yuragida, tadqiqotchilar bir million odamlarning mollarini ayblash uchun taxminan bir ming odamlar javob ishlatiladi. Bundan tashqari, tadqiqotchilar o'z qo'ng'iroqlar er bilan asoslangan, barcha 1,5 million odamlar uchun yashash taxminiy o'rnini taxmin. bu ikki bashorat qilish bug'-qachon taxmin boyligi va yashash-natijalarini taxmin joy demografik va Sog'liqni saqlash tadqiqotlari, oltin-standart an'anaviy so'rov (rasm 3.14) dan hisob-kitoblarga o'xshash edi.

Rasm 3.14: Blumenstock, Cadamuro va On (2015) dan natijalari. individual-darajasida, tadqiqotchilar o'z qo'ng'iroq yozuvlaridan kimningdir boylik taxmin bir oqilona ish qilish imkoniga ega bo'ldi. tuman darajadagi mol-boylik va yashash-natijalarini joyda individual darajadagi taxminlarga asoslangan edi bashorat Demografik va Sog'liqni saqlash tadqiqotlari, oltin-standart an'anaviy so'rov natijalariga o'xshash edi.

Rasm 3.14: dan natijalari Blumenstock, Cadamuro, and On (2015) . individual-darajasida, tadqiqotchilar o'z qo'ng'iroq yozuvlaridan kimningdir boylik taxmin bir oqilona ish qilish imkoniga ega bo'ldi. tuman darajadagi mol-boylik va yashash-natijalarini joyda individual darajadagi taxminlarga asoslangan edi bashorat Demografik va Sog'liqni saqlash tadqiqotlari, oltin-standart an'anaviy so'rov natijalariga o'xshash edi.

Shunday qilib, Blumenstock oltin-standart tadqiqot hisob-kitoblarga bilan solishtirish smetasini ishlab chiqarish raqamli iz ma'lumotlar bilan yondashuv birga tadqiqot ma'lumotlarni so'rab Amplified. Bu, ayniqsa, misol ham amplifike so'rash va an'anaviy tadqiqot usullari o'rtasidagi savdo-off ba'zi bayon. Birinchidan, amplifike so'rab bashorat qilish, ko'proq o'z vaqtida sezilarli darajada arzon, va yana donador edi. Lekin, boshqa tomondan, bu paytda, amplifike so'raydi bunday kuchli nazariy asosi yo'q. u yo'q bu ish va qachon, bu bir misol ko'rsatib emas bo'ladi. Bundan tashqari, amplifike kerakli yondashuv hali uning hisob-kitoblarga atrofida noaniqligi o'lchash uchun yaxshi yo'llarini yo'q. Biroq, amplifike kerakli statistika-model asosida post-tabaqalanishi uch katta joylarda chuqur yo'nalishlarga ega (Little 1993) , tuhmat (Rubin 2004) , va mayda-joy baholash (Rao and Molina 2015) oradan men rivojlanish bo'ladi, deb kutadi tez bo'lishi.

Amplifikatör kerakli muayyan vaziyatga maxsus bo'lishi mumkin bo'lgan asosiy retseptini quyidagicha. ikki ingredientlar va ikki qadam ham bor. ikki ingredientlar 1) (ya'ni keng ammo yupqa raqamli iz DataSet bor, u ko'p odamlarni emas, balki ma'lumotlarni har bir shaxslar haqida kerak) va (ya'ni tor, lekin qalin 2) so'rovnoma bor, u bor faqat bir necha kishi, lekin u siz odamlar haqida zarur ma'lumotlarni) mavjud. So'ngra, ikki qadam ham bor. Birinchidan, har ikki ma'lumot manbalari odamlar uchun, tadqiqot javob oldindan raqamli iz ma'lumotlarni ishlatib, bir mashina ta'lim modelini qurish. Keyingi, raqamli iz ma'lumotlar har bir tadqiqot javob ayblash uchun bu mashina ta'lim modelini foydalaning. Shunday qilib, siz, odamlar poda so'rayman, ularning javob oldindan uchun foydalanish mumkin o'sha odamlardan raqamli asar ma'lumotlar uchun qarash ba'zi savol bor, agar.

muammo da Blumenstock birinchi va ikkinchi urinish bilan taqqoslab ham tadqiqotlar so'roviga uchinchi davr yondashuvlar ikkinchi davrga o'tish haqida muhim saboq ko'rsatadi: boshlanishi oxiri emas. Ya'ni, ko'p marta, birinchi yondashuv yaxshi bo'lmaydi, lekin tadqiqotchilar ish davom bo'lsa, ishlar yaxshi olishingiz mumkin. raqamli yoshi ijtimoiy tadqiqotlar uchun yangi yondashuvlarni baholash paytida yana odatda, ikki alohida baholash qilish uchun muhim ahamiyatga ega: 1) Endi bu ishni qanday yaxshi va 2) siz bu ma'lumotlar manzara sifatida kelajakda ishlashi mumkin, deb o'ylayman, albatta, qanday qilib yaxshi o'zgarishlar va tadqiqotchilar sifatida muammoga ko'proq e'tibor bag'ishlashga. , Tadqiqotchilar baholash birinchi qanday (qanday yaxshi tadqiqotlar bu alohida parcha bo'lib) qilish uchun ta'lim-da, ikkinchi ko'pincha ko'proq muhimdir.