3.6.1 tələb Amplified

Digital izləri üçün sorğu keçid bütün dövrlərdə hər kəs sizin sualların kimi ola bilər.

nümunə sorğular və siyahıyaalmalar: Qiymət ümumiyyətlə iki əsas kateqoriyaya gəlir. insanların bir az sayda daxil Sample sorğular, çevik vaxtında və nisbətən ucuz ola bilər. Onlar nümunə əsasında, çünki Lakin, nümunə sorğular, tez-tez onların həlli məhduddur; nümunə sorğu ilə, xüsusi coğrafi regionlar haqqında və ya xüsusi demoqrafik qrupları üzrə hesablamaları üçün tez-tez çətindir. Siyahıyaalmalar, digər tərəfdən, əhalinin hər kəs müsahibə üçün cəhd edir. Onlar böyük qətnamə var, amma ümumiyyətlə, bahalı diqqət mərkəzində dar (yalnız suallara bir az sayda daxildir), və (belə hər 10 il, sabit qrafik üzrə baş) deyil vaxtında (Kish 1979) . tədqiqatçılar nümunə sorğular və siyahıyaalınması yaxşı xüsusiyyətləri birləşdirmək bilər, əgər İndi təsəvvür; tədqiqatçılar hər gün, hər kəs hər sual bilər təsəvvür.

Aydındır ki, bu davamlı, yerdə, həmişə-on sorğu sosial elm fantaziya bir növüdür. Lakin, biz bir çox insanların digital izləri ilə insanların kiçik bir sıra sorğu sual birləşən bu təxmini başlaya bilər ki, görünür. Mən birləşməsi bu cür xahiş amplified çağırırıq. yaxşı, bu, bizə (kiçik coğrafi sahələr üçün) daha yerli smeta (xüsusi demoqrafik qrupları üçün) daha ayrıntılı və daha çox vaxtında təmin kömək edə bilər.

amplified xahiş Məsələn, yoxsul ölkələrdə guide inkişaf kömək edəcək məlumatları toplamaq istəyirdi Joshua Blumenstock, iş gəlir. Daha konkret desək, Blumenstock sorğunun rahatlıq və tezlik ilə siyahıya tamlığı birgə sərvət və rifah ölçmək üçün bir sistem yaratmaq istəyirdi (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Əslində, mən artıq 1-ci fəsildə qısa Blumenstock iş təsvir etdik.

Başlamaq üçün, Blumenstock Ruanda ən böyük mobil telefon təminatçınız ilə əməkdaşlıq. Şirkət belə start vaxtı, müddəti və zəng və alıcı təxmini coğrafi 2005-ci və 2009-cu logs hər zəng və mətn mesajı haqqında məlumat olan davranış əhatə edən təxminən 1.5 milyon müştərilərin ona anonim əməliyyat uçotunun təmin. biz statistik məsələlər haqqında söhbət başlamaq əvvəl, bu ilk addım ağır biri ola bilər ki, işarə dəyər. 2-ci fəsildə göstərildiyi kimi, ən digital iz data tədqiqatçılar üçün əlçatmaz edir. Və bir çox şirkətlər özəl çünki onların məlumatları bölüşmək üçün haqlı tərəddüd edir; ki, öz müştərilərinə yəqin ki, onların uçotunun paylaşılan olacaq tədqiqatçılar toplu-ilə gözləmirdim edir. Bu halda, tədqiqatçılar data anonymize ehtiyatlı addımlar atmışdır və onların iş bir üçüncü tərəf (yəni, onların IRB) tərəfindən nəzarət edilmişdir. Lakin, bu səylərə baxmayaraq, bu məlumatlar hələ də yəqin ki müəyyən edilə bilən və onlar çox güman ki həssas məlumat ehtiva (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Mən Fəsil 6 bu etik suala qayıtmaq lazımdır.

Blumenstock sərvət və rifah ölçü maraqlı olduğunu xatırlayıram. Lakin, bu əlamətlərin zəng uçotunun birbaşa deyil. Başqa sözlə, bu zəng qeydlər bu araşdırma Fəsil 2 ətraflı müzakirə olunub digital izləri ümumi xüsusiyyət üçün natamam Lakin, zəng qeydlər yəqin ki, sərvət və rifah haqqında bəzi məlumatlar var ki, çox güman görünür. Belə ki, Blumenstock sualı ola bilər xahiş bir yol: Bu kimsə onların digital iz məlumatlar əsasında araşdırmaya cavab necə proqnozlaşdırmaq mümkündür? Əgər belədirsə, onda bir neçə nəfər xahiş biz hər kəs cavab tahmin edə bilərsiniz.

empirically bu qiymətləndirmək üçün, Kigali Elm İnstitutu və Texnologiya Blumenstock və araşdırma vəzifəlisi təxminən min cib telefonu müştərilərin bir nümunə adlandırıb. Tədqiqatçılar bir sahibi edirsiniz belə "kimi öz mallarını və rifah ölçmək üçün onlara bir sıra sual soruşdu, sonra iştirakçılara layihənin məqsədləri izah zəng uçotunun sorğu cavab keçid onların razılığı istədi və radio "və" bir velosiped sahibi edirsiniz? "(qismən siyahısı üçün 3.11 Şəkil bax). Sorğuda bütün iştirakçıları maliyyə kompensasiya edilmişdir.

nəzarət öyrənmə izlədi xüsusiyyət engineering: Next, Blumenstock data elm ümumi bir-iki addım proseduru istifadə olunur. Birincisi, xüsusiyyət engineering addım, müsahibə, hər kəs üçün, Blumenstock hər bir şəxs haqqında xüsusiyyətləri bir sıra daxil zəng qeydlər konvertasiya; data elm "xüsusiyyətləri" bu xüsusiyyətləri zəng edə bilər və sosial elm onlara zəng edirəm "dəyişənlərin." Məsələn, hər bir şəxs üçün, Blumenstock fəaliyyəti ilə gün ümumi sayı hesablanır bir adam ilə əlaqə olmuşdur fərqli insanların sayı, məbləği pul belə efir vaxtı sərf və. Tənqidi, yaxşı xüsusiyyət engineering tədqiqat qəbulu bilik tələb edir. Bu (biz beynəlxalq zəng insanlar zəngin olmasını gözləyirik bilər) yerli və beynəlxalq zənglər ayırmaq üçün vacibdir, əgər Məsələn, sonra bu xüsusiyyət mühəndis addım edilməlidir. Ruanda az anlayışı ilə tədqiqatçı bu xüsusiyyət daxildir bilər, və sonra model sadələşdirilmiş performance dözəcəyik.

Next, nəzarət öyrənmək addım, Blumenstock onların xüsusiyyətləri əsasında hər bir şəxs üçün sorğu cavab proqnozlaşdırmaq bir statistik model inşa edilmişdir. Bu halda, Blumenstock 10 qat cross-qiymətləndirmə ilə maddi-texniki reqressiya istifadə, lakin o, digər statistik və ya maşın öyrənmə yanaşmaları bir sıra istifadə edə bilər.

Belə ki, necə yaxşı iş idi? Blumenstock "Siz? Radio sahibi edirsiniz" və kimi suallar sorğu cavab proqnozlaşdırmaq edə idi "Bir velosiped sahibi edirsiniz?" Zəng uçotunun əldə xüsusiyyətləri istifadə? Sort. proqnozlar düzgünlüyünü bəzi əlamətlərin (Şəkil 3.11) üçün yüksək idi. Lakin, sadə alternativ qarşı kompleks proqnozlaşdırılması üsulu müqayisə etmək həmişə vacibdir. Bu halda, bir sadə alternativ hər kəs ən ümumi cavab verəcək ki, proqnozlaşdırmaq edir. Məsələn, 97,3% Blumenstock hər kəs onun daha mürəkkəb proseduru (97,6% dəqiqlik) icrası təəccüblü oxşar 97.3%, bir dəqiqlik var ki, bir radio malik hesabat ki proqnozlaşdırılır əgər belə bir radio malik yayıb. Başqa sözlə, bütün xülya məlumat və modelləşdirmə 97,6% -ə 97.3% -dən proqnozlaşdırılması düzgünlüyünü artıb. Lakin, kimi digər məsələlər üçün "Bir velosiped sahibi edirsiniz?" Proqnozlar 67,6% -ə 54,4% -dən yaxşılaşmışdır. Ümumiyyətlə, Şəkil 3.12 göstərir bəzi əlamətlərin üçün Blumenstock yalnız sadə baza proqnoz edilməsi kənarda çox inkişaf etməyib, lakin digər əlamətlərin bəzi inkişaf yaşandı.

Şəkil 3.11: Zəng qeydlər təlim statistik model üçün Proqnoz dəqiqlik. Blumenstock (2014) Cədvəl 2 nəticələri.

Şəkil 3.11: Zəng qeydlər təlim statistik model üçün Proqnoz dəqiqlik. Cədvəl 2-dən Netice Blumenstock (2014) .

Şəkil 3.12: sadə baza proqnozlaşdırılması üçün zəng qeydləri ilə təlim statistik model üçün sadələşdirilmiş dəqiqliyi müqayisəsi. Points qədər üst-üstə düşür qarşısını almaq üçün jittered olunur; dəqiq dəyərlər üçün Blumenstock (2014) Cədvəl 2 görürük.

Şəkil 3.12: sadə baza proqnozlaşdırılması üçün zəng qeydləri ilə təlim statistik model üçün sadələşdirilmiş dəqiqliyi müqayisəsi. Points qədər üst-üstə düşür qarşısını almaq üçün jittered olunur; Cədvəl 2 görəcəksiniz Blumenstock (2014) dəqiq dəyərlər üçün.

Bu nöqtədə bu nəticələr yalnız bir il sonra, Blumenstock iki həmkarları-Gabriel Cadamuro və Robert On-elm bir kağız əhəmiyyətli dərəcədə daha yaxşı nəticələr ilə bir az xəyal qırıqlığı, lakin düşünür ola bilər (Blumenstock, Cadamuro, and On 2015) . onlar daha mürəkkəb üsullardan istifadə 1) (yəni, yeni bir yanaşma mühəndislik və daha mürəkkəb maşın təlim model xüsusiyyət) və 2) daha (məsələn, fərdi sorğu suallara cavab nəticə çıxarmaq üçün cəhd daha iki əsas texniki yaxşılaşdırılması üçün səbəblər var idi "bir radio sahibi edirsiniz?"), onlar bir kompozit sərvət indeksi çıxarmaq üçün cəhd.

Blumenstock və həmkarları iki yolla öz yanaşma performans nümayiş etdirdi. Birincisi, onlar nümunə insanlar üçün, onlar zəng uçotunun (Şəkil 3.14) və öz mallarını proqnozlaşdırılması olduqca yaxşı bir iş edə bilər ki, tapılmadı. İkincisi, və daha önəmlisi, Blumenstock və həmkarları onların proseduru Ruanda sərvət coğrafi paylanması yüksək keyfiyyətli təxminlər istehsal edə bilər ki, göstərdi. Daha konkret desək, onlar zəng uçotunun bütün 1,5 milyon insanların mallarını proqnozlaşdırmaq 1000 adam onların nümunə təlim edildi maşın təlim model istifadə. Bundan əlavə, zəng data daxil yerleşim data ilə (zəng data hər zəng üçün yaxın mobil qala yeri daxildir Xatırladaq ki), tədqiqatçılar hər bir şəxsin yaşayış təxmini yerini qiymətləndirmək bilmişlər. birlikdə bu iki hesablamalarına verilməsi, tədqiqat çox gözəl məkan granularity da abunəçi sərvət coğrafi paylanması qiymətləndirilməsi istehsal. Məsələn, Rvanda 2148 hüceyrələri (ölkədə kiçik inzibati vahid) hər orta sərvət qiymətləndirmək bilər. Bu proqnozlaşdırılır sərvət dəyərləri onlar yoxlamaq üçün çətin idi, belə ki, dənəvər idi. Belə ki, tədqiqatçılar Rvanda 30 rayonlarında orta sərvəti hesablamalarına istehsal onların nəticələri məcmu. Bu rayon səviyyəli hesablamalarına güclü bir qızıl standart ənənəvi sorğu alınan təxminlərə ilə bağlı olub, Ruanda Demoqrafiya və Sağlamlıq Sorğusu (Şəkil 3.14). iki mənbədən təxminlər oxşar idi, baxmayaraq ki, Blumenstock və həmkarları hesablamalarına (qiymət dəyişən xərcləri baxımından ölçülür) təxminən 50 dəfə ucuz və 10 dəfə daha sürətli idi. dəyəri bu dramatik azalma daha çox bir neçə il kimi idarə olunur ki,-Sorğular böyük digital iz data ilə birlikdə kiçik sorğu hibrid hər ay run bilər Demoqrafiya və Sağlamlıq üçün standart deməkdir.

Şəkil 3.13: Blumenstock, Cadamuro sxematik və On (2015). telefon şirkəti Call data hər bir şəxs üçün bir sıra və hər bir xüsusiyyət (yəni, dəyişən) üçün bir sütun ilə bir matrix çevrildi. Next, tədqiqatçılar xüsusiyyət matrix ilə şəxs sorğu cavab proqnozlaşdırmaq üçün bir nəzarət öyrənmə model inşa edilmişdir. Sonra nəzarət öyrənmə model hər kəs üçün sorğu cavab hesablanması üçün istifadə edilmişdir. Əslində, tədqiqatçılar təxminən bir milyon insanın sərvət hesablanması üçün təxminən min adam cavab istifadə. Həmçinin, tədqiqatçılar onların zənglər yerlərdə əsasında bütün 1,5 milyon insanlar üçün yaşayış təxmini yerini qiymətləndirib. Bu iki təxminlər buxar-zaman təxmin sərvət və yaşayış-nəticələrinin təxmin yer Demoqrafiya və Sağlamlıq Sorğusu, qızıl standart ənənəvi sorğu (Şəkil 3.14) alınan təxminlərə oxşar idi.

Şəkil 3.13: sxematik Blumenstock, Cadamuro, and On (2015) . telefon şirkəti Call data hər xüsusiyyət (yəni, dəyişən) üçün hər bir şəxs üçün bir sıra və bir sütun ilə matrix çevrildi. Next, tədqiqatçılar xüsusiyyət matrix ilə şəxs sorğu cavab proqnozlaşdırmaq üçün bir nəzarət öyrənmə model inşa edilmişdir. Sonra nəzarət öyrənmə model hər kəs üçün sorğu cavab hesablanması üçün istifadə edilmişdir. Əslində, tədqiqatçılar təxminən bir milyon insanın sərvət hesablanması üçün təxminən min adam cavab istifadə. Həmçinin, tədqiqatçılar onların zənglər yerlərdə əsasında bütün 1,5 milyon insanlar üçün yaşayış təxmini yerini qiymətləndirib. Bu iki təxminlər buxar-zaman təxmin sərvət və yaşayış-nəticələrinin təxmin yer Demoqrafiya və Sağlamlıq Sorğusu, qızıl standart ənənəvi sorğu (Şəkil 3.14) alınan təxminlərə oxşar idi.

Şəkil 3.14: Blumenstock, Cadamuro və On (2015) və nəticələri. fərdi səviyyədə, tədqiqatçılar onların zəng qeydlər kiminsə sərvət proqnozlaşdırılması bir ağlabatan iş bacardıq. rayon səviyyəli sərvət-dövlət və yaşayış-nəticələrinin yerinə fərdi səviyyədə hesablamalarına əsaslanır qiymətləndirilməsi Demoqrafiya və Sağlamlıq Sorğusu, qızıl standart ənənəvi sorğunun nəticələrinə oxşar idi.

Şəkil 3.14: alınan nəticələr Blumenstock, Cadamuro, and On (2015) . fərdi səviyyədə, tədqiqatçılar onların zəng qeydlər kiminsə sərvət proqnozlaşdırılması bir ağlabatan iş bacardıq. rayon səviyyəli sərvət-dövlət və yaşayış-nəticələrinin yerinə fərdi səviyyədə hesablamalarına əsaslanır qiymətləndirilməsi Demoqrafiya və Sağlamlıq Sorğusu, qızıl standart ənənəvi sorğunun nəticələrinə oxşar idi.

Sonda Blumenstock qızıl standart sorğu hesablamalarına ilə müqayisə hesablamalarına istehsal digital iz data ilə yanaşma birlikdə sorğu xahiş amplified. Bu xüsusi nümunə də amplified xahiş və ənənəvi sorğu üsulları arasında ticarət-off bəzi aydınlaşdırır. Birincisi, amplified xahiş qiymətləndirmələr, daha vaxtında əhəmiyyətli dərəcədə ucuz və daha dənəvər idi. Amma digər tərəfdən, bu dəfə də amplified xahiş bu cür güclü nəzəri əsasları yoxdur. zaman deyil bu iş və zaman ki, bu bir nümunə göstərmək deyil olunur. Bundan əlavə, amplified xahiş yanaşma hələ hesablamalarına ətrafında qeyri-müəyyənlik hesablamaq üçün yaxşı yolları yoxdur. Lakin, amplified xahiş statistika-model-based post-təbəqələşmə üç böyük sahələrdə dərin əlaqələri var (Little 1993) , imputation (Rubin 2004) , və kiçik ərazi qiymətləndirilməsi (Rao and Molina 2015) Və mən irəliləyiş gözləyirik sürətli ola bilər.

Amplified xahiş xüsusi vəziyyət üçün uyğun ola bilər ki, bir əsas resept edir. iki maddələr və iki addımlar var. iki maddələr 1) (ki, geniş, lakin nazik bir digital iz verilənlər bazasının, bu bir çox insanlar deyil, məlumat hər bir şəxslər haqqında lazım olan) və (ki, dar, lakin qalın 2) sorğu var, o yalnız bir neçə nəfər, ancaq insanlar haqqında lazım olan məlumatları) var. Sonra iki addımlar var. Birincisi, həm məlumat mənbələri insanlar üçün, sorğu cavab proqnozlaşdırmaq digital iz data istifadə bir maşın təlim model qurmaq. Next, digital iz data hər kəsin sorğu cavab hesablanması ki, maşın öyrənmə model istifadə edin. Belə ki, insanların çox xahiş onların cavab proqnozlaşdırmaq üçün istifadə edilə bilər ki, insanlar digital iz məlumat üçün baxmaq istəyirəm bir sual yoxdur.

problem Blumenstock birinci və ikinci cəhd müqayisə də araşdırma sorğu üçüncü dövr yanaşmalar ikinci dövründən keçid haqqında mühüm dərs göstərir: başlanğıcı sonu deyil. Bu, çox dəfə, ilk yanaşma yaxşı olmayacaq, lakin tədqiqatçılar iş davam əgər, hər şeyi daha yaxşı əldə edə bilərsiniz. digital yaş sosial tədqiqatçılar üçün yeni yanaşmalar qiymətləndirən zaman Ümumiyyətlə, bu iki fərqli qiymətləndirmələr etmək vacibdir: 1) İndi bu çalışır necə və 2) Bu data landşaft kimi gələcəkdə iş bilər edirəm necə yaxşı dəyişikliklər və tədqiqatçılar kimi problemə daha çox diqqət ayıracaq. , Tədqiqatçılar qiymətləndirilməsi ilk növ (necə yaxşı tədqiqat bu parça) etmək üçün təlim baxmayaraq, ikinci daha çox vacibdir.