3.6.1 Amplified cer

Legătura între sondaj la urme digitale pot fi ca și cum cere tuturor întrebările dvs. în orice moment.

A cere, în general, vine în două categorii principale: anchete prin sondaj și recensăminte. anchete prin sondaj, în cazul în care aveți acces la un număr mic de oameni, poate fi flexibil, în timp util, și relativ ieftin. Cu toate acestea, anchetele prin sondaj, deoarece acestea se bazează pe un eșantion, sunt adesea limitate în rezoluția lor; cu o anchetă prin sondaj, este adesea dificil să se facă estimări cu privire la anumite regiuni geografice sau pentru anumite grupuri demografice. Recensămintele, pe de altă parte, încercarea de a interviu pentru toată lumea în populație. Ele au o mare rezoluție, dar ele sunt în general scumpe, înguste în zona de focalizare (acestea includ doar un mic număr de întrebări), și nu în timp util (se întâmplă pe un program fix, cum ar fi o dată la 10 ani) (Kish 1979) . Acum, imaginați-vă dacă cercetătorii ar putea combina cele mai bune caracteristici ale anchetelor prin sondaj și recensăminte; imagina daca cercetatorii ar putea cere la fiecare întrebare pentru toată lumea în fiecare zi.

Evident, acest lucru continuu, omniprezent, mereu la sondaj este un fel de fantezie științei sociale. Dar, se pare că putem începe să aproximeze acest lucru prin combinarea întrebărilor sondajului de la un număr mic de oameni cu urme digitale de la mulți oameni. Eu numesc acest tip de combinație amplificat cer. Dacă este făcută bine, s-ar putea ajuta să ne furnizează estimări care sunt mai locale (pentru zone geografice mai mici), granular (pentru grupuri demografice specifice) și, în timp util.

Un exemplu de amplificat întrebând vine din lucrarea lui Joshua Blumenstock, care a vrut să colecteze date care ar ajuta la dezvoltarea ghid în țările sărace. Mai precis, Blumenstock a dorit să creeze un sistem pentru a măsura bogăția și bunăstarea , care combină caracterul complet al unui recensământ cu flexibilitatea și frecvența unui studiu (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) , (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . De fapt, am descris deja lucrările lui Blumenstock pe scurt în capitolul 1.

Pentru a porni, Blumenstock un parteneriat cu cel mai mare furnizor de telefonie mobila din Rwanda. Compania i-au oferit înregistrările tranzacțiilor anonime din aproximativ 1,5 milioane de clienți care acoperă comportamentul din 2005 și 2009. Jurnalele conțin informații despre fiecare mesaj de apel și text, cum ar fi ora de începere, durata și locația geografică aproximativă a apelantului și receptor. Înainte de a începem să vorbim despre problemele statistice, merită subliniat că această primă etapă poate fi una dintre cele mai grele. Așa cum s-a descris în capitolul 2, cele mai multe date digitale de urmărire este inaccesibil cercetătorilor. Si, multe companii sunt pe bună dreptate ezită să împărtășească datele lor, deoarece este privat; că este clienții lor, probabil, nu se aștepta că înregistrările lor vor fi partajate în vrac cu cercetători. In acest caz, cercetatorii au luat masuri atent pentru a anonymize datele și activitatea lor a fost supravegheată de către o terță parte (de exemplu, IRB a acestora). Dar, în ciuda acestor eforturi, aceste date sunt , probabil , încă identificabile și probabil conțin informații sensibile (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Voi reveni la aceste întrebări de etică în capitolul 6.

Să ne amintim că Blumenstock a fost interesat în măsurarea bogăției și bunăstării. Însă, aceste trăsături nu sunt direct în înregistrările de apel. Cu alte cuvinte, aceste înregistrări de apel sunt incomplete pentru această cercetare, o trăsătură comună a urmelor digitale , care a fost discutată în detaliu în capitolul 2. Dar, se pare probabil că înregistrările de apel , probabil , au unele informații despre bogăția și bunăstarea. Așa că, o modalitate de a pune întrebarea Blumenstock ar putea fi: este posibil să se prevadă modul în care cineva va raspunde la un sondaj bazat pe datele lor de urme digitale? Dacă este așa, atunci întrebând câțiva oameni putem ghici răspunsurile tuturor.

Pentru a evalua acest lucru empiric, Blumenstock și de cercetare asistenți de la Kigali Institutul de Știință și Tehnologie numit un eșantion de aproximativ o mie de clienți de telefonie mobilă. Cercetatorii au explicat scopurile proiectului participanților, a cerut consimțământul lor de a lega răspunsurile sondajului la înregistrările de apel, iar apoi le-a cerut o serie de întrebări pentru a măsura bogăția lor și bunăstarea, cum ar fi "Dețineți un de radio? "și" Sunteți sigur că dețineți o bicicletă? "(a se vedea figura 3.11 pentru o listă parțială). Toți participanții la studiu au fost compensate financiar.

În continuare, Blumenstock a folosit o procedură în două etape comune în domeniul științei datelor: inginerie caracteristică urmată de învățare supravegheată. În primul rând, în etapa caracteristica de inginerie, pentru toată lumea care a fost intervievat, Blumenstock convertit înregistrările de apel într - un set de caracteristici despre fiecare persoană; oamenii de știință de date s-ar putea numi aceste caracteristici "caracteristici", iar oamenii de știință sociale le-ar numi "variabile." De exemplu, pentru fiecare persoană, Blumenstock calculat numărul total de zile cu activitate, numărul de persoane distincte o persoană care a fost în contact cu, suma de bani cheltuite pentru timpi de antenă, și așa mai departe. Critically, inginerie bună caracteristică necesită cunoștințe de setare de cercetare. De exemplu, în cazul în care este important să se facă distincția între apelurile interne și internaționale (ne-am putea aștepta ca oamenii care se numesc pe plan internațional să fie mai bogate), atunci acest lucru trebuie făcut la etapa caracteristica de inginerie. Un cercetător cu puțină înțelegere din Rwanda, s-ar putea să nu includă această caracteristică, iar apoi performanța predictivă a modelului va avea de suferit.

În continuare, în etapa de învățare supravegheată, Blumenstock a construit un model statistic pentru a prezice răspunsul sondaj pentru fiecare persoană în funcție de caracteristicile lor. În acest caz, Blumenstock utilizat de regresie logistică cu de 10 ori cross-validare, dar el ar fi putut folosi o varietate de alte metode de învățare statistică sau o mașină.

Deci, cât de bine a funcționat? A fost Blumenstock capabil să prezică răspunsuri la sondaj întrebări de genul "Nu dețineți un radio?" Și "Nu dețineți o bicicletă?", Folosind caracteristici derivate din înregistrările de apel? Un fel de. Exactitatea predicțiilor au fost mari pentru anumite trăsături (Figura 3.11). Dar, este întotdeauna important să se compare o metodă de predicție complexă împotriva unei alternative simple. În acest caz, o alternativă simplă este de a prezice că toată lumea va da răspunsul cel mai frecvent. De exemplu, 97,3% au raportat care deține un aparat de radio, deci, dacă Blumenstock a prezis că toată lumea va raporta un radio care deține el ar fi avut o precizie de 97,3%, ceea ce este surprinzător de asemănătoare cu îndeplinirea procedurii sale mai complexe (97,6% acuratețe). Cu alte cuvinte, toate datele fantezie și modelarea crescut acuratețea predicției de la 97,3% la 97,6%. Cu toate acestea, pentru alte întrebări, cum ar fi "Sunteți sigur că dețineți o bicicletă?", Predicțiile imbunatatit de la 54,4% la 67,6%. Mai mult, în general, Figura 3.12 arată pentru anumite trăsături Blumenstock nu a îmbunătățit cu mult dincolo de a face doar de predicție de referință simplu, dar pentru alte trasaturi au existat unele îmbunătățiri.

Figura 3.11: acuratețea predictivă pentru modelul statistic instruit cu înregistrările de apel. Rezultatele din tabelul 2 din Blumenstock (2014).

Figura 3.11: acuratețea predictivă pentru modelul statistic instruit cu înregistrările de apel. Rezultatele din tabelul 2 din Blumenstock (2014) .

Figura 3.12: Compararea acuratețe predictivă pentru modelul statistic instruit cu înregistrările de apel la simpla predicție de bază. Punctele sunt ușor jittered pentru a evita suprapunerea; a se vedea tabelul 2 din Blumenstock (2014) pentru valorile exacte.

Figura 3.12: Compararea acuratețe predictivă pentru modelul statistic instruit cu înregistrările de apel la simpla predicție de bază. Punctele sunt ușor jittered pentru a evita suprapunerea; a se vedea tabelul 2 din Blumenstock (2014) pentru valorile exacte.

La acest moment s-ar putea gândi că aceste rezultate sunt un pic dezamăgitoare, dar doar un an mai târziu, Blumenstock și doi colegi de -Gabriel Cadamuro si Robert On- a publicat o lucrare în știință cu rezultate substanțial mai bune (Blumenstock, Cadamuro, and On 2015) . Au existat două motive tehnice principale pentru îmbunătățirea: 1) au folosit metode mai sofisticate (de exemplu, o nouă abordare a facilitate de inginerie și un model mai sofisticat mașină de învățare) și 2), mai degrabă decât încercarea de a deduce răspunsurile la întrebările sondajului individuale (de exemplu, "Nu dețineți un radio?"), ei au încercat să deducă un indice de avere compozit.

Blumenstock si colegii sai au demonstrat performanța abordării lor în două moduri. În primul rând, au descoperit că pentru oamenii din eșantionul lor, ei ar putea face o treabă destul de bună de a prezice bogăția lor din înregistrările de apel (Figura 3.14). În al doilea rând, și tot mai important, Blumenstock si colegii sai au aratat ca procedura lor ar putea produce estimări de înaltă calitate ale distribuției geografice a bogăției în Rwanda. Mai precis, au folosit modelul lor de învățare mașină, care a fost instruit pe eșantionul de aproximativ 1.000 de oameni, pentru a prezice bogăția tuturor 1,5 milioane de oameni în înregistrările de apel. În plus, cu datele geospațiale încorporate în datele de apel (amintim că datele apelului include locația celui mai apropiat turn de celule pentru fiecare apel), cercetatorii au putut sa estimeze locul aproximativ de reședință al fiecărei persoane. Punerea acestor două estimări împreună, cercetarea a produs o estimare a distribuției geografice a bogăției abonat la granularitate spațială extrem de fină. De exemplu, acestea ar putea estima averea medie în fiecare din celulele 2148 Rwanda (cea mai mică unitate administrativă din țară). Aceste valori au fost estimate de avere atât de granule au fost dificil de verificat. Astfel, cercetatorii au agregate rezultatele lor pentru a produce estimări ale avuției medie de 30 de districte Rwanda. Aceste estimări la nivel de district au fost puternic legate de estimările de la un aur sondaj tradițional standard de, Studiul demografic și de sănătate rwandez (Figura 3.14). Cu toate că estimările din cele două surse au fost similare, estimările de la Blumenstock si colegii sai au fost de aproximativ 50 de ori mai ieftin și de 10 ori mai rapid (atunci când costul în măsurate în ceea ce privește costurile variabile). Această scădere dramatică a costurilor înseamnă că, mai degrabă decât să fie executați la fiecare câțiva ani, așa cum este standard pentru demografice si de sanatate Sondaje-hibrid de mic sondaj combinate cu mari de date de urme digitale ar putea fi rulat în fiecare lună.

Figura 3.13: Schema Blumenstock, Cadamuro, și On (2015). Date de apel de la compania de telefonie a fost transformată într-o matrice cu un rând pentru fiecare persoană și o coloană pentru fiecare caracteristică (adică variabilă). In continuare, cercetatorii au construit un model de învățare monitorizat pentru a prezice raspunsurile sondajului de persoana de matrice caracteristică. Apoi, modelul de învățare monitorizat a fost utilizat pentru imputarea răspunsurile sondajului pentru toată lumea. In esenta, cercetatorii au folosit raspunsurile de aproximativ o mie de oameni să se impute bogăția de aproximativ un milion de oameni. De asemenea, cercetatorii au estimat locul aproximativ de reședință pentru toți 1,5 milioane de persoane în funcție de locațiile apelurilor lor. Atunci când aceste două estimări au fost combinate, averea estimată și locul estimat de reședință-rezultatele au fost similare cu cele din demografic și de sănătate, un studiu tradițional standard de aur (Figura 3.14).

Figura 3.13: Schema Blumenstock, Cadamuro, and On (2015) . Date de apel de la compania de telefonie a fost transformată într-o matrice cu un rând pentru fiecare persoană și o coloană pentru fiecare caracteristică (de exemplu, variabilă). In continuare, cercetatorii au construit un model de învățare monitorizat pentru a prezice raspunsurile sondajului de persoana de matrice caracteristică. Apoi, modelul de învățare monitorizat a fost utilizat pentru imputarea răspunsurile sondajului pentru toată lumea. In esenta, cercetatorii au folosit raspunsurile de aproximativ o mie de oameni să se impute bogăția de aproximativ un milion de oameni. De asemenea, cercetatorii au estimat locul aproximativ de reședință pentru toți 1,5 milioane de persoane în funcție de locațiile apelurilor lor. Atunci când aceste două estimări au fost combinate, averea estimată și locul estimat de reședință-rezultatele au fost similare cu cele din demografic și de sănătate, un studiu tradițional standard de aur (Figura 3.14).

Figura 3.14: Rezultatele din Blumenstock, Cadamuro, și On (2015). La nivel individual, cercetatorii au putut sa faca un loc de muncă rezonabil, la estimarea averii cuiva din înregistrările lor de apel. Estimările s-au bazat pe estimări la nivel individual de avere și locul de reședință-rezultatele la nivel raional, care bogăția-au fost similare cu rezultatele din Ancheta demografic și de sănătate, un studiu tradițional standard de aur.

Figura 3.14: Rezultatele din Blumenstock, Cadamuro, and On (2015) . La nivel individual, cercetatorii au putut sa faca un loc de muncă rezonabil, la estimarea averii cuiva din înregistrările lor de apel. Estimările s-au bazat pe estimări la nivel individual de avere și locul de reședință-rezultatele la nivel raional, care bogăția-au fost similare cu rezultatele din Ancheta demografic și de sănătate, un studiu tradițional standard de aur.

In concluzie, Blumenstock lui amplificat solicitând abordarea combinată a datelor sondajului cu date digitale trace pentru a produce estimări comparabile cu estimările sondajului standard de aur. Acest exemplu special clarifică, de asemenea, unele dintre compromisuri între întrebând amplificate și metodele tradiționale de cercetare. În primul rând, estimările cer amplificate au fost mai mult în timp util, în mod substanțial mai ieftin, și mai detaliat. Dar, pe de altă parte, în acest moment, nu există o bază teoretică solidă pentru acest tip de cerut amplificat. Aceasta este, de exemplu, acesta nu arată când va funcționa și când nu. În plus, abordarea amplificată întrebând nu are încă modalități bune de a cuantifica incertitudinea în jurul estimărilor sale. Cu toate acestea, solicitându -a amplificat are legături profunde cu trei zone mari în pe bază de statistici model post-stratificare (Little 1993) , imputare (Rubin 2004) , și de estimare suprafață mică (Rao and Molina 2015) -și așa că se așteaptă ca progresul va să fie rapidă.

întrebând amplificata urmează o rețetă de bază care pot fi adaptate la situația dumneavoastră particulară. Există două ingrediente și două etape. Cele două componente sunt 1) o urmă de date CCD digital, care este larg, dar subțire (care este, ea are mulți oameni, dar nu informațiile de care aveți nevoie despre fiecare persoane) și 2), un studiu care este îngust, dar gros (care este, ea are doar câțiva oameni, dar are informațiile de care aveți nevoie despre acei oameni). Apoi, există doi pași. În primul rând, pentru oamenii din ambele surse de date, a construi un model de învățare mașină care utilizează date digitale pentru a urmelor de a prezice răspunsurile sondajului. Apoi, utilizați acel model de mașină de învățare pentru a impute răspunsurile sondajului tuturor celor din datele digitale urme. Astfel, în cazul în care există o întrebare pe care doriți să ceară o mulțime de oameni, uita-te pentru datele de urme digitale de la acei oameni care ar putea fi folosite pentru a prezice răspunsul lor.

Compararea prima si a doua incercare a lui Blumenstock la problema ilustrează, de asemenea, o lecție importantă despre tranziția de la a doua eră la abordările erei a treia a studiului de cercetare: la început nu este sfârșitul. Aceasta este, de multe ori, prima abordare nu va fi cel mai bun, dar dacă cercetătorii continuă de lucru, lucrurile se pot obține mai bine. Mai mult, în general, atunci când se evaluează noi abordări pentru cercetarea socială în era digitală, este important să se facă două evaluări distincte: 1) cât de bine face acest lucru acum și 2) cât de bine crezi că acest lucru s-ar putea lucra în viitor, ca peisajul de date schimbări și ca cercetători acorde mai multă atenție problemei. Deși cercetătorii sunt instruiți să facă primul tip de evaluare (cât de bună este această piesă de cercetare), al doilea este de multe ori mai importantă.