3.6.1 Amplified spør

Knytte undersøkelsen til digitale spor kan være som å spørre alle dine spørsmål til alle tider.

Spør vanligvis kommer i to hovedkategorier: utvalgsundersøkelser og folketellinger. Utvalgsundersøkelser, hvor du får tilgang til et lite antall mennesker, kan være fleksibel, tidsriktig og relativt billig. Men utvalgsundersøkelser, fordi de er basert på et utvalg, er ofte begrenset i sitt vedtak; med en utvalgsundersøkelse, er det ofte vanskelig å gjøre anslag om bestemte geografiske områder eller for bestemte demografiske grupper. Tellingene, på den andre, forsøke å intervjue alle i befolkningen. De har stor oppløsning, men de er generelt dyrt, smal i fokus (de bare har et lite antall spørsmål), og ikke rettidig (de skjer til faste tider, for eksempel hvert 10. år) (Kish 1979) . Nå forestille seg hvis forskerne kunne kombinere de beste egenskapene fra utvalgsundersøkelser og folketellinger; tenk om forskerne kan stille alle spørsmål til alle hver dag.

Selvfølgelig, denne kontinuerlige, allestedsnærværende, alltid-på undersøkelsen er en slags samfunnsvitenskapelig fantasy. Men viser det seg at vi kan begynne å tilnærme dette ved å kombinere undersøkelsen spørsmål fra et lite antall mennesker med digitale spor fra mange mennesker. Jeg kaller denne type kombinasjon forsterkes spørre. Hvis det gjøres riktig, kan det hjelpe oss gir anslag som er mer lokale (for mindre geografiske områder), mer detaljert (for bestemte demografiske grupper), og mer tidsriktig.

Et eksempel på forsterket forlangende kommer fra arbeidet med Joshua Blumenstok, som ønsket å samle inn data som ville hjelpe guide utvikling i fattige land. Mer spesifikt Blumenstok ønsket å lage et system for å måle velstand og trivsel som kombinfullstendigheten av en folketelling med fleksibiliteten og hyppigheten av en undersøkelse (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Faktisk har jeg allerede beskrevet Blumenstok arbeid kort i kapittel 1.

For å starte, Blumenstok inngått samarbeid med den største mobiloperatøren i Rwanda. Selskapet ga ham anonymiserte transaksjonen poster fra rundt 1,5 millioner kunder som dekker atferd fra 2005 og 2009. Loggene inneholder informasjon om hver samtale og tekstmelding som starttid, varighet, og omtrentlig geografisk plassering av den som ringer og mottaker. Før vi begynner å snakke om de statistiske problemene, er det verdt å påpeke at dette første trinnet kan være en av de vanskeligste. Som beskrevet i kapittel 2, er de fleste digitale spor data utilgjengelige for forskerne. Og mange bedrifter er med rette nølende til å dele sine data fordi det er privat; som er deres kunder sannsynligvis ikke forvente at deres poster vil bli delt i bulk-med forskere. I dette tilfellet, forskerne tok forsiktige skritt for å anonymisere dataene og deres arbeid ble overvåket av en tredjepart (dvs. deres IRB). Men til tross for disse tiltakene, disse dataene er trolig fortsatt identifiserbar og de ​​sannsynligvis inneholder sensitiv informasjon (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Jeg kommer tilbake til disse etiske spørsmål i kapittel 6.

Husker at Blumenstok var interessert i å måle velstand og trivsel. Men, disse trekkene er ikke direkte i samtalen postene. Med andre ord, disse kaller postene er ufullstendig for denne forskningen, en felles trekk ved digitale spor som ble diskutert i detalj i kapittel 2. Men, virker det sannsynlig at samtalen postene sannsynligvis ha litt informasjon om rikdom og trivsel. Så, en måte å spørre Blumenstok 'spørsmål kan være: er det mulig å forutsi hvordan noen vil svare på en undersøkelse basert på sine digitale spor data? Hvis ja, så ved å stille noen mennesker kan vi gjette svarene på alle andre.

For å vurdere dette empirisk, Blumenstok og forskningsassistenter fra Kigali Institute of Science and Technology kalles en prøve på om lag tusen mobilkunder. Forskerne forklarte målene med prosjektet til deltakerne, ba om deres samtykke til å knytte undersøkelsen svar til samtalen postene, og deretter bedt dem en rekke spørsmål for å måle sin rikdom og trivsel, slik som "Eier du en radio? "og" Har du eier en sykkel? "(se figur 3.11 for en ufullstendig liste). Alle deltakerne i undersøkelsen ble kompensert økonomisk.

Deretter Blumenstok brukte en to-trinns prosedyre vanlig i datavitenskap: funksjonen ingeniørfulgt av veiledet læring. Først i funksjonen ingeniør skritt, for alle som ble intervjuet, Blumenstok konverteres samtalen postene til et sett av karakteristika om hver person; data forskere kan kalle disse egenskapene "funksjoner" og samfunnsvitere vil kalle dem "variabler." For eksempel, for hver person, Blumenstok beregnet antall dager med aktivitet, antall forskjellige mennesker en person har vært i kontakt med, hvor mye penger brukt på lufttett, og så videre. Kritisk, krever god funksjon engineering kunnskap av forskningen innstillingen. For eksempel, hvis det er viktig å skille mellom nasjonale og internasjonale samtaler (vi kan forvente at folk som kaller internasjonalt for å være rikere), så dette må gjøres på funksjonen ingeniør trinn. En forsker med liten forståelse for Rwanda har kanskje ikke denne funksjonen, og deretter prediktiv resultatene av modellen vil lide.

Deretter i en overvåket læring trinnet, Blumenstok bygget en statistisk modell for å forutsi undersøkelsen respons for hver person basert på deres egenskaper. I dette tilfellet Blumenstok brukt logistisk regresjon med 10-fold kryssvalidering, men han kunne ha brukt en rekke andre statistiske eller maskin læring tilnærminger.

Så hvor godt gjorde det? Var Blumenstok i stand til å forutsi svar på undersøkelsen spørsmål som "Har du eier en radio?" Og "Har du eier en sykkel?" Ved hjelp av funksjoner som stammer fra ringe poster? På en måte. Nøyaktigheten av spådommer var høy for noen trekk (figur 3.11). Men det er alltid viktig å sammenligne en kompleks prediksjonsmetode mot et enkelt alternativ. I dette tilfelle er et enkelt alternativ til å forutsi at alle vil gi den mest vanlige svaret. For eksempel, 97,3% rapporterte å eie en radio så hvis Blumenstok hadde spådd at alle ville rapportere eie en radio han ville ha hatt en nøyaktighet på 97,3%, noe som er overraskende lik resultatene av hans mer komplisert prosedyre (97,6% nøyaktighet). Med andre ord, alle fancy data og modellering økte nøyaktigheten av forutsigelsen fra 97,3% til 97,6%. Men for andre spørsmål, som "Eier du en sykkel?", Spådommer forbedret fra 54,4% til 67,6%. Mer generelt, figur 3.12 viser for noen trekk Blumenstok ikke forbedre mye utover bare å gjøre det enkle baseline prediksjon, men som for andre egenskaper det var noen forbedring.

Figur 3.11: Predictive nøyaktighet for statistisk modell trent med ringe poster. Resultater fra tabell 2 i Blumenstok (2014).

Figur 3.11: Predictive nøyaktighet for statistisk modell trent med ringe poster. Resultater fra tabell 2 i Blumenstock (2014) .

Figur 3.12: Sammenligning av prediktiv nøyaktighet for statistisk modell trent med ringe poster til enkel baseline prediksjon. Poeng blir litt jittered å unngå overlapping; se tabell 2 i Blumenstok (2014) for eksakte verdier.

Figur 3.12: Sammenligning av prediktiv nøyaktighet for statistisk modell trent med ringe poster til enkel baseline prediksjon. Poeng blir litt jittered å unngå overlapping; se tabell 2 i Blumenstock (2014) for eksakte verdier.

På dette punktet kan du kanskje tenke at disse resultatene er litt skuffende, men bare ett år senere, Blumenstok og to kolleger-Gabriel Cadamuro og Robert On-publisert en artikkel i Science med vesentlig bedre resultater (Blumenstock, Cadamuro, and On 2015) . Det var to hoved tekniske årsaker til forbedring: 1) de brukte mer sofistikerte metoder (dvs. til en ny tilnærming har engineering og en mer sofistikert maskin læring modell) og 2) i stedet for å forsøke å antyde svar på enkelte spørsmål i undersøkelsen (for eksempel "eier du en radio?"), forsøkte de å antyde en sammensatt rikdom indeks.

Blumenstok og kolleger viste resultatene av sin tilnærming på to måter. Først fant de at for folk i sin prøve, kunne de gjør en ganske god jobb med å forutsi sin formue fra ringe poster (figur 3.14). For det andre, og stadig mer viktigere, Blumenstok og kolleger viste at deres prosedyre kunne produsere høykvalitets estimater av den geografiske fordelingen av rikdom i Rwanda. Mer spesifikt, de brukte sin maskin læring modellen, som ble trent på deres utvalg på rundt 1000 mennesker, å forutsi vell av alle 1,5 millioner mennesker i samtalen postene. Videre med kartdata innebygd i samtaledata (husker at samtalen data inkluderer plasseringen av den nærmeste basestasjon for hver samtale), var forskerne i stand til å anslå omtrentlig bosted for hver person. Å sette disse to estimatene sammen, forskning produsert et estimat av den geografiske fordelingen av abonnent rikdom ved ekstremt fine romlige detalj. For eksempel kan de beregne gjennomsnittlig formue i hver av Rwandas 2148 celler (den minste administrative enhet i landet). De anslåtte formue verdiene var så detaljert at de var vanskelig å kontrollere. Så forskerne samlet sine resultater for å gjøre estimater av gjennomsnittlig vell av Rwandas 30 distrikter. Disse bydel nivå estimater var sterkt knyttet til estimatene fra en gullstandard tradisjonell undersøkelse, Rwandas Demographic and Health Survey (figur 3.14). Selv om estimatene fra de to kildene var lik, estimatene fra Blumenstok og kolleger var omtrent 50 ganger billigere og 10 ganger raskere (når kostnadene i målt i variable kostnader). Denne dramatiske nedgangen i pris betyr at i stedet for å bli kjørt noen få år-som er standard for Demografiske og helseundersøkelser-hybrid av liten undersøkelse kombinert med store digitale trasedata kan kjøres hver måned.

Figur 3.13: Skjematisk av Blumenstok, Cadamuro, og On (2015). Samtaledata fra telefonen selskapet ble omdannet til en matrise med en rad for hver person og en kolonne for hver funksjon (dvs. variabel). Deretter forskerne bygget en overvåket læring modell for å forutsi undersøkelsen svar fra personen ved funksjonen matrise. Deretter ble overvåket læring modellen brukes til å tilregner undersøkelsen svarene for alle. I hovedsak forskerne brukte svarene på rundt tusen mennesker å finne en estimert formue på rundt én million mennesker. Også forskerne beregnet omtrentlig bosted for alle 1,5 millioner mennesker basert på plasseringen av sine samtaler. Når disse to estimatene ble kombinert-estimert formue og estimert bosted-resultatene var lik estimater fra den demografiske og Health Survey, en gull-standard tradisjonell undersøkelsen (figur 3.14).

Figur 3.13: Skjematisk av Blumenstock, Cadamuro, and On (2015) . Samtaledata fra telefonen selskapet ble omdannet til en matrise med en rad for hver person og en kolonne for hver funksjon (dvs. variabel). Deretter forskerne bygget en overvåket læring modell for å forutsi undersøkelsen svar fra personen ved funksjonen matrise. Deretter ble overvåket læring modellen brukes til å tilregner undersøkelsen svarene for alle. I hovedsak forskerne brukte svarene på rundt tusen mennesker å finne en estimert formue på rundt én million mennesker. Også forskerne beregnet omtrentlig bosted for alle 1,5 millioner mennesker basert på plasseringen av sine samtaler. Når disse to estimatene ble kombinert-estimert formue og estimert bosted-resultatene var lik estimater fra den demografiske og Health Survey, en gull-standard tradisjonell undersøkelsen (figur 3.14).

Figur 3.14: Resultater fra Blumenstok, Cadamuro, og On (2015). På individnivået, var forskerne i stand til å gjøre en fornuftig jobb på å forutsi andres rikdom fra sine ringe poster. Anslagene for distriktet-nivå rikdom-som var basert på et individuelt plan estimater av rikdom og bosted-resultatene var lik resultatene fra demografiske og Health Survey, en gull-standard tradisjonelle undersøkelsen.

Figur 3.14: Resultater fra Blumenstock, Cadamuro, and On (2015) . På individnivået, var forskerne i stand til å gjøre en fornuftig jobb på å forutsi andres rikdom fra sine ringe poster. Anslagene for distriktet-nivå rikdom-som var basert på et individuelt plan estimater av rikdom og bosted-resultatene var lik resultatene fra demografiske og Health Survey, en gull-standard tradisjonelle undersøkelsen.

I konklusjonen, Blumenstok er forsterket spør tilnærming kombinert survey data med digitale spor data til å gjøre estimater sammenlignbare med gull-standard undersøkelse estimater. Dette eksempelet presiserer også noen av de avveininger mellom forsterket forlangende og tradisjonelle undersøkelsesmetoder. Først de forsterkede ber estimatene var mer tidsriktig, vesentlig billigere, og mer detaljert. Men på den annen side, på dette tidspunkt, er det ikke en sterk teoretisk grunnlag for denne type av forsterket ber. Det er ikke dette ett eksempel ikke når det vil fungere, og når det ikke fungerer. Videre betyr det forsterkede forlangende tilnærmingen ikke ennå har gode måter å kvantifisere usikkerheten rundt estimatene. Imidlertid har forsterket forlangende dype forbindelser til tre store områder i statistikk-modellbasert post-stratifisering (Little 1993) , imputering (Rubin 2004) , og små-området estimering (Rao and Molina 2015) -og så jeg forventer at fremgangen vil være rask.

Amplified spør følger en enkel oppskrift som kan skreddersys til din situasjon. Det er to ingredienser og to trinn. De to ingrediensene er 1) et digitalt spor datasett som er bred, men tynn (det vil si, den har mange mennesker, men ikke den informasjonen du trenger om hver personer) og 2) en undersøkelse som er smale, men tykk (det vil si, det har bare noen få mennesker, men det har den informasjonen du trenger om dem). Deretter, er det to trinn. Først, for folket i begge datakilder, bygge en maskin læring modell som bruker digitale spor data til å forutsi undersøkelsen svar. Deretter bruker denne maskinen læring modellen å finne en estimert undersøkelsen svar til alle i den digitale spor data. Dermed, hvis det er noen spørsmål som du ønsker å spørre til mange mennesker, se etter digitale spordata fra de menneskene som kan brukes til å forutsi deres svar.

Sammenligning Blumenstok første og andre forsøk på problemet illustrerer også en viktig lekse om overgangen fra andre epoken til tredje era tilnærminger for å kartlegge forskning: begynnelsen er ikke slutten. Det vil si, mange ganger, den første tilnærmingen vil ikke være det beste, men hvis forskerne fortsatt arbeider, kan ting bli bedre. Mer generelt, når man skal vurdere nye tilnærminger til samfunnsforskning i den digitale tidsalder, er det viktig å gjøre to forskjellige evalueringer: 1) hvor godt fungerer dette nå, og 2) hvor godt tror du dette kan fungere i fremtiden som data landskapet endringer og som forskere vie mer oppmerksomhet til problemet. Selv om forskere opplært til å gjøre den første typen evaluering (hvor bra er dette spesielt stykke forskning), den andre er ofte viktigere.