3.6.2 Amplified spørger

Amplified spørger ved hjælp af en prædiktiv model til at kombinere undersøgelsesdata fra et par personer med en stor datakilde fra mange mennesker.

En anden måde at kombinere undersøgelse og store datakilder på er en proces, som jeg vil kalde forstærkede spørger . Ved forstærket spørger en forsker en prædiktiv model til at kombinere en lille mængde undersøgelsesdata med en stor datakilde for at producere estimater på en skala eller granularitet, der ikke ville være muligt med hver enkelt datakilde individuelt. Et vigtigt eksempel på forstærket spørg kommer fra Joshua Blumenstocks arbejde, som ønskede at indsamle data, der kunne hjælpe med at guide udviklingen i fattige lande. Tidligere havde forskere, der indsamlede denne slags data, generelt en af ​​to metoder: prøveundersøgelser eller censuses. Prøveundersøgelser, hvor forskere interviewer et lille antal mennesker, kan være fleksible, rettidige og relativt billige. Disse undersøgelser er imidlertid ofte begrænset i deres beslutning, fordi de er baseret på en prøve. Med en stikprøveundersøgelse er det ofte svært at foretage skøn over specifikke geografiske regioner eller for bestemte demografiske grupper. Censuses forsøger på den anden side at interviewe alle, og de kan derfor bruges til at producere estimater for små geografiske regioner eller demografiske grupper. Men censuses er generelt dyre, smalle i fokus (de omfatter kun et lille antal spørgsmål), og ikke rettidigt (de sker på en fast plan, som hvert 10. år) (Kish 1979) . Snarere end at sidde fast med stikprøveundersøgelser eller censuses, forestill dig, om forskere kunne kombinere de bedste egenskaber ved begge. Forestil dig, om forskere kunne stille hvert spørgsmål til hver person hver dag. Denne allestedsnærværende, kontinuerlige undersøgelse er naturligvis en slags social science fantasy. Men det ser ud til, at vi kan begynde at tilnærme dette ved at kombinere spørgeskemaundersøgelser fra et lille antal mennesker med digitale spor fra mange mennesker.

Blumenstocks forskning begyndte, da han samarbejdede med den største mobiltelefonudbyder i Rwanda, og virksomheden leverede anonyme transaktionsoptegnelser fra omkring 1,5 millioner kunder mellem 2005 og 2009. Disse poster indeholdt oplysninger om hver samtale og sms, som starttid, varighed , og den omtrentlige geografiske placering af den, der ringer op og modtageren. Inden jeg taler om de statistiske problemer, er det værd at påpege, at dette første skridt kan være en af ​​de sværeste for mange forskere. Som jeg har beskrevet i kapitel 2, er de fleste store datakilder utilgængelige for forskere. Navnlig telefonmeta-data er især utilgængelig, fordi det i grunden er umuligt at anonymisere, og det indeholder næsten helt sikkert oplysninger, som deltagerne vil overveje følsomme (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . I dette særlige tilfælde var forskerne forsigtige med at beskytte dataene, og deres arbejde blev overvåget af en tredjepart (dvs. deres IRB). Jeg vil vende tilbage til disse etiske spørgsmål mere detaljeret i kapitel 6.

Blumenstock var interesseret i at måle rigdom og trivsel. Men disse træk er ikke direkte i opkaldsregistrene. Med andre ord er disse opkaldsregistre ufuldstændige til denne forskning - et fælles træk ved store datakilder, som blev diskuteret i detaljer i kapitel 2. Det forekommer dog sandsynligt, at opkaldsrekordet sandsynligvis har nogle oplysninger, som indirekte kunne give information om rigdom og velvære. På baggrund af denne mulighed spurgte Blumenstock om det var muligt at træne en maskinindlæringsmodel for at forudsige, hvordan nogen vil reagere på en undersøgelse baseret på deres opkaldsposter. Hvis dette var muligt, kunne Blumenstock bruge denne model til at forudsige undersøgelsens svar fra alle 1,5 millioner kunder.

For at bygge og uddanne en sådan model kaldte Blumenstock og forskningsassistenter fra Kigali Institut for Videnskab og Teknologi en tilfældig stikprøve på omkring tusind kunder. Forskerne forklarede projektets mål for deltagerne, bad om deres samtykke til at forbinde undersøgelsens svar til opkaldsrekordene og derefter spurgte dem en række spørgsmål til måling af deres velstand og trivsel, såsom "Har du en radio? "og" ejer du en cykel? "(se figur 3.14 for en delvis liste). Alle deltagere i undersøgelsen blev kompenseret økonomisk.

Derefter anvendte Blumenstock en to-trins procedure, der var almindelig inden for maskinindlæring: funktionsteknik efterfulgt af overvåget læring. For det første, i funktionstekniske trin for alle, der blev interviewet, konverterede Blumenstock opkaldsrekordene til et sæt egenskaber om hver person; datavidenskabsfolk kan kalde disse egenskaber "funktioner" og socialforskere ville kalde dem "variabler". For eksempel beregner Blumenstock det samlede antal dage med aktivitet, antallet af forskellige personer, en person har været i kontakt med, den mængden af ​​penge brugt på lufttid, og så videre. Kritisk kræver god funktionsteknik viden om forskningsindstillingen. For eksempel, hvis det er vigtigt at skelne mellem indenlandske og internationale opkald (vi kan forvente, at folk, der ringer internationalt til at være rigere), så skal dette gøres ved funktionalitetstrinnet. En forsker med ringe forståelse for Rwanda kan muligvis ikke indeholde denne funktion, og så vil prædiktive præstationer af modellen lide.

Derefter byggede Blumenstock i modellen i undervisningsleddet en model for at forudsige undersøgelsesresponset for hver person baseret på deres egenskaber. I dette tilfælde anvendte Blumenstock logistisk regression, men han kunne have brugt en række andre statistiske eller maskinindlæringsmetoder.

Så hvor godt fungerede det? Var Blumenstock i stand til at forudsige svar på undersøgelsesspørgsmål som "Har du en radio?" Og "Har du en cykel?" Ved hjælp af funktioner afledt af opkaldsposter? For at evaluere præstationen af ​​hans prediktive model anvendte Blumenstock krydsvalidering , en teknik, der almindeligvis anvendes i datalogi, men sjældent i samfundsvidenskab. Målet med krydsvalidering er at give en retfærdig vurdering af en models prædiktive ydeevne ved at træne den og teste den på forskellige undergrupper af data. Blumenstock splittede især sine data i 10 stykker af 100 mennesker hver. Derefter brugte han ni stykker til at træne sin model, og den prædiktive præstation af den uddannede model blev evalueret på den resterende del. Han gentog denne procedure 10 gange - med hver klump af data, der fik en tur som valideringsdata - og gennemsnittet af resultaterne.

Nøjagtigheden af ​​forudsigelserne var høj for nogle træk (figur 3.14); For eksempel kunne Blumenstock forudsige med 97,6% nøjagtighed, hvis nogen ejede en radio. Det lyder måske imponerende, men det er altid vigtigt at sammenligne en kompleks forudsigelsesmetode mod et simpelt alternativ. I dette tilfælde er et simpelt alternativ at forudsige, at alle vil give det mest almindelige svar. For eksempel rapporterede 97,3% af respondenterne at have en radio, så hvis Blumenstock havde forudsagt, at alle ville rapportere at eje en radio, ville han have haft en nøjagtighed på 97,3%, hvilket overraskende svarer til udførelsen af ​​hans mere komplekse procedure (97,6% nøjagtighed) . Med andre ord øgede alle de fancy data og modellering nøjagtigheden af ​​forudsigelsen fra 97,3% til 97,6%. Men for andre spørgsmål, som f.eks. "Ejer du en cykel?", Er forudsigelserne forbedret fra 54,4% til 67,6%. Mere generelt viser figur 3.15, at for nogle træk ikke Blumenstock forbedrede sig meget ud over bare at lave den enkle baseline forudsigelse, men for andre træk var der en vis forbedring. Ser bare på disse resultater, men du tror måske ikke, at denne tilgang er særlig lovende.

Figur 3.14: Prediktiv nøjagtighed for en statistisk model uddannet med opkaldsposter. Tilpasset fra Blumenstock (2014), tabel 2.

Figur 3.14: Prediktiv nøjagtighed for en statistisk model uddannet med opkaldsposter. Tilpasset fra Blumenstock (2014) , tabel 2.

Figur 3.15: Sammenligning af forudsigelig nøjagtighed for en statistisk model uddannet med opkaldsposter til simpel baseline forudsigelse. Punkter er lidt jitterede for at undgå overlapning. Tilpasset fra Blumenstock (2014), tabel 2.

Figur 3.15: Sammenligning af forudsigelig nøjagtighed for en statistisk model uddannet med opkaldsposter til simpel baseline forudsigelse. Punkter er lidt jitterede for at undgå overlapning. Tilpasset fra Blumenstock (2014) , tabel 2.

Men bare et år senere, Blumenstock og to kolleger-Gabriel Cadamuro og Robert On-udgivet et papir i Science med væsentligt bedre resultater (Blumenstock, Cadamuro, and On 2015) . Der var to væsentlige tekniske grunde til denne forbedring: 1) de anvendte mere sofistikerede metoder (dvs. en ny tilgang til funktionsteknologi og en mere sofistikeret model til at forudsige svar fra funktioner) og (2) i stedet for at forsøge at udlede svar på individuelle undersøgelsesspørgsmål (f.eks. "Har du en radio?") forsøgte de at udlede et sammensat wealth index. Disse tekniske forbedringer medførte, at de kunne gøre et rimeligt job med at bruge opkaldsposter for at forudsige rigdom for de mennesker, der var i deres prøve.

Forudsigelse af rigdom af mennesker i stikprøven var imidlertid ikke det endelige mål for forskningen. Husk at det ultimative mål var at kombinere nogle af de bedste egenskaber ved stikprøveundersøgelser og censuses for at producere præcise, højopløselige estimater af fattigdom i udviklingslande. For at vurdere deres evne til at nå dette mål, brugte Blumenstock og kolleger deres model og deres data til at forudsige rigdom af alle 1,5 millioner mennesker i opkaldsrekordene. Og de brugte de geospatiale oplysninger indlejret i opkaldsrekordene (husk at dataene indeholdt placeringen af ​​det nærmeste celtårn for hvert opkald) for at estimere det omtrentlige opholdssted for hver person (figur 3.17). Ved at sammenlægge disse to estimater producerede Blumenstock og kolleger et estimat af den geografiske fordeling af abonnentformuen ved ekstremt fin rumlig granularitet. For eksempel kunne de estimere den gennemsnitlige rigdom i hver af Rwandas 2.148 celler (den mindste administrative enhed i landet).

Hvor godt var disse estimater svarende til det faktiske fattigdomsniveau i disse regioner? Før jeg besvarer det spørgsmål, vil jeg understrege, at der er mange grunde til at være skeptiske. For eksempel var evnen til at lave forudsigelser på individuel niveau ret støjende (figur 3.17). Og måske endnu vigtigere kan folk med mobiltelefoner være systematisk forskellige fra personer uden mobiltelefoner. Derfor kan Blumenstock og kolleger lide af de typer dækningsfejl, der forspændte 1936 Literary Digest- undersøgelsen, som jeg tidligere beskrev.

For at få en følelse af kvaliteten af ​​deres skøn, havde Blumenstock og kolleger brug for at sammenligne dem med noget andet. Heldigvis lancerede en anden gruppe forskere på samme tid som deres undersøgelse en mere traditionel social undersøgelse i Rwanda. Denne anden undersøgelse - som var en del af det bredt respekterede demografiske og sundhedsundersøgelsesprogram - havde et stort budget og anvendte traditionelle metoder af høj kvalitet. Derfor kan estimaterne fra den demografiske og sundhedsundersøgelsen med rimelighed betragtes som guldstandarder. Når de to estimater blev sammenlignet, var de ret ens (figur 3.17). Med andre ord ved at kombinere en lille mængde undersøgelsesdata med opkaldsrekordene, var Blumenstock og kolleger i stand til at producere estimater, der kunne sammenlignes med dem fra guldstandardmetoder.

En skeptiker kan se disse resultater som en skuffelse. En måde at se dem på er at sige, at ved hjælp af stor data- og maskinindlæring var Blumenstock og kolleger i stand til at producere estimater, der kunne gøres mere pålideligt med allerede eksisterende metoder. Men jeg tror ikke, det er den rigtige måde at tænke på denne undersøgelse af to grunde. For det første var estimaterne fra Blumenstock og kolleger ca. 10 gange hurtigere og 50 gange billigere (når omkostningerne måles i forhold til variable omkostninger). Som jeg argumenterede tidligere i dette kapitel ignorerer forskere omkostningerne i deres fare. I dette tilfælde betyder det dramatiske fald i omkostningerne, at det i stedet for at køre nogle få år - som det er standard for demografiske og sundhedsundersøgelser - denne form for undersøgelse kan udføres hver måned, hvilket ville give mange forskere og politik beslutningstagere. Den anden grund til ikke at tage skeptikernes mening er, at denne undersøgelse giver en grundlæggende opskrift, som kan skræddersys til mange forskellige forskningssituationer. Denne opskrift har kun to ingredienser og to trin. Ingredienserne er (1) en stor datakilde, der er bred, men tynd (dvs. den har mange mennesker men ikke de oplysninger, du har brug for om hver person) og (2) en undersøgelse, der er smal, men tykk (dvs. den har kun et par mennesker, men det har de oplysninger, du har brug for om dem). Disse ingredienser kombineres derefter i to trin. For det første for folket i begge datakilder skal du opbygge en maskinindlæringsmodel, der bruger den store datakilde til at forudsige undersøgelsessvar. Brug derefter denne model til at indføre undersøgelsens svar fra alle i den store datakilde. Så hvis der er noget spørgsmål, du vil spørge mange mennesker, skal du kigge efter en stor datakilde fra de personer, der kan bruges til at forudsige deres svar, selvom du ikke er ligeglad med den store datakilde . Det vil sige, at Blumenstock og kolleger ikke iboende plejede at ringe op de plejede kun om opkaldsposter, fordi de kunne bruges til at forudsige undersøgelsessvar, som de var bekymret for. Denne karakteristiske, kun indirekte interesse for den store datakilde - gør forstærket spørger forskelligt fra indlejret spørger, som jeg tidligere beskrev.

Figur 3.16: Skematisk af undersøgelsen af ​​Blumenstock, Cadamuro og On (2015). Opkaldsrekord fra telefonfirmaet blev konverteret til en matrix med en række for hver person og en søjle for hver funktion (dvs. variabel). Derefter byggede forskerne en overvåget læringsmodel for at forudsige undersøgelsesresponserne fra person-by-feature matrixen. Derefter blev den overvågede læringsmodel brugt til at påregne undersøgelsesresponserne for alle 1,5 millioner kunder. Forskerne vurderede også det omtrentlige opholdssted for alle 1,5 millioner kunder baseret på lokaliteterne af deres opkald. Da disse to estimater - den anslåede formue og det anslåede opholdssted - blev kombineret, var resultaterne i lighed med estimater fra Demografisk og Sundhedsundersøgelse, en traditionel guldundersøgelse (figur 3.17).

Figur 3.16: Skematisk af undersøgelsen af Blumenstock, Cadamuro, and On (2015) . Opkaldsrekord fra telefonfirmaet blev konverteret til en matrix med en række for hver person og en kolonne for hver funktion (dvs. variabel). Derefter byggede forskerne en overvåget læringsmodel for at forudsige undersøgelsesresponserne fra person-by-feature matrixen. Derefter blev den overvågede læringsmodel brugt til at påregne undersøgelsesresponserne for alle 1,5 millioner kunder. Forskerne vurderede også det omtrentlige opholdssted for alle 1,5 millioner kunder baseret på lokaliteterne af deres opkald. Da disse to estimater - den anslåede formue og det anslåede opholdssted - blev kombineret, var resultaterne i lighed med estimater fra Demografisk og Sundhedsundersøgelse, en traditionel guldundersøgelse (figur 3.17).

Figur 3.17: Resultater fra Blumenstock, Cadamuro og On (2015). På individniveau var forskerne i stand til at gøre et rimeligt job til at forudsige en persons rigdom fra deres opkaldsposter. Estimaterne af rigdom på distriktsniveau for Rwandas 30 distrikter, der var baseret på estimater af rigdom og bopæl på enkeltniveau, var i lighed med resultaterne fra Demografisk og Sundhedsundersøgelse, en traditionel guldundersøgelse. Tilpasset fra Blumenstock, Cadamuro og On (2015), figur 1a og 3c.

Figur 3.17: Resultater fra Blumenstock, Cadamuro, and On (2015) . På individniveau var forskerne i stand til at gøre et rimeligt job til at forudsige en persons rigdom fra deres opkaldsposter. Estimaterne af rigdom på distriktsniveau for Rwandas 30 distrikter, der var baseret på estimater af rigdom og bopæl på enkeltniveau, var i lighed med resultaterne fra Demografisk og Sundhedsundersøgelse, en traditionel guldundersøgelse. Tilpasset fra Blumenstock, Cadamuro, and On (2015) , figur 1a og 3c.

Som konklusion kombinerer Blumenstocks forstærkede spørgsmålsstrategi data med en stor datakilde for at producere estimater, der kan sammenlignes med dem fra en guldstandardundersøgelse. Dette særlige eksempel præciserer også nogle af afvejningerne mellem forstærkede spørgs- og traditionelle undersøgelsesmetoder. De forstærkede spørgeskemaer var mere rettidige, væsentligt billigere og mere granulære. Men på den anden side er der endnu ikke et stærkt teoretisk grundlag for denne form for forstærket spørger. Dette enkelt eksempel viser ikke, hvornår denne tilgang vil fungere, og når det ikke vil, og forskere, der bruger denne tilgang, skal være særligt bekymrede over mulige forstyrrelser forårsaget af, hvem der er inkluderet - og som ikke er inkluderet i deres store datakilde. Endvidere har den forstærkede spørge tilgang endnu ikke gode måder at kvantificere usikkerhed omkring sine estimater. Heldigvis har forstærket spørger dybe forbindelser til tre store områder i statistik-småarealestimering (Rao and Molina 2015) , imputation (Rubin 2004) og modelbaseret postlagdeling (som i sig selv er tæt forbundet med P., den metode jeg beskrev tidligere i kapitlet) (Little 1993) . På grund af disse dybe forbindelser forventer jeg, at mange af de metodologiske grundlag for forstærkede spørgsmål snart vil blive forbedret.

Endelig illustrerer sammenligning af Blumenstocks første og anden forsøg også en vigtig lektion om digital-age social forskning: begyndelsen er ikke slutningen. Det er mange gange, at den første tilgang ikke vil være den bedste, men hvis forskerne fortsætter med at arbejde, kan tingene blive bedre. Mere generelt, når man vurderer nye tilgange til social forskning i den digitale tidsalder, er det vigtigt at lave to forskellige evalueringer: (1) Hvor godt virker det nu? og (2) Hvor godt vil det fungere i fremtiden som datalandskabet ændrer sig og som forskere lægger større vægt på problemet? Selvom forskere er uddannet til at lave den første form for evaluering, er den anden ofte vigtigere.