3.6.1 Amplified spørge

Sammenkædning din undersøgelse til digitale spor kan være som at bede alle dine spørgsmål på alle tidspunkter.

Beder generelt kommer i to hovedkategorier: stikprøveundersøgelser og folketællinger. Stikprøveundersøgelser, hvor du får adgang til et lille antal mennesker, kan være fleksibel, rettidig, og relativt billige. Men stikprøveundersøgelser, fordi de er baseret på en stikprøve, er ofte begrænset i deres beslutning; med en stikprøveundersøgelse, er det ofte svært at foretage skøn om specifikke geografiske regioner eller til bestemte demografiske grupper. Folketællinger, på den anden side forsøge at interviewe alle i befolkningen. De har stor opløsning, men de er generelt dyre, smal i fokus (de omfatter kun et lille antal spørgsmål), og ikke rettidigt (de sker på en fast tidsplan, som hvert 10. år) (Kish 1979) . Forestil dig nu, hvis forskerne kunne kombinere de bedste egenskaber fra stikprøveundersøgelser og folketællinger; tænk, hvis forskerne kunne bede hvert spørgsmål for alle hver dag.

Det er klart, denne stadige, allestedsnærværende, altid-på-undersøgelsen er en slags social science fantasy. Men, ser det ud til, at vi kan begynde at tilnærme dette ved at kombinere undersøgelsesspørgsmål fra et lille antal mennesker med digitale spor fra mange mennesker. Jeg kalder denne type kombination forstærkes spørge. Hvis det gøres godt, kan det hjælpe os giver skøn, der er mere lokale (for mindre geografiske områder), mere detaljeret (for bestemte demografiske grupper), og mere rettidig.

Et eksempel på forstærket spørger kommer fra arbejde Joshua Blumenstock, der ønskede at indsamle data, der ville hjælpe guide udvikling i de fattige lande. Mere specifikt Blumenstock ønskede at skabe et system til at måle velstand og velfærd, der kombinerede fuldstændigheden af en folketælling med den fleksibilitet og hyppigheden af en undersøgelse (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Faktisk har jeg allerede beskrevet Blumenstock arbejde kortvarigt i kapitel 1.

For at starte, Blumenstock indgået et samarbejde med den største mobiltelefon udbyder i Rwanda. Selskabet fremlagde ham anonyme transaktion optegnelser fra omkring 1,5 millioner kunder, der dækker adfærd fra 2005 og 2009. logs indeholder oplysninger om hvert opkald og sms, såsom starttidspunkt, varighed og omtrentlige geografiske placering af den, der ringer og modtager. Før vi begynder at tale om de statistiske problemer, er det værd at påpege, at dette første skridt kan være en af ​​de sværeste. Som beskrevet i kapitel 2, de fleste digitale spor data er utilgængelige for forskere. Og mange virksomheder er med rette tilbageholdende med at dele deres data, fordi det er privat; der er deres kunder nok ikke forvente, at deres poster vil blive delt-i bulk-med forskere. I dette tilfælde tog forskerne forsigtige skridt til at anonymisere data og deres arbejde blev overvåget af en tredjepart (dvs. deres IRB). Men på trods af disse bestræbelser, er disse data formentlig stadig identificeres og de ​​sandsynligvis indeholder følsomme oplysninger (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Jeg vil vende tilbage til disse etiske spørgsmål i kapitel 6.

Husk på, at Blumenstock var interesseret i at måle velstand og velvære. Men disse træk er ikke direkte i registrerede opkald. Med andre ord, disse registrerede opkald er ufuldstændige for denne forskning, et fælles træk ved digitale spor, der blev diskuteret i detaljer i kapitel 2. Men, forekommer det sandsynligt, at de registrerede opkald sandsynligvis have nogle oplysninger om rigdom og velvære. Så en måde at spørge Blumenstock spørgsmål kunne være: er det muligt at forudsige, hvordan en person vil reagere på en undersøgelse baseret på deres digitale spor data? Hvis ja, så ved at spørge et par folk, vi kan gætte svarene fra alle andre.

For at vurdere dette empirisk, Blumenstock og forskningsassistenter fra Kigali Institut for Videnskab og Teknologi kaldes en stikprøve på omkring tusind mobiltelefon kunder. Forskerne forklarede målene for projektet til deltagerne, bad om deres samtykke til at forbinde besvarelserne til de registrerede opkald, og spurgte dem en række spørgsmål til at måle deres rigdom og velvære, såsom "Ejer du en radio? "og" Har du ejer en cykel? "(se figur 3.11 for en delvis liste). Alle deltagere i undersøgelsen blev kompenseret økonomisk.

Dernæst Blumenstock brugt en to-trins procedure almindelig i data videnskab: Funktionen teknik efterfulgt af overvåget indlæring. Først i funktionen engineering trin, for alle, der blev interviewet, Blumenstock konverteret registrerede opkald i et sæt af karakteristika om hver person; data forskerne kunne kalde disse karakteristika "funktioner" og samfundsforskere ville kalde dem "variabler." For eksempel, for hver person, Blumenstock beregnede samlede antal dage med aktivitet, antallet af forskellige mennesker en person har været i kontakt med, mængden penge brugt på airtime, og så videre. Kritisk, god funktion engineering kræver viden om indstillingen forskning. For eksempel, hvis det er vigtigt at skelne mellem indenlandske og internationale opkald (vi kunne forvente mennesker, der kalder internationalt for at være rigere), skal dette gøres på funktionen engineering trin. En forsker med lidt forståelse for Rwanda muligvis ikke denne funktion, og derefter den prædiktive resultater af modellen vil lide.

Dernæst i det overvågede læring trin, Blumenstock bygget en statistisk model til at forudsige undersøgelsen respons for hver person, baseret på deres funktioner. I dette tilfælde Blumenstock brugte logistisk regression med 10-fold krydsvalidering, men han kunne have brugt en række andre statistiske eller maskine læringsmetoder.

Så hvor godt virkede det? Var Blumenstock stand til at forudsige svar på undersøgelsen spørgsmål som "Ejer du en radio?" Og "Har du ejer en cykel?" Ved hjælp af funktioner, der stammer fra registrerede opkald? Slags. Nøjagtigheden af ​​forudsigelserne var høj for nogle træk (Figur 3.11). Men det er altid vigtigt at sammenligne en kompleks forudsigelse metode mod et simpelt alternativ. I dette tilfælde et simpelt alternativ er at forudsige, at alle vil give mest almindelige svar. For eksempel, 97,3% rapporterede at eje en radio, så hvis Blumenstock havde forudsagt, at alle ville rapportere eje en radio, han ville have haft en nøjagtighed på 97,3%, hvilket er overraskende ens for udførelsen af ​​hans mere kompliceret procedure (97,6% nøjagtighed). Med andre ord, alle de fancy data og modellering øget nøjagtigheden af ​​forudsigelsen fra 97,3% til 97,6%. Men for andre spørgsmål, såsom "Ejer du en cykel?", Forudsigelserne forbedret fra 54,4% til 67,6%. Mere generelt Figur 3.12 viser for nogle træk Blumenstock ikke forbedre meget ud over bare at gøre det simple baseline forudsigelse, men at der for andre egenskaber der var nogle forbedringer.

Figur 3.11: Predictive nøjagtighed for statistisk model trænet med opkaldslister. Resultater fra tabel 2 i Blumenstock (2014).

Figur 3.11: Predictive nøjagtighed for statistisk model trænet med opkaldslister. Resultater fra tabel 2 i Blumenstock (2014) .

Figur 3.12: Sammenligning af prædiktiv nøjagtighed for statistisk model trænet med registrerede opkald til simpel baseline forudsigelse. Point er lidt jittered at undgå overlapning; se tabel 2 i Blumenstock (2014) for eksakte værdier.

Figur 3.12: Sammenligning af prædiktiv nøjagtighed for statistisk model trænet med registrerede opkald til simpel baseline forudsigelse. Point er lidt jittered at undgå overlapning; se tabel 2 i Blumenstock (2014) for eksakte værdier.

På dette tidspunkt, du kan tro, at disse resultater er lidt skuffende, men blot et år senere, Blumenstock og to kolleger-Gabriel Cadamuro og Robert On-offentliggjort et papir i Science med betydeligt bedre resultater (Blumenstock, Cadamuro, and On 2015) . Der var to vigtigste tekniske årsager til forbedring: 1) de brugte mere sofistikerede metoder (dvs. at en ny tilgang har teknik og en mere sofistikeret maskine learning model) og 2) i stedet for at forsøge at udlede svar på de enkelte spørgsmål undersøgelsen (f.eks "ejer du en radio?"), de forsøgte at udlede et sammensat rigdom indeks.

Blumenstock og kolleger viste udførelsen af ​​deres tilgang på to måder. Først, fandt de, at for folk i deres stikprøve, kunne de gøre et temmelig godt stykke arbejde med at forudsige deres rigdom fra registrerede opkald (Figur 3.14). For det andet, og stadigt vigtigere, Blumenstock og kolleger viste, at deres procedure kunne producere estimater af den geografiske fordeling af rigdom i Rwanda høj kvalitet. Mere specifikt de brugte deres maskine læringsmodel, som blev uddannet på deres stikprøve på omkring 1.000 mennesker, til at forudsige den rigdom af alle 1,5 millioner mennesker i registrerede opkald. Endvidere med geospatiale data indlejret i dataopkald (minde om, at opkaldet data omfatter placeringen af ​​den nærmeste mobilmast for hvert opkald), forskerne var i stand til at vurdere den omtrentlige bopæl hver person. Sætte disse to estimater sammen, forskning producerede et skøn over den geografiske fordeling af abonnent rigdom ved ekstremt fine rumlige granularitet. For eksempel kunne de anslår den gennemsnitlige formue i hver af Rwandas 2148 celler (den mindste administrative enhed i landet). Disse forudsagte rigdom værdier var så kornet, de var svære at kontrollere. Så forskerne aggregeret deres resultater til at producere skøn over den gennemsnitlige rigdom af Rwandas 30 distrikter. Disse distriktet niveau estimater var stærkt knyttet til estimaterne fra en guldstandard traditionel undersøgelse, Rwandas Demografiske og Health Survey (Figur 3.14). Selvom skøn fra de to kilder var ens, de estimater fra Blumenstock og kolleger var omkring 50 gange billigere og 10 gange hurtigere (når omkostningerne i målt på variable omkostninger). Denne dramatiske fald i omkostningerne betyder, at i stedet for at blive kørt hvert år-som er standard for demografiske og sundhedsmæssige Surveys-hybrid af små undersøgelse kombineret med store digitale spor data kunne køre hver måned.

Figur 3.13: Skematisk af Blumenstock, Cadamuro, og On (2015). Call data fra teleselskabet blev omdannet til en matrix med én række for hver person, og en kolonne for hver funktion (dvs. variable). Dernæst forskerne bygget en overvåget læringsmodel til at forudsige besvarelserne fra den person, som funktionen matrix. Derefter blev det overvågede læringsmodel der anvendes til beregning af besvarelserne for alle. I det væsentlige, forskerne brugte svarene fra omkring tusind mennesker til at tilskrive det væld af omkring en million mennesker. Også forskerne anslået den omtrentlige opholdssted for alle 1,5 millioner mennesker baseret på placeringen af ​​deres opkald. Når disse to estimater blev kombineret-den anslåede rigdom og den anslåede bopæl-resultaterne var magen til skøn fra den demografiske og Health Survey, en guld-standard traditionelle undersøgelse (figur 3.14).

Figur 3.13: Skematisk af Blumenstock, Cadamuro, and On (2015) . Call data fra teleselskabet blev omdannet til en matrix med én række for hver person, og en kolonne for hver funktion (dvs. variable). Dernæst forskerne bygget en overvåget læringsmodel til at forudsige besvarelserne fra den person, som funktionen matrix. Derefter blev det overvågede læringsmodel der anvendes til beregning af besvarelserne for alle. I det væsentlige, forskerne brugte svarene fra omkring tusind mennesker til at tilskrive det væld af omkring en million mennesker. Også forskerne anslået den omtrentlige opholdssted for alle 1,5 millioner mennesker baseret på placeringen af ​​deres opkald. Når disse to estimater blev kombineret-den anslåede rigdom og den anslåede bopæl-resultaterne var magen til skøn fra den demografiske og Health Survey, en guld-standard traditionelle undersøgelse (figur 3.14).

Figur 3.14: Resultater fra Blumenstock, Cadamuro, og On (2015). På det individuelle niveau, forskerne var i stand til at gøre en rimelig job på at forudsige en persons rigdom fra deres opkaldslister. Estimaterne af distriktet niveau rigdom-som var baseret på individuelle niveau estimater af rigdom og bopæl-resultaterne var magen til resultaterne fra den demografiske og Health Survey, en guld-standard traditionelle undersøgelse.

Figur 3.14: Resultater fra Blumenstock, Cadamuro, and On (2015) . På det individuelle niveau, forskerne var i stand til at gøre en rimelig job på at forudsige en persons rigdom fra deres opkaldslister. Estimaterne af distriktet niveau rigdom-som var baseret på individuelle niveau estimater af rigdom og bopæl-resultaterne var magen til resultaterne fra den demografiske og Health Survey, en guld-standard traditionelle undersøgelse.

Afslutningsvis Blumenstock er amplificeret spørger tilgang kombineret undersøgelsesdata med digitale spor data til at udarbejde skøn sammenlignes med guld-standard stikprøveskøn. Denne særlige eksempel tydeliggør også nogle af de afvejninger mellem forstærket spørge og traditionelle undersøgelsesmetoder. Først de forstærkede beder skøn var mere rettidig, væsentligt billigere, og mere detaljeret. Men på den anden side på nuværende tidspunkt er der ikke et stærkt teoretisk grundlag for denne slags amplificeret beder. Det vil sige, er dette et eksempel ikke vise, hvornår det vil arbejde, og når det ikke vil. Derudover medfører den forstærkede asking tilgang endnu ikke har gode muligheder for at kvantificere usikkerhed omkring sine skøn. Men forstærket spørger har dybe forbindelser til tre store områder i statistikken-modelbaseret post-stratificering (Little 1993) , imputering (Rubin 2004) , og små-området estimering (Rao and Molina 2015) -og så jeg forventer, at fremskridt vil være hurtig.

Amplified beder følger en grundlæggende opskrift, som kan skræddersys til netop din situation. Der er to ingredienser og to trin. De to ingredienser er 1) et digitalt spor datasæt, der er bred, men tynd (dvs. det har mange mennesker, men ikke de oplysninger, du har brug for om hver personer) og 2) en undersøgelse, der er smal, men tyk (det vil sige, det har kun få mennesker, men det har de oplysninger, du har brug for om de mennesker). Så er der to trin. Først for de mennesker i begge datakilder, bygge en maskine learning model, der bruger digitale spor data til at forudsige undersøgelsens svar. Dernæst bruge denne maskine læringsmodel pålægge undersøgelsen svar alle i de digitale spor data. Så hvis der er nogle spørgsmål, som du ønsker at bede om at masser af mennesker, kigge efter digitale spor data fra de mennesker, der kan bruges til at forudsige deres svar.

Sammenligning Blumenstock første og andet forsøg på problemet illustrerer også en vigtig lektie om overgangen fra anden æra til tredje æra tilgange til undersøgelse forskning: begyndelsen er ikke enden. Det vil sige, mange gange, den første tilgang vil ikke være den bedste, men hvis forskere fortsatte arbejde, kan tingene bliver bedre. Mere generelt, når de evaluerer nye tilgange til social forskning i den digitale tidsalder, er det vigtigt at gøre to forskellige vurderinger: 1) hvor godt fungerer det nu og 2) hvor godt tror du dette kan fungere i fremtiden, da de data, landskab ændringer og som forskere være mere opmærksom på problemet. Selvom forskerne uddannet til at gøre den første form for evaluering (hvor god er denne særlige stykke forskning), den anden er ofte vigtigere.