3.6.2 Amplified frågar

Amplified frågar med en prediktiv modell för att kombinera undersökningsdata från några personer med en stor datakälla från många människor.

Ett annat sätt att kombinera undersökning och stora datakällor är en process som jag kallar förstärkt frågar . I förstärkt frågar använder en forskare en prediktiv modell för att kombinera en liten mängd undersökningsdata med en stor datakälla för att producera uppskattningar i en skala eller granularitet som inte skulle vara möjligt med endera datakällan individuellt. Ett viktigt exempel på förstärkt frågeställning kommer från Joshua Blumenstocks arbete, som ville samla in data som skulle kunna bidra till utvecklingen i fattiga länder. Tidigare hade forskare som samlat denna typ av data generellt att ta en av två metoder: provundersökningar eller censuses. Provundersökningar, där forskare intervjuar ett litet antal personer, kan vara flexibla, aktuella och relativt billiga. Emellertid är dessa undersökningar, eftersom de är baserade på ett prov, ofta begränsade i sin upplösning. Med en urvalsundersökning är det ofta svårt att göra uppskattningar om specifika geografiska regioner eller för specifika demografiska grupper. Censuses, å andra sidan, försöker intervjua alla, och så kan de användas för att producera uppskattningar för små geografiska regioner eller demografiska grupper. Men censuses är i allmänhet dyra, smala i fokus (de innehåller endast ett litet antal frågor), och inte i tid (de sker på ett fast schema, som var 10: e år) (Kish 1979) . Snarare än att fastna med provundersökningar eller censuses, föreställ dig om forskare kan kombinera de bästa egenskaperna hos båda. Tänk om forskare skulle kunna ställa varje fråga till varje person varje dag. Självklart är denna allestädes närvarande, kontinuerliga undersökningen en slags socialvetenskaplig fantasi. Men det verkar som om vi kan börja approximera detta genom att kombinera enkätfrågor från ett litet antal personer med digitala spår från många människor.

Blumenstocks forskning började när han samarbetade med den största mobilleverantören i Rwanda och företaget tillhandahöll anonyma transaktionsposter från cirka 1,5 miljoner kunder mellan 2005 och 2009. Dessa poster innehöll information om varje samtal och textmeddelande, såsom starttid, varaktighet , och ungefärlig geografisk plats för den som ringer och mottagaren. Innan jag pratar om de statistiska frågorna är det värt att påpeka att detta första steg kan vara en av de svåraste för många forskare. Som jag beskrivit i kapitel 2 är de flesta stora datakällor otillgängliga för forskare. Speciellt telefondata är särskilt otillgängliga eftersom det i grunden är omöjligt att anonymisera och det innehåller nästan säkert information som deltagarna anser vara känsliga (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . I det här fallet var forskarna noga med att skydda data och deras arbete övervakades av en tredje part (dvs. deras IRB). Jag kommer att återgå till dessa etiska problem mer i detalj i kapitel 6.

Blumenstock var intresserad av att mäta rikedom och välbefinnande. Men dessa egenskaper är inte direkt i samtalsrekorden. Med andra ord är dessa samtalskataloger ofullständiga för denna forskning - ett vanligt drag hos stora datakällor som diskuterades i detalj i kapitel 2. Det verkar emellertid troligt att samtalet registrerar förmodligen viss information som indirekt kan ge information om rikedom och välbefinnande. Med tanke på denna möjlighet frågade Blumenstock om det var möjligt att träna en maskininlärningsmodell för att förutsäga hur någon kommer att svara på en undersökning baserad på deras samtalsrekord. Om det var möjligt kunde Blumenstock använda denna modell för att förutse undersökningssvaren hos alla 1,5 miljoner kunder.

För att bygga och träna en sådan modell kallade Blumenstock och forskningsassistenter från Kigali Institute of Science and Technology ett slumpmässigt urval av cirka tusen kunder. Forskarna förklarade målen för projektet till deltagarna, bad om sitt samtycke att koppla enkäteresvaren till samtalsrekorden och frågade dem sedan en rad frågor för att mäta deras välstånd och välbefinnande, som "Äger du en radio? "och" Äger du en cykel? "(se figur 3.14 för en partiell lista). Alla deltagare i undersökningen kompenseras ekonomiskt.

Därefter använde Blumenstock ett tvåstegsförfarande som är vanligt i maskininlärning: funktionsteknik följt av övervakat lärande. Först, i funktionstekniksteget , för alla som intervjuades, omvandlade Blumenstock samtalsposter till en uppsättning egenskaper för varje person; datavetenskapare kan kalla dessa egenskaper "funktioner" och socialforskare skulle kalla dem "variabler". Till exempel beräknade Blumenstock det totala antalet dagar med aktivitet, antalet separata personer som en person har haft i kontakt med, den summa pengar som spenderas på larmtid och så vidare. Kritiskt kräver god funktionsteknik kunskap om forskningsinställningen. Till exempel, om det är viktigt att skilja mellan inhemska och internationella samtal (vi kan förvänta oss att människor som ringer internationellt för att vara rikare), då måste detta göras vid funktionstekniksteget. En forskare med liten förståelse för Rwanda kanske inte innehåller denna funktion, och då skulle prediktiv prestanda av modellen drabbas.

Därefter byggde Blumenstock i modellen i övervakat lärande steg för att förutse undersökningsresponsen för varje person baserat på deras egenskaper. I detta fall använde Blumenstock logistisk regression, men han kunde ha använt en mängd andra statistiska eller maskininlärningsmetoder.

Så hur bra fungerade det? Var Blumenstock kunna förutse svar på undersökningsfrågor som "Äger du en radio?" Och "Äger du en cykel?" Med hjälp av funktioner som härrör från samtalsrekord? För att utvärdera prestanda av sin prediktiva modell, använde Blumenstock cross validering , en teknik som vanligen används i datavetenskap men sällan i samhällsvetenskap. Målet med tvärvalidering är att ge en rättvisande bedömning av en modells prediktiva prestanda genom att träna den och testa den på olika delsatser av data. I synnerhet delade Blumenstock sin data i 10 bitar av 100 personer vardera. Sedan använde han nio av bitarna för att träna sin modell, och den utbildade modellens prediktiva prestanda utvärderades på återstående bit. Han upprepade detta förfarande 10 gånger - med varje bit av data får man en tur som valideringsdata - och i genomsnitt resultaten.

Prognosens noggrannhet var hög för vissa egenskaper (figur 3.14); Blumenstock kan till exempel förutse med 97,6% noggrannhet om någon ägde en radio. Det här låter imponerande, men det är alltid viktigt att jämföra en komplex förutsägelsesmetod mot ett enkelt alternativ. I det här fallet är ett enkelt alternativ att förutsäga att alla kommer att ge det vanligaste svaret. Till exempel rapporterade 97,3% av de svarande att de hade en radio så om Blumenstock hade förutsagt att alla skulle rapportera att ha en radio hade han haft en noggrannhet på 97,3%, vilket överraskande liknar resultatet av hans mer komplicerade procedur (97,6% noggrannhet) . Med andra ord ökade alla fina data och modellering noggrannheten i förutsägelsen från 97,3% till 97,6%. Men för andra frågor, som "Äger du en cykel?", Förbättrades förutsägelserna från 54,4% till 67,6%. Mer generellt sett visar figur 3.15 att för vissa drag inte Blumenstock förbättrats mycket utöver att bara göra den enkla baslinjeprogniken, men för andra egenskaper var det viss förbättring. Om du bara tittar på dessa resultat kanske du inte tror att det här är ett särskilt lovande tillvägagångssätt.

Figur 3.14: Prediktiv noggrannhet för en statistisk modell utbildad med samtalsrekord. Anpassad från Blumenstock (2014), tabell 2.

Figur 3.14: Prediktiv noggrannhet för en statistisk modell utbildad med samtalsrekord. Anpassad från Blumenstock (2014) , tabell 2.

Figur 3.15: Jämförelse av prediktiv noggrannhet för en statistisk modell utbildad med samtalsrekord till enkel baslinjeprognos. Punkter är lite jitterade för att undvika överlappning. Anpassad från Blumenstock (2014), tabell 2.

Figur 3.15: Jämförelse av prediktiv noggrannhet för en statistisk modell utbildad med samtalsrekord till enkel baslinjeprognos. Punkter är lite jitterade för att undvika överlappning. Anpassad från Blumenstock (2014) , tabell 2.

Men bara ett år senare, Blumenstock och två kollegor-Gabriel Cadamuro och Robert On-publicerade ett papper i Science med väsentligt bättre resultat (Blumenstock, Cadamuro, and On 2015) . Det fanns två huvudsakliga tekniska skäl för denna förbättring: (1) De använde mer sofistikerade metoder (dvs. ett nytt tillvägagångssätt för teknikteknik och en mer sofistikerad modell för att förutse svar från funktioner) och (2) istället för att försöka ge svar på enskilda undersökningsfrågor (t.ex. "Äger du en radio?"), försökte de utgå från ett sammansatt förmögenhetsindex. Dessa tekniska förbättringar innebar att de kunde göra ett rimligt jobb med att använda samtalsrekord för att förutsäga rikedom för de personer i deras prov.

Att förutse rikligheten av människor i urvalet var emellertid inte det yttersta målet för forskningen. Kom ihåg att det yttersta målet var att kombinera några av de bästa funktionerna i urvalsundersökningar och censuses för att producera korrekta uppskattningar av fattigdom i utvecklingsländer med hög upplösning. För att bedöma deras förmåga att uppnå detta mål använde Blumenstock och kollegor sin modell och deras data för att förutsäga riket av alla 1,5 miljoner människor i samtalsrekorden. Och de använde geospatial informationen inbäddade i samtalsrekorden (erinra om att uppgifterna innehöll närmaste celltorns placering för varje samtal) för att uppskatta den ungefärliga bostadsorten för varje person (figur 3.17). Genom att sammanställa dessa två beräkningar skapade Blumenstock och kollegor en uppskattning av den geografiska fördelningen av abonnentförmögenhet vid extremt fin rumlig granularitet. De kunde till exempel uppskatta den genomsnittliga förmögenheten i var och en av Rwandas 2 148 celler (den minsta administrativa enheten i landet).

Hur bra har dessa uppskattningar matchat den faktiska fattigdomsgraden i dessa regioner? Innan jag svarar på den frågan vill jag betona det faktum att det finns många skäl att vara skeptiska. Exempelvis var förmågan att göra förutsägelser på individnivå ganska stor (figur 3.17). Och kanske viktigare, människor med mobiltelefoner kan vara systematiskt annorlunda än människor utan mobiltelefoner. Således kan Blumenstock och kollegor drabbas av de typer av täckningsfel som förspände 1936 Literary Digest- undersökningen som jag beskrivit tidigare.

För att få en känsla av kvaliteten på sina uppskattningar behövde Blumenstock och kollegor att jämföra dem med något annat. Lyckligtvis, runt samma tid som studien, körde en annan grupp forskare en mer traditionell social undersökning i Rwanda. Den andra undersökningen - som var en del av det allmänt respekterade programmet Demografiska och hälsovårdsundersökningen - hade en stor budget och använde högkvalitativa, traditionella metoder. Därför kan uppskattningarna från den demografiska och hälsoundersökningen rimligen betraktas som guldstandardberäkningar. När de två uppskattningarna jämfördes var de ganska likartade (figur 3.17). Med andra ord kunde Blumenstock och kollegor genom att kombinera en liten mängd undersökningsdata med samtalsposter producera uppskattningar jämförbara med dem från standardiserade metoder.

En skeptiker kan se dessa resultat som en besvikelse. Ett sätt att betrakta dem är trots allt att säga att genom att använda stor data- och maskininlärning kunde Blumenstock och kollegor producera uppskattningar som kunde göras mer tillförlitligt med redan existerande metoder. Men jag tror inte det är rätt sätt att tänka på denna studie av två skäl. För det första var uppskattningarna från Blumenstock och kollegor cirka 10 gånger snabbare och 50 gånger billigare (när kostnaden mäts i form av rörliga kostnader). Som jag argumenterade tidigare i detta kapitel ignorerar forskare kostnaden för deras fara. I det här fallet betyder till exempel den dramatiska kostnadsminskningen att det snarare än att köras på några få år - vilket är standard för demografiska och hälsokundläggningar - denna typ av undersökning kan köras varje månad, vilket skulle ge många fördelar för forskare och politik tebryggare. Den andra anledningen till att inte ta skeptikerns uppfattning är att denna studie ger ett grundläggande recept som kan skräddarsys för många olika forskningssituationer. Detta recept har bara två ingredienser och två steg. Ingredienserna är (1) en stor datakälla som är bred men tunn (dvs den har många men inte den information du behöver om varje person) och (2) en enkätundersökning som är smal (dvs den har bara några personer, men det har informationen du behöver om dem). Dessa ingredienser kombineras sedan i två steg. Först, för folket i båda datakällorna, bygga en maskininlärningsmodell som använder den stora datakällan för att förutse undersökningssvar. Använd sedan den modellen för att ange undersökningssvaren för alla i den stora datakällan. Så om det finns någon fråga som du vill fråga många människor, leta efter en stor datakälla från de personer som kan användas för att förutse deras svar, även om du inte bryr dig om den stora datakällan . Det var att Blumenstock och kollegor inte ens bryr sig om call records; de brydde sig bara om call records eftersom de kunde användas för att förutse undersökningssvar som de brydde sig om. Detta karakteristiska enda indirekta intresse för den stora datakällan gör förstärkt, och frågar annorlunda från inbäddade frågar, vilket jag tidigare beskrev.

Figur 3.16: Schematisk av studien av Blumenstock, Cadamuro och On (2015). Samtalsrekord från telefonföretaget omvandlades till en matris med en rad för varje person och en kolumn för varje funktion (dvs variabel). Därefter byggde forskarna en övervakad inlärningsmodell för att förutse undersökningssvaren från person-by-feature-matrisen. Därefter användes den övervakade inlärningsmodellen för att ålägga undersökningssvaren för alla 1,5 miljoner kunder. Dessutom beräknade forskarna den ungefärliga bostaden för alla 1,5 miljoner kunder baserat på platserna för sina samtal. När dessa två uppskattningar - den beräknade förmögenheten och beräknad bostadsort - kombinerades, var resultaten liknande uppskattningar från demografiska och hälsokunden, en traditionell guldundersökning (figur 3.17).

Figur 3.16: Schematisk av studien av Blumenstock, Cadamuro, and On (2015) . Samtalsrekord från telefonföretaget omvandlades till en matris med en rad för varje person och en kolumn för varje funktion (dvs. variabel). Därefter byggde forskarna en övervakad inlärningsmodell för att förutse undersökningssvaren från person-by-feature-matrisen. Därefter användes den övervakade inlärningsmodellen för att ålägga undersökningssvaren för alla 1,5 miljoner kunder. Dessutom beräknade forskarna den ungefärliga bostaden för alla 1,5 miljoner kunder baserat på platserna för sina samtal. När dessa två uppskattningar - den beräknade förmögenheten och beräknad bostadsort - kombinerades, var resultaten liknande uppskattningar från demografiska och hälsokunden, en traditionell guldundersökning (figur 3.17).

Figur 3.17: Resultat från Blumenstock, Cadamuro och On (2015). På individnivå kunde forskarna göra ett rimligt jobb för att förutsäga någons välstånd från sina samtalsrekord. Uppskattningarna av rikedom på distriktsnivå för Rwandas 30 distrikt - som var baserade på individuella uppskattningar av rikedom och bostadsort - liknade resultaten från demografiska och hälsokunden, en traditionell guldundersökning. Anpassad från Blumenstock, Cadamuro och On (2015), figur 1a och 3c.

Figur 3.17: Resultat från Blumenstock, Cadamuro, and On (2015) . På individnivå kunde forskarna göra ett rimligt jobb för att förutsäga någons välstånd från sina samtalsrekord. Uppskattningarna av rikedom på distriktsnivå för Rwandas 30 distrikt - som var baserade på individuella uppskattningar av rikedom och bostadsort - liknade resultaten från demografiska och hälsokunden, en traditionell guldundersökning. Anpassad från Blumenstock, Cadamuro, and On (2015) , figur 1a och 3c.

Sammanfattningsvis kombinerade Blumenstocks förstärkta frågestrategi undersökningsdata med en stor datakälla för att producera uppskattningar jämförbara med dem från en guldstandardundersökning. Detta speciella exempel förtydligar också några av avvägningarna mellan förstärkta frågar och traditionella undersökningsmetoder. De förstärkta frågeställningarna var mer aktuella, väsentligen billigare och mer granulära. Men å andra sidan finns det ännu inte en stark teoretisk grund för denna typ av förstärkt frågar. Detta enda exempel visar inte när detta tillvägagångssätt kommer att fungera och när det inte kommer, och forskare som använder detta tillvägagångssätt måste vara särskilt bekymrade över eventuella företeelser som orsakas av vem som ingår - och som inte ingår i deras stora datakälla. Vidare har den förstärkta frågeproceduren ännu inte goda sätt att kvantifiera osäkerheten kring sina uppskattningar. Lyckligtvis har förstärkt frågar djupkopplingar till tre stora områden i statistik-litenarea uppskattningar (Rao and Molina 2015) , imputation (Rubin 2004) och modellbaserad efterlagring (som i sig är nära relaterad till P., den metod som jag beskrivit tidigare i kapitlet) (Little 1993) . På grund av dessa djupa anslutningar förväntar jag mig att många av de metodologiska grundvalarna för förstärkt frågar snart kommer att förbättras.

Slutligen illustrerar jämförelse av Blumenstocks första och andra försök också en viktig lektion om digital-age social forskning: början är inte slutet. Det är, många gånger, det första tillvägagångssättet blir inte det bästa, men om forskarna fortsätter jobbar, kan det bli bättre. Mer allmänt är det viktigt att göra två separata utvärderingar när man utvärderar nya tillvägagångssätt för social forskning i digital ålder: (1) Hur bra fungerar det nu? och (2) Hur bra kommer det att fungera i framtiden när data landskapet förändras och som forskare ägnar mer uppmärksamhet åt problemet? Även om forskare är utbildade för att göra den första typen av utvärdering, är den andra ofta viktigare.