3.6.1 Amplified frågar

Länka din enkät till digitala spår kan vara som att be alla dina frågor hela tiden.

Frågar i allmänhet kommer i två huvudkategorier: urvalsundersökningar och räkningar. Urvalsundersökningar, där du kommer åt ett litet antal människor, kan vara flexibel, snabb och relativt billig. Men urvalsundersökningar, eftersom de bygger på ett urval, ofta begränsade i sin resolution; med en urvalsundersökning, är det ofta svårt att göra uppskattningar om specifika geografiska områden eller för specifika demografiska grupper. Räkningar, å andra sidan, försöka att intervjua alla i populationen. De har stor upplösning, men de är i allmänhet dyra, smal i fokus (de innehåller endast ett litet antal frågor), och inte i tid (de råkar på ett fast schema, såsom varje 10 år) (Kish 1979) . Nu tänk om forskare kunde kombinera de bästa egenskaperna hos urvalsundersökningar och folkräkningar; Tänk om forskarna kunde ställa alla frågor till alla varje dag.

Självklart, denna ständiga, överallt, alltid-på undersökning är en slags social science fantasy. Men verkar det som vi kan börja närma detta genom att kombinera enkätfrågor från ett litet antal personer med digitala spår från många människor. Jag kallar denna typ av kombination förstärks fråga. Om det görs bra, kan det hjälpa oss ger uppskattning som är mer lokalt (för mindre geografiska områden), mer detaljerad (för specifika demografiska grupper), och snabbare.

Ett exempel på förstärkt frågar kommer från arbete Joshua Blumen, som ville att samla in uppgifter som skulle vägleda utvecklingen i fattiga länder. Mer specifikt, Blumen ville skapa ett system för att mäta välstånd och välbefinnande som kombinerade fullständigheten en folkräkning med flexibiliteten och frekvensen av en undersökning (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . I själva verket har jag redan beskrivit Blumen arbete kort i kapitel 1.

Till att börja med Blumensamarbetar med den största mobiloperatör i Rwanda. Företaget försåg honom anonymiserade transaktionsposter från cirka 1,5 miljoner kunder som täcker beteende från 2005 och 2009. Stockarna innehåller information om varje samtal och SMS såsom starttid, varaktighet och ungefärlig geografisk plats för den som ringer och mottagaren. Innan vi börjar prata om de statistiska frågor, är det värt att påpeka att detta första steg kan vara en av de svåraste. Som beskrivits i kapitel 2, är mest digital spårningsdata oåtkomliga för forskare. Och många företag är med rätta tveksamma till att dela sina data eftersom det är privat, som är deras kunder förmodligen inte förvänta sig att deras skivor kommer att delas in bulk med forskare. I detta fall, forskarna tog försiktiga steg för att anonymisera uppgifterna och deras arbete övervakas av en tredje part (dvs deras IRB). Men trots dessa ansträngningar, dessa uppgifter är förmodligen fortfarande kan identifieras och de troligen innehåller känslig information (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Jag ska återkomma till dessa etiska frågan i kapitel 6.

Minns att Blumen var intresserade av att mäta välstånd och välbefinnande. Men, dessa egenskaper är inte direkt i samtalsposter. Med andra ord, dessa samtalslistor är ofullständiga för denna forskning, ett vanligt inslag i digitala spår som diskuteras i detalj i kapitel 2. Men det verkar troligt att de samtalslistor har förmodligen en del information om rikedom och välbefinnande. Så, ett sätt att be Blumen fråga skulle kunna vara: är det möjligt att förutsäga hur någon kommer att svara på en undersökning baserad på sina digitala spårdata? Om så är fallet genom att ställa några personer som vi kan gissa svaren från alla andra.

För att bedöma detta empiriskt, Blumen och forskarassistenter från Kigali Institute of Science and Technology kallas ett urval av cirka tusen mobiltelefonkunder. Forskarna förklarade mål för projektet till deltagarna, bad om deras samtycke att länka enkätsvaren till samtalslistor, och sedan bad dem en rad frågor för att mäta sin rikedom och välfärd, såsom "Har du äger en radio? "och" Har du äger en cykel? "(se figur 3.11 för en ofullständig lista). Alla deltagare i undersökningen kompenserades ekonomiskt.

Därefter använde Blumen ett förfarande i två steg vanligt i datavetenskap: funktion teknik följt av övervakad lärande. Först i funktion engineering steg, för alla som intervjuades, omvandlades Blumensamtalslistor i en uppsättning egenskaper om varje person; Data forskare kan kalla dessa egenskaper "funktioner" och samhällsvetare skulle kalla dem "variabler." Till exempel, för varje person, Blumen beräknade totala antalet dagar med aktivitets, antalet distinkta människor en person har varit i kontakt med, mängden pengar spenderas på samtalstid, och så vidare. Kritiskt, kräver god funktion teknisk kunskap om forskningsmiljön. Till exempel, om det är viktigt att skilja mellan inhemska och internationella samtal (vi kan förvänta människor som kallar internationellt för att vara rikare), då detta måste göras på funktionen engineering steg. En forskare med liten förståelse för Rwanda kanske inte innehåller den här funktionen, och sedan det prediktiva resultatet av modellen kommer att drabbas.

Därefter i den övervakade inlärningssteget, Blumen byggt en statistisk modell för att förutsäga enkätsvaret för varje person baserat på deras egenskaper. I det här fallet använde Blumen logistisk regression med 10-faldig korsvalidering, men han kunde ha använt en mängd andra statistiska eller maskininlärning metoder.

Hur väl fungerade det? Var Blumen kunna förutsäga svar på enkätfrågor som "Har du äger en radio?" Och "Äger du en cykel?" Med funktioner som härrör från samtalslistor? Ungefär. Noggrannheten av förutsägelserna var höga för vissa egenskaper (Figur 3.11). Men, är det alltid viktigt att jämföra en komplex förutsägelsemetod mot en enkel alternativ. I detta fall är ett enkelt alternativ för att förutsäga att alla kommer att ge det vanligaste svaret. Till exempel, 97,3% rapporterade att äga en radio så om Blumen hade förutspått att alla skulle rapportera att äga en radio som han skulle ha haft en noggrannhet på 97,3%, vilket är förvånansvärt lika för utförandet av hans mer komplicerat förfarande (97,6% noggrannhet). Med andra ord, alla snygga data och modellering ökat noggrannheten hos förutsägelse från 97,3% till 97,6%. För andra frågor, såsom "Har du äger en cykel?", Förutsägelser förbättrades från 54,4% till 67,6%. Mer allmänt, figur 3.12 visar för vissa egenskaper Blumen förbättrade inte mycket mer än att bara göra den enkla utgångs förutsägelse, men det andra drag fanns en viss förbättring.

Figur 3.11: Intelligent noggrannhet för statistisk modell tränade med samtalslistor. Resultat från tabell 2 i Blumen (2014).

Figur 3.11: Intelligent noggrannhet för statistisk modell tränade med samtalslistor. Resultat från tabell 2 i Blumenstock (2014) .

Figur 3.12: Jämförelse av prediktiv noggrannhet för statistisk modell tränade med samtalslistor till enkel baslinje förutsägelse. Poäng något jittered att undvika överlappning; se tabell 2 i Blumen (2014) för exakta värden.

Figur 3.12: Jämförelse av prediktiv noggrannhet för statistisk modell tränade med samtalslistor till enkel baslinje förutsägelse. Poäng något jittered att undvika överlappning; se tabell 2 i Blumenstock (2014) för exakta värden.

Vid denna punkt du kanske tänker att dessa resultat är lite av en besvikelse, men bara ett år senare, Blumen och två kollegor-Gabriel Cadamuro och Robert On-publicerade ett papper i Science med väsentligt bättre resultat (Blumenstock, Cadamuro, and On 2015) . Det fanns två huvudsakliga tekniska skäl för att förbättra: 1) de använde mer sofistikerade metoder (dvs en ny metod för att presentera teknik och en mer sofistikerad maskininlärning modell) och 2) snarare än att försöka sluta svar på enskilda enkätfrågor (t.ex. "äger du en radio?"), försökte de att sluta en sammansatt rikedom index.

Blumen och kollegor visade utförandet av deras strategi på två sätt. Först fann de att för människor i deras prov, kan de göra en ganska bra jobb med att förutsäga sin rikedom från samtalslistor (Figur 3.14). För det andra, och allt viktigare, Blumen och kollegor visade att deras förfarande skulle producera uppskattningar av den geografiska fördelningen av rikedom i Rwanda av hög kvalitet. Närmare bestämt använde de sin maskin inlärningsmodell, som var utbildad på deras urval av cirka 1000 personer, för att förutsäga den rikedom av alla 1,5 miljoner människor i samtalslistor. Vidare, med geografiska data inbäddade i samtalsdata (minns att datasamtalet innefattar var närmaste mobilmast för varje samtal), kunde forskarna att uppskatta den ungefärliga bostadsort varje person. Att sätta dessa två uppskattningar tillsammans producerade forskningen en uppskattning av den geografiska fördelningen av abonnent rikedom vid extremt fin rumslig precision. Till exempel kan de uppskatta den genomsnittliga rikedom i varje Rwanda 2148 celler (den minsta administrativa enhet i landet). Dessa förutsagda förmögenhetsvärden var så granulär de var svåra att kontrollera. Så forskarna samman sina resultat för att producera uppskattningar av den genomsnittliga mängd Rwanda 30 distrikt. Dessa uppskattningar distriktsnivå var starkt relaterade till de uppskattningar från en guldmyntfot traditionell undersökning, Rwandas demografiska och hälsoundersökningen (figur 3.14). Även om bedömningarna från de två källorna var liknande de uppskattningar från Blumen och kollegor var ca 50 gånger billigare och 10 gånger snabbare (när kostnaden i mätt i rörliga kostnader). Denna dramatiska minskning av kostnaderna innebär att i stället för att köra med några års mellanrum, som är standard för demografiska och Health Surveys-hybriden av liten undersökning i kombination med stora digitala spårningsdata kan köras varje månad.

Figur 3.13: Schematisk bild av Blumen, Cadamuro, och On (2015). Samtalsdata från telefonbolaget omvandlades till en matris med en rad för varje person och en kolumn för varje funktion (dvs variabel). Därefter forskarna byggt en övervakad inlärningsmodell för att förutsäga enkätsvar från personen genom funktionen matris. Därefter tillsattes den övervakade inlärningsmodell som används för att imputera enkätsvaren för alla. I huvudsak använde forskarna svaren från omkring tusen människor tillskriva den rikedom av omkring en miljon människor. Även forskarna uppskattade ungefärliga bostadsort för alla 1,5 miljoner människor baserat på de platser där deras samtal. När dessa två uppskattningar kombinerad beräknad rikedom och den uppskattade platsen för bosättnings resultaten liknade beräkningar från demografiska och hälsoundersökningen, en guldstandard traditionell undersökning (figur 3.14).

Figur 3.13: Schematisk bild av Blumenstock, Cadamuro, and On (2015) . Samtalsdata från telefonbolaget omvandlades till en matris med en rad för varje person och en kolumn för varje funktion (dvs variabel). Därefter forskarna byggt en övervakad inlärningsmodell för att förutsäga enkätsvar från personen genom funktionen matris. Därefter tillsattes den övervakade inlärningsmodell som används för att imputera enkätsvaren för alla. I huvudsak använde forskarna svaren från omkring tusen människor tillskriva den rikedom av omkring en miljon människor. Även forskarna uppskattade ungefärliga bostadsort för alla 1,5 miljoner människor baserat på de platser där deras samtal. När dessa två uppskattningar kombinerad beräknad rikedom och den uppskattade platsen för bosättnings resultaten liknade beräkningar från demografiska och hälsoundersökningen, en guldstandard traditionell undersökning (figur 3.14).

Figur 3.14: Resultat från Blumen, Cadamuro, och On (2015). På individnivå, kunde forskarna att göra en rimlig jobb på att förutsäga någons rikedom från sina samtalslistor. Uppskattningarna av distriktsnivå rikedom som baserades på uppskattningar av rikedom och bostadsort-resultaten på individnivå liknade resultat från Demografiska och hälsa Survey, en guldstandard traditionell undersökning.

Figur 3.14: Resultat från Blumenstock, Cadamuro, and On (2015) . På individnivå, kunde forskarna att göra en rimlig jobb på att förutsäga någons rikedom från sina samtalslistor. Uppskattningarna av distriktsnivå rikedom som baserades på uppskattningar av rikedom och bostadsort-resultaten på individnivå liknade resultat från Demografiska och hälsa Survey, en guldstandard traditionell undersökning.

Sammanfattningsvis, Blumen s amplifieras frågar tillvägagångssätt kombinerad undersökningsdata med digital spårdata för att producera uppskattningar jämförbara med guldstandard undersöknings uppskattningar. Denna speciella exempel klargör också några av de avvägningar mellan förstärkt frågar och traditionella undersökningsmetoder. Först de förstärkta be beräkningarna var snabbare, betydligt billigare och mer detaljerad. Men, å andra sidan, vid denna tid, det finns inte en stark teoretisk grund för denna typ av förstärkt fråga. Det vill säga, gör detta ett exempel inte när det kommer att fungera och när det inte. Vidare innebär den förstärkta frågar strategi inte ännu har bra sätt att kvantifiera osäkerheten kring sina beräkningar. Emellertid har förstärkt frågar djupa kopplingar till tre stora områden i statistik-modellbaserad poststratifiering (Little 1993) , imputering (Rubin 2004) , och små området uppskattning (Rao and Molina 2015) -och så jag räknar med att utvecklingen kommer vara snabbt.

Amplified frågar följer en grundrecept som kan anpassas till din situation. Det finns två beståndsdelar och två steg. De två ingredienserna är 1) en digital spår datamängd som är bred men tunn (det vill säga, har det många människor, men inte den information som du behöver om varje person) och 2) en undersökning som är smal men tjock (det vill säga, har det endast ett fåtal personer, men det har den information som du behöver om dessa människor). Sedan finns det två steg. Först för människorna i både datakällor, bygga en maskininlärning modell som använder digitala spårdata för att förutsäga enkätsvar. Därefter använda maskininlärning modell tillskriva de enkätsvar av alla i den digitala spårningsdata. Således, om det finns någon fråga som du vill ställa till massor av människor, leta efter digitala spårdata från de människor som kan användas för att förutsäga deras svar.

Jämföra Blumen första och andra försöket på problemet också illustrerar en viktig lärdom om övergången från andra eran till tredje eran metoder för att kartlägga forskning: I början är inte slutet. Det är många gånger, den första metoden inte kommer att vara den bästa, men om forskarna fortsätter att arbeta, kan det bli bättre. Mer allmänt, vid utvärdering av nya metoder för social forskning i den digitala tidsåldern, är det viktigt att göra två olika utvärderingar: 1) hur väl fungerar det nu och 2) hur väl du tror att detta skulle kunna fungera i framtiden som datalandskap förändringar och som forskare ägna mer uppmärksamhet åt problemet. Även forskare utbildas för att göra den första typen av utvärdering (hur bra är denna del av forskning), är den andra ofta viktigare.