3.6.1 Amplified vragen

Koppelen van uw onderzoek naar digitale sporen kan worden als iedereen vragen uw vragen te allen tijde.

Vraagprijs komt over het algemeen in twee hoofdcategorieën: steekproef enquêtes en tellingen. Steekproefenquêtes, waar u toegang tot een klein aantal mensen, kunnen flexibel, tijdig, en relatief goedkoop zijn. Echter, steekproefenquêtes, omdat ze zijn gebaseerd op een steekproef, zijn vaak beperkt in hun resolutie; met een steekproef, is het vaak moeilijk om schattingen te maken over specifieke geografische regio's of voor specifieke demografische groepen. Tellingen, anderzijds proberen iedereen ondervragen in de populatie. Ze hebben een hoge resolutie, maar ze zijn over het algemeen duur, smalle focus (zij omvatten slechts een klein aantal vragen), en niet tijdig (ze gebeuren op een vast schema, zoals elke 10 jaar) (Kish 1979) . Stel je nu als onderzoekers de beste eigenschappen van het monster enquêtes en tellingen kon combineren; stel je voor als onderzoekers elke vraag die iedere dag zou kunnen vragen voor iedereen.

Het is duidelijk dat deze voortdurende, alomtegenwoordige, always-on onderzoek is een soort van sociale wetenschappen fantasy. Maar het lijkt erop dat we kunnen beginnen om dit te benaderen door enquêtevragen het combineren van een klein aantal mensen met digitale sporen van veel mensen. Ik noem dit soort combinatie versterkt te vragen. Als het goed gedaan, kan het helpen ons voorziet schatten dat meer lokale (voor kleinere geografische gebieden) zijn, meer gedetailleerde (voor specifieke demografische groepen), en meer actueel.

Een voorbeeld van een versterkte vragen komt voort uit het werk van Joshua Blumenstock, die wilde de gegevens dat zou helpen gids ontwikkeling in arme landen te verzamelen. Meer in het bijzonder, Blumenstock wilde een systeem om welvaart en welzijn, dat de volledigheid van een volkstelling met de flexibiliteit en de frequentie van een enquête gecombineerd meten creëren (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . In feite, heb ik al het werk Blumenstock's kort beschreven in hoofdstuk 1.

Om te beginnen, Blumenstock een samenwerkingsverband aangegaan met de grootste mobiele telefoon provider in Rwanda. Het bedrijf gaf hem geanonimiseerde transactiegegevens van ongeveer 1,5 miljoen klanten met betrekking tot het gedrag van 2005 en 2009. De logbestanden bevatten informatie over elk gesprek en SMS-bericht, zoals de begintijd, de duur, en het geschatte geografische locatie van de beller en ontvanger. Voordat we beginnen te praten over de statistische problemen, het is de moeite waard erop te wijzen dat deze eerste stap een van de moeilijkste zijn. Zoals beschreven in hoofdstuk 2, meeste digitale traceringgegevens niet toegankelijk voor onderzoekers. En, veel bedrijven zijn terecht terughoudend om hun gegevens te delen, want het is privé; dat is hun klanten waarschijnlijk niet verwachten dat hun gegevens zullen worden gedeeld in bulk-met onderzoekers. In dit geval is de onderzoekers namen voorzichtige stappen om de gegevens te anonimiseren en hun werk werd onder toezicht van een derde partij (dat wil zeggen, hun IRB). Maar ondanks deze inspanningen, zijn deze gegevens waarschijnlijk nog steeds herkenbaar en ze waarschijnlijk bevatten gevoelige informatie (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Ik zal terugkeren naar deze ethische vraag in hoofdstuk 6.

Bedenk dat Blumenstock was geïnteresseerd in het meten van welvaart en welzijn. Maar, deze eigenschappen zijn niet direct in de call records. Met andere woorden, deze call records onvolledig voor dit onderzoek, een gemeenschappelijk kenmerk van digitale sporen die in detail besproken in hoofdstuk 2. Maar, lijkt het waarschijnlijk dat de call records waarschijnlijk wat informatie over welvaart en welzijn. Dus, een manier om te vragen Blumenstock de vraag zou kunnen zijn: is het mogelijk om te voorspellen hoe iemand zal reageren op een onderzoek op basis van hun digitale trace data? Zo ja, dan door het stellen van een paar mensen die we kunnen de antwoorden van alle anderen raden.

Om dit empirisch te evalueren, Blumenstock en onderzoek assistenten van Kigali Institute of Science and Technology heet een steekproef van ongeveer duizend klanten voor mobiele telefoon. De onderzoekers legde de doelstellingen van het project aan de deelnemers gevraagd naar hun instemming met de antwoorden op de enquête te koppelen aan de call records, en vervolgens vroeg hen een aantal vragen om hun rijkdom en welzijn te meten, zoals "Heeft u een eigen radio? "en" Heeft u een fiets? '(zie figuur 3.11 voor een gedeeltelijke lijst). Alle deelnemers aan het onderzoek werd financieel gecompenseerd.

Vervolgens Blumenstock gebruik gemaakt van een twee-staps procedure gebruikelijk in data science: feature techniek, gevolgd door onder toezicht leren. Ten eerste, in de functie techniek stap voor iedereen die werd geïnterviewd, Blumenstock zette de call records in een reeks kenmerken van elke persoon; data wetenschappers kunnen deze kenmerken noemen "features" en sociale wetenschappers zouden ze noemen "variabelen." Bijvoorbeeld, voor elke persoon, Blumenstock berekende totale aantal dagen van de activiteit, het aantal afzonderlijke mensen een persoon in contact is geweest met de hoeveelheid geld besteed aan airtime, en ga zo maar door. Kritisch, goede eigenschap techniek vereist kennis van het onderzoek setting. Bijvoorbeeld, als het belangrijk is om onderscheid te maken tussen binnenlandse en internationale gesprekken (we kunnen verwachten mensen die internationaal bellen om rijker te zijn), dan moet dit worden gedaan op de functie techniek stap. Een onderzoeker met weinig begrip van Rwanda misschien niet bevatten deze functie, en dan is de voorspellende prestaties van het model zal lijden.

Vervolgens, in de bewaakte leren stap Blumenstock bouwde een statistisch model om de survey respons voor elke persoon op basis van hun kenmerken te voorspellen. In dit geval Blumenstock logistische regressie met 10-voudige kruisvalidatiestudies, maar kon een aantal andere statistische of machine learning benaderingen gebruikt.

Dus hoe goed werkte het? Was Blumenstock in staat om antwoorden te voorspellen op vragen als enquête "Heeft u een radio in uw bezit? 'En' Heeft u een fiets?" Met behulp van functies afgeleid van call records? Soort van. De nauwkeurigheid van de voorspellingen hoog voor sommige eigenschappen (Figuur 3.11). Maar het is altijd belangrijk om een ​​complex voorspellingswerkwijze vergelijken met een eenvoudig alternatief. In dit geval is een eenvoudig alternatief is om te voorspellen dat iedereen de meest voorkomende zal antwoorden. Bijvoorbeeld, 97,3% rapporteerde bezit van een radio dus als Blumenstock had voorspeld dat iedereen zou rapporteren bezit van een radio hij een nauwkeurigheid van 97,3%, dat verrassend lijkt op de uitvoering van zijn ingewikkelder procedure (97,6% nauwkeurigheid) hebben. Met andere woorden, de buitensporige gegevens en modellen vergroot de nauwkeurigheid van de voorspelling van 97,3% tot 97,6%. Echter, voor andere vragen, zoals "Heeft u een fiets? ', De voorspellingen verbeterd van 54,4% naar 67,6%. Meer in het algemeen, Figuur 3.12 toont voor een aantal kenmerken Blumenstock verbeterde niet veel verder dan alleen het maken van de eenvoudige basislijn voorspelling, maar dat voor andere kenmerken was er enige verbetering.

Figuur 3.11: Predictive nauwkeurigheid voor statistische model getraind met call records. De resultaten van tabel 2 van Blumenstock (2014).

Figuur 3.11: Predictive nauwkeurigheid voor statistische model getraind met call records. De resultaten van tabel 2 van Blumenstock (2014) .

Figuur 3.12: Vergelijking van de voorspellende waarde voor statistische model getraind met call records eenvoudige basislijn voorspelling. Punten worden lichtjes jittered om overlappingen te voorkomen; zie tabel 2 van Blumenstock (2014) voor de exacte waarden.

Figuur 3.12: Vergelijking van de voorspellende waarde voor statistische model getraind met call records eenvoudige basislijn voorspelling. Punten worden lichtjes jittered om overlappingen te voorkomen; zie tabel 2 van Blumenstock (2014) voor de exacte waarden.

Op dit punt zou je kunnen denken dat deze resultaten zijn een beetje teleurstellend, maar een jaar later, Blumenstock en twee collega-Gabriel Cadamuro en Robert On-een paper gepubliceerd in Science met aanzienlijk betere resultaten (Blumenstock, Cadamuro, and On 2015) . Er zijn twee belangrijke technische redenen voor verbetering: 1) ze gebruikten meer geavanceerde methoden (dwz een nieuwe benadering hebben techniek en een meer geavanceerde machine learning model) en 2) in plaats van te proberen antwoorden op individuele enquêtevragen afleiden (bv "Heeft u een radio in uw bezit? '), probeerden ze een samengestelde index rijkdom af te leiden.

Blumenstock en collega's aangetoond dat de prestaties van hun aanpak op twee manieren. Ten eerste, vonden ze dat voor de mensen in hun steekproef, konden ze een goede baan van het voorspellen van hun rijkdom van call records (figuur 3.14) te doen. Ten tweede, en steeds belangrijker, Blumenstock en collega's bleek dat hun procedure hoogwaardige schattingen van de geografische verdeling van de welvaart in Rwanda kon produceren. Meer in het bijzonder, gebruikten ze hun machine learning model, dat werd getraind op hun steekproef van ongeveer 1.000 mensen, om de rijkdom van alle 1,5 miljoen mensen te voorspellen in de call records. Verder, met de geospatiale gegevens ingebed in de gespreksgegevens (herinneren dat de oproep data omvat de locatie van de dichtstbijzijnde zendmast voor elk gesprek), de onderzoekers waren in staat om in te schatten ongeveer de woonplaats van elke persoon. Putting deze twee schattingen samen, het onderzoek produceerde een schatting van de geografische verdeling van de rijkdom abonnee op uiterst fijne ruimtelijke granulariteit. Zo konden ze de gemiddelde rijkdom schatten in elk van Rwanda 2148 cellen (de kleinste bestuurlijke eenheid in het land). Deze voorspelde rijkdom waarden waren zo korrelig ze moeilijk te controleren waren. Dus de onderzoekers hun resultaten geaggregeerd schattingen van de gemiddelde rijkdom van Rwanda 30 districten te produceren. Deze wijk-niveau schattingen waren sterk gerelateerd aan de schattingen van een gouden standaard traditionele enquête, de Rwandese Demographic and Health Survey (figuur 3.14). Hoewel de schattingen van de twee bronnen waren vergelijkbaar, de ramingen van Blumenstock en collega's waren ongeveer 50 keer goedkoper en 10 keer sneller (als kosten in gemeten in termen van variabele kosten). Deze dramatische daling van de kostprijs betekent dat in plaats van om de paar jaar-as wordt uitgevoerd is standaard voor Demographic and Health Surveys-de hybride van de kleine enquête in combinatie met grote digitale trace gegevens kunnen elke maand worden uitgevoerd.

Figuur 3.13: Schema van Blumenstock, Cadamuro en On (2015). Call gegevens van de telefoon bedrijf werd omgezet in een matrix met één rij voor elke persoon en één kolom voor elke functie (dat wil zeggen, variabele). Next, de onderzoekers bouwde een bewaakte leermodel naar de antwoorden op de enquête van de persoon te voorspellen door feature matrix. Vervolgens werd de onder toezicht staande leermodel gebruikt om de antwoorden op de enquête voor iedereen toerekenen. In wezen, de onderzoekers gebruik gemaakt van de reacties van ongeveer duizend mensen om de rijkdom van de ongeveer een miljoen mensen toerekenen. Ook de onderzoekers schatten de geschatte woonplaats voor alle 1,5 miljoen mensen op basis van de locaties van hun gesprekken. Wanneer deze twee schattingen werden gecombineerd-de geschatte rijkdom en de geschatte woonplaats-de resultaten waren vergelijkbaar met schattingen van het Demographic and Health Survey, een gouden standaard traditionele enquête (figuur 3.14).

Figuur 3.13: Schema van Blumenstock, Cadamuro, and On (2015) . Call gegevens van de telefoon bedrijf werd omgezet in een matrix met één rij voor elke persoon en één kolom voor elke functie (dat wil zeggen, variabele). Next, de onderzoekers bouwde een bewaakte leermodel naar de antwoorden op de enquête van de persoon te voorspellen door feature matrix. Vervolgens werd de onder toezicht staande leermodel gebruikt om de antwoorden op de enquête voor iedereen toerekenen. In wezen, de onderzoekers gebruik gemaakt van de reacties van ongeveer duizend mensen om de rijkdom van de ongeveer een miljoen mensen toerekenen. Ook de onderzoekers schatten de geschatte woonplaats voor alle 1,5 miljoen mensen op basis van de locaties van hun gesprekken. Wanneer deze twee schattingen werden gecombineerd-de geschatte rijkdom en de geschatte woonplaats-de resultaten waren vergelijkbaar met schattingen van het Demographic and Health Survey, een gouden standaard traditionele enquête (figuur 3.14).

Figuur 3.14: Resultaten uit Blumenstock, Cadamuro en On (2015). Op individueel niveau, de onderzoekers waren in staat om een ​​redelijke werk te doen in het voorspellen van de rijkdom van iemand uit hun call records. De schattingen van de wijk-level-rijkdom, die waren gebaseerd op schattingen individueel niveau van welvaart en woonplaats-de resultaten waren vergelijkbaar met de resultaten van de Demographic and Health Survey, een gouden standaard traditionele enquête.

Figuur 3.14: Resultaten uit Blumenstock, Cadamuro, and On (2015) . Op individueel niveau, de onderzoekers waren in staat om een ​​redelijke werk te doen in het voorspellen van de rijkdom van iemand uit hun call records. De schattingen van de wijk-level-rijkdom, die waren gebaseerd op schattingen individueel niveau van welvaart en woonplaats-de resultaten waren vergelijkbaar met de resultaten van de Demographic and Health Survey, een gouden standaard traditionele enquête.

Tot slot, Blumenstock's geamplificeerd vragen aanpak gecombineerd survey data met digitale trace gegevens voor schattingen vergelijkbaar met goud-standaard survey schattingen. Dit specifieke voorbeeld verduidelijkt ook enkele van de trade-offs tussen versterkte vragen en traditionele onderzoeksmethoden. Ten eerste, de versterkte vragen schattingen waren meer tijdige, aanzienlijk goedkoper, en nog veel meer korrelig. Maar, anderzijds, op dit moment is er geen sterke theoretische basis voor dit soort vraag- geamplificeerd. Dat wil zeggen dat dit een voorbeeld toont niet wanneer het zal werken en wanneer het zal niet. Bovendien stelt dit geamplificeerde vraag- benadering nog geen goede manieren om onzekerheid over de schattingen kwantificeren. Echter, versterkte vragen heeft diepe verbindingen met drie grote gebieden in de statistieken-model op basis van post-stratificatie (Little 1993) , imputatie (Rubin 2004) , en kleine-schattingstechnieken (Rao and Molina 2015) -en dus ik verwacht dat er vooruitgang zal te snel.

Amplified vragen volgt een basisrecept die kan worden afgestemd op uw specifieke situatie. Er zijn twee ingrediënten en twee stappen. De twee ingrediënten zijn: 1) een digitaal spoor dataset die is breed maar dun (dat wil zeggen, het heeft veel mensen, maar niet de informatie die u nodig heeft over elk personen) en 2) een enquête die is smal maar dik (dat wil zeggen, het heeft slechts een paar mensen, maar het heeft de informatie die u nodig heeft over die mensen). Dan zijn er twee stappen. In de eerste plaats voor de mensen in beide gegevensbronnen, het bouwen van een machine learning model dat digitale trace data gebruikt om onderzoek antwoorden te voorspellen. Vervolgens gebruikt die machine learning model om de enquête antwoorden van iedereen toerekenen in de digitale trace data. Dus, als er een vraag die je wilt stellen om veel mensen, op zoek naar digitale trace gegevens van de mensen die zouden kunnen worden gebruikt om hun antwoord te voorspellen.

Het vergelijken van Blumenstock eerste en tweede poging om het probleem illustreert ook een belangrijke les over de overgang van de tweede naar de derde tijdperk tijdperk benaderingen van onderzoek enquête: het begin is niet het einde. Dat wil zeggen, vele malen, de eerste benadering zal niet de beste, maar als onderzoekers aanhoudende werken, kunnen de dingen beter worden. Meer in het algemeen, bij de beoordeling van nieuwe benaderingen van sociaal onderzoek in het digitale tijdperk, is het belangrijk om twee verschillende evaluaties te maken: 1) hoe goed nu werkt dit en 2) hoe goed denk je dat dit zou kunnen werken in de toekomst als de gegevens landschap veranderingen en als onderzoekers meer aandacht voor het probleem. Hoewel onderzoekers getraind om de eerste soort evaluatie (hoe goed is dit bijzondere stuk van het onderzoek) te maken, de tweede is vaak belangrijker.