3.6.2 Amplified vra

Amplified vra om 'n voorspellende model te gebruik om opname data van 'n paar mense met 'n groot databron van baie mense te kombineer.

'N Ander manier om opname en groot databronne te kombineer, is 'n proses wat ek sal noem versterk . In gevorderde vraag gebruik 'n navorser 'n voorspellende model om 'n klein hoeveelheid opname data met 'n groot databron te kombineer om skattings op 'n skaal of korrelvorm te produseer wat nie individueel met enige data bron moontlik sou wees nie. 'N belangrike voorbeeld van versterkte vraag kom uit die werk van Joshua Blumenstock, wat data wou versamel wat kan help om ontwikkeling in arm lande te lei. In die verlede moes navorsers wat hierdie soort data versamel, gewoonlik een van twee benaderings gebruik: steekproefopnames of sensusse. Voorbeeld opnames, waar navorsers 'n klein aantal mense onderhou, kan buigsaam, betyds en relatief goedkoop wees. Hierdie opnames, omdat hulle op 'n steekproef gebaseer is, is egter dikwels beperk in hul resolusie. Met 'n steekproef opname is dit dikwels moeilik om ramings te maak oor spesifieke geografiese streke of vir spesifieke demografiese groepe. Sensusse, aan die ander kant, poog om almal te ondervra, en daarom kan hulle gebruik word om ramings vir klein geografiese streke of demografiese groepe te produseer. Maar sensusse is oor die algemeen duur, nou in fokus (hulle bevat slegs 'n klein aantal vrae), en nie betyds nie (dit gebeur op 'n vaste skedule, soos elke 10 jaar) (Kish 1979) . Eerder as om vas te hou met steekproefopnames of sensusse, stel jou voor of navorsers die beste eienskappe van albei kan kombineer. Stel jou voor of navorsers elke vraag elke dag aan elke persoon kan vra. Dit is duidelik dat hierdie alomteenwoordige, altyd-op-opname 'n soort sosiale wetenskap fantasie is. Maar dit wil voorkom dat ons kan begin om hierdie te benader deur opname vrae kombinasie van 'n klein aantal mense met 'n digitale spore van baie mense.

Blumenstock se navorsing het begin toe hy met die grootste selfoonverskaffer in Rwanda saamgewerk het. Die maatskappy het tussen 2005 en 2009 anonieme transaksierekords verskaf van ongeveer 1.5 miljoen kliënte. Hierdie rekords bevat inligting oor elke oproep en sms-boodskap, soos die aanvangsduur, duur , en benaderde geografiese ligging van die oproeper en ontvanger. Voordat ek praat oor die statistiese kwessies, is dit die moeite werd om daarop te wys dat hierdie eerste stap een van die moeilikste vir baie navorsers kan wees. Soos ek in hoofstuk 2 beskryf het, is die meeste groot databronne ontoeganklik vir navorsers. Spesiale telefoonmeta-data is veral ontoeganklik omdat dit basies onmoontlik is om te anonimiseer en dit bevat feitlik beslis inligting wat deelnemers sensitief sou oorweeg (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . In hierdie besondere geval was die navorsers versigtig om die data te beskerm en hul werk was onder toesig van 'n derde party (dws hulle IRB). Ek gaan terug na hierdie etiese kwessies in meer besonderhede in hoofstuk 6.

Blumenstock was geïnteresseerd in die meet van welvaart en welstand. Maar hierdie eienskappe is nie direk in die oproeprekords nie. Met ander woorde, hierdie oproeprekords is onvolledig vir hierdie navorsing - 'n algemene kenmerk van groot databronne wat in hoofstuk 2 volledig bespreek is. Dit lyk egter waarskynlik dat die oproeprekords waarskynlik inligting bevat wat indirek inligting oor rykdom en welstand. Gegewe hierdie moontlikheid het Blumenstock gevra of dit moontlik was om 'n masjienleermodel op te lei om te voorspel hoe iemand op 'n opname sal reageer op grond van hul oproeprekords. As dit moontlik was, kan Blumenstock hierdie model gebruik om die opname-antwoorde van al 1.5 miljoen kliënte te voorspel.

Om so 'n model te bou en op te lei, het Blumenstock en navorsingsassistente van Kigali Instituut vir Wetenskap en Tegnologie 'n ewekansige steekproef van ongeveer 'n duisend kliënte genoem. Die navorsers het die doelwitte van die projek aan die deelnemers verduidelik, gevra vir hul toestemming om die opname-reaksies op die oproeprekords te koppel en hulle dan 'n reeks vrae gevra om hul welvaart en welstand te meet, soos: "Besit jy 'n radio? "en" Besit jy 'n fiets? "(sien figuur 3.14 vir 'n gedeeltelike lys). Alle deelnemers aan die opname is finansieel vergoed.

Vervolgens gebruik Blumenstock 'n tweestap prosedure wat algemeen in masjienleer voorkom: funksie ingenieurswese gevolg deur onder toesig geleer. Eerstens, in die funksie ingenieurswese stap, vir almal wat onderhoude was, het Blumenstock die oproeprekords omskep in 'n stel eienskappe oor elke persoon; data wetenskaplikes kan hierdie eienskappe "eienskappe" noem en sosiale wetenskaplikes sal hulle "veranderlikes" noem. Byvoorbeeld, vir elke persoon het Blumenstock die totale aantal dae met aktiwiteit bereken, die aantal afsonderlike mense wat 'n persoon in kontak was met die bedrag geld spandeer op lugtyd, en so aan. Kritiek vereis goeie funksie ingenieurswese kennis van die navorsingsinstelling. Byvoorbeeld, as dit belangrik is om tussen huishoudelike en internasionale oproepe te onderskei (ons kan verwag dat mense wat internasionaal bel om ryk te wees), moet dit gedoen word by die funksie ingenieurswese. 'N Navorser met min begrip van Rwanda mag hierdie kenmerk nie insluit nie, en dan sal die voorspellende uitvoering van die model ly.

Vervolgens het Blumenstock in die onderrigleerstap 'n model gebou om die opname reaksie vir elke persoon te voorspel op grond van hul funksies. In hierdie geval het Blumenstock logistieke regressie gebruik, maar hy kon 'n verskeidenheid ander statistiese of masjienleerbenaderings gebruik het.

So hoe goed het dit gewerk? Was Blumenstock in staat om antwoorde te voorspel om vrae soos 'Besit jy 'n radio?' En 'Besit jy 'n fiets?' Met behulp van funksies wat afgelei is van oproeprekords? Met die oog op die uitvoering van sy voorspelbare model te evalueer, Blumenstock gebruik cross-validation, 'n tegniek wat algemeen gebruik word in data wetenskap, maar selde in die sosiale wetenskappe. Die doel van kruis-validering is om 'n billike assessering van 'n model se voorspellende prestasie te gee deur dit op te lei en te toets op verskillende dele van data. In die besonder, Blumenstock verdeel sy data in 10 stukke van 100 mense elk. Toe gebruik hy nege van die stukke om sy model op te lei, en die voorspellende prestasie van die opgeleide model is op die oorblywende stuk geëvalueer. Hy herhaal hierdie prosedure 10 keer. Met elke stukkie data kry jy een beurt as die validasie data - en die resultate is gemiddeld.

Die akkuraatheid van die voorspellings was hoog vir sommige eienskappe (figuur 3.14); Byvoorbeeld, Blumenstock kan met 97,6% akkuraatheid voorspel as iemand 'n radio besit. Dit mag indrukwekkend wees, maar dit is altyd belangrik om 'n komplekse voorspellingsmetode met 'n eenvoudige alternatief te vergelyk. In hierdie geval is 'n eenvoudige alternatief om te voorspel dat almal die mees algemene antwoord sal gee. Byvoorbeeld, 97,3% van die respondente het gerapporteer om 'n radio te besit, so as Blumenstock voorspel het dat almal 'n radio sou aanmeld, sou hy 'n akkuraatheid van 97.3% gehad het. Dit is verrassend soortgelyk aan die uitvoering van sy meer komplekse prosedure (97,6% akkuraatheid) . Met ander woorde, al die fancy data en modellering het die akkuraatheid van die voorspelling van 97.3% tot 97.6% verhoog. Vir ander vrae, soos 'Eien jy 'n fiets?', Het die voorspellings egter verbeter van 54,4% tot 67,6%. Meer algemeen toon figuur 3.15 dat Blumenstock vir sommige eienskappe nie veel verbeter het nie, maar net vir die basiese voorspellings, maar vir ander eienskappe was daar 'n mate van verbetering. As jy net na hierdie resultate kyk, dink jy dalk nie dat hierdie benadering besonder belowend is nie.

Figuur 3.14: Voorspellende akkuraatheid vir 'n statistiese model opgelei met oproeprekords. Aangepas uit Blumenstock (2014), tabel 2.

Figuur 3.14: Voorspellende akkuraatheid vir 'n statistiese model opgelei met oproeprekords. Aangepas uit Blumenstock (2014) , tabel 2.

Figuur 3.15: Vergelyking van voorspellende akkuraatheid vir 'n statistiese model wat met oproeprekords opgelei is tot eenvoudige basislynvoorspelling. Punte is effens jitter om oorvleueling te vermy. Aangepas uit Blumenstock (2014), tabel 2.

Figuur 3.15: Vergelyking van voorspellende akkuraatheid vir 'n statistiese model wat met oproeprekords opgelei is tot eenvoudige basislynvoorspelling. Punte is effens jitter om oorvleueling te vermy. Aangepas uit Blumenstock (2014) , tabel 2.

Maar net een jaar later, Blumenstock en twee kollegas-Gabriel Cadamuro en Robert On-gepubliseer 'n vraestel in die wetenskap met aansienlik beter resultate (Blumenstock, Cadamuro, and On 2015) . Daar was twee hoof tegniese redes vir hierdie verbetering: (1) hulle het meer gesofistikeerde metodes gebruik (dws 'n nuwe benadering tot funksie-ingenieurswese en 'n meer gesofistikeerde model om antwoorde van funksies te voorspel) en (2) eerder as om antwoorde op individuele opname vrae (bv. "Besit jy 'n radio?"), het hulle probeer om 'n saamgestelde rykdomindeks af te lei. Hierdie tegniese verbeteringe het beteken dat hulle 'n redelike taak kon doen om oproeprekords te gebruik om rykdom vir die mense in hul steekproef te voorspel.

Die voorspelling van die rykdom van mense in die steekproef was egter nie die uiteindelike doel van die navorsing nie. Onthou dat die uiteindelike doel was om van die beste kenmerke van steekproefopnames en sensusse te kombineer om akkurate, hoë-resolusie-ramings van armoede in ontwikkelende lande te lewer. Om hul vermoë om hierdie doel te bereik, het Blumenstock en kollegas hul model en hul data gebruik om die rykdom van alle 1.5 miljoen mense in die oproeprekords te voorspel. En hulle gebruik die geospatiale inligting wat in die oproeprekords ingebed is (onthou dat die data die ligging van die naaste seltoring vir elke oproep ingesluit het) om die benaderde koshuis van elke persoon te skat (figuur 3.17). Deur hierdie twee ramings saam te bring, het Blumenstock en kollegas 'n skatting gemaak van die geografiese verspreiding van intekenaarwelvaart by uiters fyn ruimtelike korrelvormigheid. Byvoorbeeld, hulle kon die gemiddelde rykdom in elk van Rwanda se 2.148 selle (die kleinste administratiewe eenheid in die land) skat.

Hoe goed het hierdie ramings ooreenstem met die werklike vlak van armoede in hierdie streke? Voordat ek daardie vraag beantwoord, wil ek die feit beklemtoon dat daar heelwat redes is om skepties te wees. Byvoorbeeld, die vermoë om voorspellings op die individuele vlak te maak, was redelik lawaaierig (figuur 3.17). En dalk meer belangrik, mense met selfone kan stelselmatig verskil van mense sonder selfone. So, Blumenstock en kollegas kan ly aan die tipes dekking foute wat bevoordeel die 1936 Literêre Digest opname wat ek vroeër beskryf.

Om die gehalte van hul ramings te verstaan, moes Blumenstock en kollegas dit vergelyk met iets anders. Gelukkig, ongeveer dieselfde tyd as hul studie, het 'n ander groep navorsers 'n meer tradisionele sosiale opname in Rwanda uitgevoer. Hierdie ander opname, wat deel was van die wye gerespekteerde demografiese en gesondheidsopname-program, het 'n groot begroting gehad en gebruik tradisionele metodes van hoë gehalte. Daarom kan die ramings van die Demografiese en Gesondheidsopname redelikerwys oorweeg word as 'n goudstandaardberamings. Wanneer die twee ramings vergelyk is, was dit baie soortgelyk (figuur 3.17). Met ander woorde, deur die kombinasie van 'n klein hoeveelheid opname data met die oproep rekords, Blumenstock en kollegas in staat was om ramings te produseer wat vergelykbaar is met dié van die goud-standaard benaderings.

'N Skeptici kan hierdie resultate as 'n teleurstelling sien. Een manier om dit te sien is immers om te sê dat deur gebruik te maak van groot data en masjienleer, Blumenstock en kollegas in staat was om ramings te maak wat betroubaarder gemaak kan word deur reeds bestaande metodes. Maar ek dink nie dit is die regte manier om oor twee redes aan hierdie studie te dink nie. Eerstens was die ramings van Blumenstock en kollegas ongeveer 10 keer vinniger en 50 keer goedkoper (wanneer koste gemeet word aan die hand van veranderlike koste). Soos ek vroeër in hierdie hoofstuk aangevoer het, ignoreer navorsers hul koste. In hierdie geval beteken die dramatiese daling in koste, eerder as om elke paar jaar te hardloop, soos wat die standaard vir Demografiese en Gesondheidsopnames is. Hierdie soort opname kan elke maand uitgevoer word, wat talle voordele vir navorsers en beleid bied. makers. Die tweede rede om nie die skeptici se siening te neem nie, is dat hierdie studie 'n basiese resep bied wat aangepas kan word vir baie verskillende navorsingsituasies. Hierdie resep het slegs twee bestanddele en twee stappe. Die bestanddele is (1) 'n groot databron wat wyd, maar dun is (dit het baie mense, maar nie die inligting wat jy oor elke persoon nodig het nie) en (2) 'n opname wat nou maar dik is (dit het net 'n paar mense, maar dit het wel die inligting wat jy oor daardie mense benodig). Hierdie bestanddele word dan in twee stappe gekombineer. Eerstens, vir die mense in albei databronne, bou 'n masjienleermodel wat die groot databron gebruik om opname antwoorde te voorspel. Gebruik dan die model om die opname antwoorde van almal in die groot databron te bepaal. Dus, as daar 'n vraag is wat u baie mense wil vra, soek u 'n groot databron van die mense wat gebruik kan word om hul antwoord te voorspel, al is u nie omgee vir die groot databron nie . Dit is, Blumenstock en kollegas het nie inherent omgee vir oproeprekords nie; hulle het net gehandel oor oproeprekords omdat hulle gebruik kon word om opname antwoorde wat hulle omgee, te voorspel. Hierdie kenmerkende enigste indirekte belangstelling in die groot databron, versterk, vra anders as ingebedde vra, wat ek vroeër beskryf het.

Figuur 3.16: Skematiese van die studie deur Blumenstock, Cadamuro, en On (2015). Oproeprekords van die foonmaatskappy is omskep in 'n matriks met een ry vir elke persoon en een kolom vir elke kenmerk (dws veranderlik). Vervolgens het die navorsers 'n onderrigmodel onder toesig gebou om die opname-antwoorde van die persoon-vir-funksie-matriks te voorspel. Daarna is die onderrigleermodel gebruik om die opname-antwoorde vir alle 1.5 miljoen kliënte te gebruik. Die navorsers het ook die benaderde woonplek geskat vir alle 1.5 miljoen kliënte, gebaseer op die ligging van hul oproepe. Toe hierdie twee ramings, die beraamde rykdom en die beraamde verblyfplek, gekombineer was, was die resultate soortgelyk aan ramings uit die Demografiese en Gesondheidsopname, 'n goudstandaard tradisionele opname (figuur 3.17).

Figuur 3.16: Skematiese van die studie deur Blumenstock, Cadamuro, and On (2015) . Oproep rekords van die foon maatskappy is omskep in 'n matriks met een ry vir elke persoon en een kolom vir elke funksie (dws veranderlike). Vervolgens het die navorsers 'n onderrigmodel onder toesig gebou om die opname-antwoorde van die persoon-vir-funksie-matriks te voorspel. Daarna is die onderrigleermodel gebruik om die opname-antwoorde vir alle 1.5 miljoen kliënte te gebruik. Die navorsers het ook die benaderde woonplek geskat vir alle 1.5 miljoen kliënte, gebaseer op die ligging van hul oproepe. Toe hierdie twee ramings, die beraamde rykdom en die beraamde verblyfplek, gekombineer was, was die resultate soortgelyk aan ramings uit die Demografiese en Gesondheidsopname, 'n goudstandaard tradisionele opname (figuur 3.17).

Figuur 3.17: Resultate van Blumenstock, Cadamuro en On (2015). Op die individuele vlak was die navorsers in staat om 'n redelike werk te doen om iemand se rykdom uit hul oproeprekords te voorspel. Die ramings van die rykdom van distriksvlakke vir Rwanda se 30 distrikte, wat gebaseer was op individue se ramings van rykdom en woonplek, was soortgelyk aan die resultate van die Demografiese en Gesondheidsopname, 'n tradisionele opname in goud. Aangepas uit Blumenstock, Cadamuro en On (2015), figure 1a en 3c.

Figuur 3.17: Resultate van Blumenstock, Cadamuro, and On (2015) . Op die individuele vlak was die navorsers in staat om 'n redelike werk te doen om iemand se rykdom uit hul oproeprekords te voorspel. Die ramings van die rykdom van distriksvlakke vir Rwanda se 30 distrikte, wat gebaseer was op individue se ramings van rykdom en woonplek, was soortgelyk aan die resultate van die Demografiese en Gesondheidsopname, 'n tradisionele opname in goud. Aangepas uit Blumenstock, Cadamuro, and On (2015) , figure 1a en 3c.

Ten slotte het Blumenstock se versterkte vraagbenadering die opname data gekombineer met 'n groot databron om ramings te vergelyk wat vergelykbaar is met dié van 'n goudstandaardopname. Hierdie spesifieke voorbeeld verduidelik ook sommige van die afwegings tussen versterkte vra en tradisionele opname metodes. Die versterkte vraagberamings was meer tydig, aansienlik goedkoper, en meer korrelvormig. Maar aan die ander kant is daar nog nie 'n sterk teoretiese basis vir hierdie soort versterkte vraag nie. Hierdie enkele voorbeeld toon nie wanneer hierdie benadering sal werk en wanneer dit nie sal wees nie, en navorsers wat hierdie benadering gebruik, moet veral bekommerd wees oor moontlike vooroordele wat veroorsaak word deur wie ingesluit word - en wat nie ingesluit is nie - in hul groot databron. Verder het die versterkte vraagbenadering nog nie goeie maniere om onsekerheid rondom sy ramings te kwantifiseer nie. Gelukkig het gevorderde vraag diep verbindings met drie groot gebiede in statistiek-klein-area-skatting (Rao and Molina 2015) , toerekening (Rubin 2004) en modelgebaseerde post-stratifikasie (wat self nou verwant is aan mnr P., die metode wat ek vroeër in die hoofstuk beskryf het) (Little 1993) . As gevolg van hierdie diep verbindings, verwag ek dat baie van die metodologiese grondslae van versterkte vrae binnekort verbeter sal word.

Ten slotte illustreer die vergelyking van Blumenstock se eerste en tweede pogings ook 'n belangrike les oor digitale-jarige sosiale navorsing: die begin is nie die einde nie. Dit is baie keer dat die eerste benadering nie die beste sal wees nie, maar as navorsers aanhou werk, kan dinge beter word. Meer oor die algemeen is dit belangrik om twee afsonderlike evaluerings te evalueer by die evaluering van nuwe benaderings tot sosiale navorsing in die digitale era. (1) Hoe goed werk dit nou? en (2) Hoe goed sal dit in die toekoms werk as die data-landskap verander en as navorsers meer aandag aan die probleem gee? Alhoewel navorsers opgelei is om die eerste soort evaluering te maak, is die tweede dikwels belangriker.