3.6.1 võimendatud küsib

See tõlge loodi arvuti. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.6.1 võimendatud küsib

Sidumine oma uuringus, et digitaalse jälgi võib olla nagu paludes igaüks oma küsimustele kogu aeg.

Küsid üldiselt on neid kahte põhikategooriasse: valikvaatlustena ja loendusi. Valikvaatlustena, kus saate siseneda väike hulk inimesi, võib olla paindlik, õigeaegse ja suhteliselt odav. Kuid valikvaatlustena, sest need põhinevad proovi, on sageli piiratud nende lahendamine; koos valikvaatlusega, on sageli raske teha hinnanguid konkreetsete geograafiliste piirkondade või konkreetsete demograafilised rühmad. Loendusi, teiselt poolt üritab intervjueerida kõigile elanikkonnast. Neil on suur resolutsioon, kuid need on üldiselt kallis, kitsas fookuses (nad sisaldavad ainult väike hulk küsimusi), ja mitte õigeaegse (need juhtuvad kindla graafiku alusel, näiteks iga 10 aastat) (Kish 1979) . Nüüd kujutage ette, kui teadlased võivad ühendada parimad omadused valikvaatlustena ja loendused kujutage ette, kui teadlased võivad küsida iga küsimus kõigile iga päev.

Ilmselt see pidev üldlevinud, alati-uuring on omamoodi ühiskonnateaduste fantaasia. Aga tundub, et saame hakata ühtlustada seda, ühendades uuringu küsimustele väike hulk inimesi digitaalse jälgi paljudele inimestele. Ma nimetan seda tüüpi kombinatsioon võimendab küsimata. Kui hästi, võib see aidata meil annab hinnangu, mis on rohkem kohaliku (väiksemate geograafiliste piirkondade) ja täpsemat (teatud demograafiliste gruppide) ja kiiremalt.

Üks näide võimendatud paludes pärineb tööd Joshua Blumenstock, kes tahtis, et koguda andmeid, mis aitab välja töötada vaestes riikides. Täpsemalt Blumenstock tahtsime luua süsteemi, et mõõta rikkuse ja heaolu, et kombineeritud täielikkust loendus paindlikkuse ja sagedus uuring (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Tegelikult ma olen juba kirjeldatud Blumenstock töö lühidalt 1. peatükis.

Et alustada, Blumenstock partneriks suurim mobiiltelefonide pakkuja Rwandas. Ettevõte andis talle anonüümseks tehingudokumendid umbes 1,5 miljonit klienti hõlmab käitumist 2005. ja 2009. palke sisaldavad teavet iga kõne ja lühisõnumi nagu algusaeg, kestus ja ligikaudne geograafiline asukoht helistaja ja vastuvõtja. Enne kui me hakkame rääkima statistilise küsimusi, väärib märkimist, et see esimene samm võib olla üks raskemaid. Nagu 2. peatükis kirjeldatud, kõige digitaalne jälg andmed on kättesaamatud teadlased. Ja paljud ettevõtted on õigustatult kõhklevad oma andmeid jagada, sest see on eraasi mis on nende kliendid ilmselt ei oodanud, et nende raamatupidamine on jagatud lahtiselt-uurijatega. Sel juhul on teadlased võtsid ettevaatlik samme anonüümseks andmed ning nende töö üle teostab kolmas osapool (st oma IRB). Kuid vaatamata saavutatud, need andmed on ilmselt veel tuvastatavad ja nad võivad sisaldada tundlikke andmeid (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Ma naasen nende eetiline küsimus peatükis 6.

Tuletame meelde, et Blumenstock oli huvitatud mõõtmise rikkuse ja heaolu. Aga need tunnused ei ole otseselt kõne arvestust. Teisisõnu, need kõne arvestust on puudulikud selle teadustegevuse ühine omadus digitaalse jälgi, et arutati üksikasjalikult 2. peatükis Aga tundub tõenäoline, et kõne arvestust ilmselt mingit infot rikkuse ja heaolu. Niisiis, üks võimalus küsida Blumenstock küsimus võiks olla: kas on võimalik ennustada, kuidas keegi reageerib uuring põhineb nende digitaalne jälg andmed? Kui jah, siis küsides vähe inimesi saame vist vastused kõik teisedki.

Selle hindamiseks empiiriliselt, Blumenstock ja teadustöö assistendid Kigali Institute of Science and Technology nimetatakse proovi umbes tuhat mobiiltelefoni klientidele. Teadlased selgitasid projekti eesmärke osalejatele, küsiti nõusolekut siduda uuringu vastused kõne arvestust, ja siis palus neil rea küsimusi, et mõõta oma rikkuse ja heaolu, nagu näiteks "Kas te oma raadio? "ja" Kas olete oma jalgratta? "(vt joonis 3.11 osalise loetelu). Kõik uuringus osalenutest olid kompenseeritakse rahaliselt.

Edasi Blumenstock kasutatud kaheastmeline menetlus levinud andmeid teadus: funktsioon inseneri järgneb juhendatud õpet. Esiteks, funktsioon inseneri samm, igaühe jaoks, et küsitleti Blumenstock ümber kõne arvestust hulgaks omaduste kohta iga inimene; andmed teadlased võiks nimetada need omadused "omadused" ja ühiskonnateadlased neid nimetab "muutujaid." Näiteks, iga inimene, Blumenstock arvutatakse päevade koguarv koos aktiivsus on mitmeid erinevaid inimesi isik on kokku puutunud, summa raha kulutada eetriaega, ja nii edasi. Kriitiliselt, hea omadus insener nõuab teadmisi uurimistöös. Näiteks, kui oluline on teha vahet riigisiseste ja rahvusvaheliste kõnede (võime eeldada, et inimesed, kes kutsuvad rahvusvaheliselt jõukamad), siis tuleb seda teha funktsioon inseneri samm. Teadlase vähe mõistmist Rwanda ei pruugi sisaldada seda funktsiooni, ja siis ennustav tulemuslikkuse mudel kannatab.

Edasi on juhendatud õppimise samm, Blumenstock ehitatud statistiline mudel ennustada uuringu vastuseks iga isiku põhineb nende omadusi. Sel juhul Blumenstock kasutatakse logistilist regressiooni 10-kordne ristkontrolli, kuid ta oleks võinud kasutada mitmesuguseid muid statistilisi või masin õppe lähenemist.

Nii, kui hästi see asi käis? Oli Blumenstock võimalik ennustada vastused uuringu küsimustele nagu "Kas sa oma raadio?" Ja "Kas sa oma jalgratta?" Kasutades funktsioone saadud kõne arvestust? Mingis mõttes. Täpsus ennustused olid kõrge mõnede tunnuste (joonis 3.11). Aga see on alati oluline võrrelda keeruline ennustusmeetodina vastu lihtne lahendus. Sel juhul lihtne võimalus on ennustada, et igaüks annab kõige tavalisem vastus. Näiteks 97,3% teatas omavad raadio nii et kui Blumenstock oli ennustanud, et kõik oleks aru omavad raadio tal oleks olnud täpsusega 97,3%, mis on üllatavalt sarnased täitmisega tema keerulisem protseduur (97,6% täpsusega). Teisisõnu, kõik fancy andmed ja modelleerimine suurendas täpsust prediction 97,3% -lt 97,6%. Kuid teised küsimused, nagu näiteks "Kas olete oma jalgratta?", Ennustused paranenud 54,4% -lt 67,6%. Üldisemalt Joonis 3.12 näitab mõned tunnused Blumenstock ei paranenud palju kaugemale lihtsalt teha lihtne algtaseme ennustus, kuid teiste tunnuste mõningast edu.

Joonis 3.11: Ennustav täpsust statistilise mudeli koolitatud kõne arvestust. Tulemused tabelis 2 Blumenstock (2014) .

Joonis 3.12: võrdlus ennustav täpsust statistilise mudeli koolitatud kõne arvestust lihtsaid algtaseme ennustus. Punkte on veidi värelemisega vältida kattumist; vt tabel 2 Blumenstock (2014) täpsed väärtused.

Sel hetkel võite olla mõtlesin, et need tulemused on natuke pettumus, kuid vaid üks aasta hiljem, Blumenstock ja kaks kolleegi-Gabriel CADAMURO ja Robert On avaldatud paberile Teadus oluliselt paremaid tulemusi (Blumenstock, Cadamuro, and On 2015) . Seal oli kaks peamist tehnilistel põhjustel parandamiseks: 1) nad kasutasid keerukamaid meetodeid (nt uue lähenemisviisi funktsioon inseneri ja keerukamaid masin õppe mudel) ja 2) mitte ei püüa järeldada vastuseid üksikisiku uuringu küsimused (nt "Kas te oma raadio?"), üritasid nad järeldavad komposiit rikkuse indeks.

Blumenstock ja tema kolleegid näitasid tööülesannete lähenemine kahel viisil. Esiteks, nad leidsid, et inimesed oma proovi, nad võiksid teha päris head tööd ennustavad oma rikkuse kõne arvestust (joonis 3.14). Teiseks ja veelgi tähtsam, Blumenstock ja tema kolleegid näitasid, et nende menetlust võiks toota kvaliteetset hinnangud piirkondade jõukuse Rwandas. Täpsemalt, nad kasutasid oma masin õppe mudeli, mis oli koolitatud oma proovi umbes 1000 inimest, ennustada rikkust kõik 1,5 miljonit inimest kõne arvestust. Lisaks eksisteerib georuumiandmete varjatud kõne andmed (meelde tuletada, et kõne andmed sisaldavad asukoha lähima mobiilimasti iga kõne), suutsid teadlased hinnata ligikaudne elukoht iga inimene. Haara need kaks kalkulatsiooni koos, teadusuuringute toodetud hinnangu geograafilise jaotuse tellija rikkuse äärmiselt peene ruumilise detailsust. Näiteks võiksid nad hinnata keskmist rikkuse igas Rwanda 2148 rakkudes (väikseim haldusüksus riigis). Need ennustas rikkuse väärtused olid nii teraline nad olid raske kontrollida. Nii teadlased liita nende tulemused saadakse hinnanguline keskmine rikkuse Rwanda 30 linnaosades. Need linnaosa tasandi arvestused olid tugevalt seotud hinnangute kullastandard traditsiooniline uuring, Rwanda Demograafilised ja terviseuuringute (joonis 3.14). Ehkki hinnangud kahest allikast pärit olid sarnased, hinnangute Blumenstock ja kolleegid olid umbes 50 korda odavam ja 10 korda kiiremini (kui kulu mõõdetakse muutuvkulud). See järsk langus hind tähendab, et selle asemel, et hakata iga paari aasta tagant, kui on standard Demograafilised ja tervise Küsitlused-hübriid väikeste uuring koos suur digitaalne jälg andmed, mida saab käivitada iga kuu.

Joonis 3.13: skeem Blumenstock, CADAMURO ning (2015). Call andmeid telefonikompanii konverteeriti maatriksi ühe rea iga inimene ja üks veerg iga funktsiooni jaoks (st muutuv). Järgmine teadlased ehitasid juhendatud õppimise mudel ennustada Uuringu vastuseid isiku poolt funktsioon maatriks. Siis juhendatud õppimise mudelit omistada küsitluse vastuseid kõigile. Sisuliselt kasutasid uurijad vastuseid umbes tuhat inimest süüdistama rikkust umbes miljon inimest. Ka teadlased hinnanguliselt ligikaudne elukoht kõigile 1,5 miljonit inimest, mis põhineb kohtades oma kõnesid. Kui need kaks kalkulatsiooni ühendati-hinnanguline rikkuse ja eeldatav elukoht-tulemused olid sarnased hinnangute demograafilist ja terviseuuringute, kulla standard traditsiooniline uuring (joonis 3.14).

Joonis 3.13: skeem Blumenstock, Cadamuro, and On (2015) . Call andmeid telefonikompanii konverteeriti maatriksi ühe rea iga inimene ja üks veerg iga funktsiooni jaoks (st muutuv). Järgmine teadlased ehitasid juhendatud õppimise mudel ennustada Uuringu vastuseid isiku poolt funktsioon maatriks. Siis juhendatud õppimise mudelit omistada küsitluse vastuseid kõigile. Sisuliselt kasutasid uurijad vastuseid umbes tuhat inimest süüdistama rikkust umbes miljon inimest. Ka teadlased hinnanguliselt ligikaudne elukoht kõigile 1,5 miljonit inimest, mis põhineb kohtades oma kõnesid. Kui need kaks kalkulatsiooni ühendati-hinnanguline rikkuse ja eeldatav elukoht-tulemused olid sarnased hinnangute demograafilist ja terviseuuringute, kulla standard traditsiooniline uuring (joonis 3.14).

Joonis 3.14: tulemused Blumenstock, CADAMURO ning (2015). Üksikute tasemel, teadlased suutsid teha mõistliku töö ennustavad kellegi rikkust oma kõne arvestust. Hinnanguid linnaosa tasemel rikkust, mis põhineb individuaalsel tasandil hinnangul rikkus ja elukoha-tulemused olid sarnased tulemused Demograafilised ja terviseuuringute, kulla standard traditsiooniline uuring.

Joonis 3.14: tulemused Blumenstock, Cadamuro, and On (2015) . Üksikute tasemel, teadlased suutsid teha mõistliku töö ennustavad kellegi rikkust oma kõne arvestust. Hinnanguid linnaosa tasemel rikkust, mis põhineb individuaalsel tasandil hinnangul rikkus ja elukoha-tulemused olid sarnased tulemused Demograafilised ja terviseuuringute, kulla standard traditsiooniline uuring.

Kokkuvõttes Blumenstock on kordistati küsib lähenemist kombineerida uuringu andmed digitaalse jälje andmeid, et koostada hinnanguid võrreldav kulla standard uuringu hinnangud. See konkreetne näide selgitab ka mõningaid kompromisse võimendatud küsimata ja traditsioonilisi uurimismeetodeid. Esiteks võimendatud küsib hinnangud olid õigeaegsed, oluliselt odavam ja rohkem granuleeritud. Aga teisest küljest, sel ajal, ei ole tugev teoreetiline alus sedalaadi võimendatakse küsimata. See tähendab, et see näide ei näidata, kui ta töötab ja kui see ei ole. Lisaks võimendab paludes lähenemine ei ole veel häid võimalusi hinnata ebakindlus oma hinnanguid. Kuid võimendatud paludes on sügavad sidemed kolme suurtel aladel statistika-mudeli põhjal järelkihistamisega (Little 1993) , arvestamise (Rubin 2004) ja väikest ala hindamine (Rao and Molina 2015) -ja nii ootan, et edusammude olla kiire.

Võimendatud küsib järgmiselt põhi retsept, mida saab kohandada oma konkreetsest olukorrast. On kaks koostisosa ja kahe sammu. Need kaks komponenti on: 1) digitaalne jälg andmekogumit, mis on lai, kuid õhuke (see tähendab, et on palju inimesi, kuid ei ole andmeid, et sa pead umbes iga inimest) ja 2) uurimus, mis on kitsas, kuid paks (see tähendab, et on ainult paar inimest, kuid see on teavet, mida vajate umbes need inimesed). Siis on kaks etappi. Esiteks, et inimesed nii allikatele ehitada masin õppimise mudel, mis kasutab digitaalset jälgi andmed ennustada uuringu vastused. Järgmiseks kasutada, et masin õppe mudel omistada uuringu vastused kõigile digitaalne jälg andmeid. Seega, kui on mingi küsimus, mida soovite küsida, et palju inimesi, otsida digitaalne jälg andmeid neid inimesi, mida võidakse kasutada ennustada oma vastuse.

Võrreldes Blumenstock esimese ja teise katse probleemi illustreerib ka oluline õppetund ülemineku teine ajastu kolmandatele ajastu lähenemisviise küsitlusuuring: alguses ei ole lõpp. See tähendab, et mitu korda, esimene lähenemine ei ole parim, kuid kui teadlased jätkuvalt tööd, mida on võimalik saada parem. Üldisemalt hinnates uusi lähenemisviise sotsiaaluuringute digitaalajastul, on oluline teha kaks erinevat hindamist: 1) kui hästi see toimib praegu ja 2) kui hästi sa arvad, et see võiks töötada ka tulevikus andmed maastiku muudatused ja teadlased pühendada rohkem tähelepanu probleemile. Kuigi teadlased on koolitatud teha esimene selline hindamine (kui hea on selle konkreetse uurimus), teine on sageli tähtsam.