3.6.1 Arteko eskatuz

Zure inkesta Linking aztarnak digital guztiontzat eskatuz zure galdera uneoro bezalakoa izan daiteke.

laginketatan eta erroldak: galdetzea, oro har, bi kategoria nagusitan dator. Sample inkestak, non pertsona kopuru txiki bat sartzen bazara, malgua, puntuala, eta nahiko merkea izan daiteke. Hala ere, laginketatan, dute lagin batean oinarritzen delako, askotan beren ebazpenean soilik; laginketa bat, askotan zaila da eskualde geografiko zehatz buruz edo talde demografiko zehatzak estimazioak egiteko. Zentsuak, bestetik, saiatuko denek elkarrizketatzeko populazioan. Bereizmen handia dute, baina, oro har, garestia, gertutik estuak dira (soilik biltzen dute, galdera-sorta bat), eta ez puntuala (gerta ordutegi finko bat dute, besteak beste, 10 urte guztietan bezala) (Kish 1979) . Orain imajinatu ikertzaile laginketatan eta erroldak ezaugarri onenak uztartzea balute; imajinatu ikertzaileek galdera eskatu balute guztiontzat egunero.

Jakina, etengabe hau, nonahiko, beti-on inkesta gizarte zientzia fantasia mota bat da. Baina, hori gutxi gorabehera, inkestaren galdera konbinatuz jende askoren aztarnak digital batera jende kopuru txiki bat eginez has gaitezke, agertzen da. Konbinazio mota hau haundituko eskatuz deitu dut. ondo egina bada, estimazio hori gehiago local (geografia-eremu txikiagoa da) dira, granular gehiago (talde demografikoa zehatz baterako), eta gehiago puntuala eskaintzen digu laguntza izan dela.

haundituko galdetuz adibide Joshua Blumenstock, nork nahi duten gida garapen lagunduko luke herrialde pobreetako datuak biltzeko lana dator. Zehatzago, Blumenstock aberastasuna eta ongizatea malgutasuna eta maiztasuna inkesta baten batekin errolda osotasuna konbinatzen duten neurtzeko sistema bat sortu nahi izan (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Izan ere, dagoeneko deskribatu dut Blumenstock en lan labur 1 kapituluan.

Hasteko, Blumenstock handiena sakelako telefono Ruanda hornitzailearen parte. Enpresak emandako zion anonimoki transakzio erregistro 1,5 milioi bezero portaera estaltzen 2005 eta 2009. erregistroak eduki dei eta mezu bakoitzari buruzko informazioa, hala nola ordua, iraupena, eta gutxi gorabeherako deitzailearen eta hartzailearen kokapen geografikoa bezala. du estatistika arazoei buruz hitz egiten hasten gara aurretik, aipatzekoa lehen urrats hori zailenetako bat izan daiteke da. 2. kapituluan zehazten den bezala, gehienak digital arrastorik datuak ikertzaile eskuraezinak da. Eta, enpresa askok asmatu zalantzakor beren datuak partekatzeko pribatua delako dira; Hori da bere bezeroei ziurrenik ez zuen espero bere erregistro hori shared-en egingo ikertzaile ontziratu-rekin. Kasu honetan, ikertzaileek urrats ibili datuak anonimoki hartu zuen eta bere lana izan zen hirugarren-party bat (hau da, bere IRB) itzalpean. Baina, ahalegin horiek izan arren, datu horiek dira, ziurrenik, oraindik identifikagarri eta litekeena eduki dute informazio sentikorra (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Galdera etiko horiei dut itzuliko 6. kapituluan.

Gogoratzen Blumenstock zela aberastasuna eta ongizatea neurtzeko interesa. Baina, ezaugarri horiek ez dira zuzenean dei erregistro batean. Beste era batera esanda, dei erregistroak hauek osatu gabe daude ikerketa hau, aztarnak digital ezaugarri komun bat izan zen, zehatz-mehatz eztabaidatu 2. kapitulua egiteko Baina, badirudi, dei erregistroak ziurrenik aberastasuna eta ongizatea buruz informazio batzuk. Beraz, galdetzen Blumenstock galdera izan daiteke modu bat: da nola norbaitek egingo inkesta bat erantzuteko oinarritutako bere arrastorik digital datuak on aurreikusteko aukera ematen du? Hala bada, ondoren, pertsona gutxi batzuk eginez gainontzeko erantzunak jakingo dugu.

hau enpirikoki ebaluatzea, Kigali Institute of Science and Technology-tik Blumenstock eta ikerketa-laguntzaileak telefono mugikorra bezeroei mila bat inguru lagin bat deitu. Ikertzaileek proiektuaren helburuak azaldu partaideari, bere baimenik inkestaren erantzunak lotu nahi dei erregistro eskatu, eta, ondoren, galdetu zien galdera sorta bat bere aberastasuna eta ongizatea neurtzeko, Ez esaterako "bat a ? radio "eta" Do bizikleta baten jabe al zara? "(ikus irudia 3.11 zerrenda zati bat da). inkestan parte hartu zuten guztiak ekonomikoki konpentsatu ziren.

Ezaugarri ingeniaritza gainbegiratutako ikaskuntza jarraian: Hurrengoa, Blumenstock bi urrats prozedura baten datuak zientzia ohikoa erabili. Lehenengoa, eginbide ingeniaritza urratsean, elkarrizketatu zen guztiontzat, Blumenstock bihurtutako dei erregistro pertsona bakoitzari buruzko ezaugarri multzo bat sartu; , Datuak zientzialari ezaugarri horiek "ezaugarri" deitu dezake eta gizarte zientzialari deitu litzateke "aldagaiak." Adibidez, pertsona bakoitzeko, Blumenstock kalkulatzen jarduera egun kopurua guztira pertsona ezberdinen kopurua da pertsona batek harremana ere izan zen, zenbatekoa diru aIREZKO gastatu, eta abar. Kritikoan, eginbide ingeniaritza ona ikerketa ezarpena ezagutza eskatzen. Adibidez, garrantzitsua den tokiko eta nazioarteko deiak artean bereizteko (agian deitu duten nazioartean pertsona aberatsagoak izatea espero dugu) bada, orduan hau Ezaugarri ingeniaritza urratsa egin behar da. baliteke Rwanda ulertzeko pixka batekin ikertzaile batek ez besteak ezaugarri hau, eta, ondoren, iragarlea ereduaren errendimendua izango jasaten.

Hurrengoa, gainbegiratutako ikaskuntza urratsean, Blumenstock eraikitako eredu estatistiko bat inkesta Beren ezaugarri oinarritutako Pertsona bakoitzeko erantzuna iragartzeko. Kasu honetan, Blumenstock erabiltzen erregresio logistiko 10 bider cross-validation batera, baina berak beste estatistika edo makina ikaskuntza hainbat erabil zitekeen.

Beraz, nola ongi egin du lan? bezalako galdera inkesta erantzunak aurreikusteko gai izan zen Blumenstock "Ez irrati bat eduki duzu?" eta "Ez bizikleta baten jabe al zara?" dei erregistroak eratorritako ezaugarri erabiliz? Ordenatzeko. igarpen du ezaugarri batzuk (3.11 irudia) for altuak ziren. Baina, beti da garrantzitsua konplexua iragarpen metodo bat alderatu alternatiba sinple baten aurka. Kasu honetan, alternatiba sinple bat da denek erantzun ohikoena emango iragartzeko. Esate baterako,% 97,3 du irrati bat, hala bada Blumenstock iragarri zuten denek duten irrati bat zuen,% 97,3, hau da harritzekoa bere prozedura konplexuagoak (% 97,6 zehaztasuna) errendimendua antzeko zehaztasunarekin izan litzateke jabe salatu litzateke jabe. Beste era batera esanda, orratik datuak eta modelaketa guztiak iragarpenaren zehaztasuna handitu% 97,3 eta% 97,6 dira. Hala eta guztiz ere, beste galdera, hala nola "Do bizikleta baten jabe al zara?", Iragarpenak% 54,4 hobetu% 67,6 dira. Orokorkiago, 3.12 irudia ikuskizunak ezaugarri batzuk Blumenstock ez besterik simple oinarri aurresatea hartzeko ahalmenaren gainetik hobetzeko, baina beste ezaugarri hori ez zen hobekuntza batzuk.

3.11 irudia: dei erregistroak trebatu eredu estatistikoekin iragarlea zehaztasuna. Taula 2 Blumenstock (2014) emaitzak.

3.11 irudia: dei erregistroak trebatu eredu estatistikoekin iragarlea zehaztasuna. 2. taula emaitzak Blumenstock (2014) .

3.12 irudia: zehaztasuna iragarlea konparazioa dei sinple oinarri iragarpenari erregistro batera entrenatu eredu estatistikoa da. Puntuak apur jittered dira gainjartzea saihesteko; ikusi 2. taula Blumenstock (2014) balioak zehatza da.

3.12 irudia: zehaztasuna iragarlea konparazioa dei sinple oinarri iragarpenari erregistro batera entrenatu eredu estatistikoa da. Puntuak apur jittered dira gainjartzea saihesteko; ikusi 2. taula Blumenstock (2014) balio zehatzak egiteko.

Honekin duzu pentsatzen liteke emaitza horiek dira pixka bat etsipena, baina urtebete geroago, Blumenstock eta bi lankide-Gabriel Cadamuro eta Robert On-argitaratuko Science in paper bat emaitza nabarmen hobeak dituzten (Blumenstock, Cadamuro, and On 2015) . Ez dago hobekuntzarako bi arrazoi tekniko nagusiak: 1) metodo sofistikatuagoak erabiltzen dute (hau da, ikuspegi berri bat ingeniaritza eta sofistikatuagoa makinen ikasketa eredu bat agertu) eta 2), baizik eta banakako inkestaren galderak erantzunak infer adibidez saiatzean (baino, "Ez irrati bat eduki duzu?"), composite aberastasuna indize bat infer saiatu ziren.

Blumenstock eta lankideek frogatu beren planteamendu errendimendua bi eratara. Lehenik eta behin, beren lagin jendea, beren aberastasuna iragartzeko deia erregistroak (3.14 irudia) tik lana nahiko ona egin izan dute aurkitu zuten. Bigarren, eta gero eta garrantzitsuagoa dena, Blumenstock eta lankideek erakutsi beren prozedura hori kalitatezko aberastasunaren banaketa geografikoa Ruanda kalkuluak sor. Zehatzago, beren makinen ikasketa eredu izan zen, bere 1.000 pertsona inguru lagin prestatu, erabili zuten guztiak 1,5 milioi pertsona aberastasuna iragartzeko deia erregistroak ere. Aurrerago, dei datuak barneratua datuak Geospatial batera (gogoan hartu, dei datuak hurbilen duzun zelula deialdi bakoitzaren dorrea kokalekua barne), ikertzaileek pertsona bakoitzaren bizilekua gutxi gorabeherako balioesteko gai izan ziren. bi aurreikuspen horiek elkarrekin jartzea, ikerketa harpidedun aberastasunaren banaketa geografikoa kalkulua oso fin espaziala pikortasuna ekoiztu. Adibidez, batez besteko aberastasuna balioesteko zezaketen Ruanda 2148 zelulak (herrialdeko administrazio-unitate txikiena) bakoitzeko. Hauek iragarri aberastasuna balioak beraz granular zaila den egiaztatu ziren ziren. Beraz, ikertzaileek agrega bere emaitzak bataz Ruanda 30 barrutietan aberastasunaren kalkuluen ekoizteko. eskualde mailako Estimazio horiek biziki urrezko inkesta tradizionalak estandar batetik kalkuluen zuzenean lotuta, Ruandako Demografia eta Osasun Inkesta (3.14 irudia). bi iturri batetik kalkuluen berdindu egin ziren arren, Blumenstock eta lankideen estimazioak aldiz 50 merkeago eta 10 aldiz azkarrago (betiere kostu aldakorra kostuak terminoetan neurtuta) izan ziren. kostu dramatiko jaitsiera Horrek esan beharrean ari exekutatu urte-as batzuk behin Demografia eta Osasun estandarra da Inkestak-the inkesta txiki big arrastorik digital datuak konbinatuta hibrido exekutatu ahal izango dira hilero.

3.13 irudia: Blumenstock, Cadamuro eskematiko, eta On (2015). Telefono enpresaren datuak Call matrize bat bihurtu zen bat pertsona bakoitzeko errenkada eta zutabe bat Ezaugarri bakoitza (adibidez, aldagai) batera. Hurrengoa, ikertzaileek eraiki ikasteko eredua ikuskatu bat pertsona batetik inkestaren erantzunak aurreikusteko Ezaugarri matrizearen arabera. Ondoren, gainbegiratutako ikasteko eredua erabili zen inkesta guztiontzat erantzunen egotzi behar. Funtsean, ikertzaileek erabilitako Mila buruz erantzunak pertsona bat milioi aberastasuna ere egotzi behar. Gainera, ikertzaileek estimatu bizilekua gutxi gorabeherako oinarritutako beren deiak kokapenak guztiak 1,5 milioi pertsonentzat. Noiz bi aurreikuspen horiek konbinatuko ziren estimatu aberastasuna eta estimatzen egoitza-the emaitzak lekua Demografia eta Osasun Inkesta, urre-estandarra inkesta tradizional bat (3.14 irudia) tik kalkuluen antzekoak ziren.

3.13 irudia: eskematiko Blumenstock, Cadamuro, and On (2015) . Telefono enpresaren datuak Call matrize bat bihurtu zen bat pertsona bakoitzeko errenkada eta zutabe bat Ezaugarri bakoitza (hau da, aldagai) batera. Hurrengoa, ikertzaileek eraiki ikasteko eredua ikuskatu bat pertsona batetik inkestaren erantzunak aurreikusteko Ezaugarri matrizearen arabera. Ondoren, gainbegiratutako ikasteko eredua erabili zen inkesta guztiontzat erantzunen egotzi behar. Funtsean, ikertzaileek erabilitako Mila buruz erantzunak pertsona bat milioi aberastasuna ere egotzi behar. Gainera, ikertzaileek estimatu bizilekua gutxi gorabeherako oinarritutako beren deiak kokapenak guztiak 1,5 milioi pertsonentzat. Noiz bi aurreikuspen horiek konbinatuko ziren estimatu aberastasuna eta estimatzen egoitza-the emaitzak lekua Demografia eta Osasun Inkesta, urre-estandarra inkesta tradizional bat (3.14 irudia) tik kalkuluen antzekoak ziren.

3.14 irudia: Blumenstock, Cadamuro, eta On (2015) emaitzak. Banakako-mailan, ikertzaileek zentzuzko lan bat egiteko norbaiten aberastasuna iragartzeko euren dei erregistroak batetik ikusteko gai izan ziren. eskualde mailako aberastasun-zein ziren banakako mailako aberastasuna eta egoitza-emaitzen leku-estimazioetan oinarritzen kalkulua Demografiako eta Osasun Inkesta, urre-estandarra inkesta tradizionaletik emaitzak antzekoak izan ziren.

3.14 irudia: Emaitzak Blumenstock, Cadamuro, and On (2015) . Banakako-mailan, ikertzaileek zentzuzko lan bat egiteko norbaiten aberastasuna iragartzeko euren dei erregistroak batetik ikusteko gai izan ziren. eskualde mailako aberastasun-zein ziren banakako mailako aberastasuna eta egoitza-emaitzen leku-estimazioetan oinarritzen kalkulua Demografiako eta Osasun Inkesta, urre-estandarra inkesta tradizionaletik emaitzak antzekoak izan ziren.

Ospakizuna, Blumenstock en haundituko planteamendu konbinatu inkesta arrastorik digital datuak dituzten datuak eskatuz kalkuluen urre-estandarra inkesta kalkuluen alderatu ekoizteko. Adibide zehatz honetan, halaber argitzen galdetuz anplifikatu eta inkesta metodo tradizionalaren arteko merkataritza-off batzuk. Lehenengoa, anplifikatua eskatuz kalkuluen gehiago puntuala, nabarmen merkeagoa, eta granular gehiago izan ziren. Baina, bestalde, une honetan, ez dago bat haundituko galdetuz mota hau oinarri teoriko sendoa. Hori da, esaterako, hau ez da erakutsiko denean lan eta noiz ez ahal da izango da. Aurrerago, anplifikatua galdetuz hurbilketa ez du oraindik modu ona bere kalkuluen inguruan ziurgabetasun zenbatzeko dute. Hala ere, anplifikatu galdetuz estatistika-ereduetan oinarritutako postestratifikazioa hiru eremu handietan konexioak sakonak ditu (Little 1993) , egozpena (Rubin 2004) , eta eremu txikien zenbatespena (Rao and Molina 2015) -eta beraz aurrerapena izango dela espero dut izan azkarrak.

Amplified galdetuz oinarrizko errezeta bat egon da zure egoera bereziki egokitutako daiteke honela. bi osagai eta bi urrats daude. bi osagai 1) a arrastorik digital multzoaren dela zabal baina mehe (hau da, jende askok, baina ez informazio hori pertsona bakoitzaren behar duzu) eta 2) inkesta bat dela estu baina lodi (hori da da eta horrek dauka jende gutxi, baina pertsona horiek buruz behar duzun informazioa) ditu. Ondoren, bi urrats daude. Lehenik eta behin, datu iturri bi jendea, arrastorik digital datuak egunero erabiltzen inkestaren erantzunak aurreikusteko makinen ikasketa-eredu bat eraikitzeko. Ondoren, erabili makina ikaskuntza eredu hori inkesta guztion erantzunak egotzi behar du arrastorik digital datuak ere. Horrela, galdera batzuk jende asko eskatu, arrastorik digital datuak begiratu bere erantzuna iragartzeko erabil liteke pertsona horiek nahi duzu bada.

Blumenstock en arazoa lehiaketako lehenengo eta bigarren saiakera alderatuz, gainera, bigarren aro trantsizioa hirugarren aurkako planteamendu buruz ikasgai garrantzitsu bat ilustratzen ikerketa gainbegiratzeko: hasieran ez da amaieran. Hori da, hainbat aldiz, lehen hurbilketa ez da onena, baina ikertzaileek lan jarrai bada, gauzak hobeto lor daiteke. Orokorkiago, betiere ikerketa sozialaren aro digitalean ikuspegi berriak ebaluatzea, garrantzitsua da bi ebaluazioak desberdin egiteko: 1) lan hau nola ondo egiten orain eta 2) nola ez hau etorkizunean liteke lan datuak paisaiaren bezala pentsatzen duzu aldaketak eta ikertzaile gisa, arreta gehiago eskaintzeko arazoari. Arren, ikertzaileek trebatu dira ebaluazio lehenengo mota (nola ona ikerketa-lan hau da) egiteko, bigarrena askotan garrantzitsuagoa da.