3.6.1 Amplified kërkuar

Lidhja sondazh tuaj të gjurmëve digjitale mund të jetë si i kërkuar të gjithëve pyetjeve tuaja në çdo kohë.

Duke i kërkuar në përgjithësi vjen në dy kategori kryesore: anketat mostër dhe regjistrimet. Sondazhet mostër, ku ju hyni një numër i vogël i njerëzve, mund të jetë fleksibël, në kohën e duhur, dhe relativisht të lira. Megjithatë, sondazhet e mostrës, sepse ato janë të bazuara në një mostër, shpesh janë të kufizuara në zgjidhjen e tyre; me një anketë mostër, shpesh është e vështirë për të bërë vlerësime në lidhje me rajone të caktuara gjeografike apo për grupe të veçanta demografike. Regjistrimet, nga ana tjetër, përpjekje për të intervistuar të gjithë në të popullsisë. Ata kanë rezolucion të madh, por ata në përgjithësi janë të shtrenjta, të ngushtë në fokus (ata vetëm të përfshijë një numër të vogël pyetje), dhe jo në kohë (ato ndodhin në një orar të caktuar, të tilla si çdo 10 vjet) (Kish 1979) . Tani imagjinoni nëse studiuesit mund të kombinojnë karakteristikat më të mira të anketave dhe regjistrimet; imagjinoni nëse kërkuesit mund të kërkojë çdo pyetje për të gjithë çdo ditë.

Natyrisht, kjo e vazhdueshme, kudo, gjithmonë-në anketë është një lloj fantazi shkencave sociale. Por, duket se ne mund të fillojnë për të përafruar këtë duke kombinuar pyetjet e anketës nga një numër i vogël i njerëzve me gjurmëve digjitale nga shumë njerëz. Unë e quaj këtë lloj kombinimi përforcohet kërkuar. Nëse bëhet mirë, kjo mund të na ndihmojë të jep vlerësim që janë më shumë lokale (për zona të vogla gjeografike), më shumë grimcuar (për grupe të veçanta demografike), dhe më shumë në kohë.

Një shembull i pyetur përforcohet vjen nga puna e Joshua Blumenstock, i cili donte për të mbledhur të dhëna që do të ndihmojnë zhvillimin e udhëzues në vendet e varfra. Më konkretisht, Blumenstock kërkuar për të krijuar një sistem për të matur pasurinë dhe mirëqenien që e kombinuar plotësinë e regjistrimit me fleksibilitet dhe frekuencën e një studimi (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Në fakt, unë kam përshkruar tashmë punën Blumenstock për një kohë të shkurtër në Kapitullin 1.

Për të filluar, Blumenstock partneritet me ofruesi më i madh të telefonisë mobile në Ruandë. Kompania dhënë atij të dhënat anonime transaksionit prej rreth 1.5 milion konsumatorë që mbulojnë sjelljen nga viti 2005 dhe 2009. Shkrimet përmbajnë informacion në lidhje me çdo thirrje dhe mesazh me tekst të tilla si koha e fillimit, kohëzgjatjen, dhe vendndodhja e përafërt gjeografike të thirrësit dhe pranuesit. Para se të fillojnë të flasin për çështjet statistikore, ajo është me vlerë duke vënë në dukje se ky hap i parë mund të jetë një nga më të vështirat. Siç përshkruhet në Kapitullin 2, shumica e të dhënave digjitale gjurmë është i paarritshëm për të studiuesve. Dhe, shumë kompani janë të drejtë në mëdyshje për të ndarë të dhënat e tyre për shkak se ajo është e private; që është e klientëve të tyre ndoshta nuk presin që të dhënat e tyre do të ndahen-në sasi të mëdha-me hulumtuesit. Në këtë rast, studiuesit morën hapa të kujdesshëm për të anonymize të dhënat dhe puna e tyre është mbikëqyrur nga një palë e tretë (dmth, IRB e tyre). Por, pavarësisht këtyre përpjekjeve, këto të dhëna janë ndoshta ende të identifikueshme dhe ka të ngjarë të përmbajnë informata të ndjeshme (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Unë do të kthehet në këto pyetje etike në kapitullin 6.

Kujtojnë se Blumenstock ishte i interesuar në matjen e pasurisë dhe mirëqenien. Por, këto tipare nuk janë drejtpërdrejtë në të dhënat e thirrjes. Me fjalë të tjera, këto të dhënat e thirrjes janë jo të plota për këtë hulumtim, një tipar të përbashkët të gjurmëve dixhitale që u diskutua në detaje në Kapitullin 2. Por, duket se të dhënat thirrje ndoshta keni disa informacione në lidhje pasurinë dhe mirëqenien. Pra, një mënyrë për të kërkuar pyetje Blumenstock mund të jetë: a është e mundur të parashikohet se si dikush do të përgjigjet për një studimi të bazuar në të dhënat e tyre dixhitale gjurmë? Nëse është kështu, atëherë duke pyetur disa njerëz që ne mund të mendoj përgjigjet e të gjithë të tjerët.

Për të vlerësuar këtë mënyrë empirike, Blumenstock dhe kërkimore asistentët nga Kigali Instituti i Shkencës dhe Teknologjisë e quajti një mostër prej rreth një mijë konsumatorët e telefonisë mobile. Hulumtuesit shpjeguan qëllimet e projektit për pjesëmarrësit, kërkonte pëlqimin e tyre për të lidhur përgjigjet e sondazhit të dhënat e thirrjes, dhe pastaj pyeti atyre një sërë pyetjesh për të matur pasurinë e tyre dhe mirëqenien, të tilla si "A ju vetë një radio? "dhe" A ju vetë një biçikletë? "(shih Figurën 3.11 për një listë të pjesshme). Të gjithë pjesëmarrësit në studim ishin të kompensohen financiarisht.

Tjetra, Blumenstock përdorur një procedurë me dy hapa të përbashkët në shkencë e të dhënave: inxhinieri tipar i ndjekur nga të mësuarit e mbikqyrur. Së pari, në hapin e inxhinierisë tipar, për të gjithë që ishte intervistuar, Blumenstock konvertuar të dhënat e thirrjes në një grup të karakteristikave rreth çdo personi; Shkencëtarët e të dhënave mund të telefononi këto karakteristika "karakteristika" dhe shkencëtarët socialë do ta quanin ata "variablave." Për shembull, për çdo person, Blumenstock llogaritur numrin e ditëve me aktivitet, numri i njerëzve të veçantë një person ka qenë në kontakt me, sasia e parave të shpenzuara për kohën e transmetimit, dhe kështu me radhë. Kritike, inxhinieri i mirë tipar kërkon njohuri të përcaktimit të kërkimit. Për shembull, në qoftë se është e rëndësishme të bëhet dallimi në mes të thirrjeve të brendshme dhe ndërkombëtare (ne mund të presim që njerëzit të cilët e quajnë ndërkombëtar të jetë i pasur), atëherë kjo duhet të bëhet në hapin e inxhinierisë tipar. Një studiues me pak kuptim të Ruandës nuk mund të përfshijnë këtë funksion, dhe pastaj të performancës parashikuese e modelit do të vuajnë.

Next, në hapin e të mësuarit mbikëqyrur, Blumenstock ndërtuar një model statistikor të parashikojnë përgjigjen anketimit për çdo person të bazuar në karakteristikat e tyre. Në këtë rast, Blumenstock përdorur regres logjistike me 10-fish ndër-validation, por ai mund të ketë përdorur një shumëllojshmëri të metodave të tjera të të mësuarit statistikore ose makinë.

Pra, si edhe e bëri atë punë? Ishte Blumenstock në gjendje të parashikojnë përgjigje për studim pyetje të tilla si "A ju vetë një radio?" Dhe "A ju vetë një biçikletë?" Duke përdorur karakteristika që rrjedhin nga të dhënat e thirrjes? Dicka e tille. Saktësia e parashikimet ishin të larta për disa tipare (Figura 3.11). Por, ajo është gjithmonë e rëndësishme për të krahasuar një metodë të ndërlikuar parashikim kundër një alternativë të thjeshtë. Në këtë rast, një alternativë e thjeshtë është të parashikohet se të gjithë do të japë përgjigjen më të zakonshme. Për shembull, 97.3% raportuan mbajnë një radio kështu që nëse Blumenstock kishte parashikuar që të gjithë do të raportojë mbajnë një radio ai do të kishte pasur një saktësi prej 97,3%, e cila është çuditërisht i ngjashëm me kryerjen e procedurës së tij më të ndërlikuar (97.6% saktësi). Me fjalë të tjera, të gjitha të dhënat dashuroj dhe modelimit rritur saktësinë e parashikimit nga 97.3% në 97.6%. Megjithatë, për pyetje të tjera, të tilla si "A ju vetë një biçikletë?", Parashikimet përmirësuar nga 54.4% në 67.6%. Më në përgjithësi, Figura 3.12 tregon për disa tipare Blumenstock nuk përmirësohet shumë përtej vetëm duke bërë parashikimin e thjeshtë baze, por për tipare të tjera ka pasur disa përmirësime.

Figura 3.11: saktësia parashikuese për modelin statistikore të trajnuar me të dhënat e thirrjes. Rezultatet nga Tabelën 2 të Blumenstock (2014).

Figura 3.11: saktësia parashikuese për modelin statistikore të trajnuar me të dhënat e thirrjes. Rezultatet nga Tabelën 2 të Blumenstock (2014) .

Figura 3.12: Krahasimi i saktësisë parashikuese të modelit statistikore të trajnuar me të dhënat e thirrjes në parashikim të thjeshtë bazë. Pikët janë jittered pak për të shmangur mbivendosjen; shih tabelën 2 të Blumenstock (2014) për vlerat e sakta.

Figura 3.12: Krahasimi i saktësisë parashikuese të modelit statistikore të trajnuar me të dhënat e thirrjes në parashikim të thjeshtë bazë. Pikët janë jittered pak për të shmangur mbivendosjen; shih tabelën 2 të Blumenstock (2014) për vlerat e sakta.

Në këtë pikë ju mund të jetë duke menduar se këto rezultate janë pak zhgënjyese, por vetëm një vit më vonë, Blumenstock dhe dy kolegët e-Gabriel Cadamuro dhe Robert On-publikuar një letër në Shkenca me substancialisht më të mira rezultatet (Blumenstock, Cadamuro, and On 2015) . Ka pasur dy arsye kryesore teknike për përmirësimin: 1) ata kanë përdorur metoda më të sofistikuara (dmth, një qasje e re në funksion inxhinieri dhe një model më të sofistikuar për mësim makine) dhe 2) në vend të përpjekjeve për të konkludoj përgjigjet për pyetjet individuale anketës (p.sh., "A ju vetë një radio?"), ata u përpoqën të tregoj një indeks të përbërë pasurisë.

Blumenstock dhe kolegët demonstruar performancën e qasjes së tyre në dy mënyra. Së pari, ata gjetën se për njerëzit në mostrën e tyre, ata mund të bëjnë një punë mjaft të mirë të parashikuar pasurinë e tyre nga të dhënat e thirrjes (Figura 3.14). Së dyti, dhe gjithnjë e më e rëndësishmja, Blumenstock dhe kolegët kanë treguar se procedura e tyre mund të prodhojnë vlerësime të cilësisë së lartë të shpërndarjes gjeografike të pasurisë në Ruanda. Më konkretisht, ata kanë përdorur modelin e tyre makinë të mësuarit, e cila u trajnuar në mostrën e tyre prej rreth 1.000 njerëz, për të parashikuar pasurinë e të gjithë 1.5 milionë njerëz në të dhënat e thirrjes. Më tej, me të dhënat gjeohapësinore ngulitur në të dhënat e thirrjes (kujtojmë se të dhënat thirrje përfshin vendndodhjen e kullës më të afërt qelizë për çdo thirrje), hulumtuesit ishin në gjendje për të vlerësuar vendin e përafërt të banimit të çdo personi. Duke vënë këto dy vlerësime së bashku, hulumtimi prodhuar një vlerësim të shpërndarjes gjeografike të pasurisë parapagues në granularity shumë të hollë hapësinor. Për shembull, ata mund të vlerësojnë pasurinë mesatare në secilën prej qelizave 2148 Ruandës (njësia më e vogël administrative në vend). Këto vlera të parashikuara pasuria ishin aq të grimcuar ata ishin të vështirë për të kontrolluar. Kështu, studiuesit mblidhen rezultatet e tyre për të prodhuar vlerësimet e pasurisë mesatare prej 30 rretheve Ruandës. Këto vlerësime të nivelit të qarkut janë të lidhura ngushtë me vlerësimet nga një sondazh ari standarde tradicionale, Anketa Demografike dhe Shëndetsore Ruandës (e Figura 3.14). Edhe pse vlerësimet nga dy burime ishin të ngjashme, vlerësimet nga Blumenstock dhe kolegët kanë qenë rreth 50 herë më të lirë dhe 10 herë më të shpejtë (kur kosto në maten në termat e kostove variabile). Kjo rënie dramatike në kosto do të thotë se në vend që të kandidojë çdo disa vjet, siç është standard për Demografike dhe Shëndetësore anketat-hibrid i sondazhit të vogël e kombinuar me të dhëna të mëdha gjurmë dixhitale mund të kandidojë çdo muaj.

Figura 3.13: skematike e Blumenstock, CADAMURO, dhe On (2015). të dhënat thirrje nga kompania e telefonit është konvertuar në një matricë me një rresht për çdo person dhe një kolonë për çdo funksion (p.sh., të ndryshueshëm). Next, studiuesit ndërtuar një model të mbikëqyrur të mësuarit për të parashikuar përgjigjet e sondazhit nga personi me matricë funksion. Pastaj, modeli mbikëqyrur të mësuarit është përdorur për t'i plotësuar përgjigjet e sondazhit për të gjithë. Në thelb, hulumtuesit përdorur përgjigjet e rreth një mijë njerëz të akuzojë pasurinë e rreth një milion njerëz. Gjithashtu, studiuesit vlerësuar vendin e përafërt të banimit për të gjithë 1.5 milionë njerëzit bazuar në vendndodhjen e thirrjet e tyre. Kur këto dy vlerësime janë të kombinuara, pasuria e vlerësuar dhe vendi i vlerësuar i qëndrimit-rezultatet ishin të ngjashme me vlerësimet nga Studimit Demografik e Shëndetësor, një sondazhi tradicional ari-standard (Figura 3.14).

Figura 3.13: skematike e Blumenstock, Cadamuro, and On (2015) . të dhënat thirrje nga kompania e telefonit është konvertuar në një matricë me një rresht për çdo person dhe një kolonë për çdo funksion (p.sh., të ndryshueshëm). Next, studiuesit ndërtuar një model të mbikëqyrur të mësuarit për të parashikuar përgjigjet e sondazhit nga personi me matricë funksion. Pastaj, modeli mbikëqyrur të mësuarit është përdorur për t'i plotësuar përgjigjet e sondazhit për të gjithë. Në thelb, hulumtuesit përdorur përgjigjet e rreth një mijë njerëz të akuzojë pasurinë e rreth një milion njerëz. Gjithashtu, studiuesit vlerësuar vendin e përafërt të banimit për të gjithë 1.5 milionë njerëzit bazuar në vendndodhjen e thirrjet e tyre. Kur këto dy vlerësime janë të kombinuara, pasuria e vlerësuar dhe vendi i vlerësuar i qëndrimit-rezultatet ishin të ngjashme me vlerësimet nga Studimit Demografik e Shëndetësor, një sondazhi tradicional ari-standard (Figura 3.14).

Figura 3.14: Rezultatet nga Blumenstock, CADAMURO, dhe On (2015). Në nivel individual, hulumtuesit ishin në gjendje të bëjë një punë të arsyeshme në parashikimin e pasurinë e dikujt nga të dhënat e tyre të thirrjes. Vlerësimet e nivelit të qarkut pasuri-të cilat janë të bazuar në vlerësimet e nivelit individual të pasurisë dhe vendin e qëndrimit-rezultatet ishin të ngjashme me rezultatet nga Anketa Demografike dhe Shëndetësore, një sondazh tradicionale ari-standard.

Figura 3.14: Rezultatet nga Blumenstock, Cadamuro, and On (2015) . Në nivel individual, hulumtuesit ishin në gjendje të bëjë një punë të arsyeshme në parashikimin e pasurinë e dikujt nga të dhënat e tyre të thirrjes. Vlerësimet e nivelit të qarkut pasuri-të cilat janë të bazuar në vlerësimet e nivelit individual të pasurisë dhe vendin e qëndrimit-rezultatet ishin të ngjashme me rezultatet nga Anketa Demografike dhe Shëndetësore, një sondazh tradicionale ari-standard.

Në përfundim, Blumenstock të përforcohet duke i kërkuar qasje të kombinuar të dhënat e sondazhit me të dhënat gjurmë dixhitale për të prodhuar vlerësime të krahasueshme me vlerësimet e studimit ari-standard. Ky shembull i veçantë gjithashtu sqaron disa nga tregtisë të humbura mes pyetur përforcohet dhe metodat tradicionale e studimit. Së pari, vlerësimet përforcohet duke i kërkuar ishin më në kohë, në thelb të lirë, dhe më shumë grimcuar. Por, nga ana tjetër, në këtë kohë, nuk ka një bazë të fortë teorike për këtë lloj të pyetur përforcohet. Kjo është, kjo një shembull nuk ka treguar se kur do të punojë dhe kur ajo nuk do. Më tej, qasja përforcohet i kërkuar nuk ka ende mënyra të mira për të përcaktoj sasinë pasiguri rreth vlerësimeve të saj. Megjithatë, i kërkuar përforcohet ka lidhje të thella me tri fusha të mëdha në statistikat-model-bazë pas stratifikimit (Little 1993) , fajësim (Rubin 2004) , dhe vlerësimit të vogla-zona (Rao and Molina 2015) -dhe kështu që unë pres që progresi do të jetë i shpejtë.

i kërkuar përforcohet ndjek një recetë bazë që mund të jenë të përshtatura për gjendjen tuaj të veçantë. Ka dy përbërësit dhe dy hapa. Të dy përbërësit janë: 1) a dataset gjurmë dixhitale që është e gjerë, por e hollë (që është, ajo ka shumë njerëz, por jo informacionin që ju duhet në lidhje me çdo personat) dhe 2) një studim që është e ngushtë, por e trashë (që është, ajo ka vetëm disa njerëz, por ajo ka informacion që ju nevojitet për ata njerëz). Pastaj, ka dy hapa. Së pari, për njerëzit në të dy burimet e të dhënave, të ndërtuar një model të mësuarit makinë që përdor të dhënat dixhitale gjurmë për të parashikuar përgjigjet e anketës. Tjetra, përdorni atë modelin e të mësuarit makinë të akuzojë përgjigjet e sondazhit të gjithë në të dhënat gjurmë dixhitale. Kështu, në qoftë se ka disa pyetje që ju dëshironi të kërkoni për shumë njerëz, shikoni për të dhëna gjurmë dixhitale nga ata njerëz që mund të përdoren për të parashikuar përgjigjen e tyre.

Krahasimi përpjekjen e parë dhe të dytë Blumenstock-së në problemin gjithashtu ilustron një mësim të rëndësishëm në lidhje me kalimin nga epoka e dytë të metodave të kohës së tretë për studim hulumtim: në fillim nuk është fundi. Kjo është, shumë herë, qasja e parë nuk do të jetë më e mirë, por në qoftë se studiuesit e vazhdueshme të punës, gjërat mund të shkojnë më mirë. Më në përgjithësi, gjatë vlerësimit qasje të reja për hulumtime shoqërore në moshën dixhitale, është e rëndësishme për të bërë dy vlerësime të veçanta: 1) sa mirë e bën këtë punë tani dhe 2) sa mirë mendoni se kjo mund të punojnë në të ardhmen si peizazhit të dhënave ndryshimet dhe si hulumtues kushtojnë më shumë vëmendje për problemin. Edhe pse, studiuesit janë të trajnuar për të bërë lloj e parë të vlerësimit (sa e mirë është kjo pjesë e veçantë e hulumtimit), e dyta është shpesh më e rëndësishme.