3.6.2 përforcuar

Ky përkthim u krijua nga një kompjuter. ×

3.6.2 përforcuar

Përmirësohet duke kërkuar përdorimin e një modeli parashikuese për të kombinuar të dhënat e sondazhit nga disa njerëz me një burim të madh të të dhënave nga shumë njerëz.

Një mënyrë tjetër për të kombinuar sondazhin dhe burimet e mëdha të të dhënave është një proces që unë do të thërras të shtangur . Në një kërkesë të përforcuar, një studiues përdor një model parashikuese për të kombinuar një sasi të vogël të të dhënave të anketës me një burim të madh të të dhënave në mënyrë që të prodhojë vlerësime në një shkallë ose grimcë që nuk do të ishte e mundur me burimin e të dhënave individualisht. Një shembull i rëndësishëm i pyetjes së përforcuar vjen nga puna e Joshua Blumenstock, i cili dëshironte të grumbullonte të dhëna që mund të ndihmonin drejtimin e zhvillimit në vendet e varfëra. Në të kaluarën, hulumtuesit që mbledhin këtë lloj të dhënash në përgjithësi kishin për të marrë një nga dy qasjet: anketat e kampioneve ose regjistrimet e kampioneve. Sondazhet e modelit, ku hulumtuesit intervistojnë një numër të vogël njerëzish, mund të jenë fleksibël, me kohë dhe relativisht të lirë. Megjithatë, këto sondazhe, për shkak se ato bazohen në një mostër, shpesh janë të kufizuara në zgjidhjen e tyre. Me një studim të mostrës, shpesh është e vështirë të bëhen vlerësime për regjione gjeografike specifike ose për grupe specifike demografike. Regjistrimet, nga ana tjetër, përpiqen të intervistojnë të gjithë, dhe kështu ato mund të përdoren për të prodhuar vlerësime për rajonet e vogla gjeografike ose grupet demografike. Por regjistrimet janë përgjithësisht të shtrenjta, të ngushta në fokus (ato përfshijnë vetëm një numër të vogël pyetjesh) dhe jo me kohë (ato ndodhin në një orar të caktuar, si çdo 10 vjet) (Kish 1979) . Në vend që të mbetej me anketat ose regjistrimet e kampioneve, imagjinoni nëse studiuesit mund të kombinojnë karakteristikat më të mira të të dyjave. Paramendoni nëse studiuesit mund t'i bëjnë çdo pyetje çdo personi çdo ditë. Natyrisht, ky studim i gjithanshëm, gjithnjë në rritje, është një lloj fantazi e shkencës shoqërore. Por duket se ne mund të fillojmë ta përafrojmë këtë duke kombinuar pyetjet e anketës nga një numër i vogël njerëzish me gjurmë digjitale nga shumë njerëz.

Hulumtimi i Blumenstock filloi kur ai bashkoi me ofruesin më të madh të telefonisë celulare në Ruandë dhe kompania siguroi të dhënat e transaksioneve të anonimituara nga rreth 1.5 milion konsumatorë midis 2005 dhe 2009. Këto shënime përmbanin informacion rreth çdo thirrjeje dhe mesazhi me tekst, si koha e fillimit, kohëzgjatja , dhe përafrohet vendndodhja gjeografike e telefonuesit dhe marrësit. Para se të flas për çështje statistikore, vlen të theksohet se ky hap i parë mund të jetë një nga më të vështirat për shumë studiues. Siç e përshkrova në kapitullin 2, burimet më të mëdha të të dhënave janë të paarritshme për kërkuesit. Meta-të dhënat e telefonit, në veçanti, janë veçanërisht të paarritshme, sepse në thelb është e pamundur të anonimizohen dhe pothuajse me siguri përmban informacione që pjesëmarrësit do ta konsideronin të ndjeshëm (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Në këtë rast të veçantë, studiuesit ishin të kujdesshëm për të mbrojtur të dhënat dhe puna e tyre ishte mbikëqyrur nga një palë e tretë (dmth., IRB e tyre). Do të kthehem në këto çështje etike më hollësisht në kapitullin 6.

Blumenstock ishte i interesuar në matjen e pasurisë dhe mirëqenies. Por këto tipare nuk janë drejtpërdrejt në regjistrimet e thirrjeve. Me fjalë të tjera, këto shënime të thirrjeve nuk janë të plota për këtë hulumtim - një tipar i përbashkët i burimeve të mëdha të të dhënave që u diskutua në detaje në kapitullin 2. Megjithatë, duket se të dhënat e thirrjes ndoshta kanë disa informacione që mund të japin në mënyrë indirekte informacion rreth pasurisë dhe mirëqenien. Duke pasur parasysh këtë mundësi, Blumenstock pyeti nëse ishte e mundur për të trajnuar një model të mësimit të makinës për të parashikuar se si dikush do t'i përgjigjet një sondazhi bazuar në të dhënat e tyre të thirrjeve. Nëse kjo do të ishte e mundur, Blumenstock mund ta përdorte këtë model për të parashikuar përgjigjet e pyetësorëve të të gjithë 1.5 milionë klientëve.

Për të ndërtuar dhe trajnuar një model të tillë, Blumenstock dhe asistentët e hulumtimit nga Instituti i Shkencës dhe Teknologjisë i Kigalit thanë një mostër të rastësishme prej rreth një mijë klientësh. Studiuesit shpjeguan qëllimet e projektit për pjesëmarrësit, kërkuan pëlqimin e tyre për të lidhur përgjigjet e studimit në regjistrimet e thirrjeve dhe më pas u kërkoi një seri pyetjesh për të matur pasurinë dhe mirëqenien e tyre, si: "A posedoni një radio "dhe" A posedoni biçikletë? "(shih figurën 3.14 për një listë të pjesshme). Të gjithë pjesëmarrësit në anketë u kompensuan financiarisht.

Tjetra, Blumenstock përdori një procedurë me dy hapa të përbashkët në mësimin e makinës: inxhinieri e funksionimit ndjekur nga mësimi i mbikëqyrur. Së pari, në hapin e inxhinierisë së funksionimit , për të gjithë ata që janë intervistuar, Blumenstock konverton regjistrimet e thirrjeve në një grup karakteristikash për secilin person; Për shembull, për secilin person, Blumenstock llogariti numrin e përgjithshëm të ditëve me aktivitet, numrin e njerëzve të dalluar që një person ka qenë në kontakt me të, shuma e parave të shpenzuara në kohën e transmetimit, dhe kështu me radhë. Në mënyrë kritike, inxhinieria e mirë e funksionimit kërkon njohuri për vendosjen e kërkimit. Për shembull, nëse është e rëndësishme të bëhet dallimi midis thirrjeve vendore dhe ndërkombëtare (ne mund të presim që njerëzit që e quajnë ndërkombëtarisht të jenë më të pasur), atëherë kjo duhet bërë në hapin e inxhinierisë së funksioneve. Një studiues me pak kuptim të Ruandës mund të mos përfshijë këtë veçori dhe pastaj performanca parashikuese e modelit do të pësonte.

Tjetra, në hapin e mësimit të mbikëqyrur , Blumenstock ndërtoi një model për të parashikuar përgjigjen e anketës për secilin person në bazë të karakteristikave të tyre. Në këtë rast, Blumenstock përdorte regresionin logjistik, por ai mund të kishte përdorur një shumëllojshmëri të qasjeve të tjera statistikore ose të mësimit të makinës.

Pra, sa mirë ka funksionuar? A ishte Blumenstock në gjendje të parashikonte përgjigje për pyetjet e pyetjeve si "A posedoni një radio?" Dhe "A posedoni një biçikletë?" Duke përdorur veçoritë që rrjedhin nga regjistrimet e thirrjeve? Me qëllim të vlerësimit të performancës së modelit të tij parashikuese, Blumenstock përdorte validim ndër-valutor , një teknikë e përdorur zakonisht në shkencën e të dhënave, por rrallë në shkencën shoqërore. Qëllimi i vlerësimit ndër-valutor është të sigurojë një vlerësim të drejtë të performancës parashikuese të një modeli duke e trajnuar atë dhe duke e testuar atë në nënpjesa të ndryshme të të dhënave. Në veçanti, Blumenstock ndau të dhënat e tij në 10 pjesë prej 100 personash secili. Më pas, ai përdori nëntë pjesë për të trajnuar modelin e tij dhe performanca parashikuese e modelit të trajnuar u vlerësua në pjesën e mbetur. Ai përsëriti këtë procedurë 10 herë - me çdo grumbull të dhënash duke marrë një kthesë si të dhënat e vlefshmërisë - dhe mesatarisht rezultatet.

Saktësia e parashikimeve ishte e lartë për disa tipare (figura 3.14); për shembull, Blumenstock mund të parashikonte me saktësi 97.6% nëse dikush kishte një radio. Kjo mund të tingëllojë mbresëlënëse, por gjithmonë është e rëndësishme të krahasoni një metodë parashikimi kompleks kundrejt një alternative të thjeshtë. Në këtë rast, një alternativë e thjeshtë është të parashikohet se të gjithë do të japin përgjigjen më të zakonshme. Për shembull, 97.3% e të anketuarve kanë raportuar se kanë një radio, kështu që nëse Blumenstock kishte parashikuar se të gjithë do të raportonin të kishin një radio, ai do të kishte një saktësi prej 97.3%, çuditërisht e ngjashme me performancën e procedurës së tij më komplekse (97.6% . Me fjalë të tjera, të gjitha të dhënat e zbukuruara dhe modelimi kanë rritur saktësinë e parashikimit nga 97.3% në 97.6%. Megjithatë, për pyetjet e tjera, si "A keni një biçikletë?", Parashikimet janë përmirësuar nga 54.4% në 67.6%. Më në përgjithësi, figura 3.15 tregon se për disa tipare Blumenstock nuk është përmirësuar shumë përtej vetëm duke bërë parashikimin e thjeshtë bazë, por për veçoritë e tjera ka pasur disa përmirësime. Megjithatë, duke kërkuar vetëm në këto rezultate, mund të mos mendoni se kjo qasje është veçanërisht premtuese.

Figura 3.14: Saktësia parashikuese për një model statistikor të trajnuar me shënimet e thirrjeve. Përshtatur nga Blumenstock (2014) , tabela 2.

Figura 3.15: Krahasimi i saktësisë parashikuese për një model statistikor të trajnuar me të dhënat e thirrjeve për një parashikim të thjeshtë bazë. Pikat janë pak të tmerruara për të shmangur mbivendosjen. Përshtatur nga Blumenstock (2014) , tabela 2.

Megjithatë, vetëm një vit më vonë, Blumenstock dhe dy kolegë - Gabriel Cadamuro dhe Robert On - botoi një letër në Shkencë me rezultate shumë më të mira (Blumenstock, Cadamuro, and On 2015) . Ka pasur dy arsye kryesore teknike për këtë përmirësim: (1) përdorën metoda më të sofistikuara (p.sh. një qasje të re në inxhinierinë e funksionimit dhe një model më të sofistikuar për të parashikuar përgjigjet nga karakteristikat) dhe (2) në vend që të përpiqeshin të nxirrnin përgjigjet ndaj individëve pyetjet e studimit (p.sh., "A posedoni një radio?"), ata u përpoqën të konkludonin një indeks të përbërë të pasurisë. Këto përmirësime teknike nënkuptonin se ata mund të bënin një punë të arsyeshme për të përdorur të dhënat e thirrjeve për të parashikuar pasuri për njerëzit në mostrën e tyre.

Parashikimi i pasurisë së njerëzve në mostër, megjithatë, nuk ishte qëllimi përfundimtar i hulumtimit. Mos harroni se qëllimi përfundimtar ishte kombinimi i disa prej karakteristikave më të mira të anketave dhe regjistrimeve të kampioneve për të prodhuar vlerësime të sakta të rezolutës së lartë të varfërisë në vendet në zhvillim. Për të vlerësuar aftësinë e tyre për të arritur këtë qëllim, Blumenstock dhe kolegët e përdorën modelin e tyre dhe të dhënat e tyre për të parashikuar pasurinë e të gjithë 1.5 milion njerëzve në regjistrimet e thirrjeve. Dhe ata përdorën informacionin gjeohapësinor të ngulitur në shënimet e thirrjeve (kujtoni se të dhënat përfshinë vendndodhjen e kullës qelizore më të afërt për çdo thirrje) për të vlerësuar vendndodhjen e përafërt të vendbanimit të secilit person (figura 3.17). Duke i vendosur këto dy vlerësime së bashku, Blumenstock dhe kolegët prodhuan një vlerësim të shpërndarjes gjeografike të pasurisë së parapaguesit në një granularitet shumë të mirë hapësinor. Për shembull, ata mund të vlerësonin pasurinë mesatare në secilën nga 2.148 qelizat e Ruandës (njësia më e vogël administrative në vend).

Sa mirë përputheshin këto vlerësime me nivelin aktual të varfërisë në këto rajone? Para se t'i përgjigjem kësaj pyetjeje, dua të theksoj faktin se ka shumë arsye për të qenë skeptikë. Për shembull, aftësia për të bërë parashikime në nivel individual ishte mjaft e zhurmshme (figura 3.17). Dhe, ndoshta më e rëndësishmja, njerëzit me telefona celularë mund të jenë sistematikisht të ndryshëm nga njerëzit pa telefon. Kështu, Blumenstock dhe kolegët mund të vuajnë nga llojet e gabimeve të mbulimit që paragjykuan studimin e Digestit të Letrave 1936 që i përshkrova më herët.

Për të kuptuar cilësinë e vlerësimeve të tyre, Blumenstock dhe kolegët duhej t'i krahasonin ato me diçka tjetër. Për fat të mirë, rreth të njëjtën kohë si studimi i tyre, një grup tjetër studiuesish po drejtonte një studim social më tradicional në Ruandë. Ky studim tjetër - i cili ishte pjesë e programit të respektuar gjerësisht Demografik dhe Shëndetësor - kishte një buxhet të madh dhe përdorte metoda tradicionale me cilësi të lartë. Prandaj, vlerësimet nga Anketa Demografike dhe Shëndetësore mund të konsiderohen në mënyrë të arsyeshme si vlerësime standarde ari. Kur krahasoheshin dy vlerësimet, ato ishin mjaft të ngjashme (figura 3.17). Me fjalë të tjera, duke kombinuar një sasi të vogël të të dhënave të sondazhit me të dhënat e thirrjeve, Blumenstock dhe kolegët ishin në gjendje të prodhonin vlerësime të krahasueshme me ato nga qasjet standarde të arit.

Një skeptik mund t'i shohë këto rezultate si zhgënjim. Në fund të fundit, një mënyrë e shikimit të tyre është të thuhet se duke përdorur të dhëna të mëdha dhe të mësuarit në makinë, Blumenstock dhe kolegët ishin në gjendje të prodhonin vlerësime që mund të bëheshin më me besueshmëri nga metodat tashmë ekzistuese. Por unë nuk mendoj se kjo është mënyra e drejtë për të menduar për këtë studim për dy arsye. Së pari, vlerësimet nga Blumenstock dhe kolegët ishin rreth 10 herë më të shpejtë dhe 50 herë më të lirë (kur kostoja matet në aspektin e kostove të ndryshueshme). Siç kam argumentuar më parë në këtë kapitull, hulumtuesit injorojnë koston në rrezikun e tyre. Në këtë rast, për shembull, rënia dramatike e kostos do të thotë se në vend që të drejtohet çdo disa vjet - siç është standardi për Sondazhet Demografike dhe Shëndetësore - ky lloj ankete mund të drejtohet çdo muaj, gjë që do të ofronte përparësi të shumta për kërkuesit dhe politikat marrësit. Arsyeja e dytë për të mos marrë pikëpamjen e skeptikëve është se ky studim ofron një recetë bazë që mund të përshtatet në shumë situata të ndryshme kërkimore. Ky recetë ka vetëm dy përbërës dhe dy hapa. Përbërësit janë (1) një burim i madh i të dhënave që është i gjerë por i hollë (dmth. Ka shumë njerëz, por jo informacion që ju nevojitet për secilin person) dhe (2) një sondazh i ngushtë por i trashë (dmth. disa njerëz, por ajo ka informacionin që ju nevojitet për ata njerëz). Këto përbërës pastaj kombinohen në dy hapa. Së pari, për njerëzit në të dy burimet e të dhënave, ndërto një model të mësimit të makinës që përdor burimin e madh të të dhënave për të parashikuar përgjigjet e studimit. Tjetra, përdorni atë model për të imputuar përgjigjet e sondazhit të secilit në burimin e madh të të dhënave. Pra, nëse ka ndonjë pyetje që dëshironi të kërkoni shumë njerëz, kërkoni një burim të madh të të dhënave nga ata njerëz që mund të përdoren për të parashikuar përgjigjen e tyre, edhe nëse nuk ju intereson burimi i madh i të dhënave . Kjo është, Blumenstock dhe kolegët nuk kanë interes në thelb të dhënat e thirrjes; ata kujdesen vetëm për regjistrimet e thirrjeve sepse ato mund të përdoreshin për të parashikuar përgjigjet e anketës për të cilat ata interesoheshin. Ky interes i vetëm indirekt në burimin e madh të të dhënave e bën të përforcuar duke kërkuar të ndryshme nga pyetjet e ngulitura, të cilat i përshkrova më herët.

Figura 3.16: Skema e studimit nga Blumenstock, Cadamuro dhe On (2015). Regjistrimet e telefonatave nga kompania telefonike u konvertuan në një matricë me një rresht për secilin person dhe një kolonë për secilën veçori (dmth., Ndryshore). Tjetra, studiuesit ndërtuan një model mësimi të mbikëqyrur për të parashikuar përgjigjet e anketës nga matrica e personit sipas funksionit. Pastaj, modeli i mësimit të mbikëqyrur u përdor për të imputuar përgjigjet e anketës për të gjithë 1.5 milionë klientët. Gjithashtu, studiuesit vlerësuan vendin e përafërt të vendbanimit për të gjithë 1.5 milion konsumatorë bazuar në vendet e thirrjeve të tyre. Kur këto dy vlerësime - pasuria e vlerësuar dhe vendi i vlerësuar i vendbanimit - u kombinuan, rezultatet ishin të ngjashme me vlerësimet nga Anketa Demografike dhe Shëndetësore, një studim tradicional standard ari (figura 3.17).

Figura 3.16: Skema e studimit nga Blumenstock, Cadamuro, and On (2015) . Të dhënat e thirrjes nga kompania telefonike u konvertuan në një matricë me një rresht për secilin person dhe një kolonë për secilën veçori (dmth., Ndryshore). Tjetra, studiuesit ndërtuan një model mësimi të mbikëqyrur për të parashikuar përgjigjet e anketës nga matrica e personit sipas funksionit. Pastaj, modeli i mësimit të mbikëqyrur u përdor për të imputuar përgjigjet e anketës për të gjithë 1.5 milionë klientët. Gjithashtu, studiuesit vlerësuan vendin e përafërt të vendbanimit për të gjithë 1.5 milion konsumatorë bazuar në vendet e thirrjeve të tyre. Kur këto dy vlerësime - pasuria e vlerësuar dhe vendi i vlerësuar i vendbanimit - u kombinuan, rezultatet ishin të ngjashme me vlerësimet nga Anketa Demografike dhe Shëndetësore, një studim tradicional standard ari (figura 3.17).

Figura 3.17: Rezultatet nga Blumenstock, Cadamuro dhe On (2015). Në nivelin individual, studiuesit ishin në gjendje të bënin një punë të arsyeshme në parashikimin e pasurisë së dikujt nga të dhënat e tyre të thirrjes. Vlerësimet e pasurisë së rrethit për 30 rrethet e Ruandës - të cilat u bazuan në vlerësimet individuale të pasurisë dhe vendbanimit - ishin të ngjashme me rezultatet nga Anketa Demografike dhe Shëndetësore, një studim tradicional i standardeve të arit. Përshtatur nga Blumenstock, Cadamuro dhe On (2015), figurat 1a dhe 3c.

Figura 3.17: Rezultatet nga Blumenstock, Cadamuro, and On (2015) . Në nivelin individual, studiuesit ishin në gjendje të bënin një punë të arsyeshme në parashikimin e pasurisë së dikujt nga të dhënat e tyre të thirrjes. Vlerësimet e pasurisë së rrethit për 30 rrethet e Ruandës - të cilat u bazuan në vlerësimet individuale të pasurisë dhe vendbanimit - ishin të ngjashme me rezultatet nga Anketa Demografike dhe Shëndetësore, një studim tradicional i standardeve të arit. Përshtatur nga Blumenstock, Cadamuro, and On (2015) , figurat 1a dhe 3c.

Në përfundim, metoda e kërkuar e përforcuar e Blumenstock-it ka kombinuar të dhënat e sondazhit me një burim të madh të të dhënave për të prodhuar vlerësime të krahasueshme me ato të një studimi të standardit të arit. Ky shembull i veçantë gjithashtu sqaron disa nga ndërhyrjet midis metodave të kërkuara të amplifikuara dhe metodave tradicionale të anketimit. Përllogaritja e vlerësimit të pyetjeve ishte më me kohë, në thelb më e lirë dhe më e grimcuar. Por, nga ana tjetër, ende nuk ka një bazë të fortë teorike për këtë lloj pyetjesh të përforcuara. Ky shembull i vetëm nuk tregon kur kjo qasje do të funksionojë dhe kur nuk do të ndodhë, dhe kërkuesit që përdorin këtë qasje duhet të jenë veçanërisht të shqetësuar rreth anshmërive të mundshme të shkaktuara nga kush përfshihet dhe kush nuk përfshihet në burimin e tyre të madh të të dhënave. Për më tepër, qasja e kërkuar e përforcuar ende nuk ka mënyra të mira për të përcaktuar sasinë e pasigurisë rreth vlerësimeve të saj. Për fat të mirë, kërkesa e përforcuar ka lidhje të thella me tri fusha të mëdha në statistikë: vlerësimi i zonave të vogla (Rao and Molina 2015) , imputimi (Rubin 2004) dhe modelimi i pas-stratifikimit (i cili në vetvete është i lidhur ngushtë me z. P., metoda e përshkruar më herët në kapitullin) (Little 1993) . Për shkak të këtyre lidhjeve të thella, pres që shumë nga themelet metodologjike të pyetjeve të përforcuara së shpejti do të përmirësohen.

Së fundmi, krahasimi i përpjekjeve të para dhe të dytë të Blumenstock-it gjithashtu ilustron një mësim të rëndësishëm në lidhje me hulumtimet shoqërore të moshës digjitale: fillimi nuk është fundi. Kjo është, shumë herë, qasja e parë nuk do të jetë më e mira, por nëse hulumtuesit vazhdojnë të punojnë, gjërat mund të përmirësohen. Në përgjithësi, gjatë vlerësimit të qasjeve të reja të kërkimit social në epokën dixhitale, është e rëndësishme të bëjmë dy vlerësime të dallueshme: (1) Sa mirë funksionon tani kjo? dhe (2) Sa mirë do të funksionojë kjo në të ardhmen kur të ndryshojë peizazhi i të dhënave dhe si hulumtuesit t'i kushtojnë më shumë vëmendje këtij problemi? Megjithëse studiuesit janë trajnuar për të bërë llojin e parë të vlerësimit, e dyta është shpesh më e rëndësishme.