3.6.2 ОНЛАЙН сурап

Көп адамдар бир чоң маалымат булагы менен бир нече адамдардан сурамжылоо маалыматтарды айкалыштыруу үчүн жарыш моделди колдонуу менен сурап күчөтүлгөн.

Изилдөө жана чоң маалымат булактарын айкалыштырууга башкача жолу мен күчөтүлгөн сурап чалам жараяны жүрүп жатат. мунарасынын ОНЛАЙН КИТЕПКАНАСЫ сурап, бир изилдөөчү өз алдынча маалымат булагы да болушу мүмкүн эмес, бир өлчөмдө же деталдаштыруу боюнча баа өндүрүү үчүн бир чоң маалымат булагы менен изилдөөнүн маалыматтарынын бир аз өлчөмдө айкалыштыруу үчүн жарыш моделди колдонот. бойго сураганда маанилүү мисал жакыр өлкөлөрдө жол өнүктүрүүгө жардам бере маалыматтарды чогултуу үчүн Жашыя Blumenstock, ишин келген. иргеп текшерүү жана каттоо: Мурда, маалыматтар ушул түрүн чогултуу изилдөөчүлөр, негизинен, эки ыкмалардын бирин көрүшү керек эле. Үлгү обзорлор, изилдөөчүлөр адамдардын бир аз маек, ийкемдүү, өз учурунда болушу мүмкүн, ал эми салыштырмалуу арзан. Бирок, алар үлгү боюнча, анткени бул изилдөө, көп учурда аларды чечүүнүн менен чектелген. үлгүсүн изилдөө менен, аны белгилүү бир жерлер аймактарында же конкреттүү кубулуштарды топтору үчүн баа берүү кыйын. Каттоо, экинчи жагынан, ар бир маек аракет, ошондой эле, алар кичинекей Geographic региондор же калкынын топтору үчүн баа өндүрүү үчүн колдонсо болот. Бирок каттоо басым жалпысынан кымбат, тар болуп саналат (бир гана суроо бир аз санын камтыйт), бирок өз убагында (мисалы, ар бир 10 жылга, ошондой эле белгилүү бир күн тартиби боюнча эмне,) (Kish 1979) . Тескерисинче Тандалма изилдөөлөрдү же эл каттоонун жыйынтыгы менен бирге эмес, окумуштуулар да мыкты өзгөчөлүктөрүн биригип алган болсо дейли. изилдөөчүлөр ар бир күнү, ар бир адамга ар кандай суроо болсо дейли. Албетте, бул бардык жерде, ар дайым тандоо коомдук илимдер ойдон чыгарылган бир түрү болуп саналат. Бирок, биз көптөгөн адамдар санариптик издерин адамдардын чакан катар суроолорду бириктирип, бул болжол менен башташы мүмкүн пайда бербейт.

Blumenstock изилдөө ал Руандада ири уюлдук оператор менен биргелешип баштаган, жана компания 2005-жана 2009-жылдын ортосунда болжол менен 1,5 млн кардарлары Бул документтерден атынан бүтүм жазып берген ар бир чалуу жана текст кабары тууралуу маалымат камтылган, мисалы, башталыш убактысы болуп, узактыгы , жана да азанчынын жана алуучунун болжолдуу Geographic жайгашкан. Мен статистикалык маселелер тууралуу сөз мурун, бул биринчи кадам көптөгөн изилдөөчүлөр үчүн кыйын болуп калышы мүмкүн экенин айтып кетүү зарыл. 2-бөлүмдө айтылгандай, өтө чоң маалымат булактары изилдөөчүлөр үчүн жеткиликтүү эмес. Телефон мета-берилиштерди, атап айтканда, жөнсүз үчүн, негизинен, мүмкүн эмес, себеби, өзгөчө, жетүүгө кыйын болгон жана ал дээрлик катышуучулары кылдат карап турган маалыматтарды камтыйт (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Бул учурда, изилдөөчүлөр маалыматтарды коргоо үчүн сак болуп, алардын иши менен үчүнчү жак тарабынан көзөмөлдөөгө (б.а., алардын IRB). Мен 6-бөлүмдө кененирээк бул этикалык маселелер кайтып келет.

Blumenstock байлык жана турмуш-тиричилигине кандай өлчөө кызыкдар болгон. Бирок, бул өзгөчөлүктөрдүн чакыруу кагаздарын түздөн-түз эмес. Башка сөз менен айтканда, бул чакыруу кагаздарын Бирок 2-бапта кененирээк талкууланган чоң маалымат булактары бул изилдөө-жалпы өзгөчөлүк үчүн толук эмес, ал чакыруу кагаздарын, балким, байлыгы тууралуу кыйыр түрдө маалымат бере ала турган бир маалыматка ээ болушу мүмкүн жана жакшы болуу. Бул мүмкүнчүлүгүн эске алып, Blumenstock кимдир бирөө алардын чакыруу жазуулардын негизинде сурамжылоого жооп кантип алдын ала айтып, анын Машина үйрөнүү моделин даярдоо үчүн мүмкүн болгон жокпу деп сурады. Бул мүмкүн болгон болсо, анда бардык Blumenstock 1,5 млн кардарлардын Сурамжылоонун жоопторун алдын ала бул моделди тийиши мүмкүн.

куруу жана мындай үлгү окутуу максатында, Илим жана технология Кигали институтунун Blumenstock жана кенже илимий кызматкер жөнүндө мын кардарлардын капыстан тандоо чакырды. мисалы "деп изилдөөчүлөр катышуучуларга долбоордун максаттарын, чакыруу документтерине Сурамжылоонун жоопторун байланыштыруу үчүн алардын макулдугу сурап, андан кийин өз байлыгын жана турмуш-тиричилигине кандай өлчөө үчүн аларга бир нече суроо менен кайрылган, түшүндүрүп боюбуз керек радио? "жана" Эгер Салоны таандыкпы? "(көрүп-жартылай тизмеси үчүн 3.14-сүрөт). Изилдөөнүн бардык катышуучуларынын акча төлөп турган.

Кийинки, Blumenstock машина окутуунун жалпы эки кадам тартибин пайдалануу: өзгөчөлүк инженердик көзөмөлдөнгөн окуу менен коштолду. Биринчиден, өзгөчөлүк инженердик кадам, маек, адам, Blumenstock ар бир адам жөнүндө мүнөздөмөлөрдүн топтому кирген чалуу жазууларды динин; маалымат илимпоздор бул мүнөздөмөлөр "мүмкүнчүлүктөр" жана илимпоздордун аларды кандай атай тургандыгын чакыруу мүмкүн "өзгөрмө". Мисалы, ар бир адам үчүн, Blumenstock иши менен күн жалпы санын эсептеп, бир адам байланышта болгон айырмаланган адамдардын саны, акчанын суммасы убакытты коротуу, ж.б.у.с.. Сын, жакшы өзгөчөлүгү инженердик изилдөө аныктоо билимди талап кылат. Мисалы, ата-мекендик жана эл аралык чалуулар ортосунда (биз эл аралык деп атаган адамдардын колунда болушу мүмкүн) айырмалоо үчүн маанилүү болсо, анда бул мүмкүнчүлүк инженердик кадамда жасалууга тийиш. Руанда аз түшүнүү менен изилдөөчү бул өзгөчөлүктү жок, мүмкүн, андан кийин моделдин жарыш аткаруу азап болмок.

Кийинки, көзөмөлдөнгөн окутуу кадам, Blumenstock алардын өзгөчөлүктөрү боюнча ар бир адам үчүн сурамжылоо жообун алдын ала айтып, анын моделин курду. Бул учурда, Blumenstock логистикалык регрессия колдонгон, бирок ал башка статистикалык же машиналык-окуу ыкмаларын ар кандай колдоно алмак.

Ал кантип эле жок иштейт? Blumenstock сыяктуу суроолор сурамжылоонун жооп айта албай, "сен радиого барбы?" Жана "Эгер Салоны таандык?" Деген чакыруу эсепке алынган өзгөчөлүктөрдү пайдалануу беле? Анын Жарыш моделдин ишинин натыйжалуулугун баалоо үчүн, Blumenstock кайчылаш текшерүүнү, жалпы маалымат, илим колдонулган, бирок чанда гана коомдук илимдер ыкманы колдонгон. кайчылаш-колдонуу максаты, аны окутуу жана маалыматтарды ар кандай тилдердин аны сыноо менен үлгүнүн жарыш аткаруу адилеттүү баа берүү болуп саналат. Атап айтканда, Blumenstock 100 адам ар бир жылдын 10-жетиден анын маалыматтарды кетишкен. Андан кийин, ал өзүнүн моделин окутуу үчүн жетиден тогузунда, ал эми даярдалган моделдин жарыш аткаруу калган басуу боюнча бааланат. Ал жарактуулугун бир кезек алуунун маалыматтары ар бир чычала менен жолу бул жол-жобосун 10 кайталап маалыматтар жана материалдар түздү.

алдын ала так айрым мүнөздүү (көрсөткүч 3,14) жогору болгон; Мисалы, кимдир бирөө Blumenstock РАДИО таандык болсо, 97,6% так айта алган жок. Бул таасирдүү сезилиши мүмкүн, бирок жөнөкөй атаандаш каршы комплекстүү алдын ыкмасын дайыма маанилүү. Бул учурда, жөнөкөй альтернатива ар таралган жооп бере албайт деп айтууга болот. Мисалы, ал бир топ татаал жол-аткаруу үчүн өтө окшош 97,3 болсо РАДИО ээ билдирди үчүн респонденттердин% Blumenstock ар бир адам, ал 97,3% га так эле турган радио ээ отчет деп алдын ала айткан (97,6% тактыгы) . Башка сөз менен айтканда, бардык кооз маалымат жана моделдөө келечекти алдын ала так 97,3% дан 97,6% га чейин өстү. Бирок, мисалы, башка маселелер боюнча "Сен Салоны таандыкпы?", Алдын ала 54,4% 67,6% га чейин жакшырган. Жалпысынан, бул көрсөткүч 3.15 кээ бир кулк-Blumenstock көп эле жөнөкөй баштапкы алдын алуу ары жакшыртуу эмес, анткени экенин көрсөтүп турат, бирок бул башка сапаттарды үчүн айрым жылыштар болду. эле ошол натыйжаларына караганда, Бирок, бул ыкма өзгөчө келечектүү деп ойлоп калышы мүмкүн.

Figure 3.14: чакыруу кагаздары менен бирге үйрөтүлгөн статистикалык моделдин Жарыш так. Blumenstock (2014) рубрикасына, стол, 2.

Figure 3.14: чакыруу кагаздары менен бирге үйрөтүлгөн статистикалык моделдин Жарыш так. Рубрикасына Blumenstock (2014) , стол, 2.

Figure 3.15: жөнөкөй баштапкы алдын ала чалуу жазууларды менен үйрөтүлгөн статистикалык моделдин жарыш так салыштыруу. Points аз кабатталган качууга jittered жатышат. Blumenstock (2014) рубрикасына, стол, 2.

Figure 3.15: жөнөкөй баштапкы алдын ала чалуу жазууларды менен үйрөтүлгөн статистикалык моделдин жарыш так салыштыруу. Points аз кабатталган качууга jittered жатышат. Рубрикасына Blumenstock (2014) , стол, 2.

Бирок, бир жылдан кийин, Blumenstock эки кесиптеш-Gabriel Cadamuro жана Роберт кыйла жакшы жыйынтык менен илим бир кагаз On-жарыяланган (Blumenstock, Cadamuro, and On 2015) . Бул жакшыртуу үчүн эки негизги техникалык себептер болгон: (1) алар татаал ыкмаларын колдонгон (башкача айтканда, жаңы ыкма инженерия камтылган жана өзгөчөлүктөр жообун алдын ала бир кыйла татаал моделин) жана (2) жеке жооп тыянак чыгарууга аракет кылган эмес, тескерисинче, сурамжылоо суроолор (мисалы, "сен рАДИО таандыкпы?"), алар курама жетиштүү жашоо индексин тыянак чыгарууга аракет кылышкан. Бул техникалык жакшыртуу, алар тандалып алынган адамдар үчүн байлыгын алдын ала чалуу жазууларды колдонуу акылга сыярлык иш экенин билдирген.

үлгүсүндөгү жалпы элдин байлыгын прогноздоо, бирок, изилдөөнүн негизги максаты эмес. акыркы максаты тандап изилдөөлөрдө мыкты айрым өзгөчөлүктөрүнө айкалыштыруу жана өнүгүп келе жаткан өлкөлөрдө жакырчылыктын так, жогорку баа өндүрүү каттоонун унутпа. Бул максатка жетүү үчүн өз жөндөмүн баалоо үчүн, Blumenstock жана кесиптештери чалуу жазуулардын баарын 1,5 млн элдин байлыгын алдын ала өз модели менен маалыматтарды пайдалануу. Алар чакыруу кагаздарын киргизилген Геомейкиндиктик маалыматтарды колдонгон ар бир адам жашаган (сүрөттү 3.17) болжолдуу ордун аныктоо (маалыматтар ар бир чалуу үчүн жакынкы клетка мунаранын жайгашкан кирерин эске). бул эки баа коюу, Blumenstock жана кесиптештери абдан жакшы мейкиндик деталдаштыруу боюнча абонент байлыкты Geographic бөлүштүрүү баа өндүрүлөт. Мисалы, алар Руанданын 2148 клетканын ар бири (өлкөдөгү майда-башкаруу бирдиги) орточо байлык баалоо мүмкүн.

Кантип эле бул баалоолор бул аймактарда жакырчылыктын чыныгы даражасына чейин дал берген? Мен бул суроого жооп берерден мурун, мен себептер көп ишенбей калышат бар экендигин баса белгилеп кетким келет. Мисалы, жеке денгээлинде алдын ала жөндөмү абдан ызы-чуу болду (Figure 3.17). Ошондо, балким, андан да маанилүүсү, уюлдук адамдар уюлдук жок адамдардан системалуу түрдө ар түрдүү болушу мүмкүн. Ошентип, Blumenstock жана кесиптештер, мен мурда айтылган 1936 Адабий Digest изилдөө жан камтуу каталар түрлөрүн мүмкүн.

Алардын баа сапаты жөнүндө түшүнүк алуу үчүн, Blumenstock жана кесиптештери башка нерсе менен салыштыруу зарыл. Бактыга жараша, алардын изилдөө Ошол эле учурда курчап, изилдөөчүлөр башка бир тобу Руандада салттуу коомдук сурамжылоого чуркап эле. Бул көп бир DEMOGRAPHIC жана ден соолук боюнча изилдөө программасы бар ири сыйлаган бюджеттин башка сурамжылоо-бөлүгү жана жогорку сапаттагы колдонулган салттуу ыкмалары. Ошондуктан, комитетинин Саламаттык сактоо тартып баа негиздүү алтын-стандартты, баа кароого болот. эки баасы салыштырмалуу, алар бири-бирине окшош болгон (Figure 3.17). Башка сөз менен айтканда, чакыруу кагаздары менен бирге изилдөөнүн маалыматтарынын бир аз өлчөмдө бириктирип, Blumenstock жана кесиптештери алтын стандарттуу ыкмалар ошол салыштырууга баа чыгара алдык.

Шектенгендер бир капалануу сыяктуу бул натыйжаларды көрө мүмкүн. Анткени, аларга бир жолу чоң маалыматтарды жана Машина үйрөнүү аркылуу, Blumenstock жана кесиптештери буга чейин бар болгон ыкмалар менен дагы так жүргүзүлүшү мүмкүн баа чыгара алышты деп айтууга болот. Бирок бул эки себеп менен бул изилдөөнүн жөнүндө ойлонууга туура эмес деп ойлойм. Биринчиден, Blumenstock, кесиптештердин баа 10 эсе тез жана 50 эсе арзан болгон (наркы өзгөрүлмө чыгымдар өлчөмдөр болсо). Мен бул бөлүмдө жогоруда далилдегендей, изилдөөчүлөр, аларды коркутуп, наркын көрмөксөн. Мындай учурда, мисалы, наркынын кескин төмөндөшү, балким, бир нече жыл катары комитети менен Саламаттык сактоо үчүн типтүү болуп саналат сурамжылоонун-бул изилдөөнүн түрү ай сайын Нускасы мүмкүн Нускасы эмес, изилдөөчүлөрдүн жана саясат боюнча көптөгөн артыкчылыктарды камсыз турган дегенди билдирет чыгарган. Скептик көз карашын эмес, экинчи себеби, бул изилдөө ар кандай изилдөө жагдайларга жараша боло турган негизги салышы менен камсыз болот. Бул рецепт эки гана азыктарды, эки кадам бар. курамы (1) кең, бирок, жука бир чоң маалымат булагы (мисалы, көптөгөн адамдар бар, бирок ар бир адам жөнүндө зарыл болгон маалыматтарды жок) жана (2) тар сурамжылоо, бирок коюу (башкача айтканда, бир гана бар бир аз эле киши, бирок бул адамдар тууралуу зарыл маалымат бар). Бул кадамды эки кадам менен бириктирилет. Биринчиден, эки маалымат булактарында адамдар үчүн, сурамжылоо жооп айтканга чоң маалымат булагын колдонуп Машина үйрөнүү моделин түзүү. Кийинки ири маалымат булактары ар сурамжылоо жооп берүүгө ошол моделди колдонушат. Ошентип, сиз чоң маалымат булагы тууралуу кереги жок болсо да, эл көп берип, жооп айта үчүн колдонулушу мүмкүн болгон адамдарга бир чоң маалымат булагын издөөгө каалаган бир нече суроо бар болсо. Башкача айтканда, Blumenstock жана кесиптештери табиятынан чакыруу кагаздарын кам кылган эмес болуп саналат; алар жөнүндө кам сурамжылоо жооп айтканга пайдаланылышы мүмкүн, анткени, алар бир гана чакыруу кагаздарын камын ойлогон. чоң маалымат булагы-кылат бул өзгөчөлүгү гана кыйыр пайыздык мен мурда айтылган камтылган деп сураганда, башкача талап күч.

Figure 3.16: Blumenstock, Cadamuro тарабынан изилдөөнүн БУУнун жана тууралуу (2015-жыл). Call кагаздарын тел компаниясынын ар бир өзгөчөлүк үчүн ар бир адамга жана бир колонна үчүн бир катар матриксиндеги динин кабыл алган (б.а., өзгөрүлмө). Кийинки изилдөөчүлөр адам менен өзгөчөлүк булагына чейин Сурамжылоонун жоопторун алдын ала көзөмөлдөнгөн окуу моделин курду. Андан кийин, көзөмөлдөнгөн окутуу модели бардык 1,5 млн кардарлар үчүн сурамжылоо жооп берүүгө колдонулган. Ошондой эле, изилдөөчүлөр, алардын чалуулардын жайгашкан негизделген 1,5 млн кардарлар үчүн жашаган болжолдуу жерди бааланган. ушул эки баа-эсептик байлык жана эсептик жерде жашаган адамдар бириккенде, жыйынтыгы комитетинин Саламаттык сактоо, алтын-стандартты, салттуу изилдөөнүн (Figure 3.17) бааларына окшош болгон.

Figure 3.16: тарабынан изилдөө БУУнун Blumenstock, Cadamuro, and On (2015) . Call кагаздарын тел компаниясынын ар бир өзгөчөлүк үчүн ар бир адамга жана бир колонна үчүн бир катар матриксиндеги динин (б.а., өзгөрүлмө). Кийинки изилдөөчүлөр адам менен өзгөчөлүк булагына чейин Сурамжылоонун жоопторун алдын ала көзөмөлдөнгөн окуу моделин курду. Андан кийин, көзөмөлдөнгөн окутуу модели бардык 1,5 млн кардарлар үчүн сурамжылоо жооп берүүгө колдонулган. Ошондой эле, изилдөөчүлөр, алардын чалуулардын жайгашкан негизделген 1,5 млн кардарлар үчүн жашаган болжолдуу жерди бааланган. ушул эки баа-эсептик байлык жана эсептик жерде жашаган адамдар бириккенде, жыйынтыгы комитетинин Саламаттык сактоо, алтын-стандартты, салттуу изилдөөнүн (Figure 3.17) бааларына окшош болгон.

Figure 3.17: Blumenstock, Cadamuro, жана (2015) пайда болот. Жекече де¾гээлде, изилдөөчүлөр, алардын чакыруу кагаздарын чейин кимдир бирөөнүн байлыгын алдын ала бир алгылыктуу жумуш кыла алышты. Руанданын 30 район-байлык жана орду жөнүндө айрым-деңгээл баа негизделген үчүн райондук байлыкка баа комитетинин Саламаттык сактоо, алтын-стандартты, салттуу сурамжылоонун натыйжаларына окшош жашоо-болду. Blumenstock, Cadamuro, жана (2015) рубрикасына, 1а жана 3C көрсөткүчтөрү.

Figure 3.17: жыйынтыгына Blumenstock, Cadamuro, and On (2015) . Жекече де¾гээлде, изилдөөчүлөр, алардын чакыруу кагаздарын чейин кимдир бирөөнүн байлыгын алдын ала бир алгылыктуу жумуш кыла алышты. Руанданын 30 район-байлык жана орду жөнүндө айрым-деңгээл баа негизделген үчүн райондук байлыкка баа комитетинин Саламаттык сактоо, алтын-стандартты, салттуу сурамжылоонун натыйжаларына окшош жашоо-болду. Рубрикасына Blumenstock, Cadamuro, and On (2015) , 1а жана 3C көрсөткүчтөрү.

Жыйынтыктасак, бир чоң маалымат булагы менен Blumenstock анын күч сурап мамиле курама Изилдөөлөрдүн маалыматтары алтын-стандартты, сурамжылоонун адамдарга салыштырмалуу баа өндүрүү үчүн. Бул мисал да күчөтүлгөн сураганга жана салттуу изилдөө ыкмалары ортосунда соода-маалымат төгүндөлдү айрым түшүндүргөн. бойго сурап баасы дагы убагында, кыйла эле арзан болчу, жана гранул. Бирок, экинчи жагынан, бирок күч сураганда мындай түрү үчүн бекем теориялык негиз жок. Бул бир мисал, бул ыкма иштеп турган жана ал качан, бул ыкманы колдонуу менен изилдөөчүлөр кирген жана алардын чоң маалымат булакта-киргизилген эмес, ким ким менен шартталган мүмкүн кызыкчылыктардан, өзгөчө болушу керек эмес, эркин көрсөтө бербейт. Андан тышкары, бойго сатыкка мамиле, анын баасы болжол менен белгисиздикти сандык жакшы жолдорун ээ эмес. Бактыга жараша, бойго суроо статистикасы-майда аймак баалоонун үч чоң жерлерге терең байланышы бар (Rao and Molina 2015) , күнөө (Rubin 2004) , ошондой эле өзү менен тыгыз мырза P. менен байланышкан модель негизинде кийинки катмарлашууну (, Мен бөлүмдө мурда айтылган ыкма) (Little 1993) . Мындай терең байланыштарды, мен бойго сураганда методологиялык негиздерин көп өтпөй жакшырат деп ишенебиз.

Акыр-аягы, Blumenstock биринчи жана экинчи аракет салыштыруу, ошондой эле санариптик-жашы коомдук изилдөөлөр тууралуу маанилүү сабак көрсөтүлгөн: башталышы дүйнөнүн акыры эмес. Башкача айтканда, көп жолу, биринчи ыкма жакшы болбой калат, ал эми изилдөөчүлөр иштеп берсе, баары жакшы болот. жаштагы коомдук изилдөөлөр боюнча жаңы ыкмаларды баа берүү, Жалпысынан, бул эки башка баа үчүн маанилүү болуп саналат: (1), ошондой эле бул иш-аракеттерди кылат? жана (2) кандай маалымат пейзаж өзгөртүүлөр жана изилдөөчүлөр сыяктуу келечекте бул иш маселеге көбүрөөк жумшай берет? изилдөөчүлөр баа биринчи түрүн жасоого үйрөткөн да, экинчи учурда маанилүү.