3.6.2 అడగడం విస్తరించడం

చాలామంది ప్రజల నుండి ఒక పెద్ద డేటా మూలంతో కొంతమంది వ్యక్తుల నుండి సర్వే డాటాను కలపడానికి ప్రిడిక్టివ్ మోడల్ను ఉపయోగించి అడుగుపెడుతున్నది.

సర్వే మరియు పెద్ద డేటా మూలాల మిళితం వేరొక మార్గం నేను అభ్యర్థన విస్తరించిన కాల్ చేస్తాము ఒక ప్రక్రియ. అడిగి విస్తరిస్తున్నప్పుడు, ఒక పరిశోధకుడు ఒక పెద్ద డేటా మూలంతో ఒక చిన్న మొత్తంలో సర్వే డేటాని మిళితం చేయడానికి అంచనా వేసే మోడల్ను ఉపయోగిస్తాడు, ఇది ఒక ప్రమాణంలో లేదా గ్రాన్యులరిటీలో అంచనా వేయడానికి క్రమంలో డేటా సోర్స్తో వ్యక్తిగతంగా సాధ్యపడదు. విస్తృతంగా అడిగిన ప్రశ్నకు ఒక ముఖ్యమైన ఉదాహరణ, పేద దేశాలలో మార్గదర్శిని అభివృద్ధికి సహాయపడే డేటాను సేకరించాలని కోరుకునే, జాషువా బ్యుమెంస్టాక్ యొక్క పని నుండి వచ్చింది. గతంలో, ఈ రకమైన డేటాను సేకరించే పరిశోధకులు సాధారణంగా రెండు విధానాల్లో ఒకదాన్ని తీసుకోవాలి: నమూనా సర్వేలు లేదా జనాభా గణనలు. నమూనా సర్వేలు, పరిశోధకులు కొంతమంది వ్యక్తులను ఇంటర్వ్యూ చేస్తారు, సౌకర్యవంతమైన, సమయానుకూలమైనది మరియు చాలా చౌకగా ఉంటుంది. ఏదేమైనా, ఈ సర్వేలు, అవి ఒక మాదిరి మీద ఆధారపడినందున, తరచుగా వారి తీర్మానంలో పరిమితం చేయబడతాయి. నమూనా సర్వేలో, నిర్దిష్ట భౌగోళిక ప్రాంతాల గురించి లేదా నిర్దిష్ట జనాభా సమూహాల గురించి అంచనా వేయడం చాలా కష్టం. మరోవైపు, ప్రతి ఒక్కరూ ఇంటర్వ్యూ చేయటానికి ప్రయత్నిస్తారు మరియు తద్వారా వారు చిన్న భౌగోళిక ప్రాంతాలు లేదా జనాభా సమూహాలకు అంచనా వేయడానికి ఉపయోగించవచ్చు. కానీ జనాభా గణనలు సాధారణంగా ఖరీదైనవి, ఇవి దృష్టిలో ఇరుకైనవి (వారు కేవలం కొద్ది సంఖ్యలో ప్రశ్నలు మాత్రమే ఉన్నాయి) మరియు సకాలంలో కాదు (వారు ప్రతి 10 సంవత్సరాల వంటి స్థిరమైన షెడ్యూల్లో ఉంటారు) (Kish 1979) . నమూనా సర్వేలు లేదా జనాభా గణనలతో కూర్చోవడం కంటే, పరిశోధకులు రెండింటి యొక్క ఉత్తమ లక్షణాలను కలిపితే ఊహించుకోండి. పరిశోధకులు ప్రతిరోజూ ప్రతి ప్రశ్నకు ప్రతిరోజు అడిగినప్పుడు ఊహిస్తారు. సహజంగానే, ఈ సర్వవ్యాప్త, ఎల్లప్పుడూ-సర్వే అనేది సామాజిక శాస్త్రం యొక్క ఒక రకం. కానీ అది మేము అనేక మంది నుండి డిజిటల్ జాడలు తో ప్రజలు ఒక చిన్న సంఖ్య నుండి సర్వే ప్రశ్నలు కలపడం ద్వారా ఈ ఇంచుమించుగా చేయగలుగుతుంది కన్పిస్తాయి.

బ్యుమెన్స్టాక్ యొక్క పరిశోధన అతను రువాండాలో అతిపెద్ద మొబైల్ ఫోన్ ప్రొవైడర్తో కలిసి పనిచేసినప్పుడు ప్రారంభమైంది, మరియు సంస్థ 2005 మరియు 2009 మధ్య సుమారు 1.5 మిలియన్ల మంది వినియోగదారుల నుండి అనామక లావాదేవీ రికార్డులను అందించింది. ఈ రికార్డులు ప్రారంభ సమయం, వ్యవధి వంటి ప్రతి కాల్ మరియు వచన సందేశం గురించి సమాచారాన్ని కలిగి ఉంది , మరియు కాలర్ మరియు రిసీవర్ యొక్క సుమారు భౌగోళిక స్థానం. నేను గణాంక సమస్యల గురించి మాట్లాడుకోకముందే, ఈ మొదటి అడుగు అనేకమంది పరిశోధకులకు కష్టతరమైనదిగా ఉంటుందని ఎత్తి చూపడం విలువ. నేను అధ్యాయంలో 2 వ అధ్యాయంలో వివరించినట్లుగా, పెద్ద డేటా వనరులు పరిశోధకులకు అందుబాటులో ఉండవు . టెలిఫోన్ మెటా డేటా ప్రత్యేకించి, ముఖ్యంగా అందుబాటులో ఉండదు, ఎందుకంటే ఇది (Mayer, Mutchler, and Mitchell 2016; Landau 2016) ప్రధానంగా అసాధ్యం మరియు పాల్గొనేవారు సున్నితమైన (Mayer, Mutchler, and Mitchell 2016; Landau 2016) పాల్గొనేవారు ఖచ్చితంగా సమాచారాన్ని కలిగి ఉంటారు. ఈ ప్రత్యేక సందర్భంలో, పరిశోధకులు డేటాను రక్షించడానికి జాగ్రత్తగా ఉన్నారు మరియు వారి పని మూడవ పక్షం పర్యవేక్షిస్తుంది (అంటే వారి IRB). నేను 6 వ అధ్యాయంలో మరింత వివరంగా ఈ నైతిక సమస్యలకు తిరిగి వస్తాను.

బ్లమ్ స్స్టాక్ సంపదను మరియు శ్రేయస్సును కొలిచేందుకు ఆసక్తి చూపింది. కానీ ఈ లక్షణాలు నేరుగా కాల్ రికార్డులలో లేవు. వేరొక మాటలో చెప్పాలంటే, ఈ కాల్ రికార్డులకు పూర్తి అసంపూర్తిగా ఉంది -పెద్ద డేటా మూలాల యొక్క సాధారణ లక్షణం అధ్యాయంలో వివరంగా చర్చించబడింది. అయినప్పటికీ, కాల్ రికార్డులు బహుశా పరోక్షంగా సంపద గురించి సమాచారాన్ని అందించే కొంత సమాచారాన్ని కలిగి ఉండవచ్చు, బాగా ఉండటం. ఈ అవకాశమున్నందున, బ్లమ్స్టాక్క్ వారి కాల్ రికార్డుల ఆధారంగా ఎవరైనా సర్వేకు ఎలా స్పందిస్తారో అంచనా వేయడానికి యంత్ర అభ్యాస మోడల్ను శిక్షణ పొందగలవా అని అడిగారు. ఇది సాధ్యమయితే, అప్పుడు 1.5 మిలియన్ల వినియోగదారుల సర్వే ప్రతిస్పందనలను అంచనా వేయడానికి బ్లమ్స్టాక్ ఈ నమూనాను ఉపయోగించుకోవచ్చు.

ఇటువంటి నమూనాను రూపొందించడానికి మరియు శిక్షణ కోసం, కెలాలి ఇన్స్టిట్యూట్ ఆఫ్ సైన్స్ అండ్ టెక్నాలజీ నుండి బ్యుమెన్స్టాక్ మరియు పరిశోధనా సహాయకులు వెయ్యిమంది వినియోగదారుల యొక్క యాదృచ్చిక నమూనాను పేర్కొన్నారు. పరిశోధకులు ప్రాజెక్ట్ యొక్క లక్ష్యాలను పాల్గొనేవారికి వివరించారు, కాల్ రికార్డులకు సర్వే స్పందనలను అనుసంధానించమని వారి సమ్మతి కోసం అడిగారు, తరువాత వారి సంపద మరియు శ్రేయస్సును కొలవడానికి వాటిని వరుస ప్రశ్నలు అడిగారు, రేడియో? "మరియు" మీకు సైకిల్ సైతం ఉందా? "(పాక్షిక జాబితాకు ఫిగర్ 3.14 చూడండి). సర్వేలో పాల్గొన్న వారందరూ ఆర్ధికంగా పరిహారాన్ని పొందారు.

తర్వాత, బ్లమ్స్టాక్ మెషిన్ లెర్నింగ్లో రెండు-దశల ప్రక్రియను ఉపయోగించారు: పర్యవేక్షణలో నేర్చుకోవడం ద్వారా ఫీచర్ ఇంజనీరింగ్. మొదటిది, విశేషమైన ఇంజనీరింగ్ దశలో, ఇంటర్వ్యూ చేసిన ప్రతి ఒక్కరికి, బ్లూమ్స్టాక్ కాల్ రికార్డులను ప్రతి వ్యక్తికి సంబంధించిన లక్షణాలుగా మార్చారు; డేటా శాస్త్రవేత్తలు ఈ లక్షణాలు "లక్షణాలు" అని పిలుస్తారు మరియు సాంఘిక శాస్త్రవేత్తలు వాటిని "వేరియబుల్స్" అని పిలుస్తారు. ఉదాహరణకు, ప్రతి వ్యక్తికి Blumenstock లెక్కించిన మొత్తం రోజులు, ఒక వ్యక్తులతో సంబంధం ఉన్న విభిన్న వ్యక్తుల సంఖ్య ఎప్పటికప్పుడు ఖర్చు చేసిన డబ్బు, మరియు అలా. విమర్శనాత్మకంగా, మంచి విశేష ఇంజనీరింగ్ పరిశోధన యొక్క అవగాహన అవసరం. ఉదాహరణకు, దేశీయ మరియు అంతర్జాతీయ కాల్స్ (అంతర్జాతీయంగా అంతర్జాతీయంగా పిలవబడే వ్యక్తులని మేము గుర్తించాము) మధ్య తేడాను గుర్తించడం ముఖ్యం అయితే, ఇది ఫీచర్ ఇంజనీరింగ్ దశలో చేయాలి. రువాండాకు తక్కువ అవగాహన కలిగిన పరిశోధకుడు ఈ లక్షణాన్ని కలిగి ఉండకపోవచ్చు, ఆ తరువాత మోడల్ యొక్క ఊహాజనిత పనితీరు గురవుతుంది.

తరువాత, పర్యవేక్షక అభ్యాస దశలో, Blumenstock వారి లక్షణాల ఆధారంగా ప్రతి వ్యక్తికి సర్వే స్పందనను అంచనా వేయడానికి ఒక నమూనాను నిర్మించింది. ఈ సందర్భంలో, బ్లూమాన్స్టాక్ లాజిస్టిక్ రిగ్రెషన్ను ఉపయోగించాడు, కానీ అతను ఇతర గణాంక లేదా యంత్ర అభ్యాస విధానాలను వివిధ ఉపయోగించాడు.

సో ఎంత మంచి పని చేసాడు? కాల్ రికార్డుల నుండి వచ్చిన లక్షణాలను ఉపయోగించి "మీరు ఒక రేడియో స్వంతం ఉందా?" మరియు "మీకు సైకిల్ సైతం ఉందా?" వంటి ప్రశ్నలను విశ్లేషించడానికి బ్లాన్స్స్టాక్ సమాధానం చెప్పగలరా? తన ప్రిడిక్టివ్ మోడల్ యొక్క పనితీరును అంచనా వేయడానికి, బ్లామన్స్టాక్ క్రాస్-ధ్రువీకరణను ఉపయోగించారు, ఇది సాధారణంగా డేటా సైన్స్లో ఉపయోగించే సాంకేతికత, కానీ అరుదుగా సాంఘిక శాస్త్రం. క్రాస్ ధ్రువీకరణ యొక్క లక్ష్యం ఒక నమూనా యొక్క ఊహాత్మక పనితీరును అంచనా వేయడం ద్వారా దానిని శిక్షణ మరియు డేటా యొక్క విభిన్న వర్గాలపై పరీక్షించడం. ముఖ్యంగా, బ్లమ్స్టాక్ తన డేటాను 100 మంది ప్రతి 10 భాగాలుగా విభజించారు. అప్పుడు, అతను తన మోడల్ను శిక్షణ కోసం తొమ్మిది భాగాలుగా ఉపయోగించాడు, శిక్షణ పొందిన మోడల్ యొక్క అంచనా పనితీరు మిగిలిన భాగం మీద విశ్లేషించబడింది. అతను ఈ విధానాన్ని 10 సార్లు పునరావృతం చేసారు-ధ్రువీకరణ డేటాగా ఒక మలుపును సంపాదించిన ప్రతి భాగంతో మరియు ఫలితాలను సగటున.

కొన్ని విశిష్టతలకు అంచనాల ఖచ్చితత్వం ఎక్కువగా ఉంది (సంఖ్య 3.14); ఉదాహరణకు, బ్యుమెన్స్టాక్ ఒక రేడియోకు యాజమాన్యంలో ఉంటే, 97.6% ఖచ్చితత్వంతో అంచనా వేయవచ్చు. ఇది ఆకట్టుకునే శబ్దాన్ని కలిగిస్తుంది, కానీ ఒక సాధారణ ప్రత్యామ్నాయానికి వ్యతిరేకంగా ఒక సంక్లిష్ట ప్రూఫ్ పద్ధతిని సరిపోల్చడం ఎల్లప్పుడూ ముఖ్యం. ఈ సందర్భంలో, ఒక సాధారణ ప్రత్యామ్నాయం అందరికీ సర్వసాధారణమైన జవాబు ఇవ్వాలని అంచనా వేయాలి. ఉదాహరణకు, ప్రతివాదులు 97.3% ఒక రేడియోను కలిగి ఉన్నారని నివేదించారు, కాబట్టి ప్రతి ఒక్కరూ ఒక రేడియోను సొంతం చేసుకుంటారని అంచనా వేసినట్లయితే అతను తన క్లిష్టమైన ప్రక్రియ (97.6% ఖచ్చితత్వం) యొక్క ఆశ్చర్యకరంగా మాదిరిగానే 97.3% . మరో మాటలో చెప్పాలంటే, అన్ని ఫాన్సీ డేటా మరియు మోడలింగ్ అంచనాల ఖచ్చితత్వాన్ని 97.3% నుండి 97.6% కి పెంచింది. అయినప్పటికీ, "మీరు సైకిళ్లను కలిగి ఉన్నారా?" వంటి ఇతర ప్రశ్నలకు, అంచనాలు 54.4% నుండి 67.6% కి మెరుగుపడ్డాయి. సాధారణంగా సాధారణంగా, బ్లేమెన్స్టాక్ కొన్ని విశిష్టతలకు సాధారణమైన బేస్ లైన్ ప్రిడిక్షన్ను మించి అభివృద్ధి చేయలేదని, కానీ ఇతర విశిష్టతలకు కొన్ని మెరుగుదల ఉంది. ఈ ఫలితాల గురించి మాత్రమే చూస్తే, ఈ విధానం ముఖ్యంగా హామీ ఇస్తుందని మీరు అనుకోకపోవచ్చు.

మూర్తి 3.14: కాల్ రికార్డులతో శిక్షణ పొందిన గణాంక నమూనాకు ముందస్తు ఖచ్చితత్వం. Blumenstock (2014), టేబుల్ 2 నుండి స్వీకరించబడింది.

మూర్తి 3.14: కాల్ రికార్డులతో శిక్షణ పొందిన గణాంక నమూనాకు ముందస్తు ఖచ్చితత్వం. Blumenstock (2014) , టేబుల్ 2 నుండి స్వీకరించబడింది.

మూర్తి 3.15: సాధారణ బేస్ లైన్ ప్రిడిక్షన్కు కాల్ రికార్డులతో శిక్షణ పొందిన ఒక గణాంక నమూనా కోసం అంచనా ఖచ్చితత్వం యొక్క పోలిక. పాయింట్లు అతివ్యాప్తి నివారించేందుకు కొద్దిగా jittered ఉంటాయి. Blumenstock (2014), టేబుల్ 2 నుండి స్వీకరించబడింది.

మూర్తి 3.15: సాధారణ బేస్ లైన్ ప్రిడిక్షన్కు కాల్ రికార్డులతో శిక్షణ పొందిన ఒక గణాంక నమూనా కోసం అంచనా ఖచ్చితత్వం యొక్క పోలిక. పాయింట్లు అతివ్యాప్తి నివారించేందుకు కొద్దిగా jittered ఉంటాయి. Blumenstock (2014) , టేబుల్ 2 నుండి స్వీకరించబడింది.

అయితే, కేవలం ఒక సంవత్సరం తర్వాత, బ్లామన్స్టాక్ మరియు ఇద్దరు సహచరులు-గాబ్రియేల్ కడమూరో మరియు రాబర్ట్ ఆన్ సైన్స్లో గణనీయంగా మంచి ఫలితాలను (Blumenstock, Cadamuro, and On 2015) . ఈ మెరుగుదల కోసం రెండు ప్రధాన సాంకేతిక కారణాలు ఉన్నాయి: (1) వారు మరింత అధునాతన పద్ధతులను (అనగా, ఇంజనీరింగ్తో ఒక కొత్త విధానం మరియు లక్షణాలు నుండి స్పందనలు అంచనా వేయడానికి మరింత అధునాతనమైన నమూనా) మరియు (2) వ్యక్తిగత ప్రతిస్పందనలను ఊహించడానికి సర్వే ప్రశ్నలు (ఉదా., "మీకు ఒక రేడియో ఉందా?"), వారు ఒక సంపద సంపద సూచికను ఊహించటానికి ప్రయత్నించారు. ఈ సాంకేతిక మెరుగుదలలు వారి నమూనాలో వ్యక్తులకు సంపదను అంచనా వేయడానికి కాల్ రికార్డులను ఉపయోగించుకునే ఒక సహేతుకమైన పనిని చేయగలవు.

నమూనాలో ప్రజల సంపద ఊహించి, పరిశోధన యొక్క అంతిమ లక్ష్యం కాదు. అభివృద్ధి చెందుతున్న దేశాలలో పేదరికం యొక్క ఖచ్చితమైన, అధిక రిజల్యూషన్ అంచనాలను ఉత్పత్తి చేయడానికి నమూనా సర్వేలు మరియు జనాభా గణనల యొక్క ఉత్తమ లక్షణాలను మిళితం చేయడం అంతిమ లక్ష్యమని గుర్తుంచుకోండి. ఈ లక్ష్యాన్ని సాధించడానికి వారి సామర్థ్యాన్ని అంచనా వేయడానికి, బ్లామన్స్టాక్ మరియు సహచరులు వారి నమూనా మరియు వారి డేటాను కాల్ రికార్డుల్లో 1.5 మిలియన్ల మంది సంపదను అంచనా వేయడానికి ఉపయోగించారు. మరియు వారు ప్రతి వ్యక్తి యొక్క నివాస స్థలమును అంచనా వేయడానికి కాల్ రికార్డులలో పొందుపర్చిన జియోస్పటియల్ సమాచారం వాడతారు (ప్రతి కాల్కు సమీప సెల్ టవర్ యొక్క స్థానాన్ని చేర్చినట్లు గుర్తు). ఈ రెండు అంచనాలన్నింటినీ కలిపి బ్లమ్నస్టాక్ మరియు సహచరులు చందాదారుల సంపద యొక్క భౌగోళిక పంపిణీని చాలా బాగా స్పేషియల్ గ్రాన్యులారిటీలో అంచనా వేశారు. ఉదాహరణకు, వారు రువాండా యొక్క 2,148 కణాల (దేశంలో అతిచిన్న పరిపాలనా విభాగం) సగటు సంపదని అంచనా వేయవచ్చు.

ఈ అంచనాలు ఈ ప్రాంతాల్లో పేదరికాన్ని వాస్తవ స్థాయికి ఎంతవరకు సరిపోతున్నాయి? నేను ఆ ప్రశ్నకు సమాధానం ఇవ్వకముందే, సందేహాస్పదంగా ఉండటానికి చాలా కారణాలు ఉన్నాయని నేను నొక్కి చెప్పాను. ఉదాహరణకు, వ్యక్తిగత స్థాయిలో అంచనాలు చేసే సామర్థ్యం అందంగా ధ్వనించేది (సంఖ్య 3.17). మరియు, బహుశా మరింత ముఖ్యంగా, మొబైల్ ఫోన్లు ఉన్న వ్యక్తులు మొబైల్ ఫోన్లు లేకుండా ప్రజల నుండి క్రమపద్ధతిలో భిన్నంగా ఉండవచ్చు. ఆ విధంగా, నేను పూర్వం వివరించిన 1936 సాహిత్య డైజెస్ట్ సర్వేకి పక్షపాతం చూపించిన కవరేజ్ లోపాల నుండి బ్లమ్స్టాక్ మరియు సహచరులు బాధపడుతుంటారు.

వారి అంచనాల నాణ్యతను తెలుసుకోవడానికి Blumenstock మరియు సహచరులు వాటిని ఏదో ఒకదానితో పోల్చి చూడాలి. అదృష్టవశాత్తూ, వారి అధ్యయనం అదే సమయంలో, పరిశోధకులు మరొక బృందం రువాండాలో సాంప్రదాయ సాంఘిక సర్వే నిర్వహిస్తోంది. విస్తృతంగా గౌరవించబడిన జనాభా మరియు ఆరోగ్య సర్వే కార్యక్రమంలో భాగంగా ఈ ఇతర సర్వేలో పెద్ద బడ్జెట్ ఉంది మరియు అధిక నాణ్యత, సాంప్రదాయ పద్ధతులను ఉపయోగించింది. అందువల్ల, జనాభా మరియు ఆరోగ్య సర్వే నుండి అంచనాలు సహేతుకంగా బంగారం-ప్రామాణిక అంచనాలుగా పరిగణించబడతాయి. రెండు అంచనాలు పోల్చబడినప్పుడు, అవి సమానమైనవి (సంఖ్య 3.17). మరో మాటలో చెప్పాలంటే, కాల్ రికార్డులతో సర్వే డేటాను కలపడం ద్వారా, బ్లమ్నస్టాక్ మరియు సహచరులు బంగారం-ప్రామాణిక విధానాలతో పోల్చినట్లు అంచనా వేయగలిగారు.

ఒక సంశయవాదం ఈ ఫలితాలను నిరాశంగా చూడవచ్చు. అంతేకాకుండా, పెద్ద డేటా మరియు యంత్ర అభ్యాసాలను ఉపయోగించడం ద్వారా బ్లమ్స్టాక్ మరియు సహోద్యోగులు ఇప్పటికే ఉన్న పద్ధతులచే మరింత విశ్వసనీయతను సాధించే అంచనాలను ఉత్పత్తి చేయగలిగారు. కానీ నేను రెండు కారణాల కోసం ఈ అధ్యయనం గురించి ఆలోచించడం సరైన మార్గం అని నేను భావించడం లేదు. మొదటిది, బ్లుమన్స్టాక్ మరియు సహోద్యోగుల అంచనాలు 10 రెట్లు వేగవంతమైనవి మరియు 50 రెట్లు తక్కువ ధర కలిగినవి (వేరియబుల్ వ్యయాల పరంగా ఖర్చులు కొలుస్తారు). నేను ఈ అధ్యాయంలో ముందున్న వాదనలో, పరిశోధకులు వారి ప్రమాదంలో విస్మరిస్తారు. ఈ సందర్భంలో, ఉదాహరణకు, ఖర్చులో నాటకీయ క్షీణత ప్రతి కొన్ని సంవత్సరాలలో అమలు కాకుండా - జనాభా మరియు ఆరోగ్యం సర్వేలకు ప్రమాణంగా ఉంటుంది - ఈ రకమైన సర్వే నెలలో అమలు చేయబడుతుంది, ఇది పరిశోధకులకు మరియు విధానంలో అనేక ప్రయోజనాలను అందిస్తుంది మేకర్స్. సంశయవాదం యొక్క అభిప్రాయాన్ని తీసుకోవద్దని రెండవ కారణం ఈ అధ్యయనంలో అనేక పరిశోధనా పరిస్థితులకు అనుగుణంగా ఉండే ఒక ప్రాథమిక పద్ధతిని అందిస్తుంది. ఈ రెసిపీలో రెండు పదార్థాలు మరియు రెండు దశలు ఉన్నాయి. పదార్థాలు (1) విస్తృత కానీ సన్నని ఒక పెద్ద డేటా మూలం (అంటే, ఇది ప్రతి వ్యక్తి గురించి అవసరం సమాచారం కానీ కాదు) మరియు (2) ఇరుకైన కానీ మందపాటి (అంటే, కొందరు వ్యక్తులు, కానీ ఆ వ్యక్తుల గురించి మీకు అవసరమైన సమాచారం ఉంది). ఈ పదార్థాలు అప్పుడు రెండు దశల్లో కలుపుతారు. మొదట, డేటా మూలాలలోని వ్యక్తుల కోసం, సర్వే సమాధానాలను అంచనా వేయడానికి పెద్ద డేటా సోర్స్ను ఉపయోగించే యంత్ర అభ్యాస నమూనాను రూపొందించండి. తరువాత, పెద్ద డేటా మూలలో ప్రతి ఒక్కరి యొక్క సర్వే సమాధానాలను ప్రస్తావించడానికి ఆ నమూనాను ఉపయోగించండి. ఈ విధంగా, మీరు చాలామందిని అడగాలని కోరుకునే ప్రశ్న ఉంటే, పెద్ద డేటా మూలం గురించి పట్టించుకోక పోయినప్పటికీ , వారి జవాబును అంచనా వేయడానికి ఉపయోగించే వ్యక్తుల నుండి పెద్ద డేటా మూలం కోసం చూడండి. అనగా, బ్లామన్స్టాక్ మరియు సహచరులు అంతర్గతంగా కాల్ రికార్డుల గురించి పట్టించుకోలేదు; వారు కాల్ రికార్డుల గురించి మాత్రమే జాగ్రత్త పడ్డారు, ఎందుకంటే వారు అడిగిన సర్వే సమాధానాలను అంచనా వేయడానికి వాడతారు. పెద్ద డేటా మూలంలో ఈ లక్షణం-మాత్రమే పరోక్ష ఆసక్తి-నేను ముందే వివరించిన దాన్ని అడగడం నుండి విభిన్నంగా అడగడం విస్తృతమైనది.

మూర్తి 3.16: బ్లుమన్స్టాక్ అధ్యయనం యొక్క స్కీమాటిక్, Cadamuro, మరియు ఆన్ (2015). ఫోన్ సంస్థ నుండి కాల్ రికార్డులు ప్రతి వ్యక్తి కోసం ఒక వరుస మరియు ప్రతి లక్షణం కోసం ఒక కాలమ్ (అంటే, వేరియబుల్) ఒక మ్యాట్రిక్స్గా మార్చబడింది. తరువాత, పరిశోధకులు వ్యక్తి-ద్వారా-లక్షణమైన మాతృక నుండి సర్వే ప్రతిస్పందనలను అంచనా వేయడానికి పర్యవేక్షించే అభ్యాస నమూనాను నిర్మించారు. అప్పుడు 1.5 మిలియన్ల మంది వినియోగదారుల కోసం సర్వే స్పందనలను పర్యవేక్షించటానికి పర్యవేక్షించబడిన అభ్యాస మోడల్ ఉపయోగించబడింది. అంతేకాకుండా, వారి కాల్స్ యొక్క స్థానాల ఆధారంగా 1.5 మిలియన్ల మంది వినియోగదారుల కోసం సుమారు నివాస స్థలం ఉంటుందని పరిశోధకులు అంచనా వేశారు. ఈ రెండు అంచనాలు-అంచనా సంపద మరియు నివాస స్థలం అంచనా వేసినప్పుడు, ఫలితాలను డెమోగ్రాఫిక్ అండ్ హెల్త్ సర్వే, బంగారు-ప్రమాణ సంప్రదాయ సర్వే (ఫిగర్ 3.17) నుండి అంచనా వేశారు.

మూర్తి 3.16: Blumenstock, Cadamuro, and On (2015) అధ్యయనం యొక్క స్కీమాటిక్ Blumenstock, Cadamuro, and On (2015) . ఫోన్ సంస్థ నుండి కాల్ రికార్డులు ప్రతి వ్యక్తి కోసం ఒక వరుస మరియు ప్రతి ఫీచర్ కోసం ఒక కాలమ్ (అంటే, వేరియబుల్) ఒక మ్యాట్రిక్స్ మార్చబడింది. తరువాత, పరిశోధకులు వ్యక్తి-ద్వారా-లక్షణమైన మాతృక నుండి సర్వే ప్రతిస్పందనలను అంచనా వేయడానికి పర్యవేక్షించే అభ్యాస నమూనాను నిర్మించారు. అప్పుడు 1.5 మిలియన్ల మంది వినియోగదారుల కోసం సర్వే స్పందనలను పర్యవేక్షించటానికి పర్యవేక్షించబడిన అభ్యాస మోడల్ ఉపయోగించబడింది. అంతేకాకుండా, వారి కాల్స్ యొక్క స్థానాల ఆధారంగా 1.5 మిలియన్ల మంది వినియోగదారుల కోసం సుమారు నివాస స్థలం ఉంటుందని పరిశోధకులు అంచనా వేశారు. ఈ రెండు అంచనాలు-అంచనా సంపద మరియు నివాస స్థలం అంచనా వేసినప్పుడు, ఫలితాలను డెమోగ్రాఫిక్ అండ్ హెల్త్ సర్వే, బంగారు-ప్రమాణ సంప్రదాయ సర్వే (ఫిగర్ 3.17) నుండి అంచనా వేశారు.

మూర్తి 3.17: Blumenstock, Cadamuro, మరియు ఆన్ ఫలితాలు (2015). వ్యక్తిగత స్థాయిలో, వారి కాల్ రికార్డుల నుండి ఒకరి సంపద అంచనా వేయడంలో పరిశోధకులు సహేతుకమైన పని చేయగలిగారు. రువాండా యొక్క 30 జిల్లాల కోసం జిల్లా-స్థాయి సంపద యొక్క అంచనాలు-సంపద మరియు నివాస ప్రదేశం యొక్క వ్యక్తిగత-స్థాయి అంచనాలపై ఆధారపడినవి - జనాభా మరియు సాంస్కృతిక సర్వే ఫలితాలకి సమానమైనవి. బ్లుమన్స్టాక్, కడమూరో మరియు ఆన్ (2015) నుండి తీసుకోబడింది, 1a మరియు 3c బొమ్మలు.

మూర్తి 3.17: Blumenstock, Cadamuro, and On (2015) ఫలితాలు Blumenstock, Cadamuro, and On (2015) . వ్యక్తిగత స్థాయిలో, వారి కాల్ రికార్డుల నుండి ఒకరి సంపద అంచనా వేయడంలో పరిశోధకులు సహేతుకమైన పని చేయగలిగారు. రువాండా యొక్క 30 జిల్లాల కోసం జిల్లా-స్థాయి సంపద యొక్క అంచనాలు-సంపద మరియు నివాస ప్రదేశం యొక్క వ్యక్తిగత-స్థాయి అంచనాలపై ఆధారపడినవి - జనాభా మరియు సాంస్కృతిక సర్వే ఫలితాలకి సమానమైనవి. Blumenstock, Cadamuro, and On (2015) నుండి తీసుకోబడింది, 1a మరియు 3c బొమ్మలు.

ముగింపులో, Blumenstock యొక్క విస్తృత అడగడం విధానం బంగారు ప్రమాణాల సర్వే నుండి పోల్చదగ్గ అంచనాలు ఉత్పత్తి చేయడానికి ఒక పెద్ద డేటా మూలంతో సర్వే డేటాను కలిపివేసింది. ఈ నిర్దిష్ట ఉదాహరణ కూడా విస్తృతంగా అడుగుపెట్టిన మరియు సాంప్రదాయిక సర్వే పద్ధతుల మధ్య వర్తకములలో కొంత భాగాన్ని వివరించింది. విస్తృతంగా అడిగిన అంచనాలు మరింత సమయానుకూలంగా, గణనీయమైన చవకగా మరియు మరింత పొడిగా ఉండేవి. కానీ, మరోవైపు, ఈ రకమైన విస్తృతమైన అడగడం కోసం బలమైన సైద్ధాంతిక ప్రాతిపదిక లేదు. ఈ పద్ధతి పని చేస్తుంది మరియు అది లేనప్పుడు ఈ సింగిల్ ఉదాహరణ చూపించదు, మరియు ఈ పద్ధతిని ఉపయోగించి పరిశోధకులు ప్రత్యేకంగా వారి యొక్క పెద్ద డేటా మూలలో చేర్చిన వారు మరియు ఎవరు చేర్చబడలేరనేదాని వలన సంభవించే పక్షపాత సమస్యల గురించి ప్రత్యేకంగా శ్రద్ధ కలిగి ఉండాలి. అంతేకాకుండా, విస్తృతంగా అడుగుతున్న విధానం ఇంకా దాని అంచనాల చుట్టూ అనిశ్చితిని లెక్కించడానికి మంచి మార్గాలు లేవు. అదృష్టవశాత్తూ, అడ్రస్ చేయబడిన విస్తృతమైన గణాంకాల-చిన్న-ప్రాంత అంచనా (Rao and Molina 2015) , ప్రబలత (Rubin 2004) మరియు మోడల్ ఆధారిత పోస్ట్-స్ట్రాటిఫికేషన్ (ఇది మిస్టర్ P., నేను ముందు అధ్యాయంలో వివరించిన పద్ధతి) (Little 1993) . ఈ లోతైన కనెక్షన్ల కారణంగా, విస్తృతమైన పద్దతి యొక్క పద్దతికి సంబంధించిన పునాదులు త్వరలోనే మెరుగవుతాయని నేను భావిస్తున్నాను.

అంతిమంగా, బ్లూమాన్స్టాక్ యొక్క మొదటి మరియు రెండవ ప్రయత్నాలు డిజిటల్-వయస్సు సామాజిక పరిశోధన గురించి ఒక ముఖ్యమైన పాఠాన్ని కూడా వివరిస్తాయి: ఆరంభం అంతం కాదు. అంటే, అనేక సార్లు, మొదటి విధానం ఉత్తమ కాదు, కానీ పరిశోధకులు పని కొనసాగితే, విషయాలు మెరుగవుతాయి. మరింత సాధారణంగా, డిజిటల్ యుగంలో సాంఘిక పరిశోధనలో కొత్త విధానాలను మూల్యాంకనం చేస్తున్నప్పుడు, ఇది రెండు విభిన్న అంచనాలను చేయటం చాలా ముఖ్యం: (1) ఇప్పుడే ఈ పని ఎలా పనిచేస్తుంది? మరియు (2) భవిష్యత్తులో డేటా ప్రకృతి దృశ్యం మార్పులు మరియు పరిశోధకులు ఈ సమస్యకు మరింత శ్రద్ధను ఎంతవరకు పెంచుతారు? పరిశోధకులు మొదటి రకమైన మూల్యాంకనం చేయడానికి శిక్షణ పొందినప్పటికీ, రెండవది చాలా ముఖ్యమైనది.