2.4.3 దాదాపు ప్రయోగాలు

మేము చేయని లేదా చేయలేని ప్రయోగాలు చేయగలము. ప్రత్యేకంగా పెద్ద డేటా మూలాల నుండి ప్రయోజనం పొందిన రెండు విధానాలు సహజ ప్రయోగాలు మరియు సరిపోలేవి.

కొన్ని ముఖ్యమైన శాస్త్రీయ మరియు విధాన ప్రశ్నలు కారణాలు. ఉదాహరణకు, వేతనాలపై ఉద్యోగ శిక్షణ కార్యక్రమం యొక్క ప్రభావం ఏమిటి? ఈ ప్రశ్నకు సమాధానమివ్వటానికి ప్రయత్నిస్తున్న ఒక పరిశోధకుడు చేయని వారికి శిక్షణ కోసం సైన్ అప్ చేసిన ప్రజల సంపాదనను పోల్చవచ్చు. కానీ ఈ సమూహాల మధ్య వేతనాల్లో ఏదైనా వ్యత్యాసం ఏమిటంటే శిక్షణ మరియు ఎందుకంటే, సైన్ అప్ చేసే వ్యక్తుల మధ్య వ్యత్యాసాలు మరియు అలా లేని వాటి కారణంగా ఎంత? ఇది చాలా కష్టమైన ప్రశ్న, మరియు అది స్వయంచాలకంగా మరింత డేటాతో దూరంగా ఉండదు. వేరొక మాటలో చెప్పాలంటే, సాధ్యమైన పూర్వ వైవిధ్య భేదాల గురించి మీ డేటాలో ఎంతమంది కార్మికులు ఉన్నారో లేదో ఆందోళన చెందుతుంది.

అనేక సందర్భాల్లో, ఉద్యోగ శిక్షణ వంటి కొన్ని చికిత్స యొక్క అసాధారణ ప్రభావాన్ని అంచనా వేయడానికి బలమైన మార్గం, ఒక పరిశోధకుడు యాదృచ్ఛికంగా కొంతమంది ప్రజలకు మరియు ఇతరులకు చికిత్స అందించే యాదృచ్చిక నియంత్రిత ప్రయోగాన్ని అమలు చేయడం. నేను ప్రయోగాలు 4 వ అధ్యాయాన్ని అంకితం చేస్తాను, కాబట్టి ఇక్కడ నేను కాని ప్రయోగాత్మక డేటాతో ఉపయోగించే రెండు వ్యూహాలపై దృష్టి సారించబోతున్నాను. యాదృచ్ఛికంగా (లేదా దాదాపు యాదృచ్చికంగా) కొంతమందికి ఇతరులకు మరియు ఇతరులకు చికిత్స ఇవ్వని ప్రపంచంలోని ఏదో జరిగే విషయంలో మొదటి వ్యూహం ఆధారపడి ఉంటుంది. రెండవ వ్యూహం, సంఖ్యా శాస్త్రంగా కాని ప్రయోగాత్మక డేటాను సర్దుబాటు చేసి, చికిత్స పొందని వారిలో ఉన్న వ్యత్యాసాల గురించి ముందుగా చెప్పాలనే ఉద్దేశ్యంతో ఆధారపడి ఉంటుంది.

ఒక సంశయవాదం రెండు వ్యూహాలను వాడకూడదని వాదించవచ్చు, ఎందుకంటే వారు బలమైన అంచనాలు, అంచనాలను అంచనా వేయడం మరియు ఆచరణలో తరచుగా ఉల్లంఘిస్తున్నారు. ఈ దావాకు నేను సానుభూతిగా ఉన్నాను, అది చాలా బిట్ వెళుతుందని నేను అనుకుంటున్నాను. ఇది ప్రయోగాత్మక డేటా నుండి విశ్వసనీయమైన అంచనాలని విశ్వసనీయంగా అంచనా వేయడం కష్టమవుతుంది, కానీ నేను ఎప్పుడూ ప్రయత్నించవద్దు అని భావించడం లేదు. ప్రత్యేకంగా, ప్రయోగాత్మక నిరోధకత ఒక ప్రయోగాన్ని నిర్వహించడం లేదా నిరంతర పరిమితులు మీరు ఒక ప్రయోగాన్ని అమలు చేయకూడదని భావించడం వలన మిమ్మల్ని నిరోధించితే, కాని ప్రయోగాత్మక పద్ధతులు ఉపయోగపడతాయి. ఇంకా, యాదృచ్ఛిక నియంత్రిత ప్రయోగాన్ని రూపకల్పన చేయడానికి ఇప్పటికే ఉన్న డేటాను మీరు ఉపయోగించుకోవాలనుకుంటే, కాని ప్రయోగాత్మక విధానాలు ఉపయోగపడతాయి.

కొనసాగే ముందు, సాంఘిక పరిశోధనలో అత్యంత సంక్లిష్ట అంశాల్లో ఒకటిగా ఉందని, మరియు తీవ్రమైన మరియు భావోద్వేగ చర్చకు దారితీసే ఒక కారణాలేమిటో అంచనా వేయడం కూడా గమనించదగినది. ఈ క్రింది విధంగా ఏమిటంటే, దాని గురించి అంతర్దృష్టిని నిర్మించడానికి నేను ప్రతి విధానం గురించి ఒక సానుకూల వివరణను అందిస్తాను, అప్పుడు ఆ పద్ధతిని ఉపయోగించినప్పుడు నేను ఎదుర్కొనే కొన్ని సవాళ్లను వర్ణించాను. ప్రతి అధ్యాయం గురించి మరింత వివరాలను ఈ అధ్యాయం ముగింపులో అందుబాటులో ఉన్నాయి. మీరు మీ స్వంత పరిశోధనలో ఈ విధానాలలో ఏదో ఒకదానిని ఉపయోగించడానికి ప్లాన్ చేస్తే, నేను చాలా (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) కారణమైన (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) పై అనేక అద్భుతమైన పుస్తకాల్లో ఒకటి చదివే సిఫార్సు చేస్తున్నాను.

యాదృచ్ఛికంగా కొంతమంది వ్యక్తులకు చికిత్సా పద్ధతిని మరియు ఇతరులకు కాదు ఒక సంఘటన కోసం చూడండి కాని ప్రయోగాత్మక డేటా నుండి అసాధారణ అంచనాలను తయారు చేయడానికి ఒక విధానం. ఈ పరిస్థితులు సహజ ప్రయోగాలు అంటారు. ఒక సహజ ప్రయోగం యొక్క పారదర్శకమైన ఉదాహరణలలో ఒకటి, జాషువా ఆంజిస్ట్ (1990) పరిశోధన నుండి వచ్చిన ఆదాయంపై సైనిక సేవల ప్రభావాన్ని కొలుస్తుంది. వియత్నాంలో యుద్ధ సమయంలో, యునైటెడ్ స్టేట్స్ తన సైనిక దళాల పరిమాణం డ్రాఫ్ట్ ద్వారా పెంచింది. పౌరులు ఏ సేవలను సేవలోకి తీసుకురావాలో నిర్ణయించుకోవడానికి, US ప్రభుత్వం లాటరీని నిర్వహించింది. ప్రతి జననం తేదీ కాగితంపై వ్రాయబడింది, మరియు, చిత్రం 2.7 లో చూపిన విధంగా, యువకులు సేవ చేయాలని పిలుపునిచ్చే క్రమాన్ని గుర్తించడానికి ఈ కాగితపు ముక్కలను ఒక సమయంలో ఎంపిక చేశారు డ్రాఫ్ట్కు). ఫలితాల ఆధారంగా సెప్టెంబరు 14 న జన్మించిన పురుషులు మొట్టమొదట పిలువబడ్డారు, ఏప్రిల్ 24 న జన్మించిన పురుషులు రెండోదిగా పిలువబడ్డారు. చివరికి, ఈ లాటరీలో, 195 వేర్వేరు రోజులలో జన్మించిన పురుషులు ముసాయిదా చేయగా, 171 రోజులలో జన్మించిన పురుషులు కాదు.

మూర్తి 2.7: డిసెంబరు 1, 1969 న సెలెక్టివ్ సర్వీస్ డ్రాఫ్ట్ కోసం మొట్టమొదటి క్యాప్సూల్ను కాంగ్రెస్ నేత అలెగ్జాండర్ పిర్నీ (R-NY) తీసుకున్నారు. సైనిక సేవ యొక్క ప్రభావం అంచనా వేయడానికి సోషల్ సెక్యూరిటీ అడ్మినిస్ట్రేషన్ నుండి సంపాదించిన డేటాతో డ్రాఫ్ట్ లాటరీని కలిపి జాషువా ఆంగ్రాస్ట్ (1990) ఆదాయాలు. ఇది సహజ ప్రయోగాన్ని ఉపయోగించి పరిశోధనకు ఒక ఉదాహరణ. మూలం: U.S. సెలెక్టివ్ సర్వీస్ సిస్టం (1969) / వికీమీడియా కామన్స్.

మూర్తి 2.7: డిసెంబరు 1, 1969 న సెలెక్టివ్ సర్వీస్ డ్రాఫ్ట్ కోసం మొట్టమొదటి క్యాప్సూల్ను కాంగ్రెస్ నేత అలెగ్జాండర్ పిర్నీ (R-NY) తీసుకున్నారు. సైనిక సేవ యొక్క ప్రభావం అంచనా వేయడానికి సోషల్ సెక్యూరిటీ అడ్మినిస్ట్రేషన్ నుండి సంపాదించిన డేటాతో డ్రాఫ్ట్ లాటరీని కలిపి జాషువా ఆంగ్రాస్ట్ (1990) ఆదాయాలు. ఇది సహజ ప్రయోగాన్ని ఉపయోగించి పరిశోధనకు ఒక ఉదాహరణ. మూలం: US సెలెక్టివ్ సర్వీస్ సిస్టం (1969) / వికీమీడియా కామన్స్ .

ఇది వెంటనే స్పష్టంగా ఉండకపోయినా, డ్రాఫ్ట్ లాటరీ ఒక యాదృచ్ఛిక నియంత్రిత ప్రయోగానికి ఒక క్లిష్టమైన సారూప్యతను కలిగి ఉంది: రెండు సందర్భాల్లో, పాల్గొనేవారు యాదృచ్ఛికంగా చికిత్సను స్వీకరించడానికి కేటాయించారు. ఈ రాండమైజ్డ్ ట్రీట్మెంట్ యొక్క ప్రభావాన్ని అధ్యయనం చేసేందుకు, అండ్రిస్ట్ ఎల్లప్పుడూ ఒక పెద్ద-పెద్ద డేటా వ్యవస్థను ఉపయోగించుకుంది: US సాంఘిక భద్రతా యంత్రాంగం, దాదాపు ప్రతి అమెరికన్ యొక్క ఉద్యోగాలపై సమాచారం సంపాదించిన సమాచారాన్ని సేకరిస్తుంది. ప్రభుత్వ పరిపాలనా రికార్డులలో సేకరించిన ఆదాయ డేటాతో డ్రాఫ్ట్ లాటరీలో యాదృచ్చికంగా ఎంపిక అయిన సమాచారం గురించి కలపడం ద్వారా, అండ్రిస్ట్, వెటరన్స్ యొక్క ఆదాయాలు పోల్చదగిన నాన్ వెటరన్ల సంపాదన కంటే 15% తక్కువగా ఉన్నాయని నిర్ధారించారు.

ఈ ఉదాహరణ ఉదహరిస్తుంది, కొన్నిసార్లు సాంఘిక, రాజకీయ, లేదా సహజ దళాలు పరిశోధకులను పరిపక్వమయ్యే విధంగా చికిత్సలను నియమిస్తాయి, మరియు కొన్నిసార్లు ఈ చికిత్సల యొక్క ప్రభావాలను ఎల్లప్పుడూ-పెద్ద డేటా మూలాలలో బంధిస్తారు. ఈ పరిశోధన వ్యూహం క్రింది విధంగా సంగ్రహించబడుతుంది: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

డిజిటల్ యుగంలో ఈ వ్యూహాన్ని ఉదహరించడానికి, అలెగ్జాండర్ మాస్ మరియు ఎన్రికో మొరేట్టే (2009) లచే అధ్యయనం చేద్దాం, ఇది కార్మికుల ఉత్పాదకతపై ఉత్పాదక సహచరులతో పనిచేసే ప్రభావాన్ని అంచనా వేయడానికి ప్రయత్నించింది. ఫలితాలను చూడడానికి ముందు, మీరు కలిగి ఉన్న విరుద్ధమైన అంచనాలు ఉన్నాయని సూచించడం విలువ. ఒకవైపు, ఉత్పాదక సహోద్యోగులతో పనిచేయడం వలన పీర్ ఒత్తిడి కారణంగా ఆమె ఉత్పాదకతను పెంచడానికి ఒక కార్మికుడిని దారి తీస్తుందని మీరు ఆశించవచ్చు. లేదా, మరోవైపు, మీరు కష్టపడి పనిచేసే సహోదరులతో కూడిన ఉద్యోగ 0 ను 0 డి ఉద్యోగ 0 చేసే అవకాశ 0 ఉ 0 టు 0 దని మీరు అనుకోవచ్చు. ఉత్పాదకతపై పీర్ ప్రభావాలను అధ్యయనం చేయడానికి పారదర్శకమైన మార్గం ఒక రాండమైజ్డ్ కంట్రోల్డ్ ప్రయోగంగా ఉంటుంది, ఇక్కడ కార్మికులు యాదృచ్ఛికంగా విభిన్న ఉత్పాదకత స్థాయిల కార్మికులతో మార్పులకు కేటాయించబడతారు మరియు ఫలితంగా ఉత్పాదకతను ప్రతి ఒక్కరి కోసం కొలుస్తారు. అయితే పరిశోధకులు ఏ వాస్తవ వ్యాపారంలో కార్మికుల షెడ్యూల్ను నియంత్రించరు, అందుచే మాస్ మరియు మోరెట్టి సూపర్మార్కెట్లో కాషియర్లు పాల్గొన్న సహజ ప్రయోగంపై ఆధారపడవలసి వచ్చింది.

ఈ ప్రత్యేక సూపర్మార్కెట్లో, షెడ్యూల్ చేయబడిన మరియు షిఫ్టులు విలీనం అయిన మార్గం కారణంగా, ప్రతి క్యాషియర్ రోజు వేర్వేరు సమయాలలో సహోద్యోగులకు భిన్నంగా ఉండేది. అంతేకాకుండా, ఈ ప్రత్యేక సూపర్మార్కెట్లో, క్యాషియర్స్ యొక్క నియామకం వారి సహచరుల ఉత్పాదకతతో లేదా స్టోర్ ఎంత బిజీగా ఉంటుంది. ఇతర మాటలలో, కాషియర్లు షెడ్యూల్ చేయడం లాటరీ ద్వారా నిర్ణయించబడనప్పటికీ, కార్మికులు కొన్నిసార్లు యాదృచ్ఛికంగా అధిక (లేదా తక్కువ) ఉత్పాదకత గల సహచరులతో పని చేయడానికి నియమించబడ్డారు. అదృష్టవశాత్తూ, ఈ సూపర్మార్కెట్లో ఒక డిజిటల్-వయస్సు చెక్అవుట్ సిస్టమ్ కూడా ఉంది, ప్రతి క్యాషియర్ అన్ని సమయాల్లో స్కానింగ్ చేసే అంశాలను ట్రాక్ చేసింది. ఈ చెక్అవుట్ లాగ్ డేటా నుండి, మాస్ మరియు మొరెట్టి ఉత్పాదకత యొక్క ఖచ్చితమైన, వ్యక్తిగత, మరియు ఎల్లప్పుడూ-కొలతను సృష్టించగలిగారు: సెకనుకు స్కాన్ చేసిన వస్తువుల సంఖ్య. ఈ రెండు విషయాలను కలపడం - పీర్ ఉత్పాదకతలో సహజంగా సంభవించే వైవిధ్యం మరియు ఉత్పాదకత-మాస్ మరియు మొరెట్టి యొక్క ఎల్లప్పుడు-పరిమాణ కొలత ఒక క్యాషియర్ సహోద్యోగులకు సగటున 10% కంటే ఎక్కువ ఉత్పాదకతను కేటాయించినట్లయితే, ఆమె ఉత్పాదకత 1.5% . అంతేకాక, రెండు ముఖ్యమైన సమస్యలను విశ్లేషించడానికి వాటి యొక్క పరిమాణం మరియు సంపదను వారు ఉపయోగించారు: ఈ ప్రభావం యొక్క భిన్నత్వం (ఏ రకమైన కార్మికులకు పెద్ద ప్రభావం ఉంటుంది?) మరియు ప్రభావం వెనుక ఉన్న యంత్రాంగాలు (అధిక ఉత్పాదకతను కలిగి ఉన్న వ్యక్తులు అధిక ఉత్పాదకత?). మేము ఈ రెండు ముఖ్యమైన సమస్యలకు, చికిత్సా ప్రభావాలు మరియు యంత్రాంగాల యొక్క వైవిధ్యాలు-అధ్యాయంలో 4 లో ప్రయోగాలు మరింత వివరంగా చర్చించేటప్పుడు తిరిగి చేస్తాము.

ఈ రెండు అధ్యయనాల నుండి సారూప్యత, టేబుల్ 2.3 ఇదే నిర్మాణం కలిగి ఉన్న ఇతర అధ్యయనాలను సంక్షిప్తీకరిస్తుంది: కొన్ని రాండమ్ వైవిధ్యాల ప్రభావాన్ని కొలిచేందుకు ఎల్లప్పుడూ ఆన్-డేటా సోర్స్ను ఉపయోగిస్తుంది. ఆచరణలో, పరిశోధకులు ప్రకృతి ప్రయోగాలు కనుగొనటానికి రెండు వేర్వేరు వ్యూహాలను ఉపయోగిస్తారు, రెండూ ఫలవంతమైనవి. కొందరు పరిశోధకులు ఎల్లప్పుడూ డేటా సోర్స్ను ప్రారంభించి ప్రపంచంలోని యాదృచ్ఛిక సంఘటనల కోసం చూడండి; ఇతరులు ప్రపంచంలో ఒక యాదృచ్ఛిక సంఘటనను ప్రారంభించి దాని ప్రభావాన్ని సంగ్రహించే డేటా మూలాల కోసం చూడండి.

పట్టిక 2.3: బిగ్ డేటా సోర్సెస్ ఉపయోగించి సహజ ప్రయోగాలు ఉదాహరణలు
గణనీయమైన దృష్టి సహజ ప్రయోగం యొక్క మూలం ఎల్లప్పుడూ డేటా మూలం సూచన
ఉత్పాదకతపై పీర్ ప్రభావాలు షెడ్యూల్ ప్రక్రియ Checkout డేటా Mas and Moretti (2009)
స్నేహం నిర్మాణం హరికేన్స్ ఫేస్బుక్ Phan and Airoldi (2015)
భావోద్వేగాల వ్యాప్తి వర్షం ఫేస్బుక్ Lorenzo Coviello et al. (2014)
పీర్-టూ-పీర్ ఆర్థిక బదిలీలు భూకంపం మొబైల్ డబ్బు డేటా Blumenstock, Fafchamps, and Eagle (2011)
వ్యక్తిగత వినియోగ ప్రవర్తన 2013 US ప్రభుత్వం shutdown వ్యక్తిగత ఫైనాన్స్ డేటా Baker and Yannelis (2015)
సిఫార్సుదారుల యొక్క ఆర్థిక ప్రభావం వివిధ అమెజాన్ వద్ద బ్రౌజింగ్ డేటా Sharma, Hofman, and Watts (2015)
పుట్టబోయే బిడ్డలపై ఒత్తిడి ప్రభావం 2006 ఇజ్రాయెల్-హిజ్బోల్లా యుద్ధం పుట్టిన రికార్డులు Torche and Shwed (2015)
వికీపీడియాలో ప్రవర్తన పఠనం స్నోడెన్ వెల్లడైన వికీపీడియా చిట్టాలు Penney (2016)
వ్యాయామం పై పీర్ ప్రభావాలు వాతావరణ ఫిట్నెస్ ట్రాకర్స్ Aral and Nicolaides (2017)

ఇప్పటివరకు సహజ ప్రయోగాలు గురించి చర్చలో, నేను ఒక ముఖ్యమైన అంశాన్ని వదిలిపెట్టాను: మీకు కావలసినదానికి స్వభావం ఏమి అందించిందో కొన్నిసార్లు చాలా గమ్మత్తైనది కావచ్చు. వియత్నాం డ్రాఫ్ట్ ఉదాహరణకి తిరిగి రాదాం. ఈ సందర్భంలో, ఆంజిస్ట్ ఆర్జనలపై సైనిక సేవ యొక్క ప్రభావాన్ని అంచనా వేయడంలో ఆసక్తిని కలిగి ఉన్నాడు. దురదృష్టవశాత్తు, సైనిక సేవ యాదృచ్ఛికంగా కేటాయించబడలేదు; కాకుండా యాదృచ్ఛికంగా కేటాయించిన ఇది ముసాయిదా జరిగినది. అయినప్పటికీ, ముసాయిదా అందరికీ (మినహాయింపులు వివిధ ఉన్నాయి) అందరు కాదు, మరియు సేవ చేసిన ప్రతి ఒక్కరికీ (ప్రజలు సేవ చేయడానికి స్వచ్చందంగా) రూపొందించబడలేదు. ముసాయిదాను యాదృచ్ఛికంగా కేటాయించడం వలన, ఒక పరిశోధకుడు డ్రాఫ్ట్లోని అన్ని వ్యక్తుల కోసం రూపొందించిన ప్రభావాన్ని అంచనా వేయవచ్చు. కానీ కోరిందకాయ యొక్క ప్రభావాన్ని తెలుసుకోవటానికి అండర్విస్ట్ కోరుకోలేదు; అతను సైన్యంలో పనిచేసే ప్రభావం తెలుసుకోవాలనుకున్నాడు. అయితే, ఈ అంచనాలు చేయడానికి, అదనపు అంచనాలు మరియు సమస్యలు అవసరం. మొదటిది, పరిశోధకులు ధనం సంపాదించిన ఆదాయాలు మాత్రమే సైనిక సేవ ద్వారా, మినహాయింపు పరిమితి అని పిలువబడే ఒక భావన అని భావించాలి. ఉదాహరణకి, ముసాయిదానిచ్చిన పురుషులు, పాఠశాలలో ఎక్కువసేపు పనిచేయకపోయినా, లేదా ఉద్యోగస్థులను ముసాయిదా వేయడానికి తక్కువగా ఉంటే, ఈ ఊహ తప్పు కావచ్చు. సాధారణంగా, మినహాయింపు పరిమితి ఒక క్లిష్టమైన భావన, మరియు ఇది ధృవీకరించడానికి సాధారణంగా కష్టమవుతుంది. మినహాయింపు పరిమితి సరైనది అయినప్పటికీ, అన్ని పురుషులపై సేవ యొక్క ప్రభావాన్ని అంచనా వేయడం ఇప్పటికీ అసాధ్యం. బదులుగా, పరిశోధకులు ఫిర్యాదుదారులు అనే నిర్దిష్ట ఉపసమితిపై మాత్రమే ప్రభావం చూపే అవకాశం ఉంది (ముసాయిదా అయినప్పుడు పనిచేసే పురుషులు, కానీ ముసాయిదా (Angrist, Imbens, and Rubin 1996) ) (Angrist, Imbens, and Rubin 1996) . అయితే, కంప్లైయర్స్ అసలైన జనాభా సంఖ్య కాదు. డ్రాఫ్ట్ లాటరీ యొక్క సాపేక్షంగా క్లీన్ కేసులో కూడా ఈ సమస్యలు తలెత్తుతున్నాయని గమనించండి. చికిత్స భౌతిక లాటరీ ద్వారా కేటాయించబడనప్పుడు మరింత సంక్లిష్టత ఏర్పడుతుంది. ఉదాహరణకు, మాస్ మరియు మోరెట్టీ క్యాషియర్స్ యొక్క అధ్యయనంలో, అదనపు ప్రశ్నలకు సంబంధించి సహచరుల నియామకం తప్పనిసరిగా యాదృచ్ఛికంగా ఉంటుందని ఊహిస్తారు. ఈ భావన గట్టిగా ఉల్లంఘించినట్లయితే, అది వారి అంచనాలకు పక్షపాతం చూపుతుంది. తేల్చడానికి, సహజ ప్రయోగాలు కాని ప్రయోగాత్మక డేటా నుండి కారకమైన అంచనాలను తయారుచేసే శక్తివంతమైన వ్యూహం కావచ్చు, మరియు పెద్ద డేటా వనరులు అవి సంభవించినప్పుడు సహజ ప్రయోగాల్లో పెట్టుబడినిచ్చే మా సామర్థ్యాన్ని పెంచుతాయి. ఏదేమైనా, బహుశా చాలా జాగ్రత్తలు తీసుకోవాలి-మరియు కొన్నిసార్లు బలమైన అంచనాలు-మీకు కావాల్సిన అంచనాకు ప్రకృతి ఇచ్చిన దాని నుండి వెళ్ళడానికి.

నాన్-ప్రయోగాత్మక డేటా నుండి కారకమైన అంచనాలను రూపొందించడానికి నేను మీకు చెప్పాలనుకుంటున్న రెండో వ్యూహం గణాంకపరంగా కాని ప్రయోగాత్మక డేటాను సర్దుబాటు చేయడంతో పాటు చికిత్స పొందని వారిలో ఉన్న వ్యత్యాసాల కోసం పూర్వ వైకల్పణ కోసం ఉద్దేశించిన ప్రయత్నంపై ఆధారపడి ఉంటుంది. అటువంటి అనేక సర్దుబాటు విధానాలు ఉన్నాయి, కానీ నేను సరిపోలే అని ఒక మీద దృష్టి పెడతారేమో. సరిపోయేటప్పుడు, పరిశోధకుడు ఒక ప్రయోగాత్మక డేటా ద్వారా చూస్తాడు, ఇద్దరూ ఒకే రకమైన చికిత్సను అందుకుంటారని మరియు ఒక వ్యక్తిని కలిగి ఉండకపోవచ్చు. సరిపోయే ప్రక్రియలో, పరిశోధకులు నిజానికి కత్తిరింపు కూడా; అంటే, స్పష్టమైన మ్యాచ్ లేనప్పుడు తొలగించే కేసులు. అందువలన, ఈ పద్ధతి మరింత ఖచ్చితంగా సరిపోలే మరియు కత్తిరింపు అని, కానీ నేను సంప్రదాయ పదం కొనసాగించు చేస్తాము: సరిపోలే.

భారీ కాని నాన్-ప్రయోగాత్మక సమాచార వనరులతో సరిపోలే వ్యూహాల శక్తికి ఉదాహరణగా లిరాన్ ఐనవ్ మరియు సహచరులు (2015) వినియోగదారుల ప్రవర్తనపై పరిశోధన నుండి వచ్చారు. వారు eBay న జరుగుతున్న వేలం ఆసక్తి, మరియు వారి పని వివరిస్తూ, నేను అమ్మకం ధర లేదా వేలం సంభావ్యత వంటి వేలం ఫలితాల ధర ప్రారంభ వేలం ప్రభావం మీద దృష్టి చేస్తాము.

విక్రయ ధరలో ప్రారంభ ధర యొక్క ప్రభావాన్ని అంచనా వేయడానికి అత్యంత అమాయక మార్గం ఏమిటంటే వేర్వేరు ప్రారంభ ధరలతో వేలంపాటల తుది ధరను లెక్కించడం. ప్రారంభ విధానం ఇచ్చిన అమ్మకపు ధరని అంచనా వేయాలని మీరు కోరుకుంటే ఈ విధానం ఉత్తమంగా ఉంటుంది. కానీ మీ ప్రశ్న ప్రారంభ ధర యొక్క ప్రభావం గురించి ఆలోచిస్తే, అప్పుడు ఈ విధానం పనిచేయదు, ఎందుకంటే ఇది సరళ పోలికల ఆధారంగా కాదు; తక్కువ ప్రారంభ ధరలతో ఉన్న వేలం అధిక ప్రారంభ ధరలతో ఉన్నవారికి చాలా భిన్నంగా ఉండవచ్చు (ఉదా., ఇవి వివిధ రకాలైన వస్తువుల కోసం లేదా వివిధ రకాల విక్రేతలను కలిగి ఉంటాయి).

కాని ప్రయోగాత్మక డేటా నుండి కారక అంచనాలు చేస్తున్నప్పుడు తలెత్తగల సమస్యలను మీరు ఇప్పటికే గ్రహించినట్లయితే, మీరు అమాయక విధానాన్ని దాటవేయవచ్చు మరియు మీరు ఒక నిర్దిష్ట వస్తువు-సే, గోల్ఫ్ క్లబ్-ఒక నిర్దిష్ట అమ్మకం ఎక్కడ విక్రయించదలిచారో, వేలం పారామితులు సెట్- సే, ఉచిత షిప్పింగ్ మరియు వేలం రెండు వారాలు తెరిచి-కానీ యాదృచ్ఛికంగా కేటాయించిన ప్రారంభ ధరలు. ఫలితంగా మార్కెట్ ఫలితాలను పోల్చి చూస్తే, ఈ ఫీల్డ్ ప్రయోగం విక్రయ ధరలో ప్రారంభ ధర యొక్క ప్రభావాన్ని చాలా స్పష్టంగా అంచనా వేస్తుంది. కానీ ఈ కొలత ఒక నిర్దిష్ట ఉత్పత్తి మరియు వేలం పారామీటర్ల సెట్ మాత్రమే వర్తిస్తుంది. వివిధ రకాల ఉత్పత్తుల కోసం, ఉదాహరణకు, ఫలితాలు వేరుగా ఉండవచ్చు. ఒక బలమైన సిద్ధాంతం లేకుండా, ఈ సింగిల్ ప్రయోగం నుండి అమలు చేయగల సాధ్యం ప్రయోగాల పూర్తి స్థాయికి అంచనా వేయడం చాలా కష్టం. అంతేకాక, ప్రయోగాత్మక ప్రయోగాలు తగినంత ఖర్చుతో ఉంటాయి, మీరు ప్రయత్నించాలనుకునే ప్రతి వ్యత్యాసాన్ని అమలు చేయడానికి ఇది సాధ్యపడదు.

అమాయక మరియు ప్రయోగాత్మక విధానాలకు విరుద్ధంగా, ఐనావ్ మరియు సహచరులు మూడవ విధానాన్ని తీసుకున్నారు: సరిపోలే. వారి వ్యూహంలో ప్రధాన ట్రిక్ ఇప్పటికే eBay న జరిగింది ఫీల్డ్ ప్రయోగాలు మాదిరిగానే విషయాలు ఉంది. ఉదాహరణకు, సరిగ్గా అదే గోల్ఫ్ క్లబ్-ఒక టేలర్మాడే బర్నర్ 09 డ్రైవర్-కోసం అమ్ముడవుతున్న 31 జాబితాలలో ఫిగర్ 2.8 సరిగ్గా అదే విక్రేత - "బడ్జెగోల్ఫెర్" చేత విక్రయించబడింది. అయినప్పటికీ, ఈ 31 జాబితాలు వేర్వేరు లక్షణాలు ధర, ముగింపు తేదీలు మరియు షిప్పింగ్ ఫీజులు. మరో మాటలో చెప్పాలంటే, "బడ్జెగోల్ఫర్" పరిశోధకులకు ప్రయోగాలు చేస్తున్నట్లుగా ఉంది.

టైలర్మేడ్ బర్నర్ 09 డ్రైవర్ యొక్క ఈ జాబితాలు "బడ్జెగోల్ఫర్" విక్రయించబడుతున్నాయి, ఇవి ఖచ్చితమైన ఒకే విక్రయదారుడు ఖచ్చితమైన అమ్మకందారునిచే విక్రయించబడుతున్నాయి, కానీ ప్రతిసారీ కొంచెం భిన్నమైన లక్షణాలతో విక్రయించబడుతున్న జాబితాల సరిపోలిన సమితి. EBay యొక్క భారీ లాగ్ల్లో లక్షలాది జాబితాలను కలిగి ఉన్న వందల వేల సరిపోలిక సెట్లు ఉన్నాయి. ఈ విధంగా, ఇచ్చిన ప్రారంభ ధరతో అన్ని వేలంల కోసం తుది ధరను పోల్చుటకు కాకుండా, ఐనవ్ మరియు సహచరులు సరిపోలిన సెట్లలో పోల్చారు. ఈ వందల వేల సరిపోలిక సెట్లలోని పోలికల ఫలితాల ఫలితాలను కలిపేందుకు, ప్రతి వస్తువు యొక్క ప్రస్తావన విలువ (ఉదా., దాని సగటు అమ్మకానికి ధర) ప్రకారం, ప్రారంభ ధర మరియు చివరి ధరను ఐనవ్ మరియు సహోద్యోగులు తిరిగి వ్యక్తం చేశారు. ఉదాహరణకు, టేలర్మాడే బర్నర్ 09 డ్రైవర్కు $ 100 (దాని విక్రయాల ఆధారంగా) యొక్క రిఫరెన్స్ విలువ ఉంటే, అప్పుడు $ 10 ప్రారంభ ధర 0.1 గా మరియు 1.2 $ 120 చివరి ధరలో ఉంటుంది.

మూర్తి 2.8: సరిపోలిన సెట్ యొక్క ఒక ఉదాహరణ. ఈ ఖచ్చితమైన ఒకే వ్యక్తి (బడ్జెగోల్ఫర్) ద్వారా అమ్మబడే ఖచ్చితమైన గోల్ఫ్ క్లబ్ (ఒక టేలర్మాడే బర్నర్ 09 డ్రైవర్), అయితే ఈ విక్రయాలలో కొన్ని వివిధ పరిస్థితులలో నిర్వహించబడ్డాయి (ఉదా., వివిధ ప్రారంభ ధరలు). Einav et al నుండి అనుమతి ద్వారా పునరుత్పత్తి. (2015), బొమ్మ 1 బి.

మూర్తి 2.8: సరిపోలిన సెట్ యొక్క ఒక ఉదాహరణ. ఈ ఖచ్చితమైన ఒకే వ్యక్తి ("బడ్జెట్గోల్ఫర్") ద్వారా అమ్మబడిన ఖచ్చితమైన గోల్ఫ్ క్లబ్ (ఒక టేలర్మాడే బర్నర్ 09 డ్రైవర్), అయితే ఈ విక్రయాలలో కొన్ని వేర్వేరు పరిస్థితుల్లో నిర్వహించబడ్డాయి (ఉదా. వివిధ ప్రారంభ ధరలు). Einav et al. (2015) నుండి అనుమతి ద్వారా పునరుత్పత్తి Einav et al. (2015) , బొమ్మ 1 బి.

వేలం ఫలితాలపై ప్రారంభ ధర ప్రభావంలో ఐనావ్ మరియు సహచరులు ఆసక్తి చూపారని గుర్తుంచుకోండి. మొదట, అధిక ప్రారంభ ధరల అమ్మకం యొక్క సంభావ్యతను తగ్గిస్తుందని అంచనా వేయడానికి వారు లీనియర్ రిగ్రెషన్ని ఉపయోగించారు, మరియు అధిక ధరల ధరలు చివరి అమ్మకానికి ధరను పెంచుతాయి (విక్రయించటానికి అమ్మకానికి నిబంధన). తాము, ఈ అంచనాలు-ఇది ఒక సరళ సంబంధాన్ని వివరించడం మరియు అన్ని ఉత్పత్తులపై సగటును కలిగి ఉంటాయి- అన్నిటికన్నా ఆసక్తికరమైనవి కావు. అప్పుడు, ఐనవ్ మరియు సహోద్యోగులు వారి డేటా యొక్క భారీ పరిమాణాన్ని చాలా సూక్ష్మమైన అంచనాలను రూపొందించడానికి ఉపయోగించారు. ఉదాహరణకు, వేర్వేరు ప్రారంభ ధరల కోసం వేరొక ప్రభావాన్ని అంచనా వేయడం ద్వారా, ప్రారంభ ధర మరియు విక్రయ ధరల మధ్య సంబంధం లీనియర్ (ఫిగర్ 2.9) అని గుర్తించారు. ముఖ్యంగా, 0.05 మరియు 0.85 మధ్య ధరలు మొదలుపెట్టినందుకు, ప్రారంభ ధర విక్రయ ధరపై చాలా తక్కువ ప్రభావాన్ని కలిగి ఉంటుంది, ఇది వారి మొదటి విశ్లేషణ ద్వారా పూర్తిగా విస్మరించబడింది. అంతేకాకుండా, అన్ని అంశాలపై సగటు కంటే, ఐనవ్ మరియు సహచరులు 23 వేర్వేరు వస్తువులకు (ఉదా. పెంపుడు జంతువుల సరఫరా, ఎలక్ట్రానిక్స్ మరియు స్పోర్ట్స్ మెమొరాబిలియా) ప్రారంభ ధర యొక్క ప్రభావం అంచనా (ఫిక్స్ 2.10). ఈ అంచనాలు మెమోరాబిలియా-మొదలు ధర వంటి విలక్షణమైన వస్తువులకు అమ్మకం యొక్క సంభావ్యతపై చిన్న ప్రభావాన్ని చూపుతాయి మరియు తుది విక్రయ ధరపై పెద్ద ప్రభావాన్ని చూపుతున్నాయి. అంతేకాకుండా, మరింత సంక్లిష్టమైన వస్తువులకు-DVD ల వంటివి-ప్రారంభ ధర దాదాపు తుది ధరపై ఎలాంటి ప్రభావం చూపదు. మరో మాటలో చెప్పాలంటే, ఈ అంశాల మధ్య 23 వేర్వేరు విభాగాల నుండి వచ్చే ఫలితాలను కలిపి సగటున ఈ వ్యత్యాసాల మధ్య తేడాలు ఉంటాయి.

మూర్తి 2.9: వేలం ప్రారంభ ధర మరియు అమ్మకం యొక్క సంభావ్యత (ఎ) మరియు అమ్మకానికి ధర (బి) మధ్య సంబంధం. ప్రారంభ ధర మరియు విక్రయ సంభావ్యత మధ్య ఒక సరళ సంబంధం ఉంది, కానీ ప్రారంభ ధర మరియు విక్రయ ధరల మధ్య ఒక లీనియర్ సంబంధం; 0.05 మరియు 0.85 మధ్య ధరలు మొదలుపెట్టినందుకు, ప్రారంభ ధర విక్రయ ధరలో చాలా తక్కువ ప్రభావాన్ని కలిగి ఉంటుంది. రెండు సందర్భాల్లో, సంబంధాలు ప్రాధమికంగా అంశం విలువకు స్వతంత్రంగా ఉంటాయి. Einav et al నుండి స్వీకరించబడింది. (2015), బొమ్మలు 4a మరియు 4b.

మూర్తి 2.9: వేలం ప్రారంభ ధర మరియు అమ్మకం యొక్క సంభావ్యత (ఎ) మరియు అమ్మకానికి ధర (బి) మధ్య సంబంధం. ప్రారంభ ధర మరియు విక్రయ సంభావ్యత మధ్య ఒక సరళ సంబంధం ఉంది, కానీ ప్రారంభ ధర మరియు విక్రయ ధరల మధ్య ఒక లీనియర్ సంబంధం; 0.05 మరియు 0.85 మధ్య ధరలు మొదలుపెట్టినందుకు, ప్రారంభ ధర విక్రయ ధరలో చాలా తక్కువ ప్రభావాన్ని కలిగి ఉంటుంది. రెండు సందర్భాల్లో, సంబంధాలు ప్రాధమికంగా అంశం విలువకు స్వతంత్రంగా ఉంటాయి. Einav et al. (2015) నుండి స్వీకరించబడింది Einav et al. (2015) , బొమ్మలు 4a మరియు 4b.

మూర్తి 2.10: వస్తువుల యొక్క ప్రతి వర్గం నుంచి అంచనాలు; ఘన డాట్ అనేది అన్ని విభాగాలూ కలిపి అంచనా వేయడం (Einav et al. 2015). ఈ అంచనాలు మెమోరాబిలియా వంటి విలక్షణమైన అంశాల కోసం-ప్రారంభ ధర (ఎక్స్-యాక్సిస్) యొక్క సంభావ్యత మరియు చివరి అమ్మకానికి ధర (y- యాక్సిస్) పై ఒక పెద్ద ప్రభావాన్ని కలిగి ఉంటాయి. Einav et al నుండి స్వీకరించబడింది. (2015), ఫిగర్ 8.

మూర్తి 2.10: వస్తువుల యొక్క ప్రతి వర్గం నుంచి అంచనాలు; ఘన డాట్ అనేది అన్ని (Einav et al. 2015) కలిపి అంచనా వేయడం (Einav et al. 2015) . ఈ అంచనాలు మెమోరాబిలియా వంటి మరింత విలక్షణమైన వస్తువులకు-ప్రారంభ ధర ( \(x\) -axis) యొక్క సంభావ్యతపై చిన్న ప్రభావం చూపుతాయి మరియు తుది అమ్మకానికి ధర ( \(y\) -axis). Einav et al. (2015) నుండి స్వీకరించబడింది Einav et al. (2015) , ఫిగర్ 8.

మీరు eBay లో ప్రత్యేకంగా వేలం ఆసక్తి లేనప్పటికీ, మీరు ఆ వ్యక్తిని ఆరాధించవలసి ఉంటుంది 2.9 మరియు ఫిక్స్ 2.10 సరళ సంబంధాలను వివరించే సాధారణ అంచనాల కంటే eBay యొక్క అవగాహనను అందిస్తాయి మరియు అనేక విభిన్న విభాగాలను మిళితం చేస్తాయి. అంతేకాక, క్షేత్ర ప్రయోగాలు ఈ మరింత సూక్ష్మ అంచనాలు ఉత్పత్తి శాస్త్రీయంగా సాధ్యం అయినప్పటికీ, ఖర్చు అలాంటి ప్రయోగాలు తప్పనిసరిగా అసాధ్యం చేస్తుంది.

సహజ ప్రయోగాలు మాదిరిగా, సరిపోలే పద్దతులు చాలా చెడ్డ అంచనాలకు దారితీయవచ్చు. నేను సరిపోలే అంచనాలతో ఉన్న అతిపెద్ద ఆందోళన ఏమిటంటే వారు సరిపోని విషయాలపై పక్షపాతం చూపించవచ్చని నేను భావిస్తున్నాను. ఉదాహరణకు, వారి ప్రధాన ఫలితాల్లో, ఐనావ్ మరియు సహచరులు నాలుగు లక్షణాలపై ఖచ్చితమైన సరిపోలిక చేశారు: విక్రేత ID సంఖ్య, అంశం వర్గం, అంశం శీర్షిక మరియు ఉపశీర్షిక. సరిపోలడానికి ఉపయోగించని మార్గాల్లో అంశాలను వేర్వేరుగా ఉంటే, అది అన్యాయమైన పోలికను సృష్టించగలదు. ఉదాహరణకు, "బడ్జెగోల్ఫెర్" శీతాకాలంలో టేలర్మాడే బర్నర్ 09 డ్రైవర్ కోసం ధరలను (గోల్ఫ్ క్లబ్బులు తక్కువ జనాదరణ పొందినప్పుడు) తగ్గించినట్లయితే, అది తక్కువ ప్రారంభ ధరలు తక్కువ తుది ధరలకు దారితీస్తుందని, వాస్తవానికి ఇది ఒక కళాఖండాన్ని డిమాండ్లో సీజనల్ వైవిధ్యం. ఈ ఆందోళనను పరిష్కరించడానికి ఒక విధానం అనేక రకాల పోలికలను ప్రయత్నిస్తుంది. ఉదాహరణకు, ఐనవ్ మరియు సహచరులు వారి విశ్లేషణను పునరావృతం చేస్తూ, సరిపోలిక కోసం ఉపయోగించిన సమయ విండోను మారుస్తూ ఉండగా (సరిపోలిన సెట్లు ఒక సంవత్సరం లోపల, ఒక నెల లోపల, మరియు అదే సమయంలో). అదృష్టవశాత్తూ, వారు అన్ని సమయం విండోల కోసం ఇలాంటి ఫలితాలను కనుగొన్నారు. సరిపోలికతో మరింత ఆందోళన వ్యాఖ్యానం నుండి పుడుతుంది. మ్యాచింగ్ డేటాకు వర్తింపజేయడానికి మాత్రమే సరిపోలే అంచనా; వారు సరిపోని కేసులకు అవి వర్తించవు. ఉదాహరణకు, బహుళ జాబితాలను కలిగి ఉన్న అంశాలను వారి పరిశోధనను పరిమితం చేయడం ద్వారా, Einav మరియు సహచరులు ప్రొఫెషనల్ మరియు సెమీ ప్రొఫెషనల్ విక్రేతలపై దృష్టి పెడుతున్నారు. అందువలన, ఈ పోలికలను వివరించేటప్పుడు, వారు ఈబే యొక్క ఈ ఉపభాగానికి మాత్రమే వర్తిస్తారని గుర్తుంచుకోవాలి.

ప్రయోగాత్మక డేటాలో సముచిత పోలికలను కనుగొనడం కోసం సరిపోలిక అనేది శక్తివంతమైన వ్యూహం. అనేక సామాజిక శాస్త్రవేత్తలకు, సరిపోలిక ప్రయోగాలు రెండో ఉత్తమ భావంతో ఉంటుంది, కానీ అది కొద్దిగా సవరించబడుతుంది ఒక నమ్మకం ఉంది. (1) ప్రభావాల్లో భిన్నత్వం ముఖ్యమైనది మరియు (2) సరిపోయే ముఖ్యమైన వేరియబుల్స్ కొలిచినప్పుడు భారీ సంఖ్యలో క్షేత్ర ప్రయోగాలు కంటే మెరుగైనవి. పెద్ద డేటా వనరులతో మ్యాచింగ్ ఎలా ఉపయోగించగలదనే దానిపై కొన్ని ఇతర ఉదాహరణలను టేబుల్ 2.4 అందిస్తుంది.

పట్టిక 2.4: బిగ్ డేటా సోర్సెస్తో సరిపోలుతున్న స్టడీస్ ఉదాహరణలు
గణనీయమైన దృష్టి పెద్ద డేటా మూలం సూచన
పోలీసు హింసపై కాల్పుల ప్రభావం స్టాప్ మరియు ఫ్రిస్క్ రికార్డులు Legewie (2016)
కుటుంబాలు మరియు పొరుగువారిపై సెప్టెంబర్ 11, 2001 ప్రభావం ఓటింగ్ రికార్డులు మరియు విరాళ రికార్డులు Hersh (2013)
సామాజిక అసంతృప్తి కమ్యూనికేషన్ మరియు ఉత్పత్తి స్వీకరణ డేటా Aral, Muchnik, and Sundararajan (2009)

ముగింపులో, కాని ప్రయోగాత్మక డేటా నుండి కారక ప్రభావాలు అంచనా కష్టం, కానీ సహజ ప్రయోగాలు మరియు గణాంక సర్దుబాట్లు (ఉదా, సరిపోలే) వంటి విధానాలు ఉపయోగించవచ్చు. కొన్ని సందర్భాల్లో, ఈ విధానాలు తీవ్రంగా తప్పు కావచ్చు, కానీ జాగ్రత్తగా ఉన్నప్పుడు, ఈ విధానాలు నేను అధ్యాయంలో వివరించే ప్రయోగాత్మక విధానానికి ఉపయోగకరమైన సంపూరకంగా చెప్పవచ్చు. అంతేకాక, ఈ రెండు పద్ధతులు ఎల్లప్పుడూ పెరుగుదల, ఆన్, పెద్ద డేటా వ్యవస్థలు.