2.4.3 अंदाज प्रयोग

हे भाषांतर संगणक तयार केले होते. ×

2.4.3 अंदाज प्रयोग

आम्ही जे प्रयोग करत नाही किंवा करू शकत नाही त्या अंदाजे प्रयोग करू शकतात. मोठ्या डेटा स्त्रोतांपासून विशेषतः लाभ घेणार्या दोन पध्दती म्हणजे नैसर्गिक प्रयोग आणि जुळणारे

काही महत्वाचे वैज्ञानिक आणि धोरण प्रश्न आहेत कारण. उदाहरणार्थ, मजुरीवर नोकरी प्रशिक्षण कार्यक्रमाचा प्रभाव काय आहे? या प्रश्नाचे उत्तर देण्याचा प्रयत्न करणारी एक संशोधक अशा लोकांच्या कमाईची तुलना करू शकतो ज्यांनी अशा नसलेल्या प्रशिक्षणासाठी साइन अप केले. परंतु या गटांमधील मजुरीतील कोणत्याही फरकांमुळे प्रशिक्षण मिळते आहे आणि जे लोक साइन अप करतात आणि जे नाही ते आधीच्या फरकामुळे किती फरक आहे? हा एक कठीण प्रश्न आहे, आणि तो असा आहे जो अधिक डेटासह आपोआप दूर जात नाही. दुस-या शब्दात, शक्य तितक्या लवकर अस्तित्वात असलेल्या फरकांबद्दलची चिंता उद्भवते, आपल्या मते किती कर्मचारी आपल्या डेटामध्ये आहेत हे महत्त्वाचे नाही.

बर्याच परिस्थितींमध्ये, काही उपचारांचा कार्यकारणभावाचा अंदाज घेण्याचा सर्वात बलवान मार्ग, जसे नोकरीचे प्रशिक्षण, एक यादृच्छिक नियंत्रित प्रयोग चालवणे आहे जेथे संशोधक यादृच्छिकपणे काही लोकांना उपचार देतो आणि अन्य नाही. मी प्रयोगांकरता सर्व अध्याय 4 चे पालन करीन, म्हणून येथे मी दोन धोरणांवर लक्ष केंद्रित करणार आहे जे गैर-प्रयोगात्मक डेटासह वापरले जाऊ शकते. पहिली योजना जगातील काहीतरी घडत आहे त्या शोधण्यावर अवलंबून असते जी यादृच्छिकपणे (किंवा जवळजवळ यादृच्छिकपणे) काही लोकांना उपचार देते आणि नाही तर द्वितीय तंत्रज्ञानामुळे उपचार न झालेल्या आणि न झालेल्या लोकांमधील आधीच्या फरक लक्षात घेता गैर-प्रायोगिक डेटाचे सांख्यिकीय समायोजन करणे यावर अवलंबून असते.

एक संशयवादी असा दावा करू शकतात की या दोन्हींच्या धोरणातून टाळले पाहिजे कारण त्यांना गृहीत समजले जाणे आवश्यक आहे, ज्या गृहीतकास कठीण आहे आणि त्यानुसार, सराव मध्ये, वारंवार उल्लंघन केले जाते. मी या हक्काबद्दल सहानुभूती करत असताना, मला वाटते की तो खूप दूर जातो. हे नक्कीच सत्य आहे की गैर-प्रायोगिक डेटावरून विश्वसनीय अनुमान करणे अवघड आहे, परंतु मी याचा अर्थ असा नाही की आपण कधीही प्रयत्न करू नये. विशेषत: गैर-प्रायोगिक दृष्टिकोन उपयुक्त ठरू शकतात जर जर हिश्शादायी बंध तुम्हास प्रयोग चालवण्यास अडथळा आणत नसेल किंवा नैतिक प्रतिबंध नसेल तर आपण प्रयोग चालवू इच्छित नाही. शिवाय, विना-प्रयोगात्मक पध्दती उपयुक्त ठरू शकते जर आपण यादृच्छिक नियंत्रित प्रयोग डिझाइन करण्यासाठी आधीच अस्तित्वात असलेल्या डेटाचा लाभ घेऊ इच्छित असाल.

पुढे जाण्याआधी, हे लक्षात घेण्यासारखे आहे की सामाजिक कार्यातील कारणांमुळे उद्भवणा-या अंदाज हे अतिशय जटिल विषयांपैकी एक आणि तीव्र आणि भावनिक वादविवाद होऊ शकतात. खालील प्रमाणे, याबद्दल अंतर्ज्ञान निर्माण करण्यासाठी मी प्रत्येक दृष्टिकोनाचा एक आशावादी वर्णन प्रदान करीन, तेव्हा मी त्या दृष्टिकोन वापरताना उद्भवणाऱ्या काही आव्हानांचा वर्णन करेल. प्रत्येक प्रकरणाबद्दल अधिक माहिती या प्रकरणाच्या शेवटी उपलब्ध आहे. जर आपण यापैकी कोणत्याही पद्धतीचा वापर आपल्या स्वत: च्या संशोधनात करू इच्छित असाल, तर मी अत्यंत कारणास्तव अनुमान (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) वरील अनेक उत्कृष्ट पुस्तकांपैकी एक वाचण्याची शिफारस करतो.

गैर-प्रायोगिक डेटामधून कारणकार्याचा अंदाज लावण्याचा एक दृष्टीकोन असा प्रसंग शोधणे आहे ज्याने यादृच्छिकपणे काही लोकांना एक उपचार दिला आहे आणि इतरांना नाही या परिस्थितींना नैसर्गिक प्रयोग म्हणतात. नैसर्गिक प्रयोगांची एक स्पष्ट उदाहरणे जोशुआ एन्ग्रिस्ट (1990) च्या संशोधनातून कमाईवर लष्करी सेवांच्या प्रभावाचे मोजमाप केले जाते. व्हिएतनामच्या युद्धादरम्यान अमेरिकेने आपल्या सशस्त्र दलाच्या आकाराचा मसूदा तयार केला. जे नागरिकांना सेवेमध्ये बोलावले जाईल ते ठरवण्यासाठी, अमेरिकन सरकारने लॉटरी आयोजित केली. प्रत्येक जन्मतारीख कागदावर लिहीली होती आणि आकृती 2.7 मध्ये दर्शविल्या प्रमाणे, या तुकड्यांच्या एका तुकड्यात एका वेळी एक निवडण्यात आले होते ज्यामध्ये ज्यांच्यासाठी सेवा देण्यासाठी तरुण पुरुषांना बोलावले जाते (तरुण स्त्रियांचा विषय नव्हता मसुदा). परिणामांवर आधारित, 14 सप्टेंबरला जन्मलेल्या पुरुषांना प्रथम म्हटले गेले, 24 एप्रिलला जन्मलेल्या पुरुषांना दुसरे नाव देण्यात आले, आणि असेच होते. अखेरीस, या लॉटरीमध्ये, 1 9 वेगवेगळ्या दिवशी जन्मलेल्या पुरुषांची संख्या तयार केली गेली, तर 171 दिवस जन्माला येणारे पुरुष नव्हते.

आकृती 2.7: कॉंग्रेसचे अलेक्झांडर पिरनी (आर-एनवाय) 1 डिसेंबर 1 9 6 9 रोजी निवडक सेवा आराखड्याचे पहिले कॅप्सूल रेखांकित करत होते. ज्युशो एन्ग्रिस्ट (1990) यांनी लष्करी सेवांचा प्रभाव अंदाज घेण्यासाठी सामाजिक सुरक्षा प्रशासनाच्या कमाईच्या माहितीसह लॉटरी मसुदा तयार केली. कमाईवर हे नैसर्गिक प्रयोग वापरून संशोधनाचे एक उदाहरण आहे. स्त्रोत: अमेरिकेची निवड सेवा सेवा (1 9 6 9) / विकिमीडिया कॉमन्स

हे लगेच उघड होऊ शकत नसले तरी, मसुदा लॉटरीमध्ये यादृच्छित नियंत्रित प्रयोगासाठी एक गंभीर साम्य आहे: दोन्ही परिस्थितींमध्ये, सहभागींना उपचार करण्यासाठी बेतृतपणे नियुक्त केले जातात. या यादृच्छिक उपचारांच्या प्रभावाचा अभ्यास करण्यासाठी, अॅन्ग्रिस्टने नेहमीच्या मोठ्या डेटा प्रणालीचा फायदा घेतला: यूएस सोशल सिक्युरिटी ऍडमिनिस्ट्रेशन, जे रोजगाराच्या प्रत्येक अमेरिकन कमाईबद्दल माहिती गोळा करते. सरकारी प्रशासकीय नोंदींमध्ये जमा झालेल्या कमाईच्या माहितीसह ड्राफ्ट लॉटरीमध्ये यादृच्छिकपणे कोण निवडले गेले याबद्दल माहिती एकत्र करून Angrist ने निष्कर्ष काढला की अनुभवी नॉन-दिग्गजांच्या कमाईपेक्षा दिग्गजांची कमाई 15% कमी होती.

हे उदाहरण स्पष्ट करते की, कधी कधी सामाजिक, राजकीय किंवा नैसर्गिक शक्ती अशा उपचारांचा अवलंब करतात ज्या संशोधकांद्वारे लीव्ह केले जाऊ शकतात आणि काहीवेळा या उपचारांचा परिणाम नेहमी मोठ्या डेटा स्त्रोतांमध्ये मिळविला जातो. खालीलप्रमाणे हे संशोधन धोरण सारांशित केले जाऊ शकते: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

डिजिटल युगात हे धोरण स्पष्ट करण्यासाठी, चला अलेक्झांडर मास आणि एनरिको मोरेटी (2009) द्वारे अभ्यासाचा विचार करूया ज्याने कामगारांच्या उत्पादकतेवर उत्पादक सहकार्यांसह काम करण्याच्या प्रभावाचा अंदाज लावण्याचा प्रयत्न केला. परिणाम पाहण्याआधी, तुमच्याकडे असणारे परस्परविरोधी अपेक्षा आहेत हे दर्शविणे महत्त्वाचे आहे. एकीकडे, उत्पादक सहकर्म्यांबरोबर काम केल्यामुळे एका कामगाराने समवयीन दलाच्या दबावामुळे तिला उत्पादनक्षमता वाढवण्याची अपेक्षा केली असेल. किंवा, दुसरीकडे, आपण अपेक्षा करू शकता की कठोर परिश्रम घेणा-यांमुळे एखादे कार्यकर्ता सुस्त होऊ शकतो कारण तिच्या सहकाऱ्यांनी हे काम केले जाईल. उत्पादनक्षमतेवर मित्रांच्या प्रभावाचा अभ्यास करण्याचा सर्वात स्पष्ट मार्ग म्हणजे विनाक्रम नियंत्रित प्रयोग असेल जेथे कामगारांना वेगवेगळ्या उत्पादनक्षमतेच्या पातळीच्या कामगारांच्या बरोबरीने फेरबदल केले जाते आणि परिणामी उत्पादकता प्रत्येकासाठी मोजली जाते. संशोधक, तथापि, कोणत्याही वास्तविक व्यवसायात कामगारांच्या शेड्यूलवर नियंत्रण ठेवत नाहीत आणि म्हणूनच मास आणि मोरेट्टी यांना सुपरमार्केटमध्ये कॅशियरचा समावेश असलेल्या एका नैसर्गिक प्रयोगावर विसंबून राहायचे होते.

या विशिष्ट सुपरमर्केटमध्ये, शेड्युलिंगची पद्धत आणि ज्या प्रकारे बदललेल्या ओळींमुळे, प्रत्येक कॅशीयरमध्ये दिवसाच्या वेगवेगळ्या वेळी वेगवेगळ्या सहकर्मी होत्या. पुढे, या विशिष्ट सुपरमार्केटमध्ये, कॅशियरची नियुक्ती त्यांच्या समवयस्कांच्या उत्पादनक्षमतेशी संबंधित नव्हती किंवा स्टोअरमध्ये किती व्यस्त होती दुसऱ्या शब्दांत, जरी कॅशियरची शेड्यूलिंग लॉटरीने ठरवली नसली तरी, असे होते की कधीकधी उच्च (किंवा कमी) उत्पादनक्षम सहकर्मींबरोबर काम करण्यासाठी कामगारांना यादृच्छिकपणे नियुक्त केले जात असे. सुदैवाने, या सुपरमर्केटमध्ये डिजिटल-युग चेकआऊट सिस्टीम देखील होती ज्या प्रत्येक कॅशीयर नेहमीच स्कॅन करत असलेल्या वस्तू तपासतात. या चेकआऊट लॉग डेटावरून, मास आणि मोरेट्टी उत्पादनक्षमतेचे एक तंतोतंत, वैयक्तिक आणि नेहमीचे माप तयार करण्यास सक्षम होतेः प्रति सेकंद स्कॅन केलेल्या आयटमची संख्या. या दोन गोष्टी एकत्रित करणे- पीअर उत्पादकता आणि नेहमीच उत्पादकता वाढविणारे उपाय-मास आणि मोरेट्टी यांचा अंदाज आहे की जर एखाद्या कॅशीयरला सहकारी कामगारांची नेमणूक केली गेली तर ते सरासरीपेक्षा 10% जास्त उत्पादनक्षम होते, त्यांची उत्पादकता 1.5% . पुढे, त्यांनी दोन महत्वाच्या विषयांवर लक्ष केंद्रित करण्यासाठी आपल्या डेटाचा आकार आणि समृद्धता वापरली: या प्रभावाची विविधता (कोणत्या प्रकारच्या कामगारांसाठी परिणाम मोठा आहे?) आणि परिणामांखालील यंत्रणा उच्च उत्पादकता?). आम्ही या दोन महत्वाच्या विषयांवर पुनर्विचार करू - विविध उपचारांवर परिणाम आणि तंत्राची वैविध्यता - अध्याय 4 मध्ये जेव्हा आपण अधिक तपशीलात प्रयोगांवर चर्चा केली.

या दोन अध्ययनांमधून सामान्यीकरण, टेबल 2.3 इतर अभ्यासासाठी समान सारखी माहिती गोळा करते: काही यादृच्छिक फरकांच्या प्रभावाचे मोजमाप करण्यासाठी नेहमीच्या डेटा स्रोताचा वापर करणे. प्रॅक्टीसमध्ये, संशोधक स्वत: नैसर्गिक प्रयोग शोधण्यासाठी दोन वेगळ्या पद्धती वापरतात, जे दोन्ही फलदायी ठरू शकतात. काही संशोधक नेहमी नेहमीच्या डेटा स्रोतसह प्रारंभ करतात आणि जगातील यादृच्छिक कार्यक्रम शोधतात; इतर जगामध्ये एक यादृच्छिक कार्यक्रम प्रारंभ करतात आणि डेटा स्त्रोत शोधतात जे त्याचे परिणाम कॅप्चर करतात

तक्ता 2.3: बिग डेटा स्रोत वापरून नैसर्गिक प्रयोगांची उदाहरणे
अवयव फोकस	नैसर्गिक प्रयोगाचा स्रोत	नेहमी-चालू असलेल्या डेटा स्त्रोत	संदर्भ
उत्पादकता वर पीर प्रभाव	शेड्युलिंग प्रक्रिया	चेकआऊट डेटा	Mas and Moretti (2009)
मैत्रीची निर्मिती	चक्रीवादळे	फेसबुक	Phan and Airoldi (2015)
भावनांचा प्रसार	पाऊस	फेसबुक	Lorenzo Coviello et al. (2014)
पीर-टू-पीअर आर्थिक बदल्या	भूकंप	मोबाइल पैसे डेटा	Blumenstock, Fafchamps, and Eagle (2011)
वैयक्तिक वापर वर्तन	2013 अमेरिकन सरकार बंद	वैयक्तिक वित्त डेटा	Baker and Yannelis (2015)
आस्थापक प्रणालींचा आर्थिक परिणाम	विविध	ऍमेझॉनमध्ये ब्राउझिंग डेटा	Sharma, Hofman, and Watts (2015)
न जन्मलेले बाळंवरील ताणाचा प्रभाव	2006 इजरायल-हेझबोलह युद्ध	जन्म रेकॉर्ड	Torche and Shwed (2015)
विकिपीडियावरील वाचन वर्तन	Snowden revelations	विकिपीडिया लॉग	Penney (2016)
व्यायाम करण्यावरील पीअर इफेक्ट्स	हवामान	फिटनेस ट्रॅकर्सकरीता	Aral and Nicolaides (2017)

आतापर्यंत नैसर्गिक प्रयोगांविषयीच्या चर्चेत मी एक महत्वाचा मुद्दा बाहेर काढला आहे: आपण जे काही हवे आहे ते कोणत्या स्वरूपातून केले आहे ते कधी कधी खूप अवघड असू शकते. चला व्हिएतनाम मसुदा चे उदाहरण पाहू या प्रकरणात, Angrist कमाई वर लष्करी सेवा प्रभाव अंदाज मध्ये स्वारस्य होते. दुर्दैवाने, लष्करी सेवा यादृच्छिकपणे नियुक्त केलेली नाही; त्याऐवजी तो बेतरॅनुक सोपविले होते की मसुदा होते. तथापि, जो सेवा देण्यात आलेली सगळ्यांनाच नाही (विविध सवलती होत्या), आणि ज्यांना सेवा देण्यात आली त्या प्रत्येकालाच (लोक सेवा देण्यासाठी स्वयंसेवक म्हणून काम करू शकतील) नाही. ड्राफ्ट तयार करणे यादृच्छिकपणे नियुक्त केले जात असल्यामुळे संशोधक मसुद्यातील सर्व माणसांसाठी मसुदा तयार करण्याच्या प्रभावाचा अंदाज लावू शकतो. पण Angrist मसुदा केल्याचे परिणाम जाणून घेऊ इच्छित नव्हते; त्याला लष्करी सेवेतील प्रभाव जाणून घ्यायचे होते. हा अंदाज तयार करण्यासाठी, तथापि, अतिरिक्त गृहीत आणि गुंतागुंत आवश्यक आहेत. प्रथम, संशोधकांनी असे गृहित धरले पाहिजे की कमाई परिणामस्वरूप तयार केलेल्या एकमेव मार्गाचा उपयोग लष्करी सेवेमार्फत केला जातो, ज्यात बहिष्कार प्रतिबंध म्हणतात. उदाहरणार्थ, मसुदा तयार केलेल्या लोकांना सेवा देण्याचे टाळण्यासाठी जास्त काळ शाळेतच राहिली किंवा नियोक्ते ज्यांना मसुदा तयार करण्यात आले आहे अशांना नोकरी मिळण्याची शक्यता कमी असेल तर ही धारणा चुकीची असू शकते. सर्वसाधारणपणे, वगळण्याच्या निर्बंध हे एक गंभीर गृहितक आहे आणि हे सत्यापित करणे सामान्यतः कठीण आहे. बहिष्कार प्रतिबंध योग्य असला तरीही, सर्व मनुष्यांवर सेवेचा प्रभाव अंदाज करणे अशक्य आहे. त्याऐवजी, हे सिद्ध होते की संशोधक केवळ मनुष्यांच्या एका विशिष्ट उपसंचरणीवर परिणाम अंदाजू शकतात (ज्या लोकांना मसुदा तयार होते तेव्हा ते काम करतील, परंतु (Angrist, Imbens, and Rubin 1996) तयार नसताना सेवा देतील) (Angrist, Imbens, and Rubin 1996) . तक्रारदार मात्र, व्याजांची मूळ लोकसंख्या नसतात. लक्षात घ्या की या समस्या ड्राफ्ट लॉटरीच्या तुलनेने स्वच्छ केसमध्ये देखील उद्भवतात. जेव्हा भौतिक लॉटरीने नियुक्त केलेले नसल्यास क्लिष्टतेचा आणखी एक समूह उद्भवतो. उदाहरणार्थ, मास आणि मोर्तेटीच्या रोख रकमेच्या अभ्यासामध्ये अतिरिक्त समस्यांना असे गृहीत धरले जाते की सहकर्मींची असामान्यपणे नियुक्ती करणे यादृच्छिक आहे. ही धारणा जोरदारपणे भंग झाल्यास, त्यांच्या अंदाजानुसार ती पूर्वग्रहदूषित करू शकते. निष्कर्षापर्यंत, नैसर्गिक प्रयोग गैर-प्रायोगिक डेटामधून उद्भवणात्मक अनुमान काढण्यासाठी एक प्रभावी धोरण असू शकते आणि जेव्हा मोठ्या संख्येने स्त्रोत निर्मिती करतात तेव्हा नैसर्गिक प्रयोगांवर भांडवल करण्याची आमची क्षमता वाढते. तथापि, कदाचित आपणास अपेक्षित असलेल्या अंदाजानुसार काय स्वरूप दिले जावे याकडे दुर्लक्ष करणे आवश्यक आहे-आणि कधीकधी सशक्त गृहीतके.

गैर-प्रयोगात्मक डेटामधून उद्भवणा-या अंदाजांविषयी मी तुम्हाला सांगू इच्छित असलेली दुसरी पद्धत, अंशतः गैर-प्रायोगिक डेटा समायोजित करण्यावर अवलंबून असते ज्यांनी उपचार केले नाही व मिळत नसल्याबद्दल आधीच्या फरक लक्षात घेतला. अशी बर्याच समायोजन पद्धती आहेत, परंतु मी एक जुळणारा मेलिंगवर लक्ष केंद्रित करेल. जुळणारे मध्ये, संशोधक गैर-प्रायोगिक डेटा पहात आहेत जे समान आहेत अशा जोड्या तयार करतात ज्यामुळे त्या व्यक्तीने उपचार घेतले आहेत आणि अजूनपर्यंत नाही. जुळणारे प्रक्रियेत, संशोधक प्रत्यक्षात देखील छाटणी आहेत ; म्हणजे अशी प्रकरणे काढून टाकणे जेथे स्पष्टपणे सामना नाही. अशाप्रकारे, ही पद्धत अधिक अचूकपणे जुळणारे-आणि-रोपटे म्हटली जाईल, परंतु मी पारंपारिक संज्ञा जुळवून घेईन: जुळणी.

प्रचंड गैर-प्रायोगिक डेटा स्त्रोतांसह जुळणार्या धोरणांची एक उदाहरण, लिरान ईनाव्ह आणि सहकाऱ्यांनी (2015) उपभोक्ता व्यवहारांवर संशोधन केले. ते ईबेवर होणार्या लिलाव प्रक्रियेत रस घेतात आणि त्यांच्या कामाचे वर्णन करतात, मी विक्री किंमत किंवा विक्रीची संभाव्यता यासारख्या लिलाव परिणामांवर लिलाव प्रक्रियेच्या किंमतीवर लक्ष केंद्रित करणार आहे.

विक्री किंमतीवरील किंमत सुरू करण्याच्या प्रभावाचा अंदाज घेण्याचा सर्वात साधा मार्ग म्हणजे, भिन्न सुरू किमतींनुसार लिलावाने अंतिम किंमत काढणे. जर आपण सुरुवातीच्या किंमतीच्या विक्री किंमतची भाकित करू इच्छित असाल तर हा मार्ग ठीक होईल. परंतु आपला प्रश्न सुरवातीच्या किंमतीच्या प्रभावासंबंधात असल्यास, हा मार्ग कार्य करणार नाही कारण तो तुलनात्मक निष्कर्षांवर आधारित नाही; कमी सुरू किमतींसह लिलावाने उच्च सुरू किमतींपासून त्या भिन्न असू शकतात (उदा. ते विविध प्रकारचे माल असू शकतात किंवा भिन्न प्रकारचे विक्रेते समाविष्ट करू शकतात).

गैर-प्रायोगिक डेटामधून उद्भवणार्या अंदाजांबद्दल आपण आधीच जागरूक असणार्या समस्यांची आपल्याला जाणीव आहे, तर आपण साधा दृष्टिकोन वगळू शकता आणि फील्ड प्रयोग चालवण्यावर विचार करू शकता जिथे आपण विशिष्ट वस्तू विकू शकाल- एक गोल्फ क्लब-निश्चितसह लिलावात घटकाचा संच- म्हणा, विनामूल्य शिपिंग आणि लिलाव दोन आठवडे उघडे - परंतु यादृच्छिकपणे नियुक्त केलेल्या सुरु किमतींसह परिणामी बाजारपेठ परिणामांची तुलना करून, हा फील्ड प्रयोग विक्री किंमत वर सुरू किंमत प्रभाव एक अतिशय स्पष्ट मापन दर्शवेल. परंतु हे मोजमाप फक्त एका विशिष्ट उत्पादनासाठी आणि लिलाव पॅरामिटर्सच्या सेटवरच लागू होईल. परिणाम भिन्न असू शकतात, उदाहरणार्थ, भिन्न प्रकारच्या उत्पादनांसाठी एक मजबूत सिद्धान्तविरहीत, या प्रयोगातून धावू शकणे शक्य होणार्या संभाव्य प्रयोगांच्या संपूर्ण श्रेणीपर्यंत विस्तार करणे कठीण आहे. पुढे, फील्ड प्रयोग पुरेसे महाग असतात जे प्रत्येक भिन्नता चालविण्यास अपायकारक असेल ज्यासाठी आपण प्रयत्न करू इच्छिता.

निष्क्रीय आणि प्रायोगिक दृष्टिकोनांपेक्षा वेगळे, आनावे आणि सहकाऱ्यांनी तिसरे पाऊल टाकले: जुळणी त्यांच्या रणनीतीमधील मुख्य युक्ती म्हणजे क्षेत्र प्रयोगांसारख्या गोष्टी शोधणे जे ईबेवर आधीच झाले आहे. उदाहरणार्थ, आकृती 2.8 तंतोतंत सारख्याच विक्रेत्याने "गोल्फ क्लब" म्हणून विकले जाणारे एक समान गोल्फ क्लब-एक टेलरमेड बर्नर 09 ड्रायव्हरसाठी 31 पैकी काही सूची दर्शवितो. तथापि, या 31 सूचनेमध्ये भिन्न भिन्नता आहेत, जसे की भिन्न प्रारंभ किंमत, समाप्तीची तारीख आणि शिपिंग फी दुसऱ्या शब्दात सांगायचे तर, हे असे आहे की "बजेटव्हॉल्फर" हे संशोधकांसाठी प्रयोग चालू ठेवत आहे.

"बजेटव्हॉल्फर" द्वारे विकले जाणारे टेलेर्मामेड बर्नर 09 ड्रायव्हर या सूचिबद्ध केलेल्या सूचनेचे एक उदाहरण आहे, जेथे त्याच वस्तू त्याच त्याच विक्रेत्याने विकल्या जात आहेत परंतु प्रत्येक वेळी थोड्या वेगळ्या वैशिष्ट्यांसह. ईबेच्या भव्य नोंदींमध्ये लाखो जुळणी असणारे हजारो जुळणारे सेट आहेत. अशा प्रकारे, सुरुवातीच्या किंमतीसह सर्व लिलावाने अंतिम किंमत मोजण्याऐवजी, एनाव आणि सहकर्मी जुळलेल्या सेट्सच्या तुलनेत तुलना करतात. या हजारो जुळवलेल्या सेट्सच्या तुलनात्मक परिणामांचे मिश्रण करण्यासाठी, आयनाज आणि सहकर्मींनी प्रत्येक आयटमच्या संदर्भ मूल्याच्या (उदाहरणार्थ, त्याची सरासरी विक्री किंमत) प्रारंभिक किंमत आणि अंतिम किंमत पुन्हा व्यक्त केली. उदाहरणार्थ, जर टेलेर्मडे बर्नर 09 ड्रायव्हरचे $ 100 चे संदर्भ मूल्य (त्याच्या विक्रीवर आधारित) असेल तर $ 10 ची प्रारंभ किंमत 0.1 म्हणून व्यक्त केली जाईल आणि अंतिम किंमत $ 120 म्हणून 1.2 होईल.

आकृती 2.8: जुळलेल्या संचचे उदाहरण. हे तंतोतंत समान गोल्फ क्लब आहे (टेलेरामडे बर्नर 09 ड्राईव्हर) तंतोतंत त्याच व्यक्तीने (बजेटहोल्डर) द्वारे विकले जात आहे, परंतु यापैकी काही विक्री वेगळ्या परिस्थितीनुसार (उदा. भिन्न प्रारंभिक किंमत) केली गेली. Einav et al कडून परवानगीने पुनरुत्पादित (2015), आकृती 1b

आकृती 2.8: जुळलेल्या संचचे उदाहरण. हे तंतोतंत समान गोल्फ क्लब आहे (एक टेलरमेड बर्नर 09 ड्राईव्हर) तंतोतंत समान व्यक्ती ("बजेटव्हॉल्व्हर") द्वारे विकले जात आहे, परंतु यापैकी काही विक्री वेगळ्या परिस्थितीनुसार (उदा. प्रारंभिक किंमत) Einav et al. (2015) कडून परवानगीने पुनरुत्पादित Einav et al. (2015) , आकृती 1b

आठवडा करा की Einav आणि सहकारी लिलाव परिणाम वर प्रारंभ किंमत प्रभाव रस होता. प्रथम, त्यांनी उच्च प्रतीची किंमत एक विक्रीची संभाव्यता कमी करण्यासाठी अंदाज लावणारा रीग्रेसनचा वापर केला आहे आणि उच्च प्रारंभिक किमती अंतिम विक्री दर वाढवितो (विक्री संबंधी सशर्त) स्वत: कडून, या अंदाजानुसार - एक रेषीय संबंध वर्णन करतात आणि सर्व उत्पादनांपेक्षा सरासरी आहे- सर्व मनोरंजक नाहीत नंतर, Einav आणि सहकाऱ्यांनी त्यांच्या सूक्ष्म अंदाजांची विविध सूक्ष्म अंदाज तयार करण्यासाठी आकारमानाचा प्रचंड आकार वापरला. उदाहरणार्थ, वेगळ्या सुरुवातीच्या किमतींसाठी स्वतंत्रपणे प्रभावाचा अंदाज घेऊन, त्यांना असे आढळले की किंमत आणि विक्री किंमत यांच्यातील संबंध अलाइनिक (आकृती 2.9) आहे. विशेषतः, 0.05 आणि 0.85 दरम्यान किंमत सुरू करण्यासाठी, प्रारंभिक किंमतीचा विक्री किंमतीवर फारसा प्रभाव पडत नाही, हे त्यांचे शोध पहिल्या विश्लेषणातून पूर्णपणे चुकले आहे. पुढे, सर्व वस्तूंपेक्षा सरासरीपेक्षा अधिक, ऐनाव आणि सहकाऱ्यांनी 23 वेगवेगळ्या श्रेणीतील वस्तूंसाठी किंमत (उदा. पाळीव प्राणी पुरवठा, इलेक्ट्रॉनिक्स आणि क्रीडा स्मृतीचिन्हे) (आकृती 2.10) यांच्या प्रभावाचा अंदाज लावला. हे अंदाज दर्शवतात की अधिक विशिष्ठ वस्तूंसाठी- जसे स्मृतीचिन्हे-प्रारंभिक किंमत विक्रीच्या संभाव्यतेवर लहान प्रभाव पडतो आणि अंतिम विक्री किंमतीवरील मोठा परिणाम असतो. याव्यतिरिक्त अधिक जिन्नस वस्तूंच्या जसे-डीव्हीडी-सुरुवातीच्या किंमतीचा अंतिम किंमतीवर जवळजवळ कोणताही परिणाम नाही. दुसर्या शब्दात सांगायचे तर, या गोष्टींमधील महत्वाच्या फरक लपवणार्या सरासरी 23 वेगवेगळ्या श्रेणीतील बाबींचे एकत्रिकरण करणारे सरासरी

आकृती 2.9: लिलाव चालू किंमत आणि विक्रीची शक्यता (ए) आणि विक्री किंमत (बी) मधील संबंध. किंमत आणि विक्रीची संभाव्यता यांच्यामध्ये जवळजवळ एक रेषीय संबंध आहे, परंतु सुरूवातीची किंमत आणि विक्री किंमत यांच्यातील एक नालायक संबंध; 0.05 आणि 0.85 च्या दरम्यानची किंमत सुरू करण्यासाठी, प्रारंभिक किंमत विक्री दर वर फारच थोडा प्रभाव टाकते. दोन्ही प्रकरणांमध्ये, संबंध मूलतः आयटम मूल्यापासून स्वतंत्र आहेत. Einav et al. (2015) पासून रुपांतर Einav et al. (2015) , अंक 4 ए आणि 4 बी

आकृती 2.10: प्रत्येक वर्गाच्या गोष्टींचे अंदाज; सॉलिड डॉट एकत्रित सर्व श्रेणींसाठी अंदाज आहे (Einav et al. 2015) . हे अंदाज दर्शवतात की अधिक विशिष्ठ वस्तूंसाठी- जसे स्मृतीचिन्हे - प्रारंभिक किंमत विक्रीच्या संभाव्यतेवर ( $x$ -Xis) कमी प्रभाव पडतो आणि अंतिम विक्री किंमतीवर मोठा प्रभाव ( $y$ -एक्सिस). Einav et al. (2015) पासून रुपांतर Einav et al. (2015) , आकृती 8

जरी आपण ईबेवर लिलाव करण्यास विशेषतः रस दाखवत नसलो तरी आपल्याला 2 9 2. आकृती आणि 2.10 क्रमांकाचा मार्ग प्रशंसा करावा लागतो. साधारण अनुमानांपेक्षा ईबेची अधिक चांगली समज मिळते ज्यामुळे एका रेषीय संबंधांचे वर्णन केले जाते आणि विविध प्रकारचे आयटम एकत्र केले जातात. पुढे, जरी क्षेत्रीय प्रयोगांसह या अधिक सूक्ष्म अंदाज तयार करणे शास्त्रोक्तकदृष्ट्या शक्य असले, तरी असे प्रयोग असे करणे आवश्यक आहे जेणेकरुन ते शक्य तितके अशक्य होईल.

नैसर्गिक प्रयोगांप्रमाणेच, जुळणारे बरेच मार्ग चुकीचे अंदाज लावू शकतात. मला असे वाटते की जुळणारे अंदाज जुळवण्याची सर्वात मोठी चिंता अशी आहे की ते अशा गोष्टींद्वारे पक्षपाती असू शकतात जे जुळवणीत वापरले जात नाहीत उदाहरणार्थ, त्यांच्या मुख्य परिणामात, Einav आणि सहकर्मी यांनी चार वैशिष्ट्यांशी योग्य जुळणी केली: विक्रेता ID नंबर, आयटम श्रेणी, आयटम शीर्षक आणि उपशीर्षके. आयटम जुळण्यासाठी वापरल्या जात नसलेल्या वस्तू वेगळ्या असल्यास, यामुळे अयोग्य तुलना होऊ शकते. उदाहरणार्थ, जर "budgetgolfer" ने हिवाळ्यात (जेव्हा गोल्फ क्लब कमी लोकप्रिय आहेत) टेलेरामडे बर्नर 09 ड्रायव्हरची किंमत कमी केली, तर हे दिसून येईल की कमी किमतीची किंमत कमी किंमतीला कमी करते, जेव्हा खरं तर हे एक कलाकृती असेल मागणी मध्ये हंगामी फरक या चिंतेला तोंड देण्यासाठी एक दृष्टिकोन विविध प्रकारचे जुळणी करण्याचा प्रयत्न करीत आहे उदाहरणार्थ, Einav आणि सहकाऱ्यांनी त्यांच्या विश्लेषणांची पुनरावृत्ती केली आणि जुळण्यासाठी वापरली जाणारी वेळ विंडो बदलत होते (जुळविलेले संच एक वर्षाच्या आत विक्रीवर समाविष्ट वस्तू, एक महिन्याच्या आत आणि समकालीन). सुदैवाने, त्यांना बर्याच काळासाठी समान परिणाम दिसले. जुळवणीसह आणखी एक चिंता व्याख्येतून उद्भवते. केवळ जुळलेल्या डेटावर लागू करण्यासाठी जुळणारे अंदाज; ते त्या बाबींवर लागू होत नाहीत जे जुळवलेल्या नाहीत. उदाहरणार्थ, एकाधिक सूचिबद्ध केलेल्या आयटमवर त्यांचे संशोधन मर्यादित करून, Einav आणि सहकारी व्यावसायिक आणि अर्ध-व्यावसायिक विक्रेत्यांवर लक्ष केंद्रित करत आहेत. अशा प्रकारे, जेव्हा आपण तुलना करतो तेव्हा आपण हे लक्षात ठेवले पाहिजे की ते केवळ ईबेच्या या उपसंचावर लागू होतात.

गैर-प्रायोगिक डेटामध्ये वाजवी तुलना शोधण्यासाठी जुळणारी एक प्रभावी अशी पद्धत आहे. अनेक सामाजिक शास्त्रज्ञांना, जुळण्यांना दुसरा प्रयोग सर्वोत्तम वाटतो, परंतु ही अशी एक मान्यता आहे जी सुधारित केली जाऊ शकते, थोडीशी. मोठ्या प्रमाणातील डेटाशी जुळणार्या क्षेत्रात काही प्रयोगापेक्षा चांगले असू शकते जेव्हा (1) परिणामांमध्ये भिन्नता महत्वाची आहे आणि (2) जुळण्यासाठी आवश्यक असलेले महत्त्वाचे व्हेरिएबल्स मोजले गेले आहेत. सारणी 2.4 हे काही इतर उदाहरणे पुरवतात की मोठ्या डेटा स्त्रोतांसह जुळणी कशी वापरली जाऊ शकते.

तक्ता 2.4: मोठ्या प्रमाणात डेटा स्त्रोतांसह जोडणी वापरणार्या अभ्यासाचे उदाहरण
अवयव फोकस	मोठा डेटा स्त्रोत	संदर्भ
पोलीस हिंसाचाराच्या गोळीबाराचा प्रभाव	स्टॉप-आणि-स्क्रिक रेकॉर्ड	Legewie (2016)
11 सप्टेंबर 2001 चे कुटुंब आणि शेजारी	मतदानाचे रेकॉर्ड आणि देणगी नोंद	Hersh (2013)
सामाजिक संसर्ग	संप्रेषण आणि उत्पादन अवलंब डेटा	Aral, Muchnik, and Sundararajan (2009)

निष्कर्षानुसार, नॉन-प्रायोगिक डेटापासूनचे दैनांच्या प्रभावाचा अंदाज घेणे अवघड आहे, परंतु नैसर्गिक प्रयोग आणि सांख्यिकीय समायोजन (उदा. जुळणारे) वापरणे शक्य आहे. काही परिस्थितींमध्ये, हे दृष्टिकोन चुकीच्या पद्धतीने जाऊ शकतात, परंतु काळजीपूर्वक तैनात केल्यावर ही पद्धत 4 व्या अध्यायात वर्णन केलेल्या प्रायोगिक दृष्टिकोणातून उपयुक्त ठरू शकते. शिवाय, या दोन दृष्टिकोणास विशेषत: ऑन, मोठे डेटा सिस्टम