2.4.3 Yaklaşık Hesabı deneyler

Bu çeviri bir bilgisayar tarafından oluşturuldu. ×

2.4.3 Yaklaşık Hesabı deneyler

Yapmadığımız veya yapamayacağımız deneyleri tahmin edebiliriz. Özellikle büyük veri kaynaklarından yararlanan iki yaklaşım doğal deneyler ve eşleştirmedir.

Bazı önemli bilimsel ve politik sorular nedenseldir. Örneğin, bir iş eğitim programının ücretler üzerindeki etkisi nedir? Bu soruyu cevaplamaya çalışan bir araştırmacı, eğitim almak için kaydolmuş kişilerin kazancını olmayanlara kıyasla karşılaştırabilir. Fakat bu gruplar arasındaki ücretlerdeki farkın ne kadarının eğitimden kaynaklandığı ve ne kadarının kayıt yaptıranlar ile olmayanlar arasındaki önceden var olan farklılıklardan kaynaklandığıdır? Bu zor bir soru ve otomatik olarak daha fazla veri ile gitmeyen bir sorudur. Diğer bir deyişle, önceden var olan olası farklılıklarla ilgili endişeler, verilerinizde kaç işçi olursa olsun ortaya çıkar.

Pek çok durumda, iş eğitimi gibi bazı tedavilerin nedensel etkisini tahmin etmenin en güçlü yolu, bir araştırmacının tedaviyi rastgele bir şekilde bazı insanlara değil de başkalarına sunmasını sağlayan randomize kontrollü bir deney yürütmektir. 4. bölümün tümünü deneylere ayıracağım, burada deney dışı verilerle kullanılabilecek iki stratejiye odaklanacağım. İlk strateji, dünyada rastgele (ya da neredeyse rastgele) tedavinin bazı insanlara değil de başkalarına dayattığı bir şey aramaya dayanır. İkinci strateji, tedavi gören ve almayanlar arasındaki önceden var olan farklılıkları açıklamak amacıyla deneysel olmayan verileri istatistiksel olarak ayarlamaya bağlıdır.

Şüpheci, bu stratejilerin her ikisinden de kaçınılması gerektiğini çünkü güçlü varsayımlara, değerlendirmenin zor olduğu varsayımlara ve uygulamada sıklıkla ihlal edilen varsayımlara ihtiyaç duyduğunu iddia edebilir. Bu iddiana sempati duyurken, biraz fazla ileri gittiğini düşünüyorum. Deney dışı verilerden nedensel tahminlerin güvenilir bir şekilde yapılması zor olduğu kesinlikle doğrudur, fakat bunun hiç denemememiz gerektiği anlamına gelmez. Özellikle, deneysel olmayan yaklaşımlar, lojistik kısıtlamanın bir denemeyi gerçekleştirmenizi engellemesi veya etik kısıtlamaların bir deneyi çalıştırmak istemediğiniz anlamına gelmesi durumunda yardımcı olabilir. Ayrıca, randomize kontrollü bir deney tasarlamak için var olan verilerin avantajından yararlanmak istiyorsanız deney dışı yaklaşımlar yararlı olabilir.

Devam etmeden önce, aynı zamanda, nedensel tahminlerin, sosyal araştırmada en karmaşık konulardan biri olduğu ve yoğun ve duygusal tartışmalara yol açabilecek bir husus olduğunu da belirtmek gerekir. Daha sonra, her bir yaklaşımın, sezgiyi geliştirmek için iyimser bir açıklama yapacağım, o zaman bu yaklaşımı kullanırken ortaya çıkan bazı zorlukları anlatacağım. Her bir yaklaşımla ilgili daha fazla detay bu bölümün sonunda bulunan materyallerde mevcuttur. Bu yaklaşımlardan birini kendi araştırmalarınızda kullanmayı planlıyorsanız, nedensel çıkarımla ilgili birçok mükemmel kitaptan birini okumanızı şiddetle tavsiye ederim (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

Deneysel olmayan verilerden nedensel tahminler yapılmasına yönelik bir yaklaşım, rastgele bazı insanlara değil başkalarına da bir muamele atanmış bir olaya bakmaktır. Bu durumlara doğal denemeler denir. Doğal bir deneyin en açık örneklerinden biri, askeri hizmetlerin kazançlar üzerindeki etkisini ölçen Joshua Angrist'in (1990) araştırmasından kaynaklanmaktadır. Vietnam’daki savaş sırasında, Birleşik Devletler silahlı kuvvetlerinin büyüklüğünü bir taslak aracılığıyla artırdı. Hangi vatandaşların hizmete gireceğine karar vermek için ABD hükümeti bir piyango düzenledi. Her doğum tarihi bir kâğıt üzerine yazılmıştır ve şekil 2.7'de gösterildiği gibi, genç erkeklerin hizmet vermeye çağrılacağı düzeni belirlemek için bu kâğıt parçaları her seferinde birer adet seçilmiştir (genç kadınlar tabi değildir). taslakta). Elde edilen sonuçlara göre, 14 Eylül'de doğan erkekler ilk olarak adlandırıldı, 24 Nisan'da doğmuş olan erkeklere ikinci çağrılırdı, vb. Nihayetinde, bu piyangoda, 195 farklı günlerde doğan erkekler hazırlanırken, 171 günde doğan erkekler de değildi.

Şekil 2.7: Kongre üyesi Alexander Pirnie (R-NY) 1 Aralık 1969'da Seçici Hizmet taslağı için ilk kapsülü çiziyor. Joshua Angrist (1990) askeri hizmetin etkisini tahmin etmek için taslak piyangoyu Sosyal Güvenlik İdaresi'nden kazanç verileriyle birleştirdi. kazançlar üzerinde. Bu, doğal bir deney kullanarak yapılan bir araştırma örneğidir. Kaynak: ABD Seçici Hizmet Sistemi (1969) / Wikimedia Commons .

Her ne kadar hemen anlaşılmasa da, bir taslak piyango randomize kontrollü bir deney için kritik bir benzerliğe sahiptir: her iki durumda da, katılımcılar rastgele bir tedavi almak üzere atanırlar. Bu randomize tedavinin etkisini incelemek için, Angrist her zaman büyük bir veri sisteminden yararlandı: ABD'de her Amerikanın istihdamdan elde ettiği kazançlar hakkında bilgi toplayan ABD Sosyal Güvenlik Kurumu. Devlet yönetim kayıtlarında toplanan kazanç verisi ile taslak piyangoda rastgele seçilenlerin bilgilerini birleştirerek, Angrist, gazilerin kazançlarının, benzer gazilere ait kazançlardan yaklaşık% 15 daha az olduğu sonucuna vardı.

Bu örnekte de görüldüğü gibi, bazen sosyal, politik veya doğal güçler, araştırmacılar tarafından geliştirilebilecek şekilde tedaviler uygular ve bazen bu tedavilerin etkileri her zaman büyük veri kaynaklarında ele geçirilir. Bu araştırma stratejisi şu şekilde özetlenebilir: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

Bu stratejiyi dijital çağda açıklamak için, iş arkadaşlarının üretkenliği ile üretken iş arkadaşlarının etkisini tahmin etmeye çalışan Alexandre Mas ve Enrico Moretti'nin (2009) yaptığı bir çalışmayı ele alalım. Sonuçları görmeden önce, sahip olabileceğiniz çelişkili beklentilerin olduğuna dikkat çekmeye değer. Bir yandan, üretken meslektaşlarla çalışmanın, bir çalışanın akran baskısı nedeniyle üretkenliğini artırmasına yol açmasını bekleyebilirsiniz. Ya da, diğer yandan, çalışkan akranlarına sahip olmanın bir işçinin işten ayrılmasına neden olabileceğini bekleyebilirsiniz çünkü iş zaten onun akranları tarafından yapılacaktır. Üretkenlik üzerindeki akran etkilerini incelemenin en net yolu, işçilerin farklı üretkenlik düzeylerine sahip işçilerle vardiyalara rastgele atandığı ve sonuçta ortaya çıkan üretkenliğin herkes için ölçüldüğü randomize kontrollü bir deney olacaktır. Ancak araştırmacılar, herhangi bir gerçek işte çalışanların zamanlamasını kontrol etmiyorlar ve Mas ve Moretti bir süpermarkette kasiyerlerin yer aldığı doğal bir deneye güvenmek zorunda kaldılar.

Bu özel süpermarkette, programlamanın yapılma şekli ve üst üste kayma şekli nedeniyle, her bir kasiyer farklı günlerde farklı iş arkadaşlarına sahipti. Ayrıca, bu özel süpermarkette, kasiyerlerin görevlendirilmesi, akranlarının üretkenliğiyle ya da mağazanın ne kadar meşgul olduğuyla ilgili değildi. Diğer bir deyişle, kasiyerlerin programlanması bir piyango tarafından belirlenmemiş olsa da, işçiler bazen yüksek (veya düşük) verimlilik akranlarıyla çalışmak üzere rasgele olarak görevlendirilmiş gibiydi. Neyse ki, bu süpermarkette, her kasiyerin her zaman taradığı öğeleri izleyen bir dijital yaş kontrol sistemi vardı. Bu çıkış kayıt verilerinden Mas ve Moretti, kesin, bireysel ve her zaman açık bir üretkenlik ölçüsü oluşturabildiler: Saniyede taranan öğe sayısı. Bu iki şeyi - akran üretkenliğinde ve sürekli üretkenlik ölçüsünde doğal olarak oluşan varyasyon - birleştiren Mas ve Moretti, bir kasiyere ortalamadan% 10 daha verimli olan ortak çalışanlar atandığında, verimliliğinin% 1,5 oranında artacağını tahmin etti. . Dahası, iki önemli konuyu araştırmak için kendi verilerinin büyüklüğünü ve zenginliğini kullandılar: bu etkinin heterojenliği (hangi tür işçiler için daha büyük etki?) Ve etkinin ardındaki mekanizmalar (Neden yüksek verimlilikteki daha yüksek verimlilik?). Deneyleri daha ayrıntılı olarak ele aldığımızda, bu iki önemli konuya - tedavi etkilerinin ve mekanizmalarının heterojenliğine - döneceğiz.

Bu iki çalışmadan genelleştiren tablo 2.3, aynı yapıya sahip olan diğer çalışmaları özetlemektedir: bazı rastlantısal varyasyonların etkisini ölçmek için her zaman açık bir veri kaynağı kullanmak. Uygulamada, araştırmacılar her ikisi de verimli olabilen doğal deneyler bulmak için iki farklı strateji kullanmaktadır. Bazı araştırmacılar her zaman açık bir veri kaynağıyla başlar ve dünyadaki rastlantısal olayları ararlar; diğerleri dünyada rastgele bir olay başlatır ve etkisini yakalayan veri kaynaklarını arar.

Tablo 2.3: Büyük Veri Kaynaklarını Kullanan Doğal Deneylerin Örnekleri
Önemli odak	Doğal deney kaynağı	Her zaman açık veri kaynağı	Referans
Üretkenlik üzerindeki akran etkileri	Planlama süreci	Ödeme verileri	Mas and Moretti (2009)
Arkadaşlık oluşumu	Kasırgalar	Facebook	Phan and Airoldi (2015)
Duyguların yayılması	Yağmur	Facebook	Lorenzo Coviello et al. (2014)
Eşler arası ekonomik transferler	Deprem	Mobil para verileri	Blumenstock, Fafchamps, and Eagle (2011)
Kişisel tüketim davranışı	2013 ABD hükümetinin kapatılması	Kişisel finans verileri	Baker and Yannelis (2015)
Tavsiye sistemlerinin ekonomik etkisi	Çeşitli	Amazon'da veri tarama	Sharma, Hofman, and Watts (2015)
Stresin doğmamış bebeklere etkisi	2006 İsrail-Hizbullah savaşı	Doğum kayıtları	Torche and Shwed (2015)
Wikipedia'da okuma davranışı	Snowden ifşaları	Vikipedi günlükleri	Penney (2016)
Egzersizde akran etkileri	Hava	Fitness takipçileri	Aral and Nicolaides (2017)

Doğal deneyler hakkında şimdiye kadarki tartışmada, önemli bir noktaya değindim: doğanın ne istediğine sağladığı şeylerden bazen oldukça zor olabilir. Vietnam taslak örneğine dönelim. Bu durumda, Angrist askeri hizmetin kazançlar üzerindeki etkisini tahmin etmekle ilgiliydi. Ne yazık ki, askeri hizmet rastgele atanmadı; daha ziyade rasgele olarak atanmıştı. Ancak, taslak olarak hazırlanan herkes hizmet etmedi (çeşitli muafiyetler vardı) ve hizmet eden herkes hazırlanmadı (insanlar hizmet etmek için gönüllü olabilirler). Taslak olarak rastgele seçildiği için, bir araştırmacı taslaktaki tüm erkekler için taslak olmanın etkisini tahmin edebilir. Fakat Angrist, taslağın yaratılmasının etkisini bilmek istemedi; Askerlik hizmetinin etkisini bilmek istedi. Bununla birlikte, bu tahmini yapmak için ek varsayımlar ve komplikasyonlar gereklidir. Öncelikle, araştırmacılar, etkilenen kazançların tasarlanmasının tek yolunun, dışlama kısıtlaması olarak adlandırılan bir varsayım olan askeri hizmet yoluyla olduğunu varsaymak zorundadırlar. Örneğin, taslak halindeki erkekler hizmetten kaçınmak için daha uzun süre okulda kalıyorlarsa ya da işverenlerin taslak halindeki erkekleri işe alma olasılıkları daha az ise, bu varsayım yanlış olabilir. Genel olarak, dışlama kısıtlaması kritik bir varsayımdır ve genellikle doğrulanması zordur. Dışlama kısıtlaması doğru olsa bile, hizmetin tüm erkekler üzerindeki etkisini tahmin etmek hala imkansızdır. Bunun yerine, araştırmacıların, yalnızca düzenleyici olarak adlandırılan erkeklerin belirli bir altkümesi üzerindeki etkisini tahmin edebildikleri ortaya çıkmıştır (taslak halindeyken hizmet verecek olan ancak hazırlanmadığı zaman hizmet vermeyen erkekler) (Angrist, Imbens, and Rubin 1996) . Ancak, compliers orijinal ilgi alanı değildi. Bu sorunların taslak piyango nispeten temiz durumda bile ortaya çıktığına dikkat edin. Tedavi bir fiziksel piyango tarafından atanmadığında başka bir komplikasyon takımı ortaya çıkar. Örneğin, Mas ve Moretti'nin kasiyer araştırmasında, akranların atanmasının esasen rasgele olduğu varsayımıyla ilgili başka sorular ortaya çıkmaktadır. Bu varsayım büyük ölçüde ihlal edilmiş olsaydı, tahminlerini saptırabilirdi. Sonuç olarak, doğal deneyler deney dışı verilerden nedensel tahminler yapmak için güçlü bir strateji olabilir ve büyük veri kaynakları, ortaya çıktıklarında doğal deneyler üzerinde faydalanabilme yeteneğimizi artırır. Bununla birlikte, muhtemelen, doğanın istediğiniz tahminlere sağladığı şeyden büyük özen ve bazen de güçlü varsayımlar gerektirecektir.

Deneysel olmayan verilerden nedensel tahminler yapmak için size bahsetmek istediğim ikinci strateji, tedavi gören ve almayanlar arasındaki önceden var olan farklılıkları açıklamak amacıyla deneysel olmayan verileri istatistiksel olarak ayarlamaya bağlıdır. Bu tür birçok ayar yaklaşımı vardır, ancak eşleşme adı verilen bir konuya odaklanacağım. Eşleştirmede, araştırmacı deneysel olmayan verileri inceleyerek, tedaviyi alıp almayanlar dışında benzer kişilerden oluşan çiftler yaratır. Eşleştirme sürecinde araştırmacılar aslında budama ; açık bir eşleşme bulunmayan halleri atmak. Böylece, bu yöntem daha doğru olarak eşleştirme ve budama olarak adlandırılacaktır, ancak geleneksel terim ile uyuşacağım: eşleştirme.

Kitlesel deneysel olmayan veri kaynakları ile eşleştirme stratejilerinin bir örneği, Liran Einav ve meslektaşlarının (2015) tüketici davranışları konusundaki araştırmalarından gelmektedir. Onlar, eBay'de gerçekleşen ihalelerle ilgilendiler ve çalışmalarını açıklarken, ihale başlangıç fiyatının, satış fiyatı veya bir satış olasılığı gibi açık artırma sonuçlarına olan etkisine odaklanacağım.

Başlangıç fiyatının satış fiyatı üzerindeki etkisini tahmin etmenin en saf yolu, farklı başlangıç fiyatlarına sahip ihalelerin nihai fiyatını basitçe hesaplamak olacaktır. Başlangıç fiyatı verilen satış fiyatını tahmin etmek istiyorsanız bu yaklaşım iyi olur. Ancak sorunuz başlangıç fiyatının etkisi ile ilgiliyse, bu yaklaşım adil karşılaştırmalara dayanmadığı için işe yaramayacaktır; Daha düşük başlangıç fiyatlarına sahip ihaleler, daha yüksek başlangıç fiyatına sahip olanlardan oldukça farklı olabilir (örneğin, farklı türde mallar için olabilirler veya farklı türde satıcılar içerebilirler).

Deney dışı verilerden nedensel tahminler yaparken ortaya çıkabilecek sorunlardan zaten haberdarsanız, saf yaklaşımı atlayabilir ve belirli bir ürünü (örneğin bir golf kulübü) sabit bir yere satabileceğiniz bir saha deneyi yapmayı düşünebilirsiniz. açık artırma parametrelerinden oluşan bir dizi - yani, ücretsiz gönderim ve açık artırma iki hafta için açık, ancak rastgele atanan başlangıç fiyatları ile. Ortaya çıkan pazar çıktılarını karşılaştırarak, bu alan deneyi, başlangıç fiyatının satış fiyatı üzerindeki etkisinin çok net bir ölçümünü sunacaktır. Ancak bu ölçüm sadece belirli bir ürüne ve açık artırma parametrelerine uygulanacaktır. Sonuçlar farklı türdeki ürünler için farklı olabilir. Güçlü bir teori olmadan, bu tek deneyden, çalıştırılabilen tüm olası deneylere kadar tahmin etmek zordur. Ayrıca, saha deneyleri, denemek isteyebileceğiniz her çeşitliliği çalıştırmak için uygun olamayacak kadar pahalıdır.

Naif ve deneysel yaklaşımların aksine, Einav ve meslektaşları üçüncü bir yaklaşım benimsemişlerdir: eşleştirme. Stratejilerindeki ana hile, eBay'de zaten gerçekleşmiş olan saha deneylerine benzer şeyleri keşfetmek. Örneğin, şekil 2.8, tam olarak aynı satıcı tarafından satılan bir Taylormade Burner 09 Sürücüsü için 31 listeden bazılarını göstermektedir - aynı satıcı tarafından satılmaktadır - “bütçegolfer”. Ancak, bu 31 listenin farklı başlangıçlar gibi biraz farklı özellikleri vardır. fiyat, bitiş tarihleri ve kargo ücretleri. Başka bir deyişle, “bütçegolfer” araştırmacılar için deneyler yürütüyormuş gibi.

“Budgetgolfer” tarafından satılan Taylormade Burner 09 Sürücüsünün bu listeleri, aynı ürünün aynı satıcı tarafından satıldığı, ancak her seferinde biraz farklı özelliklere sahip, eşleşen eşleşme listesinin bir örneğidir. EBay'ın masif kütüklerinde milyonlarca listeyi içeren yüz binlerce eşleşmiş küme bulunmaktadır. Böylece, tüm açık artırmalar için nihai fiyatı belirli bir başlangıç fiyatı ile karşılaştırmak yerine, Einav ve meslektaşları eşleştirilmiş kümeler içinde karşılaştırıldı. Einav ve meslektaşları, yüz binlerce eşleşmiş kümedeki karşılaştırmalardan elde edilen sonuçları birleştirmek için, başlangıç fiyatı ve nihai fiyatı, her bir maddenin referans değeri (ör., Ortalama satış fiyatı) cinsinden ifade etmişlerdir. Örneğin, Taylormade Burner 09 Driver'ın 100 $ 'lık bir referans değeri (satışlarına göre) olması halinde, 10 $' lık bir başlangıç fiyatı 0,1 ve 120 $ 'lık bir son fiyat 1.2 olarak ifade edilir.

Şekil 2.8: Eşleştirilmiş bir kümenin bir örneği. Bu, aynı kişi tarafından (ayni kişi tarafından satın alınan ayni golf kulübü (Taylormade Burner 09 Driver) aynısıdır, fakat bu satışların bazıları farklı koşullar altında (örneğin, farklı başlangıç fiyatları) gerçekleştirilmiştir. Einav ve arkadaşlarının izni ile çoğaltılamaz. (2015), şekil 1b.

Şekil 2.8: Eşleştirilmiş bir kümenin bir örneği. Tam olarak aynı kişi tarafından satılan bir ayni kulüp (bir Taylormade Burner 09 Sürücüsü) (“budgetgolfer”), ancak bu satışların bazıları farklı koşullar altında (örneğin, farklı başlangıç fiyatları) gerçekleştirildi. Einav et al. (2015) izni ile Einav et al. (2015) , şekil 1b.

Einav ve meslektaşlarının başlangıç fiyatının ihale sonuçlarına etkisiyle ilgilendiklerini hatırlayın. İlk olarak, daha yüksek başlangıç fiyatlarının bir satış olasılığını azalttığını ve daha yüksek başlangıç fiyatlarının nihai satış fiyatını (satışa bağlı olarak gerçekleşen şartı) artırdığını tahmin etmek için doğrusal regresyon kullanmışlardır. Kendileri tarafından, doğrusal bir ilişkiyi tanımlayan ve tüm ürünler üzerinde ortalaması alınan bu tahminler, hepsi bu kadar ilginç değildir. Daha sonra, Einav ve meslektaşları, çeşitli daha ince tahminler oluşturmak için verilerin büyük boyutlarını kullandılar. Örneğin, farklı başlangıç fiyatları için ayrı ayrı etkiyi tahmin ederek, başlangıç fiyatı ile satış fiyatı arasındaki ilişkinin doğrusal olmadığını bulmuşlardır (Şekil 2.9). Özellikle, fiyatların 0,05 ila 0,85 arasında olması için, başlangıç fiyatının satış fiyatı üzerinde çok az etkisi vardır; bu, ilk analizleri tarafından tamamen gözden kaçırılan bir bulgudur. Ayrıca, Einav ve meslektaşları, tüm eşyaların ortalamasından ziyade, 23 farklı kategoride (ör. Evcil hayvan malzemeleri, elektronik ve spor hatıraları) başlangıç fiyatının etkisini tahmin ettiler (şekil 2.10). Bu tahminler, hatıra gibi daha ayırt edici öğelerin başlangıç fiyatının bir satış olasılığını ve nihai satış fiyatı üzerinde daha büyük bir etkiye sahip olduğunu göstermektedir. Dahası, daha fazla metalaştırılmış ürün için (DVD'ler gibi) başlangıç fiyatının nihai fiyat üzerinde neredeyse hiçbir etkisi yoktur. Diğer bir deyişle, 23 farklı kategoriden alınan sonuçları bir araya getiren bir ortalama, bu kalemler arasındaki önemli farkları gizler.

Şekil 2.9: Açık artırma başlangıç fiyatı ile satış (a) ve satış fiyatı (b) olasılığı arasındaki ilişki. Başlangıç fiyatı ile satış olasılığı arasında doğrusal bir ilişki vardır, ancak başlangıç fiyatı ile satış fiyatı arasında doğrusal olmayan bir ilişki vardır; Fiyatların 0,05 ve 0,85 arasında olması için başlangıç fiyatının satış fiyatı üzerinde çok az etkisi vardır. Her iki durumda da, ilişkiler temel olarak madde değerinden bağımsızdır. Einav et al. (2015) , şekil 4a ve 4b.

Şekil 2.10: Her bir öğe kategorisinden tahminler; Katı nokta, birlikte toplanan tüm kategorilerin tahminidür (Einav et al. 2015) . Bu tahminler göstermektedir ki, anıtabilgi gibi daha belirgin öğeler için başlangıç fiyatının bir satış olasılığına ( $x$ -aksiye) ve nihai satış fiyatında daha büyük bir etkiye sahip olduğu ( $y$ ekseni). Einav et al. (2015) , şekil 8.

Özellikle eBay'deki açık artırmalarla ilgilenmemekle birlikte, şekil 2.9 ve şekil 2.10'un, doğrusal bir ilişkiyi tanımlayan ve birçok farklı öğe kategorisini birleştiren basit tahminlerden daha zengin bir eBay sunma şeklini takdir etmelisiniz. Dahası, bu daha incelikli tahminleri alan deneyleriyle üretmek bilimsel olarak mümkün olsa da, maliyet böyle deneyleri temelde imkansız hale getirecektir.

Doğal deneylerde olduğu gibi, eşleşmenin kötü tahminlere yol açabileceği çeşitli yollar vardır. Eşleştirme tahminleriyle ilgili en büyük endişenin, eşleşmede kullanılmayan şeylerin önyargılı olmaları olduğunu düşünüyorum. Örneğin, ana sonuçlarında, Einav ve meslektaşları dört özellik üzerinde tam eşleme yapmışlardır: satıcı kimlik numarası, madde kategorisi, öğe başlığı ve altyazı. Öğeler, eşleşme için kullanılmayan şekillerde farklıysa, bu durum haksız bir karşılaştırma oluşturabilir. Örneğin, “budgetgolfer”, kışın Taylormade Burner 09 Sürücüsü için fiyatları düşürdüğünde (golf kulüpleri daha az popüler olduğunda), daha düşük başlangıç fiyatlarının daha düşük nihai fiyatlara yol açabileceği ortaya çıkmış olabilir. talepte mevsimsel değişim. Bu kaygıyı ele alan bir yaklaşım, birçok farklı türde eşleştirmeye çalışmaktır. Örneğin, Einav ve arkadaşları, eşleştirme için kullanılan zaman penceresini değiştirirken analizlerini tekrarladılar (eşleşen setler bir yıl içinde, bir ay içinde ve aynı tarihte satışa sunulan eşyalar dahil). Neyse ki, tüm zaman pencereleri için benzer sonuçlar buldular. Eşleme ile ilgili başka bir endişe, yorumdan kaynaklanır. Eşleşmeden elde edilen tahminler yalnızca eşleşen verilere uygulanır; Eşleştirilemeyen vakalara başvurmazlar. Örneğin, araştırmalarını birden fazla listeye sahip olan öğelere sınırlandırarak, Einav ve meslektaşları profesyonel ve yarı profesyonel satıcılara odaklanıyor. Dolayısıyla, bu karşılaştırmaları yorumlarken, sadece eBay'in bu alt kümesine uygulandıklarını hatırlamalıyız.

Eşleştirme, deney dışı verilerde adil karşılaştırmalar bulmak için güçlü bir stratejidir. Birçok sosyal bilimciye, eşleştirme deneylere ikinci en iyi geliyor, ama bu biraz revize edilebilir bir inançtır. Büyük verilerde eşleşme, (1) etkilerde heterojenite önemli olduğunda ve (2) eşleştirme için gerekli olan önemli değişkenler ölçüldüğünde, az sayıda saha deneyinden daha iyi olabilir. Tablo 2.4, eşlemenin büyük veri kaynakları ile nasıl kullanılabileceğine dair başka örnekler sunmaktadır.

Tablo 2.4: Büyük Veri Kaynakları ile Eşleşen Kullanım Örnekleri
Önemli odak	Büyük veri kaynağı	Referans
Çekimlerin polis şiddetine etkisi	Stop-ve-Frisk kayıtları	Legewie (2016)
11 Eylül 2001'in aileler ve komşular üzerindeki etkisi	Oylama kayıtları ve bağış kayıtları	Hersh (2013)
Sosyal bulaşma	İletişim ve ürün adaptasyon verileri	Aral, Muchnik, and Sundararajan (2009)

Sonuç olarak, deneysel olmayan verilerden nedensel etkilerin tahmin edilmesi zordur, ancak doğal deneyler ve istatistiksel düzeltmeler (örneğin, eşleştirme) gibi yaklaşımlar kullanılabilir. Bazı durumlarda, bu yaklaşımlar yanlış bir şekilde yanlış gidebilir, ancak dikkatli bir şekilde konuşlandırıldığında, bu yaklaşımlar, 4. bölümde anlattığım deneysel yaklaşım için yararlı bir tamamlayıcı olabilir. Ayrıca, bu iki yaklaşımın, her zaman büyümeden fayda sağlaması muhtemel görünmektedir. Açık, büyük veri sistemleri.