3.6.1 Zenginleştirilmiş soran

Zenginleştirilmiş sorgulamada, anket verileri, bazı önemli ölçümleri içeren ancak başkalarından yoksun olan büyük bir veri kaynağı etrafında bağlam oluşturur.

Anket verilerini ve büyük veri kaynaklarını birleştirmenin bir yolu, zenginleştirilmiş soran diyeceğim bir süreçtir. Zengin sorulmada, büyük bir veri kaynağı bazı önemli ölçümler içerir, ancak diğer ölçümlerden yoksundur, bu nedenle araştırmacı bu eksik ölçümleri bir ankette toplar ve daha sonra iki veri kaynağını birbirine bağlar. Zenginleştirilmiş bir soruna örnek olarak, Burke and Kraut (2014) Facebook'ta etkileşim Burke and Kraut (2014) arkadaşlık gücünü artırıp artırmayacağı konusundaki çalışma, bölüm 3.2'de anlattığım). Bu durumda Burke ve Kraut anket verilerini Facebook günlük verileriyle birleştirdi.

Bununla birlikte, Burke ve Kraut'un çalıştığı ortam, araştırmacıların tipik olarak yüz yüze gelmek için zenginleştirdikleri iki büyük sorunla uğraşmak zorunda kalmamaları anlamına geliyordu. Birincisi, her bir veri kümesinde, bir veri kümesindeki doğru kaydın doğru kayıtla eşleştiğinden emin olmak için kullanılabilecek benzersiz bir tanımlayıcı yoksa, tek tek veri kümelerini birbirine bağlayan, kayıt bağlantısı adı verilen bir işlem zor olabilir. diğer veri kümesinde. Zengin sorma ile ilgili ikinci temel sorun, büyük veri kaynağının kalitesinin, araştırmacıların değerlendirmesi için sık sık zor olacağıdır. Çünkü verilerin oluşturulduğu süreç tescilli olabilir ve bölüm 2'de açıklanan sorunların çoğuna karşı hassas olabilir. Başka bir deyişle, zenginleştirilen soruşturma, sıklıkla, anketlerin, bilinmeyen kalitede kara kutu veri kaynaklarına, hata eğilimli bir şekilde bağlanmasını içerecektir. Bununla birlikte, bu sorunlara rağmen, Stephen Ansolabehere ve Eitan Hersh (2012) tarafından ABD'deki oylama modelleri üzerine yaptıkları araştırmada da gösterildiği gibi, zengin araştırmalar önemli araştırmalar yapmak için kullanılabilir.

Seçmen katılımı, siyaset biliminde kapsamlı bir araştırmaya konu olmuştur ve geçmişte, araştırmacıların kimin oy kullandığı ve niçin genel olarak anket verilerinin analizine dayandığı konusundaki anlayışı olmuştur. Oysa Amerika Birleşik Devletleri'nde oy verme, hükümetin her bir vatandaşın oy kullanıp kullanmadığını kaydetmesiyle ilgili olağandışı bir davranıştır (tabii ki hükümet, her vatandaşın oy kullandığı kimseyi kaydetmez). Uzun yıllar boyunca, bu hükümet oyları, ülke çapında çeşitli yerel yönetim ofislerine dağılmış kağıt formlarda mevcuttu. Bu, siyaset bilimcilerin seçmenler hakkında tam bir resme sahip olmaları ve insanların gerçek oy kullanma davranışları ile oy kullanma hakkındaki anketlerde ne söylediklerini karşılaştırmaları için çok zor ama imkansız (Ansolabehere and Hersh 2012) .

Ancak bu oylama kayıtları artık dijitalleştirildi ve bir dizi özel şirket, tüm Amerikalıların oy kullanma davranışlarını içeren kapsamlı oylama dosyalarını üretmek için sistematik olarak toplandı ve birleştirdi. Ansolabehere ve Hersh seçmenlerin daha iyi bir resmini geliştirmek için ana oylama dosyalarını kullanabilmek amacıyla bu şirketlerden biri olan Katalist LCC ile ortaklık kurdular. Dahası, araştırmaları, veri toplama ve uyumlaştırma konusunda önemli kaynaklara yatırım yapmış bir şirket tarafından toplanan ve küratörlüğünü yaptığı dijital kayıtlara dayandığı için, şirketlerin yardımı olmadan ve analog kayıtlar kullanılarak yapılan önceki çabalara göre birtakım avantajlar sunmuştur.

2. bölümdeki büyük veri kaynaklarının çoğunda olduğu gibi, Katalist ana dosya, Ansolabehere ve Hersh'in ihtiyaç duyduğu demografik, tutumsal ve davranışsal bilgilerin çoğunu içermiyordu. Aslında, özellikle onaylanmış oy verme davranışlarıyla (yani, Katalist veri tabanındaki bilgiler) yapılan anketlerde rapor edilen oy verme davranışlarını karşılaştırmakla ilgileniyorlardı. Böylece Ansolabehere ve Hersh istedikleri verileri büyük bir sosyal araştırma, bu bölümde daha önce bahsedilen CCES olarak topladılar. Daha sonra, verilerini Katalist'e verdiler ve Katalist, onaylanmış oy kullanma davranışlarını (Katalist'ten), kendinden bildirilen oy verme davranışını (CCES'den) ve katılımcıların demografik ve tutumlarını (CCES'ten) içeren birleşik bir veri dosyasını geri verdi. 3.13). Diğer bir deyişle, Ansolabehere ve Hersh, veri kaynağıyla tek başına mümkün olmayan araştırmalar yapmak için anket verilerini veriyle birleştirdi.

Şekil 3.13: Ansolabehere ve Hersh (2012) tarafından yapılan çalışma şeması. Ana veri dosyasını oluşturmak için, Katalist birçok farklı kaynaktan gelen bilgileri birleştirir ve uyumlaştırır. Bu birleştirme süreci, ne kadar dikkatli olursa olsun, orijinal veri kaynaklarındaki hataları yaymaya ve yeni hatalar getirecek. İkinci bir hata kaynağı, anket verileri ve ana veri dosyası arasındaki kayıt bağlantısıdır. Her bir kişi, her iki veri kaynağında da kararlı ve benzersiz bir tanımlayıcıya sahip olsaydı, bağlantı önemsiz olurdu. Ancak, Katalist, bu durumda isim, cinsiyet, doğum yılı ve ev adresi gibi kusurlu tanımlayıcılar kullanarak bağlantı kurmak zorunda kaldı. Ne yazık ki, birçok durumda eksik veya yanlış bilgiler olabilirdi; Homer Simpson adlı bir seçmen Homer Jay Simpson, Homie J Simpson, hatta Homer Sampsin olarak görünebilir. Katalist ana veri dosyasındaki hatalara ve kayıt bağlantısındaki hatalara rağmen Ansolabehere ve Hersh, tahminlerine birkaç farklı kontrol tipi ile güven verebildiler.

Şekil 3.13: Ansolabehere and Hersh (2012) tarafından yapılan çalışma şeması. Ana veri dosyasını oluşturmak için, Katalist birçok farklı kaynaktan gelen bilgileri birleştirir ve uyumlaştırır. Bu birleştirme süreci, ne kadar dikkatli olursa olsun, orijinal veri kaynaklarındaki hataları yaymaya ve yeni hatalar getirecek. İkinci bir hata kaynağı, anket verileri ve ana veri dosyası arasındaki kayıt bağlantısıdır. Her bir kişi, her iki veri kaynağında da kararlı ve benzersiz bir tanımlayıcıya sahip olsaydı, bağlantı önemsiz olurdu. Ancak, Katalist, bu durumda isim, cinsiyet, doğum yılı ve ev adresi gibi kusurlu tanımlayıcılar kullanarak bağlantı kurmak zorunda kaldı. Ne yazık ki, birçok durumda eksik veya yanlış bilgiler olabilirdi; Homer Simpson adlı bir seçmen Homer Jay Simpson, Homie J Simpson, hatta Homer Sampsin olarak görünebilir. Katalist ana veri dosyasındaki hatalara ve kayıt bağlantısındaki hatalara rağmen Ansolabehere ve Hersh, tahminlerine birkaç farklı kontrol tipi ile güven verebildiler.

Birleştirilmiş veri dosyasıyla Ansolabehere ve Hersh üç önemli sonuca vardı. Birincisi, oylamaların aşırı bildirilmesi yaygındır: oy kullanmayanların neredeyse yarısı oy kullanma hakkına sahiptir ve eğer bir kişi oy verdiyse, oy kullanma şansı sadece% 80'dir. İkincisi, aşırı raporlama rasgele değildir: aşırı-raporlama, kamu işlerinde çalışan yüksek gelirli, iyi eğitimli, partizanlar arasında daha yaygındır. Diğer bir deyişle, oy kullanma olasılığı en yüksek olan kişilerin de oy verme konusunda yalan söyleme olasılığı yüksektir. Üçüncüsü ve en eleştirel olarak, aşırı raporlama sisteminin sistematik niteliği nedeniyle, seçmenler ve konuşmacılar arasındaki gerçek farklar, sadece anketlerden göründüğünden daha küçüktür. Örneğin, lisans diplomasına sahip olanların oy verme olasılığı yaklaşık 22 puan daha yüksektir, oysa gerçekte oy kullanma olasılığı sadece yüzde 10'dur. Şaşırtıcı olmayan bir şekilde, mevcut oylamaya dayalı oylama teorilerinin, kimin oy kullandığını tahmin etmekten ziyade, (kimin geçmişte kullandığı veriler) oylamayı kimin rapor edeceğini tahmin etmede çok daha iyi olduğu ortaya çıkıyor. Böylece, Ansolabehere and Hersh (2012) ampirik bulguları, Ansolabehere and Hersh (2012) anlamak ve tahmin etmek için yeni teoriler çağrısında bulunmaktadır.

Ama bu sonuçlara ne kadar güvenmeliyiz? Unutmayın, bu sonuçlar, bilinmeyen miktarlarda hatalarla birlikte kara kutu verilere hataya eğilimli bağlantıya dayanmaktadır. Daha spesifik olarak, sonuçlar iki temel adımda işe yarar: (1) Katalistin, birçok farklı veri kaynağını doğru bir ana veri dosyası oluşturmak için birleştirmesi ve (2) Katalistin anket verilerini ana veri dosyasına bağlayabilme yeteneği. Bu adımların her biri zor ve her iki adımdaki hatalar araştırmacıları yanlış sonuçlara yönlendirebilir. Bununla birlikte, hem veri işleme hem de bağlantı, bir şirket olarak Katalistlerin varlığını devam ettirmek için kritik öneme sahiptir, bu nedenle bu problemleri çözmek için, çoğu akademik araştırmacının eşleşemeyeceği bir ölçekte, kaynaklara yatırım yapabilir. Çalışmalarında Ansolabehere ve Hersh, bu iki adımın sonuçlarını kontrol etmek için bazı adımlardan geçiyor - bunların bir kısmı tescilli olsa da - ve bu kontroller, anket verilerini kara kutu büyük verilerine bağlamak isteyen diğer araştırmacılar için faydalı olabilir kaynaklar.

Araştırmacıların bu çalışmadan alabileceği genel dersler nelerdir? Birincisi, hem büyük veri kaynaklarını hem de araştırma verileriyle zenginleştirmekten ve büyük veri kaynakları ile anket verilerini zenginleştirmekten muazzam bir değer vardır (bu çalışmayı her iki şekilde de görebilirsiniz). Bu iki veri kaynağını birleştirerek, araştırmacılar ya bireysel olarak imkansız bir şey yapabildiler. İkinci genel ders, toplanmış olsa da, Katalist veriler gibi ticari veri kaynaklarının “temel gerçek” olarak görülmemesi, bazı durumlarda yararlı olabileceğidir. Kuşkucular bazen bu toplu, ticari veri kaynağını mutlak Gerçekle karşılaştırır ve bu veri kaynaklarının yetersiz kaldığına dikkat çeker. Ancak, bu durumda, şüpheciler yanlış karşılaştırmayı yapıyorlar: araştırmacıların kullandığı tüm veriler mutlak Gerçeğin yetersiz kalıyor. Bunun yerine, toplanmış, ticari veri kaynaklarını, diğer mevcut veri kaynaklarıyla (örn., Kendi kendini rapor eden oy verme davranışı) karşılaştırmak daha iyidir. Son olarak, Ansolabehere ve Hersh'in çalışmasının üçüncü genel dersi, bazı durumlarda, araştırmacıların, birçok özel şirketin karmaşık sosyal veri kümelerini toplama ve uyumlaştırmada yaptıkları dev yatırımlardan yararlanabileceğidir.