3.4.2 Sigara olasılık örnekleri: ağırlıklandırma

Bu çeviri bir bilgisayar tarafından oluşturuldu. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 Sigara olasılık örnekleri: ağırlıklandırma

Olasılık dışı örnekleri ile, ağırlıklar kabul örnekleme sürecinin neden olduğu bozulmaları geri alabilirsiniz.

Araştırmacılar olasılık örneklerinden yanıtları ağırlık Aynı şekilde, onlar da olasılık dışı örneklerinden yanıtları kilo yapabilirsiniz. Örneğin, CPS bir alternatif olarak, işsizlik oranını tahmin etmek için bir anket için katılacakları belirlemek için binlerce web sitesinde banner reklamları yer düşünün. Doğal olarak, size örnek basit ortalama işsizlik oranı iyi bir tahmin olacağını şüpheci olur. Eğer bazı insanlar diğerlerinden daha senin anketi tamamlamak için daha olası olduğunu düşünüyorum çünkü senin şüphecilik muhtemelen. Örneğin, web üzerinde çok fazla zaman harcamak yok insanlar anketi tamamlamak için daha az olasıdır.

son bölümde gördüğümüz gibi, ancak, biz biliyoruz, eğer örnek seçilen-as nasıl biz olasılık yapmak örneklerin-o zaman örnekleme sürecinin neden olduğu bozulmaları geri alabilirsiniz. olasılık dışı örnekleri ile çalışırken ne yazık ki, biz örnek seçildi bilmiyorum. Ama biz örnekleme süreci hakkında varsayımlar yapmak ve daha sonra aynı şekilde ağırlık uygulayabilirsiniz. Bu varsayımlar doğruysa, o zaman ağırlık örnekleme sürecinin neden olduğu bozulmaları geri alır.

Örneğin, banner reklamlar cevaben, 100.000 ankete işe düşünün. Ancak, bu 100.000 katılımcıların Amerikalı yetişkinlerin basit tesadüfi örneklem olduğuna inanmıyorum. Eğer ABD nüfusunun için katılımcıların karşılaştırdığımız zaman aslında, bazı devletler (örneğin, New York) insanlar bazı eyaletlerde (örneğin, Alaska) den-over temsil ve insanlar yeterince temsil olduğunu bulmak. Böylece, örneğin işsizlik oranı hedef nüfusta işsizlik oranı kötü bir tahmin olması muhtemeldir.

Örnekleme sürecinde yaşanan bozulma geri almak için bir yolu, her kişiye ağırlıkları atamak için; numune (örneğin, Alaska) içinde yeterince temsil edilmektedir devletlerin insanlara (örneğin, New York) numune ve daha yüksek ağırlıkları fazla temsil edildiği ülkelerden gelen insanlara daha düşük ağırlıklar. Daha spesifik olarak, her davalı için ağırlık ABD nüfusunun kendi yaygınlığı için örnek göreli olarak kendi yaygınlığı ile ilişkilidir. Bu ağırlıklandırma işlemi sonrası tabakalaşma denir ve Rhode Island'dan katılımcıların California katılımcıların daha az ağırlık verildi nerede ağırlığında fikri Bölüm 3.4.1, örneğin size hatırlatmak gerekir. Post-tabakalaşma gruplar halinde deneklere koymak ve her grupta hedef nüfusun oranını bilmek yeterli bilmesini gerektirir.

olasılık örnek olmayan olasılık örnek ağırlıklandırma aynı matematiksel (teknik eke bakınız) olmasına rağmen, bunlar farklı durumlarda iyi çalışır. Araştırmacı mükemmel bir olasılık örneği (yani, hiçbir kapsama hata ve olmayan hiçbir yanıt) varsa, o zaman ağırlıklandırma her durumda tüm özellikler için tarafsız tahminler üretecek. olasılık örneklerinin savunucuları onları çok çekici buluyorum Bu yüzden güçlü bir teorik garantisidir. Öte yandan, ağırlık olmayan olasılık örnekleri tepki eğilimleri her gruptaki herkes için aynı olması durumunda tüm özellikler için tarafsız tahminler sadece üretecek. Diğer bir deyişle, New York'ta herkes katılan ve Alaska herkes çok üzerinde katılımcı ve aynı olasılık vardır aynı olasılık varsa tarafsız tahminler üretecek sonrası tabakalaşma kullanarak, bizim örneğimizde geri düşünme. Bu varsayım homojen-tepki eğilimleri-içinde-gruplar varsayımı denir, ve post-tabakalaşma olmayan olasılık örnekleri ile iyi çalışacak eğer bilerek önemli bir rol oynar.

Ne yazık ki, bizim örneğimizde, homojen-cevap-eğilimleri-içinde-gruplar varsayım doğru olması muhtemel görünüyor. Yani, Alaska herkes ankete olmanın aynı olasılığına sahiptir olası görünmemektedir. Ancak, daha umut verici görünüyor yapmak bütün bunlar post-tabakalaşma hakkında akılda tutulması gereken üç önemli nokta vardır.

İlk olarak, homojen bir yanıt-eğilimleri-içinde-grupları varsayım grupları sayısı arttıkça daha makul hale gelmektedir. Ve, araştırmacılar, sadece tek bir coğrafi boyuta göre gruplara bunlarla sınırlı değildir. Örneğin, biz devlet, yaş, cinsiyet ve eğitim seviyesine göre gruplar oluşturabilir. Bu 18-29 grubu içinde homojen tepki eğilimleri olduğunu daha makul görünüyor, Alaska yaşayan tüm insanların grup içinde daha Alaska'da yaşayan kadın, üniversite mezunu. Böylece, tabakalaşma sonrası artar kullanılan grupların sayısı, varsayımlar daha makul hale desteklemek için gerekli. Bu gerçeği göz önüne alındığında, bir araştırmacı sonrası katmanlandırılmasında grupların çok sayıda oluşturmak isteyeyim gibi görünüyor. Veri seyreklik: Ama, gruplar sayısı arttıkça, araştırmacılar, farklı bir sorun haline çalıştırmak. Her gruptaki insanların sadece küçük bir sayı varsa, o zaman tahminler daha belirsiz olabilir ve aşırı durumunda hiçbir katılımcıların sahip bir grup olduğu yerde, daha sonra post-tabakalaşma tamamen ayırır. homogeneous- tepki eğilimi-içinde-grupların varsayım inandırıcılık ve her grupta makul numune boyutları için talep arasındaki bu doğal gerginliğin dışında iki yolu vardır. Bir yaklaşım ağırlıkları hesaplamak için daha sofistike bir istatistik modeli taşımak ve diğer her grupta makul numune boyutlarını sağlamaya yardımcı olur daha büyük, daha farklı örnek, toplamaktır. Ben aşağıda daha ayrıntılı olarak anlatacağım gibi, bazen de araştırmacılar, her ikisi de yok.

olasılık dışı örneklerinden sonrası tabakalaşma ile çalışan ikinci bir husus olasılık örneklerini analiz ederken homojen-tepki eğilimi-içinde-gruplar varsayım zaten sık sık yapılmış olmasıdır. Bu varsayım, uygulamada olasılığı örnekler için gerekli olan bu nedenle olasılığı örnekleri olmayan yanıtı olduğunu ve yukarıda tarif edildiği gibi olmayan yanıtı için ayarlanması için en yaygın yöntem tabakalaşma sonrası olup. Tabii ki, birçok araştırmacı belirli bir varsayım siz de bunu gerektiği anlamına gelmez olun çünkü. Ancak, pratikte olasılık numunelerine olmayan olasılık örnekleri karşılaştırırken, her iki tahminler üretmek amacıyla varsayımlar ve yardımcı bilgiler bağlıdır akılda tutmak gerektiği anlamına gelmez. en gerçekçi ayarlarında, sadece sonuç çıkarma hiçbir varsayım içermeyen bir yaklaşım yoktur.

Bizim örnek işsizlik özellikle-yaklaşık bir tahmin bakım Son olarak, oran-sonra homojen-tepki eğilimi-içinde-grupları varsayımı daha zayıf bir durum gerekir. Özellikle, sadece her grup içinde yanıt eğilimi ve işsizlik oranı arasında bir ilişki olduğunu varsaymak gerekir, herkes aynı cevabı eğilime sahip olduğunu varsaymak gerekmez. Tabii ki, hatta bu zayıf durum bazı durumlarda tutamaz. Örneğin, gönüllü işi Amerikalılar oranını tahmin düşünün. Gönüllü iş yapan insanlar bir ankete olmayı kabul olasılığı daha yüksektir, daha sonra araştırmacılar olacaktır sistematik aşırı tahmin onlar tarafından deneysel ortaya konmuştur bir sonuç sonrası tabakalaşma ayarlamalar yapmak bile, gönüllülük miktarı Abraham, Helms, and Presser (2009) .

Daha önce de söylediğim gibi, olasılık dışı örnekleri nedeniyle anket araştırması ilk günlerinde en utanç verici başarısızlık bazı rolleri bölümünde, sosyal bilimciler tarafından büyük bir şüpheyle değerlendirilmektedir. non-olasılık örnekleri ile gelmiş ne kadar açık bir örnek doğru Amerikan Xbox kullanıcıları olmayan bir olasılık örnek kullanarak 2012 ABD seçimlerinin sonucunu kurtarıldı Wei Wang, David Rothschild, Sharad Goel ve Andrew Gelman ve araştırma Amerikalıların -a kesinlikle tesadüfi olmayan örnekleme (Wang et al. 2015) . Araştırmacılar XBox oyun sisteminden ankete işe ve Tahmin edebileceğiniz gibi, Xbox örnek erkek çarpık ve genç çarpık: 18-29 yaşındakiler seçmenlerin% 19 ancak Xbox numunenin% 65 makyaj ve erkekler% 47 makyaj seçmenlerin ve Xbox örnek (Şekil 3.4)% 93. Çünkü Bu güçlü demografik önyargıları ham Xbox veri Seçim sonuçları bir zayıf bir gösterge oldu. Bu Barack Obama üzerinde Mitt Romney için güçlü bir zafer öngördü. Yine, bu ham, düzeltilmemiş olasılık dışı örneklerinin tehlikeleri başka örneğidir ve Edebiyat Digest fiyasko andırır.

Şekil 3.4: Wang ve ark katılımcıların demografik. (2015). Katılımcıların XBox dan alınmıştır çünkü onlar genç ve 2012 seçimlerinde seçmenlerin göreli erkek, olması daha muhtemeldir olma olasılığı daha fazladır.

Şekil 3.4: katılımcıların demografik Wang et al. (2015) . Katılımcıların XBox dan alınmıştır çünkü onlar genç ve 2012 seçimlerinde seçmenlerin göreli erkek, olması daha muhtemeldir olma olasılığı daha fazladır.

Ancak, Wang ve arkadaşları bu sorunların farkında olduklarını ve örnekleme işlemi düzeltmek için ankete ağırlık çalıştı. Özellikle, onlar sana bahsettiğim sonrası tabakalaşma daha sofistike bir formu kullanılmıştır. O sonrası tabakalaşma hakkında sezgi oluşturur, çünkü onların yaklaşımı hakkında biraz daha öğrenmeye değer olduğunu ve kullanılan özel versiyon Wang ve arkadaşları ağırlık olmayan olasılık örnekleri en heyecan verici yaklaşımlardan biridir.

Bölüm 3.4.1 işsizliği tahmin hakkındaki basit örnekte, biz ikamet durumuna göre gruplara nüfusu ayrılmıştır. Buna karşılık, Wang ve arkadaşları tarafından tanımlanan 176.256 gruba nüfusu ayrılır: cinsiyet (2 kategori), ırk (4 kategoriler), yaş (4 kategoriler), eğitim (4 kategoriler), devlet (51 kategoriler), parti kimliği (3 kategoriler), ideoloji (3 kategoriler) 2008 oy (3 kategori). daha fazla grup ile, araştırmacılar her grup içinde, yanıt eğilimi Obama desteği ile ilintisiz olduğunu giderek daha büyük olacağını umuyordu. Sonra, daha doğrusu bizim örneğimizde olduğu gibi, bireysel düzeyde ağırlıkları inşa daha Wang ve arkadaşları Obama'ya oy vereceğini, her gruptaki insanların oranını tahmin etmek için karmaşık bir modeli kullanıldı. Son olarak, bir destek tahmini genel düzeyini üretmek için her grubun bilinen boyutu ile bu destek grup tahminleri kombine. Diğer bir deyişle, bunlar, farklı gruplar halinde nüfusu kıyılmış her grupta Obama destek belirlenir ve daha sonra genel bir tahmin üretmek için, tahmini bir ağırlıklı ortalama aldı.

Böylece, onların yaklaşım büyük bir meydan okuma, bu 176.256 grupların her birinde Obama'ya destek tahmin etmektir. onların paneli 345.858 benzersiz katılımcılar, seçim yoklama standartlarına göre çok sayıda dahil olmasına rağmen, Wang ve arkadaşları hemen hemen hiç katılımcıların vardı birçok, birçok grup vardı. Bu nedenle, araştırmacılar sevgiyle birçoğundan Bay P. havuzları bilgi belirli bir grup içinde Obama'ya destek tahmin etmek, Esasen Sayın P. çağrı sonrası tabakalaşma ile çoklu regresyon denilen bir tekniği kullanılan her grupta, destek tahmin etmek yakından grupları ile ilgili. Örneğin, kim ılımlılar olarak kendini tanımlamak Demokratlar kayıtlı üniversite mezunu, vardır, ve bu 2008 yılında Obama için oy veren, 18-29 yaş arasında, kadın İspanyollar arasında Obama'ya destek tahmin meydan düşünün çok, çok özel bir grubu olduğu ve bu özelliklere sahip numunede kimse olması mümkündür. Bu nedenle, bu grup hakkında tahminler yapmak için Bay P. havuzları birbirine çok benzer gruplar insanlardan tahmin ediyor.

Bu analiz stratejiyi kullanarak, Wang ve arkadaşları (Şekil 3.5) çok yakından Obama, 2012 seçimlerinde aldığı genel destek tahmin etmek XBox olmayan olasılık örneği kullanmak başardık. Aslında onların tahminleri kamuoyu yoklamaları bir agrega daha doğru. Böylece, bu durumda, ağırlık-spesifik Sayın olmayan olasılık verileri ayrımcı uygulamaları düzelterek iyi bir iş yapmak P.-görünüyor; Eğer düzeltilmemiş Xbox verilerinden tahminlerine baktığımızda görülebilir önyargılar.

Şekil 3.5: Wang ve ark gelen tahminler. (2015). Düzeltilmemiş XBox Örnek kesin olmayan tahminler üretti. Ama, ağırlıklı XBox örnek olasılık tabanlı telefon anketleri ortalama daha doğru olduğunu tahminleri üretti.

Şekil 3.5: gelen Tahminler Wang et al. (2015) . Düzeltilmemiş XBox Örnek kesin olmayan tahminler üretti. Ama, ağırlıklı XBox örnek olasılık tabanlı telefon anketleri ortalama daha doğru olduğunu tahminleri üretti.

Wang ve arkadaşlarının çalışmasında iki ana dersler vardır. İlk olarak, düzeltilmemiş olasılık dışı örnekleri kötü tahminlere yol açabilir; Bu pek çok araştırmacı daha önce duymuş olduğu bir derstir. Ancak, ikinci ders düzgün ağırlıklı zaman olmayan olasılık örnekleri, aslında oldukça iyi tahminler üretebilir olmasıdır. Aslında, tahminler pollster.com, daha geleneksel seçim sandık bir toplama tahminlerine göre daha doğru.

Son olarak, bu belirli bir çalışma öğrenebilir ne önemli sınırlamalar vardır. tabakalaşma sonrası bu özel durumda iyi çalıştı Çünkü, diğer durumlarda iyi çalışacağına dair bir garanti yoktur. anketörler yaklaşık 100 yıldır seçimleri okuyor çünkü aslında, seçimler belki de en kolay ayarlardan biri, orada düzenli geribildirim (biz seçimleri kazanan kim görebilir) ve taraf kimlik ve demografik özellikleri oylama nispeten öngörü vardır. Bu noktada, biz sağlam teori ve olasılık dışı örnekleri ağırlıklandırılarak ayarlamalar yeterince doğru tahminler üretecek ne zaman bilmek ampirik deneyim eksikliği. olmayan olasılık örnekleri ile çalışmak zorunda ise açıktır bir şey, ancak, daha sonra düzeltilmiş tahminler olmayan düzeltilmiş tahminlerden daha iyi olacağına inanmak için güçlü bir neden yoktur.