Matematiksel notlar

Bu ekte, bölümdeki bazı fikirleri biraz daha matematiksel bir biçimde açıklayacağım. Buradaki amaç, anket araştırmacıları tarafından kullanılan notasyon ve matematiksel çerçeve ile rahat olmanıza yardımcı olmaktır, böylece bu konularda yazılmış daha fazla teknik materyale geçiş yapabilirsiniz. Olasılık örneklemesini tanıtarak başlayacağım, sonra cevapsızlıkla örnekleme olasılığına geçeceğim ve son olarak olasılık dışı örnekleme yapacağım.

Olasılık örneklemesi

Çalışan bir örnek olarak, ABD'deki işsizlik oranını tahmin etme amacını düşünelim. \(U = \{1, \ldots, k, \ldots, N\}\) hedef popülasyon olsun ve \(k\) için sonuç değişkeninin değerine göre \(y_k\) \(k\) . Bu örnekte \(y_k\) , \(k\) kişinin işsiz olup olmadığıdır. Son olarak, basitlik uğruna hedef popülasyonla aynı olduğu varsayılan çerçeve popülasyonu olan \(F = \{1, \ldots, k, \ldots, N\}\) olsun.

Basit bir örnekleme tasarımı, değiştirilmeden basit rastgele örnekleme yöntemidir. Bu durumda, her bireyin eşit olarak örnekte yer alması muhtemeldir \(s = \{1, \ldots, i, \ldots, n\}\) . Bu örnekleme tasarımı ile veriler toplandığında, araştırmacılar nüfusun işsizlik oranını örnek ortalamasıyla tahmin edebilirler:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

\(\bar{y}\) popülasyondaki işsizlik oranıdır ve \(\hat{\bar{y}}\) işsizlik oranının tahminidür ( \(\hat{ }\) genellikle bir tahminciyi belirtmek için kullanılır).

Gerçekte, araştırmacılar nadiren basit rastgele örneklemeyi değiştirmeden kullanırlar. Araştırmacılar, çeşitli nedenlerden dolayı (bunlardan bir tanesini anlatacağım), genellikle eşit olmayan olasılıklı örneklerdir. Örneğin, araştırmacılar Florida'daki insanlardan daha yüksek bir olasılıkla California'daki insanlardan daha fazla kişi seçebilir. Bu durumda, örnek ortalaması (denk 3.1) iyi bir tahminci olmayabilir. Bunun yerine, varlığın eşit olmayan olasılıkları olduğunda, araştırmacılar

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

\(\hat{\bar{y}}\) burada işsizlik oranının tahminidür ve \(\pi_i\) kişi \(i\) 'nin ekleme olasılığıdır. Standart uygulamayı takiben, denklemi eq. 3.2 Horvitz-Thompson tahmincisi. Horvitz-Thompson tahmincisi son derece kullanışlıdır çünkü herhangi bir olasılık örnekleme tasarımı için tarafsız tahminlere yol açar (Horvitz and Thompson 1952) . Horvitz-Thompson tahmincisi çok sık geldiğinden, yeniden yazılabileceğini fark etmek yararlıdır.

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

burada \(w_i = 1 / \pi_i\) . Eq. 3.3, Horvitz-Thompson tahmincisinin, ağırlıkların, seçim olasılığı ile ters olarak ilişkili olduğu, ağırlıklı bir örnek ortalaması olduğunu ortaya koymaktadır. Diğer bir deyişle, bir kişinin numuneye dahil edilmesinin ne kadar az muhtemel olduğu, kişinin tahminlere girmesi gereken o kadar fazladır.

Daha önce de açıklandığı gibi, araştırmacılar genellikle insanları eşit olmayan olasılıklarla doldurmaktadır. Eşitleme olasılığının eşitsizliğine yol açabilecek bir tasarım örneği, tabakalaşma örneklemidir , bu da anlaşılması önemlidir çünkü bu, tabakalaşma sonrası olarak adlandırılan tahmin prosedürüyle yakından ilgilidir. Katmanlı örneklemede, bir araştırmacı hedef popülasyonu \(H\) birbirini dışlayan ve kapsamlı gruplara ayırır. Bu gruplara katman adı verilir ve \(U_1, \ldots, U_h, \ldots, U_H\) . Bu örnekte, tabakalar durumlardır. Grupların boyutları \(N_1, \ldots, N_h, \ldots, N_H\) . Araştırmacı, devlet düzeyindeki işsizlik tahminlerini yapmak için her eyalette yeterli insanın bulunduğundan emin olmak için tabakalı örneklemeyi kullanmak isteyebilir.

Nüfus katmanlara ayrıldıktan sonra, araştırmacının her katmandan bağımsız olarak \(n_h\) büyüklük değiştirmeden basit bir rasgele örnek \(n_h\) . Ayrıca, örnekte seçilen herkesin yanıtlayıcı olduğunu varsayalım (bir sonraki bölümde cevap vermeyeceğim). Bu durumda, dahil etme olasılığı

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

Bu olasılıklar insandan insana farklılık gösterebileceğinden, bu örnekleme tasarımından bir tahminde bulunurken, araştırmacıların her katılımcının Horvitz-Thompson tahmincisini (denklem 3.2) kullanarak kapsanma olasılıklarının tersini ağırlıklandırmaları gerekir.

Horvitz-Thompson tahmincisi tarafsız olsa bile, araştırmacılar örneği yardımcı bilgilerle birleştirerek daha doğru (yani daha düşük varyans) tahminler üretebilirler. Bazı insanlar, mükemmel bir şekilde icra edilen olasılık örneklemesi yapıldığında bile bunun doğru olduğunu şaşırtıcı bulmaktadır. Yardımcı bilgi kullanan bu teknikler özellikle önemlidir, çünkü daha sonra göstereceğim gibi, yardımcı bilgiler olasılıksız örneklerden ve olasılıksız örneklerden elde edilen olasılık örneklerinden tahmin yapmak için önemlidir.

Yardımcı bilgiyi kullanmak için yaygın bir teknik tabakalaşmadır . Örneğin, bir araştırmacının 50 eyaletteki her bir kadın ve erkek sayısını bildiğini düşünün; Bu grup boyutlarını \(N_1, N_2, \ldots, N_{100}\) . Bu yardımcı bilgiyi örnekle birleştirmek için araştırmacı örneklemi \(H\) gruplarına bölebilir (bu durumda 100), her grup için bir tahminde bulunun ve daha sonra bu grup araçlarının ağırlıklı ortalaması oluşturun:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

Kabaca, eq. 3.5, dengesiz bir örnek seçilirse doğru tahminler yapmak için bilinen nüfus bilgilerini \(N_h\) kullandığı için daha doğru olacaktır. Bunu düşünmenin bir yolu, tabakalaşma daha sonra toplanmış olduktan sonra tabakalaşmayı yaklaştırmak gibidir.

Sonuç olarak, bu bölüm birkaç örnekleme tasarımı tanımlamıştır: değiştirmeden basit rastgele örnekleme, eşit olmayan olasılıkla örnekleme ve tabakalandırılmış örnekleme. Ayrıca, tahminle ilgili iki ana fikri de açıklamıştır: Horvitz-Thompson tahmincisi ve tabakalaşma. Olasılık örnekleme tasarımlarının daha resmi bir tanımı için Särndal, Swensson, and Wretman (2003) bölüm 2'ye bakınız. Tabakalı örneklemenin daha resmi ve tam bir tedavisi için bkz. Särndal, Swensson, and Wretman (2003) bölüm 3.7. Horvitz-Thompson tahmincisinin özelliklerinin teknik bir açıklaması için, bkz. Horvitz and Thompson (1952) , Overton and Stehman (1995) veya @ sarndal_model_2003. Post-tabakalaşmanın daha resmi bir tedavisi için bkz. Holt and Smith (1979) , Smith (1991) , Little (1993) veya Särndal, Swensson, and Wretman (2003) 7.6.

Yanıt vermeme olasılığı ile olasılık örneklemesi

Hemen hemen tüm gerçek anketler yanıt vermemiştir; Yani, örneklemdeki herkes her soruyu cevaplamaz. Yanıt vermemenin iki ana türü vardır: madde yanıtsız ve birim yanıt vermiyor . Cevap vermeyen öğede, bazı katılımcılar bazı öğelere cevap vermiyor (örneğin, bazen yanıtlayanlar hassas olarak değerlendirdikleri soruları yanıtlamak istemiyorlar). Ünite yanıtsızlığında, örnek nüfus için seçilen bazı kişiler ankete hiç cevap vermemektedir. Üniteye cevap vermemenin en yaygın iki nedeni, örneklenen kişiye ulaşılamaması ve örnek kişinin temasa geçmesi ancak katılmayı reddetmesidir. Bu bölümde, birim yanıt vermemeye odaklanacağım; madde yanıtlamama ile ilgilenen okuyucular Little ve Rubin (2002) görmelidir.

Araştırmacılar genellikle iki aşamalı bir örnekleme süreci olarak ünite yanıtsızlığı ile anketleri düşünürler. İlk aşamada araştırmacı, her bir kişinin dahil edilme olasılığı olan bir \(s\) örneğini seçer \(\pi_i\) (burada \(0 < \pi_i \leq 1\) ). Daha sonra, ikinci aşamada, numuneye seçilen kişiler olasılıkla cevap verir \(\phi_i\) (burada \(0 < \phi_i \leq 1\) ). Bu iki aşamalı süreç, son yanıtlayanlar kümesiyle sonuçlanır \(r\) . Bu iki aşama arasındaki önemli bir fark, araştırmacıların örneklem seçim sürecini kontrol etmeleridir, ancak örneklenen insanlardan hangisinin katılımcı olduklarını kontrol etmedikleridir. Bu iki sürecin bir araya getirilmesi, bir kişinin cevap vermesi olasılığıdır.

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

Basitlik uğruna, orijinal örnek tasarımın değiştirilmeden basit rastgele örneklemenin olduğu durumu ele alacağım. Bir araştırmacı, yanıt veren \(n_s\) boyutlu bir örneklemi seçerse ve araştırmacı yanıt \(n_r\) göz ardı ederse ve cevap verenlerin ortalamasını kullanırsa, tahmin tahmini aşağıdaki gibi olacaktır:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

burada \(cor(\phi, y)\) tepki eğilimi ve sonuç (işsizlik durumu) arasında nüfus korelasyonu \(S(y)\) sonucun popülasyonu standart sapma (örneğin, işsizlik status), \(S(\phi)\) , yanıt eğiliminin popülasyon standart sapmasıdır ve \(\bar{\phi}\) , popülasyon ortalama yanıt eğilimidir (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Denk. 3.7, aşağıdaki koşullardan herhangi birinin karşılanması durumunda yanıt vermemenin önyargıya yol açmayacağını göstermektedir:

  • İşsizlik durumunda bir değişiklik yoktur \((S(y) = 0)\) .
  • Yanıt eğilimlerinde varyasyon yoktur \((S(\phi) = 0)\) .
  • Yanıt eğilimi ile işsizlik durumu arasında korelasyon yoktur. \((cor(\phi, y) = 0)\) .

Ne yazık ki, bu koşulların hiçbiri muhtemel görünmüyor. İstihdam statüsünde bir değişiklik olmayacağı ya da cevap eğilimlerinde herhangi bir değişiklik olmayacağı makul değildir. Böylece, denklemin anahtar terimi 3.7 korelasyon: \(cor(\phi, y)\) . Örneğin, işsiz olan kişilerin yanıt verme olasılığı daha yüksekse, tahmini istihdam oranı yukarı doğru yönlendirilecektir.

Cevap vermediğinde tahmin yapmanın hilesi yardımcı bilgileri kullanmaktır. Örneğin, yardımcı bilgiyi kullanmanın bir yolu, tabakalaşmadır (yukarıdan yaklaşık 3.5). Tabakalaşma tahmin edicisinin önyargısının şu olduğu ortaya çıkıyor:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

burada \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , ve \(\bar{\phi}^{(h)}\) yukarıda açıklandığı gibi tanımlanmıştır, ancak gruptaki kişilerle sınırlıdır \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Böylece, her bir tabakalaşma sonrası gruptaki önyargı küçük olduğunda, genel önyargı küçük olacaktır. Her tabakalaşma sonrası grupta önyargıyı küçük yapma konusunda düşünmeyi tercih etmenin iki yolu vardır. Öncelikle, yanıt eğilimi ( \(S(\phi)^{(h)} \approx 0\) ) ve varyasyonun ( \(S(y)^{(h)} \approx 0\) küçük varyasyonlarının bulunduğu homojen gruplar oluşturmayı denemek istersiniz. \(S(y)^{(h)} \approx 0\) ). İkincisi, gördüğünüz insanların görmediğiniz insanlar olduğu grupları oluşturmak istersiniz ( \(cor(\phi, y)^{(h)} \approx 0\) ). Karşılaştırma denklemi 3.7 ve denk. 3.8, tabakalaşma sonrası yanıt vermemenin neden olduğu yanlılığı azaltabileceğinin açıklığa kavuşturulmasına yardımcı olur.

Sonuç olarak, bu bölüm cevapsız olasılıklı örnekleme için bir model sunmuş ve cevap vermemenin hem katmanlaşmadan hem de tabakalaşma sonrası düzenlemeleri sunabileceği yanlılığını göstermiştir. Bethlehem (1988) , daha genel örnekleme tasarımları için yanıt vermemenin neden olduğu önyargıyı sunmaktadır. Tepkisizliği düzeltmek için tabakalaşma sonrası kullanımı hakkında daha fazla bilgi için bkz. Smith (1991) ve Gelman and Carlin (2002) . Son tabakalaşma, kalibrasyon tahmin edicileri adı verilen daha genel bir teknik ailesinin bir parçasıdır, makale boyu tedavi için Zhang (2000) Särndal and Lundström (2005) kitap boyu tedavi için Särndal and Lundström (2005) . Särndal and Lundström (2005) için diğer ağırlıklandırma yöntemleri hakkında daha fazla bilgi için bkz. Kalton and Flores-Cervantes (2003) , Brick (2013) ve Särndal and Lundström (2005) .

Olasılık dışı örnekleme

Olasılık dışı örnekleme çok çeşitli tasarımları içerir (Baker et al. 2013) . Özellikle Wang ve meslektaşları tarafından Xbox kullanıcılarının örneklemine odaklanan (W. Wang et al. 2015) , örnekleme tasarımının anahtar parçasının bir örneği olarak bu tür bir örneği düşünebilirsiniz \(\pi_i\) ( Araştırmacı tarafından dahil edilme olasılığı olasılığı) ama \(\phi_i\) (yanıtlayana yönelik yanıt eğilimleri). Doğal olarak, bu ideal değildir çünkü \(\phi_i\) bilinmemektedir. Ancak, Wang ve meslektaşlarının gösterdiği gibi, bu tür bir kabul edilen örnek - muazzam kapsama hatası olan bir örnekleme çerçevesinden bile olsa- araştırmacının iyi bir yardımcı bilgiye ve bu problemleri açıklayan iyi bir istatistiksel modele sahip olması halinde felakete neden olmamalıdır.

Bethlehem (2010) , hem tepkisizlik hem de kapsama hatalarını içermek için tabakalaşma ile ilgili yukarıdaki türevlerin çoğunu genişletmektedir. Post-tabakalaşmaya ek olarak, olasılık dışı örneklerle çalışmak için diğer teknikler - ve kapsama hataları ve cevap vermeyen olasılık örnekleri - örnek eşleştirmeyi içerir (Ansolabehere and Rivers 2013; ??? ) , eğilim skorunun ağırlıklandırılması (Lee 2006; Schonlau et al. 2009) ve kalibrasyon (Lee and Valliant 2009) . Bu teknikler arasında ortak bir tema, yardımcı bilginin kullanılmasıdır.