მათემატიკური შენიშვნები

ამ დანართში, მე განვიხილავ რამდენიმე იდეას თავი შედარებით ოდნავ მათემატიკურ ფორმაში. მიზანი აქ არის ის, რომ დაგეხმაროთ კომფორტულად მიიღოთ ნოტაცია და მათემატიკური ჩარჩოები, რომლებიც იყენებენ კვლევის მკვლევარებს, რათა შეიცვალონ ამ თემებზე დაწერილი დამატებითი ტექნიკური მასალა. მე დაიწყება ალბათობის შერჩევის შემოღებით, შემდეგ გადაუდებელი შერჩევისას nonresponse და საბოლოოდ, არ არის ალბათობა შერჩევის.

ალბათობის შერჩევა

მაგალითისთვის, განვიხილოთ ამერიკის შეერთებულ შტატებში უმუშევრობის შეფასების მიზანი. \(U = \{1, \ldots, k, \ldots, N\}\) არის სამიზნე პოპულაცია და \(y_k\) შედეგის ცვლადის საშუალებით \(k\) . ამ მაგალითში \(y_k\) არის თუ არა პირი \(k\) უმუშევარი. საბოლოოდ, მოდით \(F = \{1, \ldots, k, \ldots, N\}\) იყოს ჩარჩო მოსახლეობა, რომელიც სიმარტივის გულისთვის იკვებება როგორც სამიზნე მოსახლეობა.

ძირითადი შერჩევის დიზაინი მარტივი შემთხვევითი შერჩევის გარეშე ჩანაცვლება. ასეთ შემთხვევაში, თითოეული ადამიანი თანაბრად შეიძლება იყოს ნიმუშში \(s = \{1, \ldots, i, \ldots, n\}\) . მონაცემების შეგროვებისას, როდესაც მკვლევარებმა შეიძლება შეაფასონ მოსახლეობის უმუშევრობის დონე ნიმუშით:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

სადაც \(\bar{y}\) არის უმუშევრობის დონე მოსახლეობაში და \(\hat{\bar{y}}\) არის უმუშევრობის მაჩვენებლის ( \(\hat{ }\) გამოყენებული იყო შეფასების შემფასებელი).

სინამდვილეში, მკვლევარებმა იშვიათად გამოიყენონ მარტივი შემთხვევითი შერჩევის გარეშე ჩანაცვლება. მრავალფეროვანი მიზეზების გამო (რომელთაგან ერთს აღვწერე), მკვლევარები ხშირად ქმნიან ნიმუშებს არათანაბარი ალბათობის ჩართულობით. მაგალითად, მკვლევარებმა შეიძლება აირჩიონ ადამიანები ფლორიდაში უფრო მაღალი ალბათობის ჩართვაზე, ვიდრე კალიფორნიაში. ამ შემთხვევაში, ნიმუში ნიშნავს (ე.ი. 3.1) არ შეიძლება იყოს კარგი შეფასებით. ამის ნაცვლად, როდესაც არსებობს შეუსაბამო ალბათობა ჩართვის, მკვლევარები იყენებენ

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

სადაც \(\hat{\bar{y}}\) არის უმუშევრობის შეფასება და \(\pi_i\) არის პიროვნება \(i\) ' სტანდარტული პრაქტიკაში, მე მოვუწოდებთ დამდგენელს eq. 3.2 ჰორვიცი-ტომპსონის დამდგენელი. ჰორვიცი-ტომპსონის დამდგენელი ძალიან სასარგებლოა, ვინაიდან მიუკერძოებელი შეფასებები მიენიჭება ნებისმიერი ალბათობის შერჩევის დიზაინს (Horvitz and Thompson 1952) . იმის გამო, რომ ჰორვიცი-ტომპსონის შემფასებელი იმდენად ხშირად გამოდის, რომ ის შეინიშნება, რომ ის შეიძლება ხელახლა ჩაიწეროს

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

სადაც \(w_i = 1 / \pi_i\) . როგორც eq. 3.3 ცხადყოფს, ჰორვიცი-ტომპსონის დამდგენელი არის შეწონილი ნიმუში, სადაც წონასწორობა უკავშირდება შერჩევის ალბათობას. სხვა სიტყვებით რომ ვთქვათ, ნაკლებად სავარაუდოა, რომ ნიმუში იყოს ჩართული, უფრო მეტ ადამიანს, რომლითაც უნდა შეფასდეს ეს შეფასება.

როგორც ზემოთ აღინიშნა, მკვლევარები ხშირად ასახელებენ ადამიანს, არათანაბარი ალბათობის ჩართვას. ერთი მაგალითია დიზაინი, რომელიც შეიძლება გამოიწვიოს არათანმიმდევრულობის ალბათობა არის სტრატიფიცირებული შერჩევის , რაც მნიშვნელოვანია გასაგები, რადგან ის მჭიდროდაა დაკავშირებული შეფასების პროცედურისადმი, რომელსაც ეწოდება პოსტ-სტრატიფიკაცია . სტრატიფიცირებული შერჩევისას, მკვლევარი მიზნად ისახავს სამიზნე მოსახლეობის \(H\) ერთმანეთს ექსკლუზიური და ამომწურავი ჯგუფებად. ამ ჯგუფებს ეწოდება strata და მიუთითებენ \(U_1, \ldots, U_h, \ldots, U_H\) . ამ მაგალითში, ფენა შტატებისაა. ჯგუფების ზომები აღინიშნება \(N_1, \ldots, N_h, \ldots, N_H\) . მკვლევარმა შეიძლება დაგვანახოს სტრატიფიცირებული ნიმუშის გამოყენება, რათა უზრუნველყოს, რომ მას აქვს საკმარისი ადამიანი თითოეულ ქვეყანაში, რათა მოხდეს უმუშევრობის დონის შეფასება.

მას შემდეგ, რაც მოსახლეობა გაყოფილია ფენებად , ვარაუდობენ, რომ მკვლევარი მარტივად \(n_h\) შემთხვევითი შერჩევის საშუალებას არ \(n_h\) ზომის შეცვლის გარეშე \(n_h\) , დამოუკიდებლად თითოეული ფენისგან. გარდა ამისა, ვივარაუდოთ, რომ ნიმუშში შერჩეული ყველა ადამიანი ხდება რესპონდენტი (მე მომდევნო ნაწილში უპასუხისმგებლოა). ამ შემთხვევაში, ჩართვის ალბათობაა

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

იმის გამო, რომ ეს ალბათობა პიროვნებისგან განსხვავდება, ამ ნიმუშის დიზაინის შეფასებისას მკვლევარებმა უნდა დაისაკუთონ თითოეული რესპონდენტი მათი ალბათობის შებრუნებით, ჰორვიცი-ტომპსონის შეფასების გამოყენებით (ე.კ. 3.2).

მიუხედავად იმისა, რომ ჰორვიცი-ტომპსონის შეფასებით მიუკერძოებელი მკვლევარები უფრო ზუსტ შედეგებს აწვდიან (ანუ ქვედა ვარიაცია) აფასებს დამხმარე ინფორმაციის ნიმუშს. ზოგიერთი ადამიანი გასაკვირია, რომ ეს მართალია მაშინაც კი, როდესაც არსებობს სრულყოფილად შესრულებული ალბათობა შერჩევის. ეს ტექნიკა განსაკუთრებით მნიშვნელოვანია დამხმარე ინფორმაციის გამოყენებით, რადგან, როგორც მე გვიჩვენებს მოგვიანებით, დამხმარე ინფორმაცია კრიტიკულია იმისთვის, რომ შეფასდეს ალბათობა ნიმუშებიდან არაპროპორციულად და არა ალბათობის ნიმუშებით.

დამხმარე ინფორმაციის გამოყენების ერთიანი ტექნიკა პოსტტრატიფიკაციაა . მაგალითად, წარმოიდგინეთ, რომ მკვლევარმა იცის მამაკაცთა და ქალთა რაოდენობა 50-ზე მეტ ქვეყანაში; ჩვენ შეგვიძლია აღვნიშნოთ ამ ჯგუფის ზომები \(N_1, N_2, \ldots, N_{100}\) . ამ დამხმარე ინფორმაციის ნიმუშთან შერწყმის მიზნით, მკვლევარს შეუძლია გაანაწილოს ნიმუშები \(H\) ჯგუფებში (ამ შემთხვევაში 100), გააკეთოს თითოეული ჯგუფის შეფასება და შემდეგ ამ ჯგუფის საშუალო წონის შექმნა:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

უხეშად, შეფასებით eq. 3.5 სავარაუდოდ უფრო ზუსტი იქნება, რადგან იგი იყენებს მოსახლეობის ცნობილ ინფორმაციას - \(N_h\) - სწორად შეფასებისას, თუ \(N_h\) ნიმუშია შერჩეული. ერთი გზა ფიქრი არის ის, რომ პოსტ სტრატიფიკაცია ჰგავს სტრატიფიკაციის დაახლოებას მონაცემთა შეგროვების შემდეგ.

დასასრულს, ამ ნაწილში აღწერილია რამდენიმე შერჩევის დიზაინი: მარტივი შემთხვევითი შერჩევის გარეშე გადაჯგუფების, შერჩევის ერთად არათანაბარი ალბათობა და სტრატიფიცირებული შერჩევის. მან ასევე შეაფასა შეფასების ორი ძირითადი იდეა: ჰორვიცი-ტომპსონი დამდგენელი და პოსტ-სტრატიფიკაცია. ალბათობის შერჩევის ნიმუშების უფრო ფორმალური დეფინიციისთვის იხ. Särndal, Swensson, and Wretman (2003) . სტრატიფიცირებული შერჩევის უფრო ფორმალური და სრულფასოვანი მკურნალობისთვის იხ. Särndal, Swensson, and Wretman (2003) სექცია 3.7. ჰორვიცი-ტომპსონის შეფასების მახასიათებლების ტექნიკური აღწერილობისთვის იხ. Horvitz and Thompson (1952) , Overton and Stehman (1995) , ან @ sarndal_model_2003- ის სექცია 2.8. პოსტ-სტრატიფიკაციის უფრო ფორმალური მკურნალობისთვის იხილეთ Holt and Smith (1979) , Smith (1991) , Little (1993) , ან Särndal, Swensson, and Wretman (2003) სექცია 7.6.

ალბათობა შერჩევისას არარეზონანსით

თითქმის ყველა რეალური კვლევა არ არის რელევანტურობა; ანუ ყველას, ვინც არ არის ნიმუში, ყველა კითხვას პასუხობს. არ არის ორი ძირითადი სახის არაპროფესიონალი: არარეალურები და არარეალურები . არაკერძტით, რესპონდენტებს არ უპასუხებენ ზოგიერთ საკითხს (მაგალითად, ზოგჯერ რესპონდენტებს არ სურთ უპასუხონ კითხვებს, რომლებიც განიხილავენ მგრძნობიარობას). ერთეულის არარეასპონსში, ზოგიერთი ადამიანი, რომელიც შერჩეული ნიმუში მოსახლეობისთვის არ პასუხობს კვლევას. ორი ყველაზე ხშირი მიზეზია ერთეულის არარერესონურობის მიზეზი, რომ სინამდვილეში არ შეიძლება დაუკავშირდეს და ნიმუში პირი დაუკავშირდეს, მაგრამ მონაწილეობაზე უარს აცხადებს. ამ ნაწილში მე ყურადღებას გავამახვილებ ერთეულს არაერთხელ; მკითხველს, რომელიც დაინტერესებულია საგამომცემლო არხებით, უნდა დაინახოს პატარა და რუბინმა (2002) .

მკვლევარებმა ხშირად იფიქრონ კვლევების შესახებ, რომლებიც ერთეულის არაპროპორციულად განიხილება ორ ეტაპად შერჩევის პროცესში. პირველ ეტაპზე, მკვლევარი ირჩევს ნიმუში \(s\) ისეთი, რომ ყოველ ადამიანს აქვს ალბათობა ჩართვის \(\pi_i\) (სადაც \(0 < \pi_i \leq 1\) ). მეორე ეტაპზე, ადამიანები, რომლებიც შერჩეულ ნიმუშში შეესაბამება ალბათობას \(\phi_i\) (სადაც \(0 < \phi_i \leq 1\) ). ამ ორ ეტაპზე პროცესი გამოხატავს რესპონდენტთა საბოლოო კომპლექსში \(r\) . ამ ორ ეტაპად მნიშვნელოვანი განსხვავებაა ის, რომ მკვლევარები აკონტროლებენ ნიმუშის შერჩევის პროცესს, მაგრამ ისინი არ აკონტროლებენ იმ ნიმუშებს, რომლებიც გამოკითხულნი არიან. ამ ორი პროცესის ერთად ერთობლივი ალბათობა, ალბათ, ვინმეს რესპონდენტი იქნება

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

გულისთვის სიმარტივის, მე განიხილავს შემთხვევაში, სადაც ორიგინალური ნიმუში დიზაინი მარტივი შემთხვევითი შერჩევის გარეშე ჩანაცვლება. თუ მკვლევარი ირჩევს ნიმუში ზომა \(n_s\) , რომ უკომპრომისო \(n_r\) გამოკითხულთა და თუ მკვლევარი უგულებელყოფს არასამთავრობო საპასუხოდ და იყენებს საშუალო რესპონდენტთა, მაშინ კომპენსაცია შეფასებით იქნება:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

სადაც არის \(cor(\phi, y)\) არის მოსახლეობის კორელაცია საპასუხოდ მიდრეკილებასა და შედეგს შორის (მაგალითად, უმუშევრობის სტატუსი), \(S(y)\) არის შედეგების მოსახლეობის სტანდარტული გადახრა (მაგალითად, უმუშევრობა სტატუსის), \(S(\phi)\) არის მოსახლეობის სტანდარტული გადახრა რეაგირებაზე, და \(\bar{\phi}\) არის მოსახლეობის რეაგირება (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 გვიჩვენებს, რომ არარელეოზი არ განიცდის მიკერძოებას, თუ რომელიმე შემდეგი პირობაა დაკმაყოფილებული:

  • არ არსებობს განსხვავება უმუშევრობის სტატუსში \((S(y) = 0)\) .
  • არ არსებობს ვარიაცია საპასუხოდ მიმართვისას \((S(\phi) = 0)\) .
  • არ არსებობს კორელაცია რეაგირებისადმი მიდრეკილებასა და უმუშევრობის სტატუსს შორის \((cor(\phi, y) = 0)\) .

სამწუხაროდ, სავარაუდოდ არც ერთი ეს პირობა არ ჩანს. სავარაუდოდ, სავარაუდოა, რომ დასაქმების სტატუსში არ შეიცვლება ვარიაცია, ანუ რეაგირებისთვის არ იქნება ვარიაცია. ამდენად, გასაღები ვადა eq. 3.7 არის კორელაცია: \(cor(\phi, y)\) . მაგალითად, თუ ადამიანები, რომლებიც უმუშევარი არიან, რეაგირება უფრო სავარაუდოა, მაშინ დასაქმებულთა დასაქმების მაჩვენებელი მიკერძოებული იქნება.

ტრიუკი შეფასებისას, როდესაც არ არსებობს რელევანტურობა დამხმარე ინფორმაციის გამოყენებაა. მაგალითად, ერთი გზა, რომლის საშუალებითაც შეგიძლიათ გამოიყენოთ დამხმარე ინფორმაცია პოსტ-სტრატიფიკაცია (გაიხსენეთ 3.5 ზემოთ). გამოდის, რომ პოსტ სტრატიფიკაციის შეფასების მიკერძოებაა:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

სადაც \(cor(\phi, y)^{(h)}\) ,, \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) \(\bar{\phi}^{(h)}\) განისაზღვრება ზემოთ ჩამოთვლილი, მაგრამ შეზღუდული ჯგუფების ჯგუფში \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . ამრიგად, ზოგადი კომპენსაცია მცირეა, თუ თითოეული პოსტ-სტრატიფიკაციის ჯგუფის მიკერძოება მცირეა. არსებობს ორი გზა, რომ მე მინდა ვფიქრობ იმაზე, რომ მიკერძოება მცირეა თითოეული პოსტ სტრატიფიკაციის ჯგუფში. პირველ რიგში, გსურთ შეინარჩუნოთ ჰომოგენური ჯგუფები, სადაც რეაგირებაზე რეპუტაციის მცირე ცვლილებაა ( \(S(\phi)^{(h)} \approx 0\) ) და შედეგი ( \(S(y)^{(h)} \approx 0\) ). მეორე, გინდა შექმნან ისეთი ჯგუფები, სადაც ადამიანები, რომლებიც ხედავთ, არიან ადამიანები, რომლებიც ვერ ხედავთ ( \(cor(\phi, y)^{(h)} \approx 0\) ). შედარება eq. 3.7 და eq. 3.8 ეხმარება განმარტავს, როდესაც პოსტ-სტრატიფიკაციას შეუძლია შეამციროს არაობიექტური გამონაკლისი.

დასასრულს, ამ ნაწილმა უზრუნველყო მოდელის ალბათობა არარეპრესიით გამოსაყენებლად და აჩვენებს იმას, რომ არარეალიზება შესაძლებელია როგორც პოსტ-სტრატიფიკაციის კორექტირების გარეშე. Bethlehem (1988) გთავაზობთ არაკეთილსინდისიერად გამოწვეულ კომპენსაციას უფრო ზოგადი შერჩევის დიზაინებისთვის. დამატებითი ინფორმაციისთვის პოსტ-სტრატიფიკაციის გამოყენების მიზნით, იხილეთ Smith (1991) და Gelman and Carlin (2002) . პოსტ-სტრატიფიკაცია ნაწილია უფრო ზოგადი ოჯახის ტექნიკას, რომელსაც ეწოდება კალიბრაციის შეფასებები, იხ. ჟანგ (2000) სტატიის ხანგრძლივობის მკურნალობისთვის და Särndal and Lundström (2005) სიგრძის მკურნალობისთვის Särndal and Lundström (2005) . მეტი სხვა წონის მეთოდები Kalton and Flores-Cervantes (2003) , იხილეთ Kalton and Flores-Cervantes (2003) , Brick (2013) , და Särndal and Lundström (2005) .

არასასურველი სინჯი

არამარტო ალბათობის შერჩევა მოიცავს უზარმაზარ მრავალფეროვან დიზაინს (Baker et al. 2013) . Wang- ისა და კოლეგების მიერ (W. Wang et al. 2015) მიერ Xbox- ის ნიმუშებზე სპეციალურად ფოკუსირება, შეგიძლიათ დაფიქრდეთ ამ სახის ნიმუშზე, როგორც ერთი, სადაც შერჩევის დიზაინის ძირითადი ნაწილი არ არის \(\pi_i\) ( მკვლევარი ორიენტირებული ალბათობის ჩართვა), მაგრამ \(\phi_i\) (რესპონდენტის ორიენტირებული რეაგირების პრეტენზიები). ბუნებრივია, ეს არ არის იდეალური, რადგან \(\phi_i\) უცნობია. მაგრამ, როგორც ვანგმა და კოლეგებმა აჩვენა, ამ ტიპის ოპტიმალური ნიმუში - მაშინაც კი, თუ შერჩევის ჩარჩოდან უზარმაზარი გაშუქება შეცდომით არ უნდა იყოს კატასტროფული, თუ მკვლევარს აქვს კარგი დამხმარე ინფორმაცია და კარგი სტატისტიკური მოდელი ამ პრობლემების გამოსაყენებლად.

Bethlehem (2010) ვრცელდება მრავალი ზემოთ მოყვანილი დერივაციის შესახებ პოსტ-სტრატიფიკაციის შესახებ, რომელშიც შედის არაპროცესი და გაშუქების შეცდომები. გარდა იმისა, რომ პოსტ-სტრატიფიკაციის, სხვა ტექნიკის მუშაობის არასამთავრობო ალბათობა ნიმუშების და ალბათობა ნიმუშები გაშუქება შეცდომები და nonresponse-მოიცავს ნიმუში შესატყვისი (Ansolabehere and Rivers 2013; ??? ) , მიდრეკილებას ანგარიში წონის (Lee 2006; Schonlau et al. 2009) , და კალიბრაცია (Lee and Valliant 2009) . ამ მეთოდებს შორის ერთი საერთო თემაა დამხმარე ინფორმაციის გამოყენება.