3.4.1 Вероватноћа за узимање узорака: прикупљање података и анализа

Тежине може поништити дисторзија намерно изазване процеса узорковања.

Узорци вероватноћа су они у којима сви људи имају познату, ненулту вероватноћу укључивања, и најједноставнији дизајн вероватноћа узорковања принципу случајног узорка, где свака особа има једнаку могућност укључивања. Када је изабран испитаници преко принципу случајног узорка са савршеном извршења (на пример, нема грешака обухвата и без без одговора), затим процена је једноставан јер је узорак ће-у просеку-бити минијатурна верзија становништва.

Принципу случајног узорка се ретко ипак користи у пракси,. Уместо тога, истраживачи намерно изабрали људе са неједнаким вероватноће укључивања у циљу смањења трошкова и повећања тачности. Када су истраживачи намерно изабрали људе са различитим вероватноће укључивања, онда су потребне корекције да поништи деформације узроковане процеса узорковања. Другим речима, како се генерализовати из узорка зависи од тога колико је изабран узорак.

На пример, тренутно истраживање становништва (СПЦ) се користи од стране америчке владе за процену стопе незапослености. Сваког месеца око 100.000 људи интервјуисани, или лицем у лице или преко телефона, а резултати се користе за производњу процењену стопу незапослености. Јер влада жели да процени стопу незапослености у свакој држави, то не може да уради једноставан случајном узорку од одраслих јер то би дало премало испитаника у државама са малим бројем становника (нпр, Рходе Исланд) и превише од земаља са великим бројем становника (нпр , Калифорнија). Уместо тога, ЦПС узорака људи у различитим државама на различитим стопама, процес се зове стратификовани узорак са неједнаким вероватноће селекције. На пример, ако је СПЦ желели 2.000 испитаника по држави, онда одрасли у Рходе Исланд ће имати око 30 пута већа вероватноћа да ће укључивање него одраслих у Калифорнији (Рходе Исланд: 2.000 испитаника по 800.000 одраслих вс Калифорнији: 2.000 испитаника по 30.000.000 одраслих). Као што ћемо видети касније, ова врста узорака са неједнаке вероватноћом се дешава са онлине извора података превише, али за разлику од ЦПС, механизам за узорковање се обично не зна или контролише од стране истраживача.

С обзиром на његов дизајн узорковање, ЦПС није директно представник САД; укључује много људи из Рходе Исланд и сувише мало из Калифорније. Стога, не би било мудро да се процени стопу незапослености у земљи са стопом незапослености у узорку. Уместо средње вредности узорка, да је боље да се пондерисане значи, где тежине објашњава чињеницу да људи из Рходе Исланд су чешће да буду укључени од људи из Калифорније. На пример, свака особа из Калифорније ће бити упвеигхтед- ће рачунати више у процени-а сваке особе од Рходе Исланд би довнвеигхтед-би рачунати мање у процени. У суштини, ти си дао више глас људима да су мање шансе да уче о.

Ова играчка пример илуструје важну али често погрешно разумели поенту: узорак не треба да буде минијатурна верзија становништва како би произвели добре процене. Ако се довољно зна о томе како је подаци прикупљени, онда те информације могу да се користе приликом израде процене из узорка. Приступ Управо сам описао-а да математички описати у техничком додатку-потпада класичне оквиру вероватноћа за узорковање. Сада ћу показати како се та иста идеја да се примени на узорцима не вероватноће.