3.3.1 Претставување

Застапеност е за правење на заклучоци од вашиот испитаниците на вашата целна популација.

Со цел да се разбере каков вид на грешки кои може да се случи кога inferring од испитаниците на поголема популација, ајде да се разгледа сламка анкета на книжевна Уметност која се обиде да се предвиди исходот на претседателските избори во САД во 1936 година. Иако тоа се случи пред повеќе од 75 години, овој дебакл уште има важна лекција за да ги научи истражувачите денес.

Literary Digest беше популарно списание за општ интерес, а со почеток во 1920 година почнаа да работат со анкети за слама за да ги предвидат резултатите од претседателските избори. За да ги направат овие предвидувања, тие ќе испратат гласачки ливчиња до многу луѓе, а потоа едноставно ќе ги опфатат гласачките ливчиња кои беа вратени; Книжевна Digest гордо објави дека гласачките ливчиња што ги добија беа ниту "бројат, приспособена, ниту пак да се протолкува." Оваа постапка точно предвиде победниците на изборите во 1920, 1924, 1928 и 1932 година Во 1936 година, во средината на Големата депресија, литературни Digest испрати гласачки ливчиња до 10 милиони луѓе, чии имиња дојдоа претежно од телефонски именици и евиденција за регистрација на автомобили. Еве како ја опишале нивната методологија:

"Мазната машина за движење на DIGEST се движи со брза прецизност од триесетгодишно искуство за да се намалат претпоставките за хард фактите ... Оваа недела 500 пенкала изгребаа повеќе од една четвртина од еден милион адреси дневно. Секој ден, во голема просторија високо над моторната лента Четврта авенија, во Њујорк, 400 работници вешто ги лизнуваат милионите парчиња печатени материјали - доволно за да ги отвори четириесетте градски блокови - во адресите обоени [sic]. Секој час, во сопствената Поштенска трафостаница "ДИГЕСТ", три машини за мерење на поштенските броеви ги запечатија и ги печат белите облини; Вработените вработени во поштата ги превртуваа во испакнати пораки; флота DIGEST камиони ги побрзаа да ги изразат поштаните возови. . . Следната недела, првите одговори од овие десет милиони ќе започнат со испреплетената плима на означени гласачки ливчиња, да бидат трикратно проверени, потврдени, петпати вкрстено класифицирани и вкупно. Кога последната бројка е исцрпена и проверена, ако претходното искуство е критериум, земјата ќе знае за еден процент од актуелната популарна партија од четириесет милиони гласачи. "(22 август 1936)

Фетишизацијата на литературното досие на големината е моментално препознатлива за секој "истражувач на големи податоци" денес. Од дистрибуираните 10 милиони гласачки ливчиња беа вратени неверојатни 2,4 милиони - тоа е околу 1.000 пати поголемо од современите политички избори. Од овие 2,4 милиони испитаници, пресудата беше јасна: Алф Ландон требаше да го порази актуелниот Френклин Рузвелт. Но, всушност, Рузвелт го победи Ландон во лизгање на земјиштето. Како би можеле книжевното списание да тргне наопаку со толку многу податоци? Нашето современо разбирање за земањето примероци прави јасни грешки на книжевниот раб и ни помага да не правиме слични грешки во иднина.

Јасно размислувањето за земање примероци бара од нас да разгледаме четири различни групи на луѓе (слика 3.2). Првата група е целната популација ; ова е групата што истражувачот ја дефинира како население од интерес. Во случајот на книжевното списание , целното население беше гласачи на претседателските избори во 1936 година.

По одлучувањето за целната популација, истражувачот треба да развие листа на луѓе кои можат да се користат за земање примероци. Оваа листа се нарекува рамка за земање примероци, а луѓето на неа се нарекуваат рамка . Идеално, целната популација и популацијата на рамки би биле исти, но во пракса ова често не е случај. На пример, во случајот на книжевно списание , популацијата на рамки е 10 милиони луѓе чии имиња доаѓаат претежно од телефонски именици и евиденција за регистрација на автомобил. Разликите помеѓу целната популација и рамковната популација се нарекуваат грешка при покриеност . Грешката на покриеност сама по себе не гарантира проблеми. Сепак, тоа може да доведе до пристрасност при покривање ако луѓето во рамката на популацијата се систематски различни од луѓето во целното население кои не се во рамките на популацијата. Ова е, всушност, токму она што се случило во Анкетата за литературен дигит . Луѓето во нивната популација имаа поголема веројатност да го поддржат Алф Лендон, делумно поради тоа што беа побогати (потсетиме дека и телефоните и автомобилите биле релативно нови и скапи во 1936 година). Значи, во Анкетата за литературен изглед , грешката на покриеноста доведе до пристрасност при покривањето.

Слика 3.2: Грешки во репрезентацијата.

Слика 3.2: Грешки во репрезентацијата.

По дефинирањето на популацијата на рамки , следниот чекор е истражувачот да ја избере примерочната популација ; тоа се луѓето на кои истражувачот ќе се обиде да интервјуира. Ако примерокот има различни карактеристики од популацијата на рамката, тогаш земањето примероци може да предизвика грешка при земање примероци . Во случај на Фијаско на книжевниот раб , всушност, немаше земање мостри - списанието да контактира со сите во рамките на популацијата - и затоа немаше грешка при земање примероци. Многу истражувачи имаат тенденција да се фокусираат на грешките при земање примероци - ова е типично единствениот вид грешка зафатена со маргината на грешки објавена во анкетите - но фијаското на литературното досие потсетува дека треба да ги земеме предвид сите извори на грешки, и случајни и систематски.

Конечно, по изборот на популациона популација, истражувачот се обидува да ги интервјуира сите свои членови. Оние луѓе кои успешно се интервјуирани се нарекуваат испитаници . Идеално, примерокот на населението и испитаниците би биле исти, но во пракса не постои одговор. Тоа е, луѓето кои се избрани во примерокот понекогаш не учествуваат. Ако луѓето кои реагираат се различни од оние кои не реагираат, тогаш може да има пристрасност без одговор . Пристрасноста од нереагирање беше вториот главен проблем со Анкетата за книжевноста . Само 24% од луѓето што добиле гласачко ливче одговориле, и се покажало дека луѓето кои го поддржуваат Лендон се со поголема веројатност да одговорат.

Покрај тоа што е само пример да се воведат идеите за застапеност, анкетата за литературен билборд е често повторена парабола, предупредувајќи ги истражувачите за опасностите од случајно земање мостри. За жал, мислам дека лекцијата што многу луѓе ја извлекуваат од оваа приказна е погрешна. Најчестиот морал на приказната е дека истражувачите не можат да научат ништо од примероците со неверојатност (т.е. примероци без строги правила за избор на учесници). Но, како што ќе покажам подоцна во ова поглавје, тоа не е сосема во ред. Наместо тоа, мислам дека навистина постојат два морали за оваа приказна; моралите што се валидни денес како што беа во 1936 година. Прво, голем број на случајно собрани податоци нема да гарантираат добра проценка. Во принцип, има голем број испитаници што ја намалуваат варијансата на проценките, но тоа не мора да го намали пристрасноста. Со многу податоци, истражувачите понекогаш може да добијат прецизна проценка на погрешна работа; тие можат да бидат прецизно неточни (McFarland and McFarland 2015) . Втората главна лекција од Фијаско на книжевниот доказ е дека истражувачите треба да обрнат внимание на тоа како нивниот примерок се собирал при проценките. Со други зборови, затоа што процесот на земање примероци во анкетата за литературен диг беше систематски исфрлен кон некои испитаници, истражувачите требаше да користат покомплексен процес на проценка, кој ги надмина некои од испитаниците повеќе од другите. Подоцна во ова поглавје, ќе ви покажам една таква постапка на тежина - пост-стратификација - која може да ви овозможи да направите подобри проценки од случаен примерок.