dalje коментар

Овај превод је креиран од стране рачунара. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

dalje коментар

Овај део је дизајниран да се користи као референца, а не да се чита као наратив.

Увод (Члан 3.1)

Многи од тема у овом поглављу су такође поновио у последњих председничких адресе на Америчког удружења истраживање јавног мњења (ААПОР), као што су Dillman (2002) , Newport (2011) , Santos (2014) , и Link (2015) .

За више историјском позадином о развоју истраживању, погледајте Smith (1976) Converse (1987) . За више информација о идеји три ере истраживању, погледајте Groves (2011) Dillman, Smyth, and Christian (2008) (који разбија три ерас мало другачије).

Пик унутар прелазу из првог у други ере у истраживању је Groves and Kahn (1979) , који ради детаљан глава-то-хеад поређење између лице-у-лице и телефонске анкете. Brick and Tucker (2007) осврће на историјски развој случајан цифара метода узорковања бирање.

За више како истраживање истраживања променио у прошлости као одговор на промене у друштву, види Tourangeau (2004) , Mitofsky (1989) , и Couper (2011) .

Пита вс посматрање (члан 3.2)

Учење о унутрашњим стањима постављањем питања може бити проблематично јер понекад сами испитаници нису свесни својих унутрашњих стања. На пример, Nisbett and Wilson (1977) дивну папир са евокативном насловом "говори више него што можемо знати:. Вербал извештаје о менталним процесима" У раду аутори закључују: "субјекти су понекад (а), несвесни постојање стимулус који је важније утицале одговор, (б), несвесни постојања одговора, и (ц) несвестан да је стимуланс је утицао на одговор. "

За аргументе да истраживачи треба да воле посматрано понашање у пријављеног понашању или ставовима, погледајте Baumeister, Vohs, and Funder (2007) (психологија) и Jerolmack and Khan (2014) одговора (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (социологија). Разлика између тражења и придржавајући се јавља у економији, где истраживачи говоре о наведеним и откривене преференције. На пример, истраживач може да питате испитанике да ли су радије једу сладолед или иду у теретану (наведене преференце) или истраживања могла посматрати како често људи једу сладолед и идем у теретану (откривених преференција). Постоји дубока скепса појединих врста наведених преференција података из области економије (Hausman 2012) .

Главни тема од ових дебата је да пријављена понашање није увек тачна. Али, аутоматски бележе понашање не може бити тачно, не може бити прикупљени на узорку од интереса, а не морају бити доступне истраживачима. Тако, у неким ситуацијама, мислим да пријављена понашање може бити од користи. Даље, главна тема други од ових дебата је да су извештаји о емоцијама, знања, очекивања и мишљења нису увек тачни. Али, ако информације о овим унутрашњим стањима су потребни истраживача-или да помажу да се објасни неке понашање или као ствар коју треба објаснити-онда пита може бити прикладно.

Укупна грешка истраживање (члан 3.3)

За третмане дужине књига о укупној грешке анкете, види Groves et al. (2009) Weisberg (2005) . За историји развоја укупне грешке анкете, види Groves and Lyberg (2010) .

У погледу представљања, одличан увод за питања без одговора и пристрасности не-одговор је извештај Натионал Ресеарцх Цоунцил на неодговора у друштвеним наукама истраживања А истраживачка агенда (2013) . Још једна корисна преглед обезбеђује (Groves 2006) . Исто тако, читави посебна питања Јоурнал оф званичне статистике, јавно мњење Куартерли, а Анналс оф тхе Америцан Ацадеми оф политичких и друштвених наука су објављени на тему неодговор. Коначно, постоје ствари много различитих начина обрачунавања стопе одговора; ови приступи су детаљно описани у извештају Америчког удружења истраживача јавног мњења (ААПОР) (Public Opinion Researchers} 2015) .

1936. Књижевно Преради анкета је студирао у детаље (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Она се такође користи као параболу да упозори против случајно прикупљање података (Gayo-Avello 2011) . Године 1936., Џорџ Галуп користе софистициранији облик узимања узорака, и био је у стању да произведе више прецизних процена са много мањем узорку. Галупова успех преко књижевног Дигест је била прекретница развој истраживању (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .

Што се тиче мерења, први велики ресурс за дизајнирање упитника је Bradburn, Sudman, and Wansink (2004) . За напредније лечење фокусиран посебно на ставовима питања, погледајте Schuman and Presser (1996) . Више о питањима пред-тестирања је доступан у Presser and Blair (1994) , Presser et al. (2004) , и поглавље 8 Groves et al. (2009) .

Третман Цлассиц, књига дужина компромис између трошкова истраживања и грешака истраживања је Groves (2004) .

Кога да питам (Члан 3.4)

Класична књига дужине третман стандардне вероватноће узорковања и процене су Lohr (2009) (више уводни) и Särndal, Swensson, and Wretman (2003) (напреднији). Класична књига дужине третман метода након раслојавања и сродним је Särndal and Lundström (2005) . У неким срединама дигиталном добу, истраживачи знају доста о не-испитаника, што није био чест случај у прошлости. Различити облици прилагођавања не-одговор су могуће када су истраживачи имају информације о не-испитаника (Kalton and Flores-Cervantes 2003; Smith 2011) .

Ксбок Проучавање Wang et al. (2015) технику на више нивоа регресија и пост-раслојавање (МРП, понекад назван "Господин П") који омогућава истраживачима да процени ћелија значи да чак и када постоје много, много ћелија. Иако постоји дебата о квалитету проценама из ове технике, то изгледа као област која обећава да истражи. Ова техника је први пут употребљен у Park, Gelman, and Bafumi (2004) , а било је накнадно коришћење и дебата (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . За више информација о вези између појединих тежине и тежине на бази ћелија сее Gelman (2007) .

За остале приступа на висину веб анкете, види Schonlau et al. (2009) , Valliant and Dever (2011) , и Bethlehem (2010) .

Одговарајући узорак је предложио Rivers (2007) . Bethlehem (2015) да ће перформансе упаривања узорка заправо бити сличан другим узорковања приступима (нпр, стратификовани узорак) и другим приступима прилагођавања (нпр, након стратификације). За више информација о онлајн панела, погледајте Callegaro et al. (2014) .

Понекад истраживачи су открили да узорци вероватноћа и узорци нису вероватноћа дају процене сличног квалитета (Ansolabehere and Schaffner 2014) , али и друге поређења су открили да узорци нису вероватноће до горе (Malhotra and Krosnick 2007; Yeager et al. 2011) . Један од могућих разлога за ове разлике је да су узорци нису вероватноћа побољшала током времена. За више песимистички поглед на не-вероватноће метода узорковања видјети у ААПОР Радну групу за не-случајног узорковања (Baker et al. 2013) , а такође препоручују читање коментаре који прати збирни извештај.

За мета-анализи на снагу пондерисање да се смањи пристрасност у узорцима не вероватноће, видети табелу 2.4 у Tourangeau, Conrad, and Couper (2013) , који води ауторе да закључе "корекције изгледа да би били корисни, али погрешива корекције. . . "

Како то аск (Одељак 3.5)

Conrad and Schober (2008) едитед волумен под називом Енвисионинг интервјуа будућности Сурвеи, а бави многим темама у овом делу. Couper (2011) сличним темама, а Schober et al. (2015) један леп пример како методе прикупљања података који су прилагођени новом окружењу могу резултирати вишим квалитетних података.

На другом интересантан пример коришћења Фацебоок апликације за истраживања друштвених наука, погледајте Bail (2015) .

За више савета о прављењу анкете угодно и драгоцено искуство за учеснике, погледајте радове на Прилагођеног Десигн Метход (Dillman, Smyth, and Christian 2014) .

Stone et al. (2007) третман дужине књига еколошке тренутну процену и слични поступци.

Истраживања везана за другим подацима (Одељак 3.6)

Judson (2007) процес комбиновања истраживања и административне податке као "информација интеграција," разматра неке предности овог приступа, и нуди неке примере.

Још један начин да истраживачи могу да користе дигиталне трагове и административне податке је оквир узорка за људе са специфичним карактеристикама. Међутим, приступ ови подаци ће се користити оквир за узорковање може да креира питања која се односе на приватност (Beskow, Sandler, and Weinberger 2006) .

Што се тиче појачан питате, овај приступ није толико ново као што изгледа од како сам описао. Овај приступ има дубоке везе са три велика подручја статистике-модела заснованог пост-стратификације (Little 1993) , приписивање (Rubin 2004) , и мали простор процена (Rao and Molina 2015) . Ово се такође односи на употребу сурогат варијабли у медицинским истраживањима (Pepe 1992) .

Поред етичка питања у вези приступа подацима дигиталне трагове, појачан пита се такође могу користити да закључимо осетљиве особине које људи не може да изабере да открије у истраживању (Kosinski, Stillwell, and Graepel 2013) .

Процене трошкова и време у Blumenstock, Cadamuro, and On (2015) се више на варијабилни трошкови-цене једног додатног истраживања-а не укључују фиксне трошкове као што су трошкови за чишћење и обради података позива. У принципу, појачан пита ће вероватно имати велике фиксне трошкове и ниске варијабилних трошкова сличних дигиталних експеримената (види Поглавље 4). Више детаља о подацима који се користе у Blumenstock, Cadamuro, and On (2015) у Blumenstock and Eagle (2010) Blumenstock and Eagle (2012) . Приступи са више импутуатион (Rubin 2004) може да помогне снимање несигурност у проценама из појачан просидбу. Ако истраживачи раде појачан питам само стало агрегата тачака, уместо особина на појединачном нивоу, онда приступи у King and Lu (2008) Hopkins and King (2010) може бити од користи. За више информација о приступима машинског учења у Blumenstock, Cadamuro, and On (2015) , види James et al. (2013) (више уводни) или Hastie, Tibshirani, and Friedman (2009) (напреднији). Још једна популарна уџбеник за учење машина је Murphy (2012) .

Што се тиче обогаћеног питам, резултати у Ансолабехере и Херсх (2012) на два кључна корака: 1) способност цаталист да се комбинују многе различите изворе података да произведе тачну мастер ДатаФиле и 2) способност катализатор за повезивање података мерења на његов господар ДатаФиле. Стога, Ансолабехере и Херш проверити сваки од ових корака пажљиво.

Да бисте креирали мастер ДатаФиле, Цаталист комбинује и усклађује информације из различитих извора, укључујући: вишеструког гласања евиденција снимака из сваке државе, подаци из Националног Објавите Завода за адресе регистра, као и подацима из других неодређеним комерцијалних провајдера. Крваве детаље о томе како све ово чишћење и спајање дешава се изван опсега ове књиге, али тај процес, без обзира колико пажљив, да пропагирају грешке у оригиналним изворима података и да ће увести грешке. Иако Цаталист био вољан да разговара своју обраду података и обезбедити неке од његових сирових података, то је једноставно немогуће да истраживачима да преиспита цео цаталист података цевовода. Уместо тога, истраживачи су били у ситуацији у којој Цаталист подаци фајл имали неку непознату, а можда непознат, износ грешке. Ово је озбиљан проблем, јер критичар може нагађати да су велике разлике између извјештаја истраживања о ЦЦЕС и понашања у цаталист фајлу Основни подаци изазван грешкама у датотеци основни подаци, а не погрешне стране испитаника.

Ансолабехере и Херш су два различита приступа у решавању квалитета података забринутост. Прво, поред поређења само-пријавио гласање за гласање у цаталист Мастер Филе, истраживачи су такође у односу себе пријавио партија, раса, бирач Регистратион статус (нпр, регистрован или није регистрован) и метод гласања (на пример, лично, одсутна гласање, итд) са тим вредностима налазе у цаталист базама података. За ове четири демографске варијабле, истраживачи су открили много виши ниво споразума између извештаја истраживања и података у цаталист Мастер Филе него за гласање. Дакле, Цаталист основни подаци фајл изгледа да имају квалитетне информације за особина осим гласања, што указује да није лоше укупног квалитета. Друго, у делу користећи податке из катализатор, Ансолабехере и Херш развио три различита мере квалитета округ гласа евиденције, и открили су да је процењена стопа повећања броја гласања је у суштини нема везе са било којим од ових мера квалитета података, а закључак да сугеришу да су високе стопе над-извештавања се не покреће жупанијама са необично ниским квалитетом података.

С обзиром на стварање овог мастер гласања фајл, други извор потенцијалних грешака повезује евиденцију анкете на њега. На пример, ако је то веза се ради погрешно то би могло да доведе до претеране процене разлике између пријављеног и потврђено гласања понашања (Neter, Maynes, and Ramanathan 1965) . Уколико свака особа има стабилну, јединствени идентификатор који је у оба извора података, онда веза ће бити тривијално. У САД и већини других земаља, међутим, не постоји универзални идентификатор. Даље, чак и ако је било такав народ идентификатор вероватно би оклевао да га обезбеди анкете истраживача! Тако, Цаталист морао повезаност помоћу несавршене идентификаторе, у овом случају четири комада информација о сваког испитаника: име, пол, година рођења, и кућну адресу. На пример, Цаталист је морао да одлучи да ли је Хоми Ј. Симпсон на ЦЦЕС била иста особа као Хомер Јаи Симпсон у досијеу мајстор података. У пракси, одговарајући је тежак и прљав процес, и, што је још горе за истраживаче, Цаталист сматра своју технику компатибилности да буде власништво.

Да би се оправдали одговарајућу алгоритме, они се ослањају на два изазова. Прво, Цаталист учествовао у одговарајућој конкуренцији који је водио независни треће стране: Тхе Митре Цорпоратион. Митре под условом свим учесницима две бучне фајлове са подацима бити упарен, и различите екипе такмичиле да се врате у МИТРЕ најбоље поклапање. Јер сама Митре знао тачан усклађивање су били у стању да постигну тимове. Од 40 компанија које су се такмичиле, Цаталист је на другом месту. Ова врста независне, треће стране евалуације власничког технологије је веома редак и невероватно вредан; треба нам дати самопоуздање да одговарајућих процедура цаталист су у суштини на стање-оф-тхе-арт. Али је стање-оф-тхе-арт довољно добар? Поред овог упаривања конкуренције, Ансолабехере и Херш створили своју одговарајући изазов за катализатор. Из ранијег пројекта, Ансолабехере и Херш су прикупљени евиденцију бирача из Флориде. Они су обезбедили неки од ових записа са неким од својих поља редигованим да катализатор, а затим у односу извештаје катализатор је ових области њиховим стварним вредностима. На срећу, извештаји цаталист су били близу задржао вредности, што указује да Цаталист могао парирати парцијалне евиденцију бирача на свој фајл мајстор података. Ова два изазова, један од треће стране и један од Ансолабехере и Херсх, дај нам више самопоуздања у цаталист подударања алгоритми, иако не можемо прегледати њихове тачне имплементација себе.

Било је много претходни покушаји да се потврдити гласање. За преглед тог литературе, погледајте Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , и Hanmer, Banks, and White (2014) .

Важно је напоменути да, иако у овом случају научници су охрабрени квалитета података из катализатор, други оцене комерцијалних произвођача су мање ентузијазма. Истраживачи су открили лошег квалитета када се подаци из анкете до потрошача-датотеке из Маркетинг Системс Гроуп (која је и сама заједно спојене податке од три провајдера: Ацкиом, Екпериан, а инфоУСА) (Pasek et al. 2014) . То је, подаци фајл не одговара одговоре истраживања које истраживачи очекују да буде тачно, Датафиле је недостајућих података за велики број питања, и недостаје образац података је у корелацији са пријављена вредност истраживања (другим речима податке који недостају било систематско , не случајно).

За више информација о рекордном повезаности истраживања и административних података, погледајте Sakshaug and Kreuter (2012) Schnell (2013) . За више информација о рекордном повезаности у целини, види Dunn (1946) Fellegi and Sunter (1969) (историјски) и Larsen and Winkler (2014) (модерни). Сличне приступи су развијени у компјутерске науке под именима као што су дедупликацијом података, идентификација пример, име упаривања, дупликат детекцију, као и умножавање снимање детекције (Elmagarmid, Ipeirotis, and Verykios 2007) . Ту су и приватност очување приступа да сними везе које не захтевају пренос личне податке (Schnell 2013) . Истраживачи на Фацебоок развили поступак за пробабилистицсли повежу своје записе на гласање понашања (Jones et al. 2013) ; Ова повезаност је урађено да се процени експеримент који ћу вам кажем о у поглављу 4 (Bond et al. 2012) .

Још један пример повезивање великих друштвених истраживања владиним административним подацима потиче из здравственог и пензионог премјеру и Управе за социјалну сигурност. За више информација о тој студији, укључујући информације о поступку сагласности, погледајте Olson (1996) Olson (1999) .

Процес комбинације многих извора административних података у ДатаФиле-процесу мастер да цаталист запослени-је уобичајено у статистичким канцеларијама неких националних влада. Два истраживача из Шведске статистике су написали детаљну књигу на ову тему (Wallgren and Wallgren 2007) . На пример овог приступа у једном округу у Сједињеним Америчким Државама (Округ Олмстед, Миннесота; дом Маио Цлиниц), погледајте Sauver et al. (2011) . За више информација о грешкама које се могу појавити у административних података, погледајте Groen (2012) .