3.3.1表示

表示是有關從受訪者進行推論到你的目標人群。

為了體會那種從受訪者對人口較多的推斷時可能發生的錯誤,讓我們考慮試圖預測1936年美國總統大選結果的文藝文摘民意測驗。雖然超過75年前,這個失誤仍然有今天的教科研人員的重要一課。

文學文摘是一個受歡迎的一般興趣的雜誌,並於1920年開始,他們開始運行稻草民調預測總統選舉的結果。為了使這些預測他們會派選票,很多人,然後簡單地總結出被退回的選票; 文藝文摘自豪地報告說,他們收到的選票既不是“加權調整,也沒有解釋。”這個程序正確預測贏家在1920年,1924年,1928年和1932年。1936年的選舉中,在大蕭條之中, 文藝文摘發出選票10萬人,他 ​​們的名字從電話號碼簿和汽車登記記錄主要是來了。下面是他們如何描述他們的方法:

“摘要與三十多年的經驗迅速精確平穩運行的機器移動,以減少猜測到確鑿的事實。 。 。一周。這500筆劃傷了超過一百萬的地址的四分之一一天。每一天,在一個大房間高高在上電機絲帶第四大街,紐約,400名工人麻利地滑動萬件印刷品,足以鋪平道路40個街區,被尋址的信封(原文如此)。每隔一小時,在DIGEST自己的郵局變電站,三抖動郵資計費機密封並加蓋白色的長方形;熟練的郵政員工翻轉它們變成鼓鼓mailsacks;車隊DIGEST卡車呼嘯他們表達郵件的列車。 。 。下週,這些一千萬首答案將開始顯著選票的來潮,是三重檢查,核實,五次交叉分類和匯總。當最後一個數字已評選出並檢查,如果過去的經驗是一個標準,該國將知道的1%的4000萬[選民]的實際民眾投票的一小部分之內。“(1936年8月22日)

大小的摘要的拜物教是立即識別的“大數據”研究員今天。的10萬張選票分散,一個驚人的240萬張選票被退回,這是大致比現代政治民意調查大1000倍。從這些240萬受訪者的判決是明確的: 文藝文摘預言挑戰者阿爾夫·蘭登是要打敗現任富蘭克林·羅斯福。但是,實際上,正好相反發生了。羅斯福以壓倒性擊敗蘭登。 文學文摘怎麼可能去錯了如此多的數據?我們採樣的現代理解,使文學精華的錯誤,明確並幫助我們避免今後做出類似錯誤。

有關抽樣清晰思考要求我們要考慮人的四個不同的群體(圖3.1)。的人的第一組是目標人群 ;這是研究的定義為感興趣的人口的組。在文學文摘的情況下,目標人群在1936年總統選舉的選民。決定一個目標人群後,研究者下需要發展的,可用於對採樣人的列表。該列表被稱為採樣幀和採樣框架上的人口被稱為幀的人口 。在文學文摘的情況下,框架人口為10萬人,其名稱來自電話目錄和汽車登記記錄來為主。理想的是,目標人群和框架人口將是完全一樣的,但在實踐中,這是常常並非如此。目標人群和幀人群之間的差異被稱為覆蓋誤差 。覆蓋誤差不,本身保障的問題。但是,如果在幀人口人都是從人的不同系統中沒有框架的人口將有覆蓋偏差 。覆蓋誤差是第一個與文學文摘民意調查的主要缺陷。他們想了解的選民,這是他們的目標人群,但過度代表富裕,他們從電話目錄和汽車登記,來源主要是構建了一個抽樣框美國人誰更傾向於支持阿爾夫·蘭登(回憶一下,這兩種技術,這是常見的今天,是相對較新的時間和美國在大蕭條之中)。

圖3.1:表示錯誤。

圖3.1:表示錯誤。

定義幀人口後,下一步為研究者選擇樣本群 ;這些都是研究人員將試圖採訪的人。如果樣品具有比框架人口不同的特點,那麼,我們可以引入抽樣誤差 。這是錯誤的保證金,通常伴隨量化估計的那種錯誤。在文學文摘慘敗的情況下,實際上是沒有樣品;他們試圖聯繫每個人都在框架的人口。即使沒有抽樣誤差,但顯然還是錯誤。這闡明了通常與預測報告,從調查的錯誤的邊緣通常是誤導較小;它們不包含錯誤的所有來源。

最後,研究人員嘗試在樣本人群進行採訪的每一個人。那些成功訪問了這些人被稱為受訪者 。理想地,樣品人口和受訪者將是完全一樣的,但在實踐中有不答复。也就是說,誰是樣本中選擇的人拒絕參加。如果誰做出反應的人都是那些誰不響應不同,那麼就可以不答复偏差 。不答复偏差與文學文摘民意調查第二個主要問題。只有24%誰收到了選票的人回應,並且事實證明,誰支持蘭登的人更容易應對。

除了 ​​擺明介紹代表性的觀點為例, 文學文摘民意調查是一個經常重複的比喻,告誡約隨意抽樣的危險的研究人員。不幸的是,我認為,很多人從這個故事得出的教訓是錯誤的。這個故事最常見的寓意是研究人員還不能(沒有嚴格的基於概率的規則,即樣本選擇參加)借鑒非概率樣本東西。但是,正如我將在本章後面表明,這是不完全正確。相反,我認為這裡實際有道德這個故事;道德因為它們是在1936年首先是作為真正的今天,大量隨意收集的數據將不能保證良好的估計。其次,研究人員需要考慮到他們的數據是如何時,他們能從中能收集到的估計。換句話說,因為在文學文摘民意調查數據採集過程中對一些受訪者進行了系統的傾斜,研究人員需要使用更複雜的評估過程,重一些受訪者比其他人。在本章的後面,我會告訴你一個這樣的加權方法,事後分層,可以使您能夠用非概率樣本更好的估計。