3.4 Ai hỏi

Mẫu xác suất và các mẫu không xác suất không khác trong thực tế; trong cả hai trường hợp, nó là tất cả về trọng lượng.

Lấy mẫu là cơ bản để khảo sát nghiên cứu. Các nhà nghiên cứu hầu như không bao giờ đặt câu hỏi để mọi người trong dân số mục tiêu của họ. Về vấn đề này, các cuộc điều tra là không duy nhất. Hầu hết các nghiên cứu, bằng cách này hay cách khác, liên quan đến việc lấy mẫu. Đôi khi lấy mẫu này được thực hiện một cách rõ ràng bởi các nhà nghiên cứu; lần khác, nó sẽ xảy ra ngầm. Ví dụ, một nhà nghiên cứu mà chạy một thí nghiệm trong phòng thí nghiệm về sinh viên đại học tại trường đại học của cô cũng đã lấy một mẫu. Vì vậy, lấy mẫu là một vấn đề mà đi lên trong suốt cuốn sách này. Trong thực tế, một trong những mối quan tâm phổ biến nhất mà tôi nghe về nguồn đại kỹ thuật số của dữ liệu là "họ không đại diện." Như chúng ta sẽ thấy trong phần này, mối quan tâm này là cả hai ít nghiêm trọng và tinh tế hơn nhiều người hoài nghi nhận ra. Trong thực tế, tôi sẽ lập luận rằng toàn bộ khái niệm "đại diện" không phải là hữu ích để suy nghĩ về mẫu xác suất và phi xác suất. Thay vào đó, chính là để suy nghĩ về cách thức dữ liệu được thu thập và làm thế nào bất kỳ thành kiến ​​trong việc thu thập dữ liệu có thể được hoàn tác khi lập dự toán.

Hiện nay, các phương pháp tiếp cận lý thuyết chủ đạo để đại diện là lấy mẫu xác suất. Khi dữ liệu được thu thập với một phương pháp lấy mẫu xác suất đã được thực hiện hoàn hảo, các nhà nghiên cứu có thể để trọng lượng dữ liệu của họ dựa trên cách mà họ đã thu thập được để làm cho ước lượng không chệch về dân số mục tiêu. Tuy nhiên, lấy mẫu xác suất hoàn hảo về cơ bản không bao giờ xảy ra trong thế giới thực. Có hai vấn đề chính 1) sự khác biệt giữa các mục tiêu dân số và dân số khung và 2) không đáp ứng (đây là chính xác những vấn đề mà đắm cuộc bình chọn Literary Digest) thường. Như vậy, thay vì nghĩ đến việc lấy mẫu xác suất như một mô hình thực tế về những gì thực sự xảy ra trên thế giới, nó là tốt hơn để nghĩ về lấy mẫu xác suất như một mô hình trừu tượng hữu ích, giống như cách các nhà vật lý nghĩ về một bóng ma sát lăn xuống một độ dài vô hạn Giốc.

Việc thay thế để lấy mẫu xác suất là lấy mẫu không xác suất. Sự khác biệt chính giữa xác suất và lấy mẫu không xác suất là với xác suất lấy mẫu tất cả mọi người trong dân số có khả năng được biết đến của thu nhận. Có, trên thực tế, nhiều loại mẫu không xác suất, và các phương pháp thu thập dữ liệu đang trở nên ngày càng phổ biến trong thời đại kỹ thuật số. Nhưng, lấy mẫu không xác suất có một danh tiếng khủng khiếp giữa các nhà khoa học xã hội và thống kê học. Trong thực tế, lấy mẫu không xác suất kết hợp với một số trong những thất bại đáng kể nhất của các nhà nghiên cứu khảo sát, chẳng hạn như sự thất bại Literary Digest (thảo luận trước đó) và dự đoán chính xác về các cuộc bầu cử tổng thống Mỹ năm 1948 ( "Dewey Thua Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .

Tuy nhiên, thời gian là quyền xem xét lại lấy mẫu không xác suất để hai lý do. Thứ nhất, như mẫu xác suất đã trở nên ngày càng khó khăn để làm trong thực tế, ranh giới giữa các mẫu xác suất và mẫu không xác suất được làm mờ. Khi có tỷ lệ cao không đáp ứng thuốc (như có trong các cuộc khảo sát thực tế hiện nay), xác suất thực tế của tạp cho người trả lời không biết, và do đó, các mẫu xác suất và mẫu không xác suất không khác biệt như nhiều nhà nghiên cứu tin. Trong thực tế, như chúng ta sẽ thấy dưới đây, cả hai phương pháp cơ bản dựa trên các phương pháp ước lượng như nhau: sau phân tầng. Thứ hai, đã có nhiều bước phát triển trong việc thu thập và phân tích các mẫu không xác suất. Những phương pháp này là khác nhau, đủ từ các phương pháp đó gây ra vấn đề trong quá khứ mà tôi nghĩ rằng nó làm cho tinh thần để nghĩ về họ như là "không xác suất lấy mẫu 2.0." Chúng ta không nên có ác cảm không hợp lý các phương pháp phi xác suất vì sai sót đã xảy ra một thời gian dài trước đây.

Tiếp theo, để làm cho lập luận này cụ thể hơn, tôi sẽ xem xét lấy mẫu xác suất chuẩn và trọng số (Mục 3.4.1). Ý tưởng quan trọng là làm thế nào bạn thu thập dữ liệu của bạn sẽ ảnh hưởng đến cách bạn thực hiện ước tính. Đặc biệt, nếu tất cả mọi người không có cùng xác suất của sự bao gồm, sau đó tất cả mọi người nên không có cùng trọng lượng. Nói cách khác, nếu lấy mẫu của bạn không phải là dân chủ, sau đó ước tính của bạn sẽ không được dân chủ. Sau khi xem xét trọng, tôi sẽ mô tả hai cách tiếp cận để lấy mẫu không xác suất: một tập trung vào trọng để đối phó với các vấn đề của dữ liệu tuỳ tiện thu (mục 3.4.2), và một trong đó cố gắng đặt kiểm soát nhiều hơn như thế nào dữ liệu thu (mục 3.4.3). Những lập luận trong văn bản chính sẽ được giải thích dưới đây với các từ và hình ảnh; độc giả muốn có một xử lý toán học hơn cũng nên xem phụ lục kỹ thuật.