3.4.1 Xác suất lấy mẫu: Thu thập dữ liệu và phân tích dữ liệu

Trọng lượng có thể hoàn tác biến dạng cố ý gây ra bởi quá trình lấy mẫu.

Mẫu xác suất là những nơi mà tất cả mọi người có một tiếng, không bằng không khả năng hòa nhập, và các thiết kế lấy mẫu xác suất đơn giản nhất là đơn giản lấy mẫu ngẫu nhiên mà mỗi người có xác suất bằng nhau của thu nhận. Khi trả lời được lựa chọn thông qua lấy mẫu ngẫu nhiên đơn giản với thực hiện hoàn hảo (ví dụ, không có lỗi bảo hiểm và không có không đáp ứng), sau đó ước lượng là đơn giản bởi vì mẫu sẽ-trung bình-là một phiên bản thu nhỏ của dân số.

lấy mẫu ngẫu nhiên đơn giản là rất hiếm khi được sử dụng trong thực tế, tuy nhiên. Thay vào đó, các nhà nghiên cứu cố ý chọn những người có xác suất không đồng đều đưa vào để giảm chi phí và tăng độ chính xác. Khi các nhà nghiên cứu cố ý chọn những người có xác suất khác nhau của sự bao gồm, sau đó điều chỉnh là cần thiết để hoàn tác các biến dạng gây ra bởi quá trình lấy mẫu. Nói cách khác, làm thế nào chúng ta khái quát hóa từ một mẫu phụ thuộc vào cách mẫu được chọn.

Ví dụ, Điều tra dân số hiện tại (CPS) được sử dụng bởi chính phủ Hoa Kỳ để ước tính tỷ lệ thất nghiệp. Mỗi tháng khoảng 100.000 người được phỏng vấn, hoặc là mặt đối mặt hay qua điện thoại, và kết quả được sử dụng để sản xuất ra các tỷ lệ thất nghiệp ước tính. Bởi vì chính phủ muốn để ước tính tỷ lệ thất nghiệp ở mỗi bang, nó không thể làm một mẫu ngẫu nhiên đơn giản của người lớn, vì đó sẽ mang lại quá ít người trong các quốc gia có dân số thấp (ví dụ, Rhode Island) và quá nhiều từ các quốc gia có dân số lớn (ví dụ như , California). Thay vào đó, các mẫu CPS người dân ở tiểu bang khác nhau ở mức độ khác nhau, một quá trình được gọi là lấy mẫu phân tầng với xác suất không cân sức lựa chọn. Ví dụ, nếu muốn CPS 2.000 người trả lời mỗi tiểu bang, sau đó người lớn ở Rhode Island sẽ phải cao hơn khoảng 30 lần khả năng hòa nhập hơn người lớn ở California (Rhode Island: 2.000 người trả lời mỗi 800.000 người lớn vs California: 2.000 người trả lời mỗi 30.000.000 người lớn). Như chúng ta sẽ thấy sau này, loại này lấy mẫu với xác suất không đồng đều sẽ xảy ra với các nguồn dữ liệu trực tuyến quá, nhưng không giống như CPS, cơ chế lấy mẫu thường không biết hoặc kiểm soát bởi các nhà nghiên cứu.

Với thiết kế lấy mẫu của nó, là CPS không phải là trực tiếp đại diện của Hoa Kỳ; nó bao gồm quá nhiều người từ Rhode Island và quá ít từ California. Vì vậy, nó sẽ là không khôn ngoan để ước tính tỷ lệ thất nghiệp trong nước với tỷ lệ thất nghiệp trong mẫu. Thay vì trung bình mẫu, nó là tốt hơn để có một bình có trọng số, nơi chiếm trọng lượng cho một thực tế rằng những người từ Rhode Island có nhiều khả năng được bao gồm hơn những người đến từ California. Ví dụ, mỗi người từ California sẽ upweighted- họ sẽ đếm hơn trong dự toán và mỗi người từ Rhode Island sẽ được giảm trọng số-họ sẽ đếm ít trong dự toán. Về bản chất, bạn có tiếng nói nhiều hơn đến những người mà bạn ít có khả năng để tìm hiểu về.

Ví dụ đồ chơi này minh họa một điểm quan trọng nhưng thường bị hiểu lầm: một mẫu không cần phải là một phiên bản thu nhỏ của người dân để sản xuất ước tính tốt. Nếu đủ được biết về cách thức dữ liệu được thu thập, sau đó thông tin có thể được sử dụng khi lập dự toán từ mẫu. Cách tiếp cận tôi vừa mô tả, và rằng tôi mô tả toán học trong kỹ thuật ruột thừa, rơi thẳng trong khuôn khổ lấy mẫu xác suất cổ điển. Bây giờ, tôi sẽ chỉ cho làm thế nào mà ý tưởng tương tự có thể được áp dụng cho các mẫu không xác suất.