3.4.1 ความน่าจะเป็นการสุ่มตัวอย่าง: การเก็บรวบรวมข้อมูลและการวิเคราะห์ข้อมูล

แปลนี้ถูกสร้างขึ้นโดยคอมพิวเตอร์ ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.1 ความน่าจะเป็นการสุ่มตัวอย่าง: การเก็บรวบรวมข้อมูลและการวิเคราะห์ข้อมูล

น้ำหนักสามารถยกเลิกการบิดเบือนเจตนาที่เกิดจากขั้นตอนการสุ่มตัวอย่าง

ตัวอย่างความน่าจะเป็นคนที่ทุกคนมีความรู้จักกันไม่ใช่ศูนย์น่าจะเป็นของการรวมและการออกแบบการสุ่มตัวอย่างความน่าจะเป็นที่ง่ายที่สุดคือการสุ่มแบบง่าย ๆ ที่แต่ละคนมีความน่าจะเป็นของการรวมเท่ากับ เมื่อผู้ตอบแบบสอบถามได้รับการคัดเลือกผ่านการสุ่มแบบง่ายกับการดำเนินการที่สมบูรณ์แบบ (เช่นข้อผิดพลาดความคุ้มครองและไม่มีการตอบสนองที่) แล้วประมาณค่าตรงไปตรงมาเพราะตัวอย่างจะ-โดยเฉลี่ยจะเป็นรุ่นจิ๋วของประชากร

สุ่มตัวอย่างแบบง่ายจะไม่ค่อยนำมาใช้ในทางปฏิบัติอย่างไร แต่นักวิจัยจงใจเลือกคนที่มีความน่าจะเป็นที่ไม่เท่าเทียมกันของการรวมเพื่อลดค่าใช้จ่ายและเพิ่มความแม่นยำ เมื่อนักวิจัยจงใจเลือกคนที่มีความน่าจะเป็นที่แตกต่างกันของการรวมแล้วการปรับเปลี่ยนที่จำเป็นในการยกเลิกการบิดเบือนที่เกิดจากขั้นตอนการสุ่มตัวอย่าง ในคำอื่น ๆ วิธีการที่เราคุยจากตัวอย่างขึ้นอยู่กับว่ากลุ่มตัวอย่างที่ได้รับการคัดเลือก

ยกตัวอย่างเช่นการสำรวจประชากรปัจจุบัน (CPS) ถูกนำมาใช้โดยรัฐบาลสหรัฐในการประมาณการอัตราการว่างงาน ในแต่ละเดือนประมาณ 100,000 คนมีการสัมภาษณ์ทั้งใบหน้าเพื่อใบหน้าหรือผ่านทางโทรศัพท์และผลที่ใช้ในการผลิตอัตราการว่างงานที่คาด เพราะรัฐบาลมีความประสงค์ที่จะประเมินอัตราการว่างงานในแต่ละรัฐก็ไม่สามารถทำตัวอย่างสุ่มอย่างง่ายของผู้ใหญ่เพราะที่จะให้ผลตอบแบบสอบถามที่น้อยเกินไปในรัฐที่มีประชากรขนาดเล็ก (เช่น, Rhode Island) และมากเกินไปจากรัฐที่มีประชากรขนาดใหญ่ (เช่น แคลิฟอร์เนีย) แทน CPS ตัวอย่างคนในรัฐที่แตกต่างในอัตราที่แตกต่างกันกระบวนการที่เรียกว่าการสุ่มตัวอย่างแบบแบ่งชั้นมีโอกาสที่ไม่เท่าเทียมกันของการเลือก ตัวอย่างเช่นถ้า CPS ต้องการ 2,000 ตอบแบบสอบถามต่อรัฐแล้วผู้ใหญ่ใน Rhode Island จะมีความน่าจะเป็นประมาณ 30 ครั้งสูงของการรวมกว่าผู้ใหญ่ในรัฐแคลิฟอร์เนีย (Rhode Island: 2,000 ตอบแบบสอบถามต่อผู้ใหญ่ 800,000 VS แคลิฟอร์เนีย: 2,000 ตอบแบบสอบถามต่อผู้ใหญ่ 30,000,000) ในฐานะที่เราจะได้เห็นต่อไปชนิดของการสุ่มตัวอย่างด้วยความน่าจะไม่เท่ากันนี้เกิดขึ้นกับแหล่งข้อมูลออนไลน์ของข้อมูลมากเกินไป แต่แตกต่างจาก CPS กลไกการสุ่มตัวอย่างมักจะไม่เป็นที่รู้จักหรือควบคุมโดยผู้วิจัย

ได้รับการออกแบบการสุ่มตัวอย่างที่ CPS ไม่ได้เป็นตัวแทนโดยตรงของสหรัฐ; มันมีคนจำนวนมากเกินไปจาก Rhode Island และน้อยเกินไปจากแคลิฟอร์เนีย ดังนั้นจึงจะไม่ฉลาดในการประมาณการอัตราการว่างงานในประเทศที่มีอัตราการว่างงานในกลุ่มตัวอย่าง แทนค่าเฉลี่ยของกลุ่มตัวอย่างจะดีกว่าที่จะใช้ค่าเฉลี่ยถ่วงน้ำหนักที่น้ำหนักบัญชีสำหรับความจริงที่ว่าผู้คนจาก Rhode Island มีแนวโน้มที่จะถูกรวมกว่าคนจากแคลิฟอร์เนีย ยกตัวอย่างเช่นแต่ละคนจากแคลิฟอร์เนียจะ upweighted- พวกเขาจะถูกนับเพิ่มขึ้นในการประมาณการและแต่ละคนจาก Rhode Island จะ downweighted ที่พวกเขาจะนับน้อยในการประมาณการ ในสาระสำคัญคุณจะได้รับเสียงมากขึ้นเพื่อคนที่คุณมีโอกาสน้อยที่จะเรียนรู้เกี่ยวกับ

ตัวอย่างนี้แสดงให้เห็นของเล่นที่มีความสำคัญ แต่เข้าใจผิดกันทั่วไปจุด: ตัวอย่างไม่จำเป็นต้องเป็นรุ่นจิ๋วของประชากรเพื่อผลิตประมาณการที่ดี ถ้าพอเป็นที่รู้จักกันเกี่ยวกับวิธีการที่ข้อมูลที่ถูกเก็บรวบรวมแล้วข้อมูลที่สามารถนำมาใช้เมื่อมีการประมาณการจากตัวอย่าง วิธีการที่ผมได้อธิบายและเพียงแค่ว่าผมอธิบายทางคณิตศาสตร์ในทางเทคนิคภาคผนวก-ตกตรงภายในกรอบการสุ่มตัวอย่างความน่าจะเป็นคลาสสิก ตอนนี้ฉันจะแสดงวิธีการที่ความคิดเดียวกันสามารถนำไปใช้กับกลุ่มตัวอย่างที่ไม่น่าจะเป็น