3.4.3 ตัวอย่างไม่น่าจะเป็น: การจับคู่ตัวอย่าง

ไม่ได้ทั้งหมดตัวอย่างที่ไม่น่าจะเป็นเหมือนกัน เราสามารถเพิ่มการควบคุมมากขึ้นในส่วนหน้า

วิธีวังและเพื่อนร่วมงานใช้ในการประเมินผลของการเลือกตั้งประธานาธิบดีสหรัฐในปี 2012 ขึ้นอยู่ทั้งหมดในการปรับปรุงในการวิเคราะห์ข้อมูล นั่นคือพวกเขาเก็บรวบรวมการตอบสนองมากที่สุดเท่าที่พวกเขาสามารถและความพยายามที่จะ re-น้ำหนักพวกเขา กลยุทธ์เสริมสำหรับการทำงานกับการสุ่มตัวอย่างที่ไม่น่าจะเป็นที่จะมีการควบคุมที่มากกว่ากระบวนการเก็บรวบรวมข้อมูล

ตัวอย่างที่ง่ายที่สุดของกระบวนการการสุ่มตัวอย่างที่ไม่น่าจะเป็นส่วนควบคุมการสุ่มตัวอย่างโควต้าเทคนิคที่จะกลับไปวันแรกของการวิจัยสำรวจ ในการสุ่มตัวอย่างโควต้านักวิจัยแบ่งออกเป็นกลุ่มประชากรที่แตกต่างกัน (เช่นชายหนุ่มหญิงสาว ฯลฯ ) และโควต้าแล้วชุดสำหรับจำนวนของผู้คนที่ได้รับเลือกในแต่ละกลุ่ม ผู้ตอบแบบสอบถามจะถูกเลือกในลักษณะจับจดจนกระทั่งนักวิจัยได้พบโควต้าของพวกเขาในแต่ละกลุ่ม เพราะโควต้าตัวอย่างที่เกิดขึ้นมีลักษณะเหมือนประชากรกลุ่มเป้าหมายกว่าจะเป็นจริงอย่างอื่น แต่เป็นเพราะความน่าจะเป็นของการรวมที่มีนักวิจัยหลายคนที่ไม่รู้จักที่สงสัยของการสุ่มตัวอย่างโควต้า ในความเป็นจริงการสุ่มตัวอย่างโควต้าเป็นสาเหตุของ "ดิวอี้เอาชนะทรูแมน" ข้อผิดพลาดใน 1,948 โพลประธานาธิบดีสหรัฐ เพราะมีการควบคุมบางกว่ากระบวนการสุ่มตัวอย่าง แต่หนึ่งสามารถดูวิธีการสุ่มตัวอย่างโควต้าอาจจะมีข้อได้เปรียบบางกว่าการเก็บรวบรวมข้อมูลที่ไม่สามารถควบคุมได้อย่างสมบูรณ์

ย้ายที่อยู่นอกเหนือการสุ่มตัวอย่างโควต้า, วิธีการที่ทันสมัย​​มากขึ้นในการควบคุมกระบวนการการสุ่มตัวอย่างที่ไม่น่าจะเป็นไปได้ตอนนี้ วิธีการหนึ่งที่ดังกล่าวเรียกว่าการจับคู่ตัวอย่างและมันจะถูกใช้โดยผู้ให้บริการบางแผงออนไลน์เชิงพาณิชย์ ในรูปแบบที่ง่ายที่สุดที่ตรงกับกลุ่มตัวอย่างที่ต้องใช้สองแหล่งข้อมูล: 1) ลงทะเบียนที่สมบูรณ์ของประชากรและ 2) แผงขนาดใหญ่ของอาสาสมัคร มันเป็นสิ่งสำคัญที่อาสาสมัครไม่จำเป็นต้องมีความน่าจะเป็นตัวอย่างจากประชากรใด ๆ จะเน้นว่ามีความต้องการสำหรับการเลือกสู่แผงไม่มีผมจะเรียกมันว่าแผงสกปรก นอกจากนี้ทั้งการลงทะเบียนของประชากรและแผงสกปรกต้องมีข้อมูลเสริมบางอย่างเกี่ยวกับแต่ละคนในตัวอย่างนี้ผมจะพิจารณาอายุและเพศ แต่ในสถานการณ์จริงข้อมูลเสริมนี้อาจจะมีรายละเอียดมากขึ้น เคล็ดลับของการจับคู่กลุ่มตัวอย่างคือการเลือกตัวอย่างจากแผงสกปรกในทางที่ก่อให้เกิดกลุ่มตัวอย่างที่มีลักษณะเหมือนตัวอย่างความน่าจะเป็น

ตัวอย่างการจับคู่เริ่มต้นขึ้นเมื่อน่าจะเป็นตัวอย่างที่จำลองมาจากประชากรที่ลงทะเบียน; ตัวอย่างจำลองนี้จะกลายเป็นตัวอย่างเป้าหมาย จากนั้นขึ้นอยู่กับข้อมูลเสริมกรณีตัวอย่างเป้าหมายจะถูกจับคู่กับคนในแผงสกปรกในรูปแบบตัวอย่างการจับคู่ ตัวอย่างเช่นถ้ามีความเป็นเพศหญิง 25 ปีเก่าในกลุ่มตัวอย่างเป้าหมายแล้วนักวิจัยพบว่า 25 ปีหญิงอายุจากแผงสกปรกที่จะอยู่ในกลุ่มตัวอย่างที่ตรงกัน สุดท้ายสมาชิกของกลุ่มตัวอย่างที่ตรงกับที่มีการให้สัมภาษณ์ในการผลิตชุดสุดท้ายของผู้ตอบแบบสอบถาม

แม้ว่าตัวอย่างการจับคู่ดูเหมือนตัวอย่างเป้าหมายเป็นสิ่งสำคัญที่ต้องจำไว้ว่าตัวอย่างการจับคู่ที่ไม่น่าจะเป็นตัวอย่าง ตัวอย่างตรงกันเท่านั้นที่สามารถตรงกับตัวอย่างเป้าหมายบนข้อมูลเสริมที่รู้จักกัน (เช่นอายุและเพศ) แต่ไม่ได้อยู่ในลักษณะที่ไม่สามารถวัดได้ ตัวอย่างเช่นถ้าคนที่อยู่บนแผงสกปรกมีแนวโน้มที่จะแย่หลังจากที่ทุกเหตุผลหนึ่งที่จะเข้าร่วมแผงสำรวจคือการได้รับเงินแล้วแม้ว่าตัวอย่างการจับคู่ดูเหมือนตัวอย่างเป้าหมายในแง่ของอายุและเพศก็จะยังคงมี อคติที่มีต่อคนยากจน ความมหัศจรรย์ของการสุ่มตัวอย่างความน่าจะเป็นที่แท้จริงคือการออกกฎปัญหาทั้งในลักษณะการวัดและไม่สามารถวัดได้ (จุดที่สอดคล้องกับการสนทนาของเราของการจับคู่สำหรับการอนุมานสาเหตุจากการศึกษาการสังเกตการณ์ในบทที่ 2)

ในทางปฏิบัติการจับคู่ตัวอย่างขึ้นอยู่กับการมีแผงที่มีขนาดใหญ่และมีความหลากหลายความกระตือรือร้นที่จะดำเนินการสำรวจและทำให้มันส่วนใหญ่จะทำโดย บริษัท ที่ไม่สามารถที่จะพัฒนาและรักษาแผงดังกล่าว นอกจากนี้ในทางปฏิบัติอาจมีปัญหาเกี่ยวกับการจับคู่ (บางครั้งการแข่งขันที่ดีสำหรับใครบางคนในกลุ่มตัวอย่างเป้าหมายไม่ได้อยู่บนแผง) และไม่ตอบสนอง (บางครั้งคนในกลุ่มตัวอย่างที่จับคู่ปฏิเสธที่จะมีส่วนร่วมในการสำรวจ) ดังนั้นในทางปฏิบัตินักวิจัยทำตัวอย่างการจับคู่นอกจากนี้ยังดำเนินการชนิดของการปรับตัวหลังการแบ่งชั้นบางอย่างเพื่อให้ประมาณการ

มันยากที่จะให้การค้ำประกันทฤษฎีประโยชน์เกี่ยวกับการจับคู่ตัวอย่าง แต่ในทางปฏิบัติก็สามารถทำงานได้ดี ยกตัวอย่างเช่นสตีเฟ่นและไบรอัน Ansolabehere Schaffner (2014) เมื่อเทียบกับการสำรวจสามขนานประมาณ 1,000 คนดำเนินการในปี 2010 โดยใช้การสุ่มตัวอย่างสามแตกต่างกันและวิธีการสัมภาษณ์: mail, โทรศัพท์และแผงอินเทอร์เน็ตใช้การจับคู่ตัวอย่างและการปรับตัวหลังการแบ่งชั้น ประมาณการจากสามวิธีค่อนข้างคล้ายกับประมาณการจากมาตรฐานที่มีคุณภาพสูงเช่นปัจจุบันการสำรวจประชากร (CPS) และการสัมภาษณ์การสำรวจสุขภาพแห่งชาติ (NHIS) โดยเฉพาะอย่างยิ่งทั้งอินเทอร์เน็ตและอีเมลการสำรวจถูกปิดโดยเฉลี่ยของ 3 คะแนนร้อยละและการสำรวจโทรศัพท์ถูกปิดโดยร้อยละ 4 คะแนน ข้อผิดพลาดนี้มีขนาดใหญ่ประมาณสิ่งหนึ่งจะคาดหวังจากกลุ่มตัวอย่างประมาณ 1,000 คน แม้ว่าจะไม่มีโหมดเหล่านี้ผลิตข้อมูลที่ดีขึ้นมากทั้งทางอินเทอร์เน็ตและโทรศัพท์สำรวจ (ซึ่งใช้เวลาวันหรือสัปดาห์) เป็นอย่างมากเร็วขึ้นเพื่อให้ข้อมูลมากกว่าการสำรวจจดหมาย (ซึ่งใช้เวลาแปดเดือน) และการสำรวจทางอินเทอร์เน็ตซึ่งใช้การจับคู่ตัวอย่าง ราคาถูกกว่าที่อื่น ๆ สองโหมด

สรุปได้ว่านักวิทยาศาสตร์สังคมและสถิติอย่างไม่น่าเชื่อไม่เชื่อในการหาข้อสรุปจากนี้กลุ่มตัวอย่างที่ไม่น่าจะเป็นส่วนหนึ่งเป็นเพราะพวกเขามีความเกี่ยวข้องกับความล้มเหลวบางอย่างที่น่าอายของการวิจัยเชิงสำรวจเช่นสำรวจความคิดเห็นวรรณกรรม Digest ในส่วนที่ผมเห็นด้วยกับความสงสัยนี้: ตัวอย่างที่ไม่น่าจะเป็นเท็มเพลตมีแนวโน้มที่จะผลิตประมาณการที่ไม่ดี แต่ถ้านักวิจัยสามารถปรับอคติในกระบวนการการสุ่มตัวอย่าง (เช่นการโพสต์การแบ่งชั้น) หรือการควบคุมกระบวนการการสุ่มตัวอย่างบ้าง (เช่นตัวอย่างการจับคู่) พวกเขาสามารถผลิตประมาณการที่ดีขึ้นและแม้กระทั่งการประมาณการของที่มีคุณภาพเพียงพอสำหรับวัตถุประสงค์มากที่สุด แน่นอนว่ามันจะดีกว่าที่จะทำสุ่มตัวอย่างน่าจะดำเนินการได้อย่างสมบูรณ์แบบ แต่ที่ไม่ได้ดูเหมือนจะเป็นตัวจริง

ตัวอย่างที่เป็นทั้งที่ไม่น่าจะเป็นและความน่าจะเป็นตัวอย่างที่แตกต่างกันในคุณภาพของพวกเขาและในปัจจุบันก็มีโอกาสเป็นกรณีที่ประมาณการมากที่สุดจากตัวอย่างความน่าจะเป็นที่น่าเชื่อถือมากกว่าประมาณการจากตัวอย่างที่ไม่น่าจะเป็น แต่แม้ตอนนี้ประมาณการจากการดำเนินการที่ดีตัวอย่างที่ไม่น่าจะเป็นอาจจะดีกว่าการประมาณการจากตัวอย่างความน่าจะดำเนินการได้ไม่ดี นอกจากนี้กลุ่มตัวอย่างที่ไม่น่าจะเป็นอย่างมากที่ถูกกว่า ดังนั้นจึงปรากฏน่าจะเป็นที่ VS การสุ่มตัวอย่างที่ไม่น่าจะมีค่าใช้จ่ายที่มีคุณภาพการปิด (รูปที่ 3.6) มองไปข้างหน้าผมคาดหวังว่าประมาณการจากดีทำตัวอย่างที่ไม่น่าจะเป็นจะกลายเป็นถูกกว่าและดีกว่า นอกจากนี้เนื่องจากการสลายในการสำรวจทางโทรศัพท์พื้นฐานและอัตราการเพิ่มขึ้นของการไม่ตอบสนองผมคาดหวังว่าน่าจะเป็นตัวอย่างที่จะกลายเป็นราคาแพงมากขึ้นและมีคุณภาพต่ำ เพราะของเหล่านี้แนวโน้มระยะยาวผมคิดว่าการสุ่มตัวอย่างที่ไม่น่าจะเป็นจะกลายเป็นความสำคัญมากขึ้นในยุคที่สามของการวิจัยเชิงสำรวจ

รูปที่ 3.6: การสุ่มตัวอย่างความน่าจะเป็นในทางปฏิบัติและไม่น่าจะมีการสุ่มตัวอย่างทั้งขนาดใหญ่ประเภทที่แตกต่างกัน โดยทั่วไปมีค่าใช้จ่ายข้อผิดพลาดการค้าออกไปพร้อมกับการสุ่มตัวอย่างที่ไม่น่าจะเป็นค่าใช้จ่ายที่ต่ำกว่า แต่ข้อผิดพลาดที่สูงขึ้น แต่ดีทำสุ่มตัวอย่างที่ไม่น่าจะสามารถผลิตประมาณการที่ดีกว่าการสุ่มตัวอย่างน่าจะไม่ดีทำ ในอนาคตผมคาดหวังว่าการสุ่มตัวอย่างที่ไม่น่าจะเป็นจะได้ดีขึ้นและราคาถูกกว่าในขณะที่การสุ่มตัวอย่างความน่าจะได้รับเลวร้ายลงและมีราคาแพงกว่า

รูปที่ 3.6: การสุ่มตัวอย่างความน่าจะเป็นในทางปฏิบัติและไม่น่าจะมีการสุ่มตัวอย่างทั้งขนาดใหญ่ประเภทที่แตกต่างกัน โดยทั่วไปมีค่าใช้จ่ายข้อผิดพลาดการค้าออกไปพร้อมกับการสุ่มตัวอย่างที่ไม่น่าจะเป็นค่าใช้จ่ายที่ต่ำกว่า แต่ข้อผิดพลาดที่สูงขึ้น แต่ดีทำสุ่มตัวอย่างที่ไม่น่าจะสามารถผลิตประมาณการที่ดีกว่าการสุ่มตัวอย่างน่าจะไม่ดีทำ ในอนาคตผมคาดหวังว่าการสุ่มตัวอย่างที่ไม่น่าจะเป็นจะได้ดีขึ้นและราคาถูกกว่าในขณะที่การสุ่มตัวอย่างความน่าจะได้รับเลวร้ายลงและมีราคาแพงกว่า