3.4 Ποιος να ζητήσει

Η ψηφιακή εποχή κάνει την δειγματοληψία πιθανότητας στην πράξη πιο σκληρή και δημιουργεί νέες ευκαιρίες για δειγματοληψία μη πιθανότητας.

Στο ιστορικό της δειγματοληψίας, υπήρξαν δύο ανταγωνιστικές προσεγγίσεις: οι μέθοδοι δειγματοληψίας πιθανότητας και οι μέθοδοι δειγματοληψίας μη πιθανότητας. Αν και οι δύο προσεγγίσεις χρησιμοποιήθηκαν στις πρώτες ημέρες της δειγματοληψίας, η δειγματοληψία πιθανότητας έφτασε να κυριαρχεί και πολλοί κοινωνικοί ερευνητές διδάσκονται να βλέπουν δειγματοληψία μη πιθανότητας με μεγάλο σκεπτικισμό. Ωστόσο, όπως θα περιγράψω παρακάτω, οι αλλαγές που δημιουργούνται από την ψηφιακή εποχή σημαίνουν ότι είναι καιρός οι ερευνητές να επανεξετάσουν τη δειγματοληψία μη πιθανότητας. Συγκεκριμένα, η δειγματοληψία πιθανότητας έχει γίνει δύσκολο να γίνει στην πράξη, και η δειγματοληψία μη πιθανότητας έχει γίνει γρηγορότερη, φθηνότερη και καλύτερη. Οι ταχύτερες και φθηνότερες έρευνες δεν είναι μόνο οι ίδιοι οι ίδιοι: επιτρέπουν νέες ευκαιρίες, όπως πιο συχνές έρευνες και μεγαλύτερα μεγέθη δειγμάτων. Για παράδειγμα, με τη χρήση μεθόδων μη πιθανότητας, η Συνεργατική Μελέτη Εκλογών του Κογκρέσου (CCES) μπορεί να έχει περίπου 10 φορές περισσότερους συμμετέχοντες από προηγούμενες μελέτες χρησιμοποιώντας δειγματοληψία πιθανότητας. Αυτό το πολύ μεγαλύτερο δείγμα επιτρέπει στους πολιτικούς ερευνητές να μελετήσουν τις διαφορές στις συμπεριφορές και τη συμπεριφορά μεταξύ υποομάδων και κοινωνικών πλαισίων. Επιπλέον, όλη αυτή η προστιθέμενη κλίμακα ήρθε χωρίς μειώσεις στην ποιότητα των εκτιμήσεων (Ansolabehere and Rivers 2013) .

Επί του παρόντος, η κυρίαρχη προσέγγιση στη δειγματοληψία για κοινωνική έρευνα είναι η δειγματοληψία πιθανότητας . Στην δειγματοληψία πιθανότητας, όλα τα μέλη του πληθυσμού-στόχου έχουν μια γνωστή, μη-φυσική πιθανότητα δειγματοληψίας και όλοι οι άνθρωποι που λαμβάνουν δείγματα ανταποκρίνονται στην έρευνα. Όταν πληρούνται αυτές οι προϋποθέσεις, τα κομψά μαθηματικά αποτελέσματα προσφέρουν αποδεδειγμένες εγγυήσεις για την ικανότητα του ερευνητή να χρησιμοποιεί το δείγμα για να κάνει συμπεράσματα σχετικά με τον πληθυσμό-στόχο.

Στον πραγματικό κόσμο, ωστόσο, οι συνθήκες στις οποίες βασίζονται αυτά τα μαθηματικά αποτελέσματα σπανίως ικανοποιούνται. Για παράδειγμα, συχνά υπάρχουν σφάλματα κάλυψης και μη ανταπόκριση. Λόγω αυτών των προβλημάτων, οι ερευνητές πρέπει συχνά να χρησιμοποιούν ποικίλες στατιστικές προσαρμογές προκειμένου να κάνουν συμπεράσματα από το δείγμα τους στον πληθυσμό-στόχο τους. Έτσι, είναι σημαντικό να γίνει διάκριση μεταξύ θεωρητικής δειγματοληψίας πιθανότητας , η οποία έχει ισχυρές θεωρητικές εγγυήσεις και δειγματοληψία πιθανότητας στην πράξη , η οποία δεν προσφέρει τέτοιες εγγυήσεις και εξαρτάται από μια ποικιλία στατιστικών προσαρμογών.

Με την πάροδο του χρόνου, οι διαφορές μεταξύ της δειγματοληψίας πιθανότητας στη θεωρία και της δειγματοληψίας πιθανότητας στην πράξη έχουν αυξηθεί. Για παράδειγμα, τα ποσοστά μη ανταπόκρισης αυξάνονται σταθερά, ακόμη και σε υψηλής ποιότητας, ακριβές έρευνες (διάγραμμα 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Τα ποσοστά μη ανταπόκρισης είναι πολύ υψηλότερα στις εμπορικές τηλεφωνικές έρευνες - μερικές φορές ακόμη και στο 90% (Kohut et al. 2012) . Αυτές οι αυξήσεις της μη ανταπόκρισης απειλούν την ποιότητα των εκτιμήσεων, επειδή οι εκτιμήσεις εξαρτώνται όλο και περισσότερο από τα στατιστικά μοντέλα που χρησιμοποιούν οι ερευνητές για να προσαρμόσουν τη μη απάντηση. Επιπλέον, αυτές οι μειώσεις στην ποιότητα έχουν συμβεί παρά τις αυξανόμενες δαπανηρές προσπάθειες των ερευνητών της έρευνας να διατηρήσουν υψηλά ποσοστά ανταπόκρισης. Μερικοί άνθρωποι φοβούνται ότι αυτές οι δίδυμες τάσεις μείωσης της ποιότητας και της αύξησης του κόστους απειλούν την ίδρυση έρευνας έρευνας (National Research Council 2013) .

Σχήμα 3.5: Η μη ανταπόκριση γίνεται όλο και πιο σταθερή, ακόμη και σε ακριβές έρευνες υψηλής ποιότητας (National Research Council 2013, Β. D. Meyer, Mok και Sullivan 2015). Τα ποσοστά μη ανταπόκρισης είναι πολύ υψηλότερα για έρευνες εμπορικών τηλεφώνων, μερικές φορές ακόμη και μέχρι 90% (Kohut et al., 2012). Αυτές οι μακροπρόθεσμες τάσεις στη μη ανταπόκριση σημαίνουν ότι η συλλογή δεδομένων είναι ακριβότερη και οι εκτιμήσεις είναι λιγότερο αξιόπιστες. Προσαρμοσμένη από τους Β. D. Meyer, Mok και Sullivan (2015), σχήμα 1.

Σχήμα 3.5: Η μη ανταπόκριση γίνεται ολοένα και πιο σταθερή, ακόμη και σε υψηλής ποιότητας ακριβές έρευνες (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Τα ποσοστά μη ανταπόκρισης είναι πολύ υψηλότερα για έρευνες εμπορικών τηλεφώνων, μερικές φορές ακόμη και μέχρι 90% (Kohut et al. 2012) . Αυτές οι μακροπρόθεσμες τάσεις στη μη ανταπόκριση σημαίνουν ότι η συλλογή δεδομένων είναι ακριβότερη και οι εκτιμήσεις είναι λιγότερο αξιόπιστες. Προσαρμοσμένη από τους BD Meyer, Mok, and Sullivan (2015) , σχήμα 1.

Παράλληλα με τις αυξανόμενες δυσκολίες για τις μεθόδους δειγματοληψίας πιθανότητας, υπήρξαν επίσης συναρπαστικές εξελίξεις στις μεθόδους δειγματοληψίας μη πιθανότητας . Υπάρχουν ποικίλες μορφές μεθόδων δειγματοληψίας μη πιθανότητας, αλλά το ένα πράγμα που έχουν από κοινού είναι ότι δεν μπορούν εύκολα να προσαρμοστούν στο μαθηματικό πλαίσιο της δειγματοληψίας πιθανότητας (Baker et al. 2013) . Με άλλα λόγια, σε μεθόδους δειγματοληψίας μη πιθανότητας, δεν έχει όλοι μια γνωστή και μη φυσική πιθανότητα συμπερίληψης. Οι μέθοδοι δειγματοληψίας μη πιθανότητας έχουν μια φοβερή φήμη μεταξύ των κοινωνικών ερευνητών και συνδέονται με μερικές από τις πιο δραματικές αποτυχίες ερευνητών ερευνητών, όπως το φιάσκο λογοτεχνικού digest (που συζητήθηκε προηγουμένως) και το "Dewey Defeats Truman", την λανθασμένη πρόβλεψη για τις ΗΠΑ προεδρικές εκλογές του 1948 (εικόνα 3.6).

Σχήμα 3.6: Ο Πρόεδρος Χάρι Τρούμαν που κατέχει τον τίτλο μιας εφημερίδας που είχε αναγγείλει λανθασμένα την ήττα του. Ο τίτλος αυτός βασίστηκε εν μέρει σε εκτιμήσεις από δείγματα μη πιθανότητας (Mosteller 1949, Bean 1950, Freedman, Pisani, και Purves 2007). Αν και η Dewey Defeats Truman συνέβη το 1948, εξακολουθεί να είναι μεταξύ των λόγων ότι ορισμένοι ερευνητές είναι σκεπτικοί σχετικά με εκτιμήσεις από δείγματα μη πιθανότητας. Πηγή: Βιβλιοθήκη & Μουσείο Χάρι Σ. Τρούμαν.

Σχήμα 3.6: Ο Πρόεδρος Χάρι Τρούμαν που κατέχει τον τίτλο μιας εφημερίδας που είχε αναγγείλει λανθασμένα την ήττα του. Ο τίτλος αυτός βασίστηκε εν μέρει σε εκτιμήσεις από δείγματα μη πιθανότητας (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Αν και το "Dewey Defeats Truman" συνέβη το 1948, εξακολουθεί να είναι ένας λόγος που ορισμένοι ερευνητές είναι σκεπτικοί σχετικά με εκτιμήσεις από δείγματα μη πιθανότητας. Πηγή: Βιβλιοθήκη & Μουσείο Χάρι Σ. Τρούμαν .

Μια μορφή δειγματοληψίας μη πιθανότητας που είναι ιδιαίτερα κατάλληλη για την ψηφιακή εποχή είναι η χρήση διαδικτυακών πινάκων . Οι ερευνητές που χρησιμοποιούν ηλεκτρονικά πάνελ εξαρτώνται από κάποιο πάροχο - συνήθως μια εταιρία, κυβέρνηση ή πανεπιστήμιο - για να δημιουργήσουν μια μεγάλη, διαφορετική ομάδα ανθρώπων που συμφωνούν να υπηρετήσουν ως ερωτηθέντες για έρευνες. Αυτοί οι συμμετέχοντες στο πάνελ προσλαμβάνονται συχνά χρησιμοποιώντας μια ποικιλία ad hoc μεθόδων όπως οι διαφημίσεις banner στο διαδίκτυο. Έπειτα, ένας ερευνητής μπορεί να πληρώσει τον πάροχο πίνακα για πρόσβαση σε ένα δείγμα ερωτηθέντων με επιθυμητά χαρακτηριστικά (π.χ. εθνικά αντιπροσωπευτικά των ενηλίκων). Αυτές οι ηλεκτρονικές ομάδες είναι μέθοδοι μη πιθανότητας επειδή δεν έχουν όλοι μια γνωστή, μη ευαίσθητη πιθανότητα συμπερίληψης. Αν και οι κοινωνικοί ερευνητές χρησιμοποιούν ήδη πιθανοί διαδικτυακοί πίνακες (π.χ. το CCES), υπάρχει ακόμα κάποια συζήτηση σχετικά με την ποιότητα των εκτιμήσεων που προέρχονται από αυτές (Callegaro et al. 2014) .

Παρά τις συζητήσεις αυτές, νομίζω ότι υπάρχουν δύο λόγοι για τους οποίους είναι σωστός ο χρόνος για τους κοινωνικούς ερευνητές να επανεξετάσουν τη δειγματοληψία μη πιθανότητας. Πρώτον, στην ψηφιακή εποχή, σημειώθηκαν πολλές εξελίξεις στη συλλογή και ανάλυση δειγμάτων μη πιθανότητας. Αυτές οι νεώτερες μέθοδοι είναι αρκετά διαφορετικές από τις μεθόδους που προκάλεσαν προβλήματα στο παρελθόν και νομίζω ότι έχει νόημα να τις θεωρούμε ως "δειγματοληψία μη πιθανότητας 2.0". Ο δεύτερος λόγος για τον οποίο οι ερευνητές πρέπει να επανεξετάσουν τη δειγματοληψία μη πιθανότητας είναι επειδή η δειγματοληψία πιθανότητας πρακτική γίνονται όλο και πιο δύσκολες. Όταν υπάρχουν υψηλά ποσοστά μη ανταπόκρισης -όπως υπάρχουν τώρα σε πραγματικές έρευνες-οι πραγματικές πιθανότητες ενσωμάτωσης για τους ερωτώμενους δεν είναι γνωστές και έτσι τα δείγματα πιθανότητας και τα δείγματα μη πιθανότητας δεν είναι τόσο διαφορετικά όσο πιστεύουν πολλοί ερευνητές.

Όπως είπα νωρίτερα, δείγματα μη πιθανότητας αντιμετωπίζονται με μεγάλο σκεπτικισμό από πολλούς κοινωνικούς ερευνητές, εν μέρει λόγω του ρόλου τους σε ορισμένες από τις πιο ενοχλητικές αποτυχίες στις πρώτες ημέρες της έρευνας. Ένα ξεκάθαρο παράδειγμα του βαθμού στον οποίο έχουμε έρθει με δείγματα μη πιθανότητας είναι η έρευνα του Wei Wang, του David Rothschild, του Sharad Goel και του Andrew Gelman (2015) που ανακάλυψε σωστά το αποτέλεσμα των εκλογών στις ΗΠΑ το 2012 χρησιμοποιώντας δείγμα μη πιθανότητας Αμερικανοί χρήστες του Xbox - ένα αμετάβλητο δείγμα Αμερικανών. Οι ερευνητές στρατολόγησαν τους ερωτηθέντες από το σύστημα τυχερών παιχνιδιών XBox και, όπως ίσως αναμένεται, το δείγμα του Xbox αντέστρεψε τα αρσενικά και τα λοξά μικρά παιδιά: οι ηλικίας 18 έως 29 ετών αποτελούν το 19% του εκλογικού σώματος, αλλά το 65% του δείγματος Xbox και οι άνδρες αποτελούν το 47% του εκλογικού σώματος, αλλά το 93% του δείγματος Xbox (εικόνα 3.7). Λόγω αυτών των ισχυρών δημογραφικών προκαταλήψεων, τα ακατέργαστα δεδομένα του Xbox ήταν κακή ένδειξη των αποδόσεων των εκλογών. Πρόβλεψε μια ισχυρή νίκη για τον Mitt Romney πάνω από τον Μπαράκ Ομπάμα. Και πάλι, αυτό είναι ένα άλλο παράδειγμα των κινδύνων των ακατέργαστων, μη διορθωμένων δειγμάτων μη πιθανότητας και θυμίζει το φιάσκο λογοτεχνικού Digest .

Σχήμα 3.7: Δημογραφικά στοιχεία των ερωτηθέντων στο W. Wang et al. (2015). Επειδή οι ερωτηθέντες προσλήφθηκαν από την XBox, ήταν πιο πιθανό να είναι νέοι και πιθανότερο να είναι άνδρες, σε σχέση με τους ψηφοφόρους στις εκλογές του 2012. Προσαρμοσμένη από τους W. Wang et αϊ. (2015), σχήμα 1.

Σχήμα 3.7: Δημογραφικά στοιχεία των ερωτηθέντων στο W. Wang et al. (2015) . Επειδή οι ερωτηθέντες προσλήφθηκαν από την XBox, ήταν πιο πιθανό να είναι νέοι και πιθανότερο να είναι άνδρες, σε σχέση με τους ψηφοφόρους στις εκλογές του 2012. Προσαρμοσμένη από τους W. Wang et al. (2015) , σχήμα 1.

Ωστόσο, ο Wang και οι συνάδελφοί του γνώριζαν αυτά τα προβλήματα και προσπάθησαν να προσαρμοστούν για τη μη τυχαία δειγματοληψία τους κατά την πραγματοποίηση εκτιμήσεων. Συγκεκριμένα, χρησιμοποίησαν μετά τη στρωματοποίηση , μια τεχνική που χρησιμοποιείται επίσης ευρέως για την προσαρμογή των δειγμάτων πιθανότητας που έχουν σφάλματα κάλυψης και μη ανταπόκριση.

Η βασική ιδέα της μετα-στρωματοποίησης είναι η χρήση βοηθητικών πληροφοριών σχετικά με τον πληθυσμό-στόχο, προκειμένου να βελτιωθεί η εκτίμηση που προέρχεται από ένα δείγμα. Όταν χρησιμοποίησαν τη μεταστρωματοποίηση για να κάνουν εκτιμήσεις από το δείγμα μη πιθανότητας, ο Wang και ο συνάδελφός του διέκοψαν τον πληθυσμό σε διαφορετικές ομάδες, εκτιμούσαν την υποστήριξη για τον Ομπάμα σε κάθε ομάδα και στη συνέχεια έλαβαν έναν σταθμισμένο μέσο όρο των εκτιμήσεων του ομίλου για να παράγουν μια συνολική εκτίμηση. Για παράδειγμα, θα μπορούσαν να χωρίσουν τον πληθυσμό σε δύο ομάδες (άνδρες και γυναίκες), να εκτιμήσουν την υποστήριξη του Ομπάμα μεταξύ ανδρών και γυναικών και στη συνέχεια να εκτιμήσουν τη συνολική υποστήριξη για τον Ομπάμα λαμβάνοντας ένα σταθμισμένο μέσο όρο προκειμένου να ληφθεί υπόψη το γεγονός ότι οι γυναίκες κάνουν το 53% του εκλογικού σώματος και οι άνδρες 47%. Κατά προσέγγιση, η μετα-στρωματοποίηση βοηθά στη διόρθωση ενός μη ισορροπημένου δείγματος, προσφέροντας βοηθητικές πληροφορίες σχετικά με τα μεγέθη των ομάδων.

Το κλειδί για τη μετα-στρωματοποίηση είναι να διαμορφωθούν οι σωστές ομάδες. Εάν μπορείτε να κόψετε τον πληθυσμό σε ομογενείς ομάδες, έτσι ώστε οι κλίσεις αντίδρασης να είναι ίδιες για όλους σε κάθε ομάδα, τότε η μεταστρωματοποίηση θα παράγει αμερόληπτες εκτιμήσεις. Με άλλα λόγια, μετά τη στρωματοποίηση κατά φύλο θα προκύψουν αμερόληπτες εκτιμήσεις αν όλοι οι άνδρες έχουν την τάση απόκρισης και όλες οι γυναίκες έχουν την ίδια τάση απόκρισης. Αυτή η υπόθεση ονομάζεται υπόθεση ομοιογενούς απόκρισης-τάσης-εντός-ομάδων και περιγράφω λίγο περισσότερο τις μαθηματικές σημειώσεις στο τέλος αυτού του κεφαλαίου.

Φυσικά, φαίνεται απίθανο ότι οι τάσεις απάντησης θα είναι οι ίδιες για όλους τους άντρες και όλες τις γυναίκες. Ωστόσο, η υπόθεση ομοιογενούς απόκρισης-τάσης-εντός ομάδων γίνεται πιο εύλογη καθώς αυξάνεται ο αριθμός των ομάδων. Κατά γενικό κανόνα, γίνεται πιο εύκολο να κόψετε τον πληθυσμό σε ομοιογενείς ομάδες αν δημιουργήσετε περισσότερες ομάδες. Για παράδειγμα, μπορεί να φαίνεται αδιανόητο ότι όλες οι γυναίκες έχουν την ίδια τάση αντίδρασης, αλλά μπορεί να φανεί πιο πιθανό ότι υπάρχει η ίδια τάση απόκρισης για όλες τις γυναίκες ηλικίας 18-29 ετών που αποφοίτησαν από το κολλέγιο και που ζουν στην Καλιφόρνια . Έτσι, καθώς ο αριθμός των ομάδων που χρησιμοποιούνται στη μετα-στρωματοποίηση γίνεται μεγαλύτερος, οι υποθέσεις που απαιτούνται για τη στήριξη της μεθόδου γίνονται πιο λογικές. Δεδομένου του γεγονότος αυτού, οι ερευνητές συχνά θέλουν να δημιουργήσουν έναν τεράστιο αριθμό ομάδων για τη μετα-στρωματοποίηση. Ωστόσο, καθώς αυξάνεται ο αριθμός των ομάδων, οι ερευνητές αντιμετωπίζουν ένα διαφορετικό πρόβλημα: την ασυμμετρία των δεδομένων. Εάν υπάρχει μόνο ένας μικρός αριθμός ατόμων σε κάθε ομάδα, τότε οι εκτιμήσεις θα είναι πιο αβέβαιες και στην ακραία περίπτωση όπου υπάρχει μια ομάδα που δεν έχει ερωτηθέντες, τότε η μετα-στρωματοποίηση καταρρέει εντελώς.

Υπάρχουν δύο τρόποι εξαιτίας αυτής της έμφυτης έντασης μεταξύ της αξιοπιστίας της παραδοχής ομοιογενούς απόκρισης-τάσης εντός των ομάδων και της ζήτησης εύλογων μεγεθών δείγματος σε κάθε ομάδα. Πρώτον, οι ερευνητές μπορούν να συλλέξουν ένα μεγαλύτερο, πιο ποικίλο δείγμα, το οποίο βοηθά στην εξασφάλιση εύλογων μεγεθών δείγματος σε κάθε ομάδα. Δεύτερον, μπορούν να χρησιμοποιήσουν ένα πιο εξελιγμένο στατιστικό μοντέλο για την πραγματοποίηση εκτιμήσεων εντός ομάδων. Και στην πραγματικότητα, μερικές φορές οι ερευνητές κάνουν και τα δύο, όπως έκανε ο Wang και οι συνάδελφοι με τη μελέτη τους για τις εκλογές χρησιμοποιώντας ερωτώμενους από το Xbox.

Επειδή χρησιμοποιούσαν μια μέθοδο δειγματοληψίας μη πιθανότητας με συνεντεύξεις που διοχετεύονται από υπολογιστή (θα μιλήσω περισσότερο για συνεντεύξεις που διοργανώνονται από υπολογιστή στο τμήμα 3.5), ο Wang και οι συνεργάτες του είχαν πολύ φθηνή συλλογή δεδομένων, που τους επέτρεψε να συλλέξουν πληροφορίες από 345.858 μοναδικούς συμμετέχοντες , έναν τεράστιο αριθμό από τα πρότυπα εκλογικών εκλογών. Αυτό το τεράστιο μέγεθος δείγματος τους επέτρεψε να σχηματίσουν έναν τεράστιο αριθμό ομάδων μετά τη στρωματοποίηση. Ενώ η μεταστρωματοποίηση συνήθως περιλαμβάνει την κοπή του πληθυσμού σε εκατοντάδες ομάδες, ο Wang και οι συνάδελφοί του χωρίζουν τον πληθυσμό σε 176.256 ομάδες που ορίζονται από το φύλο (2 κατηγορίες), τη φυλή (4 κατηγορίες), την ηλικία (4 κατηγορίες), την εκπαίδευση (4 κατηγορίες) (51 κατηγορίες), ταυτότητα κόμματος (3 κατηγορίες), ιδεολογία (3 κατηγορίες) και ψηφοφορία για το 2008 (3 κατηγορίες). Με άλλα λόγια, το τεράστιο μέγεθος του δείγματός τους, το οποίο επέτρεψε τη συλλογή δεδομένων χαμηλού κόστους, τους επέτρεψε να κάνουν πιο ρεαλιστική υπόθεση στην εκτίμηση τους.

Ακόμη και με 345.858 μοναδικούς συμμετέχοντες, υπήρχαν ακόμα πολλές, πολλές ομάδες για τις οποίες οι Wang και οι συνεργάτες τους δεν είχαν σχεδόν ερωτηθέντες. Ως εκ τούτου, χρησιμοποίησαν μια τεχνική που ονομάζεται πολυβάθμια παλινδρόμηση για να εκτιμήσει την υποστήριξη σε κάθε ομάδα. Ουσιαστικά, για να εκτιμηθεί η υποστήριξη του Ομπάμα σε μια συγκεκριμένη ομάδα, η πολυεπίπεδη παλινδρόμηση συγκέντρωσε πληροφορίες από πολλές στενά συνδεδεμένες ομάδες. Για παράδειγμα, φανταστείτε να προσπαθήσετε να υπολογίσετε την υποστήριξη για τον Ομπάμα μεταξύ των γυναικών Ισπανών ηλικίας μεταξύ 18 και 29 ετών, οι οποίοι είναι απόφοιτοι κολλεγίων, οι οποίοι είναι εγγεγραμμένοι δημοκράτες, οι οποίοι αυτοπροσδιορίζονται ως μετριοπαθείς και που ψήφισαν τον Ομπάμα το 2008. Αυτό είναι πολύ , πολύ συγκεκριμένη ομάδα και είναι πιθανό να μην υπάρχει κανείς στο δείγμα με αυτά τα χαρακτηριστικά. Επομένως, για να κάνετε εκτιμήσεις για αυτήν την ομάδα, η πολυεπίπεδη παλινδρόμηση χρησιμοποιεί ένα στατιστικό μοντέλο για να συγκεντρώσει τις εκτιμήσεις από άτομα σε πολύ παρόμοιες ομάδες.

Έτσι, ο Wang και οι συνάδελφοί του χρησιμοποίησαν μια προσέγγιση που συνδύαζε πολυεπίπεδη παλινδρόμηση και μετα-στρωματοποίηση, γι 'αυτό κάλεσαν τη στρατηγική τους πολυεπίπεδη παλινδρόμηση με μετα-στρωματοποίηση ή, πιο αγάπη, "κ. P. "Όταν ο Wang και οι συνάδελφοί του χρησιμοποίησαν τον κ. P. για να κάνουν εκτιμήσεις από το δείγμα μη πιθανότητας XBox, έκαναν εκτιμήσεις πολύ κοντά στη συνολική υποστήριξη που έλαβε ο Ομπάμα στις εκλογές του 2012 (εικόνα 3.8). Στην πραγματικότητα, οι εκτιμήσεις τους ήταν ακριβέστερες από τις συγκεντρωτικές δημοσκοπήσεις. Έτσι, σε αυτή την περίπτωση, οι στατιστικές προσαρμογές - ειδικά ο κ. Π. - φαίνεται να κάνουν καλή δουλειά διόρθωσης των προκαταλήψεων σε δεδομένα μη πιθανότητας. μεροληψίες που ήταν σαφώς ορατές όταν εξετάζετε τις εκτιμήσεις από τα μη διορθωμένα δεδομένα του Xbox.

Σχήμα 3.8: Εκτιμήσεις από τους W. Wang et αϊ. (2015). Το μη διορθωμένο δείγμα XBox παρήγαγε ανακριβείς εκτιμήσεις. Όμως, το σταθμισμένο δείγμα XBox παρήγαγε εκτιμήσεις που ήταν ακριβέστερες από τις μέσες τηλεφωνικές έρευνες με βάση την πιθανότητα. Προσαρμοσμένη από τους W. Wang et αϊ. (2015), τα σχήματα 2 και 3.

Σχήμα 3.8: Εκτιμήσεις από τους W. Wang et al. (2015) . Το μη διορθωμένο δείγμα XBox παρήγαγε ανακριβείς εκτιμήσεις. Όμως, το σταθμισμένο δείγμα XBox παρήγαγε εκτιμήσεις που ήταν ακριβέστερες από τις μέσες τηλεφωνικές έρευνες με βάση την πιθανότητα. Προσαρμοσμένη από τους W. Wang et al. (2015) , τα σχήματα 2 και 3.

Υπάρχουν δύο βασικά διδάγματα από τη μελέτη του Wang και των συναδέλφων του. Πρώτον, τα μη διορθωμένα δείγματα μη πιθανότητας μπορούν να οδηγήσουν σε κακές εκτιμήσεις. αυτό είναι ένα μάθημα που πολλοί ερευνητές έχουν ακούσει πριν. Το δεύτερο μάθημα, ωστόσο, είναι ότι τα δείγματα μη πιθανότητας, όταν αναλύονται σωστά, μπορούν πραγματικά να παράγουν καλές εκτιμήσεις. τα δείγματα μη πιθανότητας δεν πρέπει να οδηγήσουν αυτόματα σε κάτι σαν το φιάσκο λογοτεχνικού Digest .

Πηγαίνοντας προς τα εμπρός, εάν προσπαθείτε να αποφασίσετε μεταξύ της χρήσης μιας προσέγγισης δειγματοληψίας πιθανότητας και μιας προσέγγισης δειγματοληψίας μη πιθανότητας, θα αντιμετωπίσετε μια δύσκολη επιλογή. Μερικές φορές οι ερευνητές θέλουν έναν γρήγορο και άκαμπτο κανόνα (π.χ., πάντα να χρησιμοποιούν μεθόδους δειγματοληψίας πιθανότητας), αλλά είναι όλο και πιο δύσκολο να προσφερθεί ένας τέτοιος κανόνας. Οι ερευνητές αντιμετωπίζουν μια δύσκολη επιλογή μεταξύ μεθόδων δειγματοληψίας πιθανότητας στην πράξη - οι οποίες είναι ολοένα και πιο δαπανηρές και μακριά από τα θεωρητικά αποτελέσματα που δικαιολογούν τη μέθοδο δειγματοληψίας που χρησιμοποιούν και μη πιθανότητες - οι οποίες είναι φθηνότερες και γρηγορότερες αλλά λιγότερο οικείες και πιο ποικίλες. Ένα πράγμα όμως που είναι σαφές είναι ότι αν είστε αναγκασμένοι να εργαστείτε με δείγματα μη πιθανότητας ή με μη αντιπροσωπευτικές μεγάλες πηγές δεδομένων (επαναλάβετε το Κεφάλαιο 2), τότε υπάρχει ένας ισχυρός λόγος να πιστεύετε ότι οι εκτιμήσεις που έγιναν χρησιμοποιώντας τη μετα-στρωματοποίηση και οι σχετικές τεχνικές θα είναι καλύτερες από τις μη διορθωμένες, ακαθάριστες εκτιμήσεις.