3.4.2 δείγματα μη πιθανότητας: στάθμιση

Η μετάφραση αυτή δημιουργήθηκε από έναν υπολογιστή. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 δείγματα μη πιθανότητας: στάθμιση

Με δείγματα μη πιθανότητας, τα βάρη να αναιρέσετε τις στρεβλώσεις που προκαλούνται από την υποτιθέμενη διαδικασία δειγματοληψίας.

Με τον ίδιο τρόπο που οι ερευνητές βάρους απαντήσεις από τυχαία δείγματα, μπορούν επίσης να ζυγίζουν απαντήσεις από δείγματα μη πιθανότητας. Για παράδειγμα, ως εναλλακτική λύση για τα CPS, φανταστείτε ότι έχετε τοποθετήσει διαφημίσεις banner σε χιλιάδες ιστοσελίδες για να προσλάβει τους συμμετέχοντες σε μια έρευνα για να εκτιμηθεί το ποσοστό ανεργίας. Φυσικά, θα είναι δύσπιστοι ότι η απλή μέση του δείγματος σας θα ήταν μια καλή εκτίμηση του ποσοστού ανεργίας. σκεπτικισμό σας είναι πιθανώς επειδή νομίζετε ότι μερικοί άνθρωποι είναι πιο πιθανό να ολοκληρώσουν την έρευνά σας από τους άλλους. Για παράδειγμα, οι άνθρωποι που δεν περνούν πολύ χρόνο στο διαδίκτυο, είναι λιγότερο πιθανό να ολοκληρώσουν την έρευνά σας.

Όπως είδαμε στο τελευταίο τμήμα, ωστόσο, αν γνωρίζουμε πώς επελέγη-σαν το δείγμα που κάνουμε με πιθανότητα δείγματα-τότε μπορούμε να αναιρέσετε τις στρεβλώσεις που προκαλούνται από τη διαδικασία δειγματοληψίας. Δυστυχώς, κατά την εργασία με τα δείγματα μη πιθανότητας, δεν ξέρουμε πώς επελέγη το δείγμα. Όμως, μπορούμε να κάνουμε υποθέσεις σχετικά με τη διαδικασία δειγματοληψίας και στη συνέχεια να εφαρμόσει στάθμιση με τον ίδιο τρόπο. Αν αυτές οι υποθέσεις είναι σωστές, τότε η στάθμιση θα αναιρέσετε τις στρεβλώσεις που προκαλούνται από τη διαδικασία δειγματοληψίας.

Για παράδειγμα, φανταστείτε ότι σε απάντηση διαφημίσεις banner σας, θα προσληφθούν 100.000 ερωτηθέντων. Ωστόσο, δεν πιστεύω ότι αυτές οι 100.000 ερωτηθέντες είναι ένα απλό τυχαίο δείγμα Αμερικανών ενηλίκων. Στην πραγματικότητα, όταν συγκρίνετε ερωτηθέντων σας στον πληθυσμό των ΗΠΑ, θα διαπιστώσετε ότι οι άνθρωποι από ορισμένα κράτη (π.χ., Νέα Υόρκη) είναι υπερ-εκπροσωπούνται και ότι οι άνθρωποι από ορισμένα κράτη (π.χ., Αλάσκα) υποεκπροσωπούνται. Έτσι, το ποσοστό ανεργίας των δειγμάτων σας είναι πιθανό να είναι μια κακή εκτίμηση του ποσοστού ανεργίας στον πληθυσμό-στόχο.

Ένας τρόπος για να αναιρέσετε την παραμόρφωση που συνέβη κατά τη διαδικασία δειγματοληψίας είναι να εκχωρήσετε τα βάρη για κάθε άτομο? χαμηλότερα βάρη για τους ανθρώπους από τις χώρες που υπερεκπροσωπούνται στο δείγμα (π.χ., Νέα Υόρκη) και τα υψηλότερα βάρη για τους ανθρώπους από τα κράτη που υποεκπροσωπούνται στο δείγμα (π.χ., Αλάσκα). Πιο συγκεκριμένα, το βάρος για κάθε εναγόμενο σχετίζεται με την επικράτηση τους στο δείγμα σας σε σχέση με την επικράτηση τους στον πληθυσμό των ΗΠΑ. Αυτή η διαδικασία στάθμισης ονομάζεται μετα-διαστρωμάτωση, και η ιδέα της ζύγισης θα πρέπει να σας υπενθυμίσω το παράδειγμα στην Ενότητα 3.4.1, όπου οι ερωτηθέντες από Ρόουντ Άιλαντ δόθηκαν λιγότερο βάρος από ό, τι οι ερωτηθέντες από την Καλιφόρνια. Μεταστρωματοποίησης προϋποθέτει ότι γνωρίζετε αρκετά για να βάλει τους ερωτηθέντες σας σε ομάδες και να γνωρίζουμε το ποσοστό του πληθυσμού-στόχου σε κάθε ομάδα.

Παρά το γεγονός ότι η στάθμιση του δείγματος πιθανότητας και του δείγματος μη πιθανότητας είναι το ίδιο μαθηματικά (βλέπε το τεχνικό προσάρτημα), που λειτουργούν καλά σε διαφορετικές καταστάσεις. Αν ο ερευνητής έχει ένα τέλειο δείγμα πιθανότητας (δηλαδή, δεν υπάρχει σφάλμα κάλυψης και κανένα μη-απόκριση), τότε στάθμιση θα παράγει αμερόληπτες εκτιμήσεις για όλα τα χαρακτηριστικά σε όλες τις περιπτώσεις. Αυτή η ισχυρή θεωρητική εγγύηση είναι ο λόγος υποστηρικτές του τυχαία δείγματα τα βρείτε τόσο ελκυστική. Από την άλλη πλευρά, η στάθμιση δείγματα μη πιθανότητας θα παράγει μόνο αμερόληπτες εκτιμήσεις για όλα τα χαρακτηριστικά, αν οι τάσεις απάντηση είναι η ίδια για όλους σε κάθε ομάδα. Με άλλα λόγια, η σκέψη πίσω στο παράδειγμά μας, με τη χρήση μετα-διαστρωμάτωση θα παράγει αμερόληπτες εκτιμήσεις αν ο καθένας στη Νέα Υόρκη έχει την ίδια πιθανότητα να συμμετέχουν και όλοι στην Αλάσκα έχει την ίδια πιθανότητα να συμμετέχουν και ούτω καθεξής. Αυτή η υπόθεση ονομάζεται η παραδοχή ομογενούς-απάντηση-τάσεις-μέσα-ομάδες, και αυτό παίζει σημαντικό ρόλο στη γνωρίζει αν μετά τη διαστρωμάτωση θα λειτουργήσει καλά με τα δείγματα μη πιθανότητας.

Δυστυχώς, στο παράδειγμά μας, η υπόθεση ομογενή-απάντηση-τάσεις-μέσα-ομάδες φαίνεται απίθανο να είναι αληθινό. Δηλαδή, φαίνεται απίθανο ότι ο καθένας στην Αλάσκα έχει την ίδια πιθανότητα να είναι στην έρευνά σας. Όμως, υπάρχουν τρία σημαντικά σημεία που πρέπει να θυμάστε σχετικά με μετα-διαστρωμάτωση, τα οποία το κάνουν να φανεί πιο ελπιδοφόρα.

Κατ 'αρχάς, ομογενής-απάντηση-τάσεις-μέσα-ομάδες υπόθεση γίνεται πιο πιθανή, καθώς ο αριθμός των ομάδων αυξάνεται. Και, οι ερευνητές δεν περιορίζονται σε ομάδες μόνο με βάση μια ενιαία γεωγραφική διάσταση. Για παράδειγμα, θα μπορούσαμε να δημιουργήσουμε ομάδες με βάση την κατάσταση, την ηλικία, το φύλο και το επίπεδο εκπαίδευσης. Φαίνεται πιο εύλογο ότι υπάρχει ομοιογενής τάσεις απάντηση εντός της ομάδας των 18-29, οι απόφοιτοι των γυναικών, κολλέγιο που ζουν στην Αλάσκα από ό, τι στην ομάδα όλων των ανθρώπων που ζουν στην Αλάσκα. Έτσι, καθώς ο αριθμός των ομάδων που χρησιμοποιούνται για την αύξηση μεταστρωματοποίησης, οι παραδοχές που απαιτούνται για την υποστήριξη να γίνει πιο λογικό. Λαμβάνοντας υπόψη το γεγονός αυτό, φαίνεται σαν ένα ερευνητές θα ήθελε να δημιουργήσει έναν τεράστιο αριθμό των ομάδων για την μετα-διαστρωμάτωση. Όμως, καθώς ο αριθμός των ομάδων αυξάνει, οι ερευνητές τρέξει σε ένα διαφορετικό πρόβλημα: ελάχιστες αναφορές δεδομένων. Εάν υπάρχει μόνο ένας μικρός αριθμός ανθρώπων σε κάθε ομάδα, τότε οι εκτιμήσεις θα είναι πιο αβέβαιο, και στην ακραία περίπτωση όπου υπάρχει μια ομάδα που δεν έχει ερωτηθέντων, στη συνέχεια, μετά τη διαστρωμάτωση σπάει εντελώς προς τα κάτω. Υπάρχουν δύο τρόποι από αυτήν εγγενής ένταση μεταξύ της αληθοφάνειας των homogeneous- υπόθεση απάντηση-ροπή-μέσα-ομάδες και η ζήτηση για λογικές μεγέθη δείγματος σε κάθε ομάδα. Μία προσέγγιση είναι να προχωρήσουμε σε μια πιο εξελιγμένη στατιστικό μοντέλο για τον υπολογισμό των βαρών και η άλλη είναι να συγκεντρώσει ένα μεγαλύτερο, πιο ποικιλόμορφη δείγμα, το οποίο βοηθά στο να διασφαλιστεί λογικές μεγέθη των δειγμάτων σε κάθε ομάδα. Και, μερικές φορές οι ερευνητές κάνουν και τα δύο, όπως θα περιγράψω με περισσότερες λεπτομέρειες παρακάτω.

Ένας δεύτερος προβληματισμός, όταν ασχολούνται με μετα-διαστρωμάτωση από δείγματα μη πιθανότητας είναι ότι η υπόθεση ομογενή-απάντηση-ροπή-μέσα-ομάδες είναι ήδη συχνά γίνεται κατά την ανάλυση δειγμάτων πιθανότητας. Ο λόγος που αυτή η υπόθεση είναι απαραίτητη για τυχαία δείγματα στην πράξη είναι ότι τυχαία δείγματα έχουν μη-απόκρισης, και η πιο κοινή μέθοδος για τη ρύθμιση για τη μη απόκριση είναι μετα-διαστρωμάτωση όπως περιγράφεται παραπάνω. Φυσικά, μόνο και μόνο επειδή πολλοί ερευνητές κάνουν μια συγκεκριμένη υπόθεση, δεν σημαίνει ότι θα πρέπει να το κάνω εγώ. Αλλά, αυτό δεν σημαίνει ότι κατά τη σύγκριση δειγμάτων μη πιθανότητας να τυχαία δείγματα στην πράξη, πρέπει να έχουμε κατά νου ότι και οι δύο εξαρτώνται από παραδοχές και βοηθητικές πληροφορίες, προκειμένου να παράγουν εκτιμήσεις. Στην πιο ρεαλιστική ρυθμίσεις, απλά δεν υπάρχει παραδοχή-free προσέγγιση για συμπέρασμα.

Τέλος, αν σας ενδιαφέρει μια εκτίμηση ιδιαίτερα στο παράδειγμα της ανεργίας μας ρυθμό, τότε θα πρέπει να έχετε μια κατάσταση ασθενέστερη από ό, τι η υπόθεση ομογενή-απάντηση-ροπή-μέσα-ομάδες. Συγκεκριμένα, δεν χρειάζεται να υποθέσουμε ότι ο καθένας έχει την ίδια τάση απάντηση, το μόνο που χρειάζεται να υποθέσουμε ότι δεν υπάρχει συσχέτιση μεταξύ της ροπής απόκρισης και το ποσοστό ανεργίας σε κάθε ομάδα. Φυσικά, ακόμη και αυτή η ασθενέστερη κατάσταση δεν θα κρατήσει σε ορισμένες περιπτώσεις. Για παράδειγμα, φανταστείτε τον υπολογισμό του ποσοστού των Αμερικανών που κάνουν εθελοντική εργασία. Αν οι άνθρωποι που κάνουν εθελοντική εργασία είναι πιο πιθανό να συμφωνήσουν να είναι σε μια έρευνα, τότε οι ερευνητές θα συστηματικά υπερεκτιμούν το ποσό του εθελοντισμού, ακόμα και αν το κάνουν προσαρμογές μετά την διαστρωμάτωση, ένα αποτέλεσμα που έχει αποδειχθεί εμπειρικά από Abraham, Helms, and Presser (2009) .

Όπως είπα και προηγουμένως, τα δείγματα μη πιθανότητας αντιμετωπίζεται με μεγάλο σκεπτικισμό από τους κοινωνικούς επιστήμονες, εν μέρει λόγω του ρόλου τους σε μερικές από τις πιο ενοχλητικές αποτυχίες κατά τις πρώτες ημέρες της έρευνας της έρευνας. Ένα σαφές παράδειγμα του πόσο μακριά έχουμε έρθει με δείγματα μη πιθανότητας είναι η έρευνα του Wei Wang, ο David Rothschild, Sharad Goel, και ο Andrew Gelman που ανακτώνται σωστά την έκβαση των ΗΠΑ εκλογές του 2012, χρησιμοποιώντας ένα δείγμα μη πιθανότητας των χρηστών αμερικανική Xbox -a αναμφισβήτητα μη τυχαίο δείγμα των Αμερικανών (Wang et al. 2015) . Οι ερευνητές στρατολόγησαν τους ερωτηθέντες από το σύστημα τυχερών παιχνιδιών Xbox, και όπως μπορείτε να φανταστείτε, το δείγμα Xbox λοξή άνδρες και λοξή νέους: 18-29 ετών αποτελούν το 19% του εκλογικού σώματος, αλλά το 65% του δείγματος Xbox και οι άνδρες αποτελούν το 47% του εκλογικού σώματος και το 93% του δείγματος Xbox (Σχήμα 3.4). Λόγω αυτών των ισχυρών δημογραφικών τάσεων, η ανεπεξέργαστα δεδομένα Xbox ήταν ένας φτωχός δείκτης της εκλογής αποδόσεις. Θα προβλεφθεί μια ισχυρή νίκη για Mitt Romney πάνω από τον Μπαράκ Ομπάμα. Και πάλι, αυτό είναι ένα άλλο παράδειγμα για τους κινδύνους των πρώτων, αδιόρθωτη δείγματα μη πιθανότητας και θυμίζει το φιάσκο Literary Digest.

Σχήμα 3.4: Δημογραφικά των ερωτηθέντων σε Wang et al. (2015) . Επειδή οι ερωτηθέντες είχαν προσληφθεί από το Xbox, είχαν περισσότερες πιθανότητες να είναι νέος και πιο πιθανό να είναι αρσενικό, σε σχέση με τους ψηφοφόρους στις εκλογές του 2012.

Ωστόσο, ο Wang και οι συνεργάτες του γνώριζαν αυτά τα προβλήματα και προσπάθησε να τη στάθμιση των ερωτηθέντων για τη διόρθωση για τη διαδικασία δειγματοληψίας. Συγκεκριμένα, χρησιμοποίησαν μια πιο εξελιγμένη μορφή του μετα-διαστρωμάτωση σου είπα. Αξίζει μάθηση λίγο περισσότερα σχετικά με την προσέγγισή τους, διότι στηρίζεται διαίσθηση για μετα-διαστρωμάτωση, και η συγκεκριμένη έκδοση Wang και οι συνεργάτες του που χρησιμοποιείται είναι ένα από τα πιο συναρπαστικά προσεγγίσεις για την στάθμιση δείγματα μη πιθανότητας.

Στο απλό μας παράδειγμα για τον υπολογισμό της ανεργίας στην Ενότητα 3.4.1, χωρίσαμε τον πληθυσμό σε ομάδες με βάση την κατάσταση της κατοικίας. Σε αντίθεση, ο Wang και οι συνεργάτες διαχώρισε τον πληθυσμό της σε σε 176.256 ομάδες που ορίζονται από: το φύλο (2 κατηγορίες), τη φυλή (4 κατηγορίες), την ηλικία (4 κατηγορίες), την εκπαίδευση (4 κατηγορίες), κατάσταση (51 κατηγορίες), ID κόμμα (3 κατηγορίες), την ιδεολογία (3 κατηγορίες) και το 2008 ψηφοφορία (3 κατηγορίες). Με περισσότερες ομάδες, οι ερευνητές ήλπιζαν ότι θα ήταν όλο και πιο πιθανό ότι μέσα σε κάθε ομάδα, τάση απάντηση ήταν ασυσχέτιστες με υποστήριξη για τον Ομπάμα. Στη συνέχεια, παρά την κατασκευή βάρη σε ατομικό επίπεδο, όπως κάναμε και στο παράδειγμά μας, ο Wang και οι συνεργάτες του χρησιμοποίησαν ένα πολύπλοκο μοντέλο για να εκτιμηθεί το ποσοστό των ατόμων σε κάθε ομάδα που θα ψηφίσει για τον Ομπάμα. Τέλος, συνδύασαν αυτές τις εκτιμήσεις ομάδα υποστήριξης με το γνωστό μέγεθος της κάθε ομάδας για να παραχθεί ένα εκτιμώμενο συνολικό επίπεδο στήριξης. Με άλλα λόγια, ψιλοκομμένο μέχρι τον πληθυσμό σε διαφορετικές ομάδες, εκτιμάται ότι η υποστήριξη για τον Ομπάμα σε κάθε ομάδα, και στη συνέχεια πήρε ένα σταθμισμένο μέσο όρο των εκτιμήσεων ομάδας για να προκύψει μια συνολική εκτίμηση.

Έτσι, η μεγάλη πρόκληση στην προσέγγισή τους είναι να εκτιμηθεί η υποστήριξη για τον Ομπάμα σε κάθε μία από αυτές τις 176.256 ομάδων. Αν και πάνελ τους περιλαμβάνονται 345.858 μοναδικές συμμετέχοντες, έναν τεράστιο αριθμό από τα πρότυπα της εκλογής των εκλογών, υπήρξαν πολλές, πολλές ομάδες για τις οποίες Wang και οι συνεργάτες του είχαν σχεδόν καμία ερωτηθέντων. Ως εκ τούτου, για να εκτιμηθεί η υποστήριξη σε κάθε ομάδα χρησιμοποίησαν μια τεχνική που ονομάζεται πολυεπίπεδη παλινδρόμησης με μετα-διαστρωμάτωση, που οι ερευνητές αποκαλούν χαϊδευτικά τον κ Π Ουσιαστικά, για να εκτιμηθεί η υποστήριξη για τον Ομπάμα μέσα σε μια συγκεκριμένη ομάδα, ο κ Π πισίνες πληροφορίες από πολλές συνδέονται στενά με τις ομάδες. Για παράδειγμα, σκεφτείτε την πρόκληση της εκτίμησης της στήριξης για τον Ομπάμα μεταξύ των γυναικών, οι ισπανόφωνοι, μεταξύ 18-29 ετών, οι οποίοι είναι απόφοιτοι κολλεγίων, οι οποίοι είναι εγγεγραμμένοι Δημοκρατικοί, οι οποίοι αυτοπροσδιορίζονται ως μετριοπαθείς, και που ψήφισαν για τον Ομπάμα το 2008. Αυτό είναι ένα πολύ, πολύ συγκεκριμένη ομάδα, και είναι πιθανό ότι δεν υπάρχει κανείς στο δείγμα με αυτά τα χαρακτηριστικά. Ως εκ τούτου, να κάνει εκτιμήσεις για αυτή την ομάδα, ο κ Π πισίνες εκτιμά μαζί από τους ανθρώπους σε πολύ παρόμοιες ομάδες.

Χρησιμοποιώντας αυτή τη στρατηγική ανάλυση, ο Wang και οι συνεργάτες του ήταν σε θέση να χρησιμοποιήσει το δείγμα μη πιθανότητας XBox να εκτιμηθεί εκ του σύνεγγυς την συνολική στήριξη που έλαβε ο Ομπάμα στις εκλογές του 2012 (Σχήμα 3.5). Στην πραγματικότητα, οι εκτιμήσεις τους ήταν πιο ακριβή από ό, τι ένα άθροισμα των σφυγμομετρήσεων της κοινής γνώμης. Έτσι, σε αυτή την περίπτωση, η στάθμιση-ειδικά τον κ Π-φαίνεται να κάνει καλή δουλειά διόρθωση των αποκλίσεων στα δεδομένα μη πιθανότητας? προκαταλήψεις που είναι ορατές όταν κοιτάς τις εκτιμήσεις από τα μη διορθωμένα στοιχεία του Xbox.

Σχήμα 3.5: Εκτιμήσεις από Wang et al. (2015) . Αδιόρθωτη δείγμα XBox παράγεται ανακριβείς εκτιμήσεις. Όμως, το σταθμισμένο δείγμα XBox παράγεται εκτιμήσεις που ήταν πιο ακριβή από ό, τι κατά μέσο όρο πιθανότητα με βάση τηλεφωνικές έρευνες.

Υπάρχουν δύο κύρια διδάγματα από την μελέτη των Wang και οι συνεργάτες του. Κατ 'αρχάς, αδιόρθωτη δείγματα μη πιθανότητας μπορεί να οδηγήσει σε κακή εκτιμήσεις? Αυτό είναι ένα μάθημα που πολλοί ερευνητές έχουν ξανακούσει. Ωστόσο, το δεύτερο μάθημα είναι ότι τα δείγματα μη πιθανότητας, όταν σταθμίζονται σωστά, μπορεί να παράγει πραγματικά αρκετά καλές εκτιμήσεις. Στην πραγματικότητα, οι εκτιμήσεις τους ήταν πιο ακριβή από τις εκτιμήσεις από pollster.com, μια συνάθροιση των πιο παραδοσιακών εκλογές δημοσκοπήσεις.

Τέλος, υπάρχουν σημαντικοί περιορισμοί στο τι μπορούμε να μάθουμε από αυτό μια συγκεκριμένη μελέτη. Ακριβώς επειδή μεταστρωματοποίησης λειτούργησε καλά στη συγκεκριμένη περίπτωση, δεν υπάρχει καμία εγγύηση ότι αυτό θα λειτουργήσει καλά σε άλλες περιπτώσεις. Στην πραγματικότητα, οι εκλογές είναι ίσως ένας από τους ευκολότερους ρυθμίσεις, διότι έχουν δημοσκόποι έχουν μελετήσει τις εκλογές για σχεδόν 100 χρόνια, υπάρχει τακτική ανατροφοδότηση (μπορούμε να δούμε ποιος θα κερδίσει τις εκλογές), και κομματικής ταύτισης και δημογραφικά χαρακτηριστικά είναι σχετικά πρόβλεψης της ψηφοφορίας. Σε αυτό το σημείο, μας λείπει στερεά θεωρία και εμπειρική εμπειρία για να ξέρει πότε στάθμιση προσαρμογές δείγματα μη πιθανότητας θα παράγει επαρκώς ακριβείς εκτιμήσεις. Ένα πράγμα που είναι σαφές, ωστόσο, είναι αν είστε αναγκασμένοι να εργάζονται με τα δείγματα μη πιθανότητας, τότε υπάρχει σοβαρός λόγος να πιστεύουμε ότι αναπροσαρμοσμένες εκτιμήσεις θα είναι καλύτερα από τα μη προσαρμοσμένα εκτιμήσεις.