3.4.3 δείγματα μη πιθανότητας: ταιριάζουν δείγμα

Η μετάφραση αυτή δημιουργήθηκε από έναν υπολογιστή. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.3 δείγματα μη πιθανότητας: ταιριάζουν δείγμα

Δεν είναι όλα τα δείγματα μη πιθανότητας είναι τα ίδια. Μπορούμε να προσθέσουμε περισσότερο έλεγχο στο μπροστινό άκρο.

Η προσέγγιση Wang και οι συνεργάτες του που χρησιμοποιείται για την εκτίμηση του αποτελέσματος των ΗΠΑ προεδρικές εκλογές του 2012 εξαρτάται εξ ολοκλήρου από τις βελτιώσεις στην ανάλυση των δεδομένων. Δηλαδή, αυτοί που συλλέγονται όσες απαντήσεις όσο θα μπορούσαν και στη συνέχεια προσπάθησε να τους βάρους εκ νέου. Μια συμπληρωματική στρατηγική για την εργασία με δειγματοληψία χωρίς πιθανότητα είναι να έχουμε περισσότερο έλεγχο επί της διαδικασίας συλλογής δεδομένων.

Το πιο απλό παράδειγμα μιας μερικώς ελεγχόμενη διαδικασία δειγματοληψίας μη πιθανότητας είναι η δειγματοληψία ποσόστωσης, μια τεχνική που χρονολογείται από τις πρώτες ημέρες της έρευνας της έρευνας. Σε δειγματοληψία ποσόστωσης, οι ερευνητές κατανομή του πληθυσμού σε διαφορετικές ομάδες (π.χ., νέων ανδρών, νέων γυναικών, κλπ) και, στη συνέχεια, καθορισμένες ποσοστώσεις για τον αριθμό των ατόμων που θα επιλεγούν σε κάθε ομάδα. Οι ερωτηθέντες επιλέγονται κατά τυχαίο τρόπο έως ότου ο ερευνητής έχει εκπληρώσει τις ποσοστώσεις τους σε κάθε ομάδα. Λόγω των ποσοστώσεων, το προκύπτον δείγμα μοιάζει περισσότερο με τον πληθυσμό-στόχο από ό, τι θα ήταν αλήθεια το αντίθετο, αλλά επειδή οι πιθανότητες ένταξης είναι άγνωστες πολλοί ερευνητές είναι επιφυλακτικοί δειγματοληψίας ποσόστωσης. Στην πραγματικότητα, η δειγματοληψία ποσόστωσης ήταν η αιτία της "Dewey Ήττες Τρούμαν" σφάλμα στα 1948 αμερικανικές προεδρικές εκλογές. Επειδή παρέχει κάποιο έλεγχο πάνω στη διαδικασία δειγματοληψίας, ωστόσο, μπορεί κανείς να δει πώς δειγματοληψία ποσόστωσης μπορεί να έχει κάποια πλεονεκτήματα σε σχέση με ένα εντελώς ανεξέλεγκτη συλλογή δεδομένων.

Προχωρώντας πέρα από τη δειγματοληψία ποσόστωσης, πιο σύγχρονες προσεγγίσεις για τον έλεγχο της διαδικασίας δειγματοληψίας μη πιθανότητας είναι πλέον δυνατή. Μια τέτοια προσέγγιση ονομάζεται αντιστοίχιση του δείγματος, και χρησιμοποιείται από ορισμένους εμπορικούς παρόχους online panel. Στην απλούστερη μορφή της, που να ταιριάζουν δείγμα απαιτεί δύο πηγές δεδομένων: 1) ένα πλήρες μητρώο του πληθυσμού και 2) ένα μεγάλο πάνελ εθελοντών. Είναι σημαντικό ότι οι εθελοντές δεν χρειάζεται να είναι ένα δείγμα πιθανότητα από οποιοδήποτε πληθυσμό? να τονίσω ότι δεν υπάρχουν απαιτήσεις για την επιλογή στον πίνακα, εγώ θα το ονομάσουμε ένα βρώμικο πίνακα. Επίσης, τόσο το μητρώο του πληθυσμού και το βρώμικο πίνακας πρέπει να περιλαμβάνει κάποιες βοηθητικές πληροφορίες για κάθε άτομο, σε αυτό το παράδειγμα, θα λαμβάνουν υπόψη την ηλικία και το φύλο, αλλά σε πραγματικές συνθήκες αυτό βοηθητικές πληροφορίες θα μπορούσαν να είναι πολύ πιο λεπτομερής. Το τέχνασμα του ταιριάζουν δείγματος είναι να επιλέξετε δείγματα από ένα βρώμικο πίνακα με έναν τρόπο που παράγει δείγματα που μοιάζουν με τυχαία δείγματα.

ταιριάζουν δείγμα αρχίζει όταν ένα προσομοιωμένο δείγμα πιθανότητα έχει ληφθεί από το μητρώο του πληθυσμού? Αυτή η προσομοίωση του δείγματος γίνεται ένα δείγμα στόχο. Στη συνέχεια, με βάση την βοηθητικές πληροφορίες, οι περιπτώσεις του δείγματος στόχου ταιριάζουν με τους ανθρώπους στο βρώμικο πάνελ για να σχηματιστεί μια αντίστοιχη δείγμα. Για παράδειγμα, αν υπάρχει μια 25 ετών γυναίκα στο δείγμα στόχο, τότε ο ερευνητής βρίσκει ένα 25 ετών γυναίκα από το βρώμικο πάνελ να είναι στην συμφωνημένα δείγμα. Τέλος, τα μέλη της αντιστοιχισμένης δείγμα συνέντευξη για να παραχθεί το τελικό σύνολο των ερωτηθέντων.

Ακόμη και αν η αντιστοίχιση δείγμα μοιάζει με το δείγμα-στόχος, είναι σημαντικό να θυμόμαστε ότι η αντιστοιχισμένη δείγμα δεν είναι ένα δείγμα πιθανότητας. Συμφωνήθηκε δείγματα μπορούν να ταιριάξουν μόνο το δείγμα-στόχο για τη γνωστή βοηθητικές πληροφορίες (π.χ., ηλικία και φύλο), αλλά όχι σε μη μετρήσιμους χαρακτηριστικά. Για παράδειγμα, αν οι άνθρωποι στο βρώμικο πίνακα τείνουν να είναι φτωχότεροι-μετά από όλα, ένας λόγος για να ενταχθεί μια ομάδα έρευνας είναι να κερδίσουν χρήματα, στη συνέχεια, ακόμη και αν η αντιστοιχισμένη δείγμα μοιάζει με το δείγμα-στόχος όσον αφορά την ηλικία και το φύλο θα εξακολουθούν να έχουν μια προκατάληψη προς τους φτωχούς ανθρώπους. Η μαγεία της αληθινής τυχαία δειγματοληψία είναι να αποκλείσει τα προβλήματα και στις δύο μετρηθεί και μη μετρήσιμους χαρακτηριστικά (ένα σημείο που είναι συνεπής με τη συζήτηση μας ταιριάζουν για αιτιώδη συμπέρασμα από μελέτες παρατήρησης στο κεφάλαιο 2).

Στην πράξη, ταιριάζουν δείγματος εξαρτάται από την ύπαρξη μια μεγάλη και ποικίλη πίνακα πρόθυμοι να ολοκληρώσει τις έρευνες, και έτσι γίνεται κυρίως από εταιρείες που μπορούν να αντέξουν οικονομικά να αναπτύξει και να διατηρήσει μια τέτοια ομάδα. Επίσης, στην πράξη, μπορεί να υπάρχουν προβλήματα με την αντιστοίχιση (μερικές φορές μια καλή αντιστοιχία για κάποιον στο δείγμα-στόχο δεν υπάρχει στον πίνακα) και μη-απόκρισης (μερικές φορές οι άνθρωποι στην αντιστοίχιση δείγμα αρνούνται να συμμετάσχουν στην έρευνα). Ως εκ τούτου, στην πράξη, οι ερευνητές κάνουν δείγμα ταιριάζουν εκτελούν επίσης κάποιο είδος προσαρμογής μεταστρωματοποίησης να γίνουν εκτιμήσεις.

Είναι δύσκολο να παρέχει χρήσιμες θεωρητικές εγγυήσεις για την αντιστοίχιση του δείγματος, αλλά στην πράξη μπορεί να εκτελέσει καλά. Για παράδειγμα, ο Stephen Ansolabehere και Brian Schaffner (2014) σε σύγκριση με τρεις παράλληλες έρευνες των περίπου 1.000 ανθρώπων διεξήχθη το 2010 με τρεις διαφορετικές δειγματοληψίας και συνεντεύξεις μεθόδους: ταχυδρομείο, τηλέφωνο, καθώς και ένα πάνελ στο Internet χρησιμοποιώντας το δείγμα που ταιριάζουν και προσαρμογής μετά την διαστρωμάτωση. Οι εκτιμήσεις από τις τρεις προσεγγίσεις ήταν αρκετά παρόμοια με τις εκτιμήσεις από υψηλής ποιότητας αναφοράς, όπως η έρευνα σημερινού πληθυσμού (CPS) και την συνέντευξη National Health Survey (NHIS). Ειδικότερα, τόσο το Διαδίκτυο και το ταχυδρομείο έρευνες ήταν ανοικτά κατά μέσο όρο 3 ποσοστιαίες μονάδες και η έρευνα τηλέφωνο ήταν κλειστό κατά 4 ποσοστιαίες μονάδες. Λάθη αυτό το μεγάλο είναι περίπου ό, τι θα περίμενε κανείς από δείγματα περίπου 1.000 άτομα. Παρά το γεγονός ότι, κανένας από αυτούς τους τρόπους που παράγεται ουσιαστικά καλύτερα τα δεδομένα, τόσο το Διαδίκτυο και το τηλέφωνο της έρευνας (η οποία έλαβε ημέρες ή εβδομάδες) ήταν σημαντικά πιο γρήγορα σε πεδίο από την έρευνα του ταχυδρομείου (που χρειάστηκε οκτώ μήνες), και η έρευνα στο Διαδίκτυο, το οποίο χρησιμοποιήθηκε δείγμα ταιριάζουν, ήταν φθηνότερη από τις άλλες δύο τρόπους.

Εν κατακλείδι, κοινωνικούς επιστήμονες και στατιστικολόγους είναι απίστευτα επιφυλακτικοί συμπεράσματα από αυτά τα δείγματα μη πιθανότητας, εν μέρει επειδή έχουν σχέση με ορισμένες ενοχλητικές αποτυχίες της έρευνας της έρευνας, όπως η δημοσκόπηση Λογοτεχνικό Digest. Εν μέρει, συμφωνώ με αυτό το σκεπτικισμό: αδιόρθωτη δείγματα μη πιθανότητας είναι πιθανό να παράγουν κακές εκτιμήσεις. Ωστόσο, εάν οι ερευνητές μπορούν να προσαρμοστούν για τις προκαταλήψεις κατά τη διαδικασία δειγματοληψίας (π.χ., μετα-διαστρωμάτωση) ή ελέγχουν τη διαδικασία δειγματοληψίας κάπως (π.χ. αντιστοίχιση του δείγματος), μπορούν να παράγουν καλύτερες εκτιμήσεις, ακόμη και οι εκτιμήσεις επαρκούς ποιότητας για τους περισσότερους σκοπούς. Φυσικά, θα ήταν καλύτερο να κάνετε τέλεια εκτέλεση τυχαία δειγματοληψία, αλλά αυτό δεν φαίνεται πλέον να είναι μια ρεαλιστική επιλογή.

Και τα δύο δείγματα μη πιθανότητας και τυχαία δείγματα διαφέρουν σε ποιότητα τους, και αυτή τη στιγμή είναι πιθανό η υπόθεση ότι οι περισσότερες εκτιμήσεις από τυχαία δείγματα είναι πιο αξιόπιστοι από τις εκτιμήσεις από δείγματα μη πιθανότητας. Αλλά, ακόμη και τώρα, οι εκτιμήσεις από ολοκληρωμένες δείγματα μη πιθανότητας είναι ίσως καλύτερα από τις εκτιμήσεις από κακώς-διεξάγονται τυχαία δείγματα. Περαιτέρω, τα δείγματα μη πιθανότητας είναι σημαντικά φθηνότερο. Έτσι, φαίνεται ότι η πιθανότητα vs δειγματοληψία χωρίς πιθανότητα προσφέρει μια οικονομική ποιότητας trade-off (Εικόνα 3.6). Κοιτάζοντας μπροστά, περιμένω ότι οι εκτιμήσεις από καλά κάνει δείγματα μη πιθανότητας θα γίνουν φθηνότερα και καλύτερα. Περαιτέρω, λόγω της βλάβης στο τηλεφωνικό έρευνες σταθερού δικτύου και την αύξηση των ποσοστών της μη απάντησης, περιμένω ότι τα δείγματα πιθανότητα θα γίνουν πιο ακριβά και χαμηλότερης ποιότητας. Λόγω αυτών των μακροπρόθεσμων τάσεων, νομίζω ότι δειγματοληψία χωρίς πιθανότητα θα γίνει όλο και πιο σημαντική στην τρίτη εποχή της έρευνας της έρευνας.

Σχήμα 3.6: τυχαία δειγματοληψία στην πράξη και δειγματοληψία χωρίς πιθανότητα είναι και οι δύο μεγάλες, ετερογενείς κατηγορίες. Σε γενικές γραμμές, υπάρχει ένα κόστος-λάθους trade-off με δειγματοληψία χωρίς πιθανότητα να είναι χαμηλότερο κόστος, αλλά υψηλότερη σφάλμα. Ωστόσο, καλά κάνει δειγματοληψία χωρίς πιθανότητα μπορεί να παράγει καλύτερες εκτιμήσεις από κακώς-γίνει τυχαία δειγματοληψία. Στο μέλλον, περιμένω ότι η δειγματοληψία χωρίς πιθανότητα θα πάρει καλύτερα και φθηνότερα, ενώ τυχαία δειγματοληψία θα επιδεινωθεί και πιο ακριβά.