3.4.1 Ανάλυση της συλλογής δεδομένων και των δεδομένων: Πιθανότητα δειγματοληψίας

Βάρη μπορεί να ανατρέψει τις στρεβλώσεις που προκαλούνται σκόπιμα από τη διαδικασία δειγματοληψίας.

Δείγματα πιθανότητας είναι εκείνες όπου όλοι οι άνθρωποι έχουν ένα γνωστό, μη-μηδενική πιθανότητα ένταξης, και το απλούστερο σχέδιο δειγματοληψίας πιθανότητα είναι απλή τυχαία δειγματοληψία, όπου κάθε άτομο έχει ίση πιθανότητα ένταξης. Όταν οι ερωτηθέντες που επιλέγονται μέσω απλή τυχαία δειγματοληψία με την άψογη εκτέλεση (π.χ., χωρίς σφάλματα κάλυψης και καμία μη απάντηση), τότε εκτίμηση είναι απλή, γιατί το δείγμα θα-κατά μέσο όρο, είναι μια μικρογραφία του πληθυσμού.

Απλή τυχαία δειγματοληψία χρησιμοποιείται σπάνια στην πράξη, όμως. Αντίθετα, οι ερευνητές σκοπίμως επιλέξτε άτομα με άνισες πιθανότητες ένταξης, προκειμένου να μειωθεί το κόστος και να αυξήσει την ακρίβεια. Όταν οι ερευνητές σκοπίμως επιλέξετε ανθρώπους με διαφορετικές πιθανότητες ένταξης, τότε οι προσαρμογές που απαιτούνται για να αναιρέσετε τις στρεβλώσεις που προκαλούνται από τη διαδικασία δειγματοληψίας. Με άλλα λόγια, πώς γενικεύουμε από ένα δείγμα εξαρτάται από το πώς επελέγη το δείγμα.

Για παράδειγμα, η Έρευνα σημερινού πληθυσμού (CPS) χρησιμοποιείται από την κυβέρνηση των ΗΠΑ να εκτιμηθεί το ποσοστό ανεργίας. Κάθε μήνα περίπου 100.000 άνθρωποι που ερωτήθηκαν, είτε πρόσωπο με πρόσωπο ή μέσω τηλεφώνου, και τα αποτελέσματα χρησιμοποιούνται για την παραγωγή του εκτιμώμενου ποσοστού ανεργίας. Επειδή η κυβέρνηση επιθυμεί να εκτιμηθεί το ποσοστό ανεργίας σε κάθε κράτος, δεν μπορεί να κάνει ένα απλό τυχαίο δείγμα ενηλίκων, διότι αυτό θα δώσει πολύ λίγοι ερωτηθέντες σε κράτη με μικρούς πληθυσμούς (π.χ., Rhode Island) και πάρα πολλά από τα κράτη με μεγάλο πληθυσμό (π.χ. , California). Αντ 'αυτού, οι CPS δείγματα ανθρώπων σε διαφορετικές καταστάσεις με διαφορετικούς ρυθμούς, μια διαδικασία που ονομάζεται στρωματοποιημένη δειγματοληψία με άνισες πιθανότητες επιλογής. Για παράδειγμα, αν οι CPS ήθελαν 2.000 ερωτηθέντες ανά κράτος, τότε ενήλικες σε Rhode Island θα έχει περίπου 30 φορές μεγαλύτερη πιθανότητα ένταξης από τους ενήλικες στην Καλιφόρνια (Rhode Island: 2.000 ερωτηθέντες ανά 800.000 ενήλικες vs Καλιφόρνια: 2.000 ερωτηθέντες ανά 30.000.000 ενήλικες). Όπως θα δούμε αργότερα, αυτό το είδος της δειγματοληψίας με άνισες πιθανότητες συμβαίνει με online πηγές των δεδομένων πάρα πολύ, αλλά σε αντίθεση με τις ΚΠ, ο μηχανισμός δειγματοληψίας είναι συνήθως δεν είναι γνωστή ή ελέγχεται από τον ερευνητή.

Λαμβάνοντας υπόψη το σχεδιασμό της δειγματοληψίας, η ΚΠ δεν είναι άμεσα αντιπροσωπευτικό των ΗΠΑ? περιλαμβάνει πάρα πολλούς ανθρώπους από το Rhode Island και πολύ λίγα από την Καλιφόρνια. Ως εκ τούτου, δεν θα ήταν φρόνιμο να εκτιμηθεί το ποσοστό ανεργίας στη χώρα με το ποσοστό ανεργίας στο δείγμα. Αντί της μέσης τιμής του δείγματος, είναι καλύτερα να λάβει μια σταθμισμένη μέση, όπου οι σταθμίσεις υπόψη το γεγονός ότι οι άνθρωποι από Ρόουντ Άιλαντ ήταν πιο πιθανό να συμπεριληφθεί από τους ανθρώπους από την Καλιφόρνια. Για παράδειγμα, κάθε πρόσωπο από την Καλιφόρνια θα ήταν upweighted- θα μετρήσει περισσότερο στην εκτίμηση-και κάθε πρόσωπο από το Rhode Island θα εξουδετερωθεί, θα μετρήσει λιγότερο στην εκτίμηση. Στην ουσία, θα σας δοθεί περισσότερη φωνή στους ανθρώπους που είναι λιγότερο πιθανό να μάθουν για.

Το παράδειγμα αυτό παιχνίδι απεικονίζει ένα σημαντικό αλλά συχνά παρεξηγημένη σημείο: ένα δείγμα δεν χρειάζεται να είναι μια μικρογραφία του πληθυσμού με σκοπό την παραγωγή καλές εκτιμήσεις. Αν αρκετά είναι γνωστά για το πώς συλλέχθηκαν τα δεδομένα, τότε οι πληροφορίες αυτές μπορούν να χρησιμοποιηθούν κατά την πραγματοποίηση εκτιμήσεων από το δείγμα. Η προσέγγιση που έχω μόλις περιέγραψα, και ότι έχω περιγράψει μαθηματικά στο τεχνικό προσάρτημα, εντάσσεται πλήρως στο κλασικό πλαίσιο τυχαία δειγματοληψία. Τώρα, θα σας δείξω πώς η ίδια ιδέα μπορεί να εφαρμοστεί σε δείγματα μη πιθανότητας.