3.3.1 Εκπροσώπηση

Εκπροσώπηση είναι για την εξαγωγή συμπερασμάτων από τους ερωτηθέντες σας με τον πληθυσμό-στόχο σας.

Προκειμένου να κατανοήσουμε το είδος των σφαλμάτων που μπορεί να συμβεί όταν συνάγουμε από τους ερωτώμενους στον μεγαλύτερο πληθυσμό, ας εξετάσουμε τη δημοσκόπηση της λογοτεχνικής ανασκόπησης που προσπάθησε να προβλέψει το αποτέλεσμα των αμερικανικών προεδρικών εκλογών του 1936. Αν και συνέβη πριν από περισσότερα από 75 χρόνια, αυτή η απογοήτευση έχει ακόμα ένα σημαντικό μάθημα για να διδάξουμε σήμερα τους ερευνητές.

Το λογοτεχνικό περιοδικό ήταν ένα δημοφιλές περιοδικό γενικού ενδιαφέροντος και ξεκίνησε το 1920 και άρχισε να εκτελεί δημοσκοπήσεις άχυρου για να προβλέψει τα αποτελέσματα των προεδρικών εκλογών. Για να κάνουν αυτές τις προβλέψεις, θα στέλνουν ψηφοδέλτια σε πολλούς ανθρώπους και στη συνέχεια απλώς θα συγκεντρώσουν τα ψηφοδέλτια που επιστράφηκαν. Λογοτεχνική αφομοίωση με υπερηφάνεια ανέφερε ότι τα ψηφοδέλτια που έλαβαν ήταν ούτε «σταθμισμένη, προσαρμοσμένο, ούτε ερμηνεύεται.» Αυτή η διαδικασία προβλέψει σωστά τους νικητές των εκλογών το 1920, 1924, 1928 και 1932. Το 1936, εν μέσω της Μεγάλης Ύφεσης, Λογοτεχνικά Η Digest έστειλε ψηφοδέλτια σε 10 εκατομμύρια άτομα, τα ονόματα των οποίων προέρχονταν κυρίως από τους τηλεφωνικούς καταλόγους και τα αρχεία καταγραφής αυτοκινήτων. Εδώ περιγράφεται η μεθοδολογία τους:

"Το μηχάνημα ομαλής λειτουργίας του DIGEST κινείται με την ταχεία ακρίβεια τριάντα ετών εμπειρίας για να μειώσει τις εικασίες σε σκληρά γεγονότα ... Αυτή την εβδομάδα 500 στυλό γρατσουνιές πάνω από ένα τέταρτο των εκατομμυρίων διευθύνσεων την ημέρα. Κάθε μέρα, σε ένα μεγάλο δωμάτιο ψηλά πάνω από την τέταρτη λεωφόρο με κινητήρα, στη Νέα Υόρκη, 400 εργαζόμενοι προσελκύουν με περήφανο τρόπο ένα εκατομμύριο τεμάχια έντυπου υλικού - αρκετά για να ανοίξουν σαράντα αστικές μπλοκ. Κάθε ώρα, στο δικό του Σταθμό Ταχυδρομείων της DIGEST, τρία φωνητικά μηχανήματα μετρητών σφραγισμένα και σφραγισμένα τα λευκά επιμήκη. ειδικευμένοι ταχυδρομικοί υπάλληλοι τους έβαλαν σε διογκωμένες ταχυδρομικές θυρίδες. το στόλο DIGEST φορτηγά σπρώχνει τους να εκφραστούν τα ταχυδρομεία-τρένα. . . Την επόμενη εβδομάδα, οι πρώτες απαντήσεις από αυτά τα δέκα εκατομμύρια θα ξεκινήσουν την εισερχόμενη παλίρροια των μαρκαρισμένων ψηφοδελτίων, να είναι τριπλά-ελεγμένα, επαληθεύσιμα, πενταπλάσια ταξινομημένα και αθροιστικά. Όταν η τελευταία φιγούρα έχει υπολογιστεί και ελεγχθεί, εάν η προηγούμενη εμπειρία είναι κριτήριο, η χώρα θα ξέρει σε ένα κλάσμα του 1% την πραγματική λαϊκή ψήφο σαράντα εκατομμυρίων [ψηφοφόρων] ». (22 Αυγούστου 1936)

Η φετιχοποίηση του μεγέθους του λογοτεχνικού Digest είναι άμεσα αναγνωρίσιμη σε οποιονδήποτε ερευνητή "μεγάλων δεδομένων" σήμερα. Από τα 10 εκατομμύρια ψηφοδελτίων που διανέμονται, επιστρέφουν εκπληκτικά 2,4 εκατομμύρια - περίπου 1,000 φορές μεγαλύτερα από τις σύγχρονες πολιτικές δημοσκοπήσεις. Από αυτά τα 2,4 εκατομμύρια ερωτηθέντες, η ετυμηγορία ήταν ξεκάθαρη: ο Alf Landon επρόκειτο να νικήσει τον κατεστημένο Franklin Roosevelt. Αλλά, στην πραγματικότητα, ο Ρούσβελτ νίκησε τον Landon σε μια κατολίσθηση. Πώς θα μπορούσε η Λογοτεχνική Αναδρομή να πάει στραβά με τόσο πολλά δεδομένα; Η σύγχρονη κατανόηση της δειγματοληψίας μας καθιστά σαφή τα λάθη του Literary Digest και μας βοηθά να αποφύγουμε να κάνουμε παρόμοια λάθη στο μέλλον.

Η σαφής σκέψη για τη δειγματοληψία απαιτεί να εξετάσουμε τέσσερις διαφορετικές ομάδες ανθρώπων (σχήμα 3.2). Η πρώτη ομάδα είναι ο πληθυσμός στόχος . αυτή είναι η ομάδα που ο ερευνητής ορίζει ως τον πληθυσμό που ενδιαφέρει. Στην περίπτωση του Literary Digest , ο πληθυσμός στόχος ήταν ψηφοφόροι στις προεδρικές εκλογές του 1936.

Αφού αποφασιστεί ένας πληθυσμός στόχος, ένας ερευνητής πρέπει να αναπτύξει μια λίστα ανθρώπων που μπορούν να χρησιμοποιηθούν για δειγματοληψία. Αυτός ο κατάλογος ονομάζεται πλαίσιο δειγματοληψίας και οι άνθρωποι σε αυτό ονομάζονται πληθυσμός πλαισίων . Στην ιδανική περίπτωση, ο πληθυσμός στόχος και ο πληθυσμός του πλαισίου θα είναι ακριβώς ο ίδιος, αλλά στην πράξη αυτό δεν συμβαίνει συχνά. Για παράδειγμα, στην περίπτωση του Literary Digest , ο πληθυσμός των πλαισίων ήταν τα 10 εκατομμύρια άτομα των οποίων τα ονόματα προερχόταν κυρίως από τους τηλεφωνικούς καταλόγους και τα αρχεία καταγραφής αυτοκινήτων. Οι διαφορές μεταξύ του πληθυσμού-στόχου και του πληθυσμού πλαισίου καλούνται σφάλματα κάλυψης . Το σφάλμα κάλυψης δεν εγγυάται από μόνο του προβλήματα. Ωστόσο, μπορεί να οδηγήσει σε μεροληψία κάλυψης εάν οι άνθρωποι του πληθυσμού πλαισίου διαφέρουν συστηματικά από τους ανθρώπους του πληθυσμού-στόχου που δεν βρίσκονται στον πληθυσμό των πλαισίων. Αυτό είναι ακριβώς αυτό που συνέβη στη δημοσκόπηση του λογοτεχνικού Digest . Οι άνθρωποι στο πλαίσιο του πληθυσμού τους είχαν περισσότερες πιθανότητες να υποστηρίξουν τον Alf Landon, εν μέρει επειδή ήταν πλουσιότεροι (υπενθυμίζουν ότι τόσο τα τηλέφωνα όσο και τα αυτοκίνητα ήταν σχετικά καινούργια και ακριβά το 1936). Έτσι, στη δημοσκόπηση του Literary Digest , το σφάλμα κάλυψης οδήγησε σε προκατειλημμένη κάλυψη.

Σχήμα 3.2: Σφάλματα αναπαράστασης.

Σχήμα 3.2: Σφάλματα αναπαράστασης.

Αφού οριστεί ο πληθυσμός πλαισίων , το επόμενο βήμα είναι για έναν ερευνητή να επιλέξει τον δείγμα του πληθυσμού . Αυτοί είναι οι άνθρωποι που ο ερευνητής θα προσπαθήσει να πάρει συνέντευξη. Εάν το δείγμα έχει διαφορετικά χαρακτηριστικά από τον πληθυσμό του πλαισίου, τότε η δειγματοληψία μπορεί να εισαγάγει σφάλμα δειγματοληψίας . Στην περίπτωση του φιάσκο Literary Digest , ωστόσο, δεν υπήρχε δειγματοληψία - το περιοδικό να έρχεται σε επαφή με όλους στο πλαίσιο του πληθυσμού - και επομένως δεν υπήρχε σφάλμα δειγματοληψίας. Πολλοί ερευνητές τείνουν να επικεντρώνονται στο σφάλμα δειγματοληψίας - αυτό είναι συνήθως το μοναδικό είδος σφάλματος που έχει καταγραφεί από το περιθώριο σφάλματος που αναφέρθηκε στις έρευνες - αλλά το fiasco του Literary Digest μας θυμίζει ότι πρέπει να εξετάσουμε όλες τις πηγές σφάλματος, τόσο τυχαίες όσο και συστηματικές.

Τέλος, μετά την επιλογή ενός δείγματος πληθυσμού, ένας ερευνητής επιχειρεί να συνεννοηθεί με όλα τα μέλη του. Αυτοί οι άνθρωποι με επιτυχία συνέντευξη ονομάζονται ερωτηθέντες . Στην ιδανική περίπτωση, ο πληθυσμός του δείγματος και οι ερωτώμενοι θα είναι ακριβώς ίδιοι, αλλά στην πράξη δεν υπάρχει ανταπόκριση. Δηλαδή, οι άνθρωποι που επιλέγονται στο δείγμα μερικές φορές δεν συμμετέχουν. Εάν οι άνθρωποι που ανταποκρίνονται είναι διαφορετικοί από εκείνους που δεν ανταποκρίνονται, τότε μπορεί να υπάρχει μη απόκριση απόκριση . Η αρνητική απόκριση ήταν το δεύτερο κύριο πρόβλημα με τη δημοσκόπηση του λογοτεχνικού Digest . Μόνο το 24% των ανθρώπων που έλαβαν ψηφοφορία ανταποκρίθηκαν και αποδείχθηκε ότι οι άνθρωποι που υποστήριζαν την Landon ήταν πιο πιθανό να απαντήσουν.

Πέρα από το να αποτελεί παράδειγμα για να εισαγάγει τις ιδέες της εκπροσώπησης, η έρευνα του Literary Digest είναι μια συχνά επαναλαμβανόμενη παραβολή, προειδοποιώντας τους ερευνητές για τους κινδύνους τυχαίας δειγματοληψίας. Δυστυχώς, πιστεύω ότι το μάθημα που πολλοί άνθρωποι αντλούν από αυτή την ιστορία είναι λάθος. Το πιο κοινό ηθικό της ιστορίας είναι ότι οι ερευνητές δεν μπορούν να μάθουν τίποτα από δείγματα μη πιθανότητας (δηλ. Δείγματα χωρίς αυστηρούς κανόνες βάσει πιθανότητας για την επιλογή συμμετεχόντων). Αλλά, όπως θα παρουσιάσω αργότερα σε αυτό το κεφάλαιο, αυτό δεν είναι σωστό. Αντ 'αυτού, πιστεύω ότι υπάρχουν δύο ηθικά στην ιστορία αυτή. τα ηθικά που είναι τόσο αληθινά σήμερα όπως ήταν το 1936. Πρώτον, μια μεγάλη ποσότητα τυχαία συλλεγόμενων δεδομένων δεν θα εγγυηθεί μια καλή εκτίμηση. Γενικά, η ύπαρξη μεγάλου αριθμού ερωτηθέντων μειώνει τη διακύμανση των εκτιμήσεων, αλλά δεν μειώνει αναγκαστικά τη μεροληψία. Με πολλά δεδομένα, οι ερευνητές μπορούν να λάβουν μερικές φορές μια ακριβή εκτίμηση του λάθους. μπορούν να είναι ακριβώς ανακριβείς (McFarland and McFarland 2015) . Το δεύτερο βασικό μάθημα από το φιάσκο του Literary Digest είναι ότι οι ερευνητές πρέπει να λογοδοτήσουν για το πώς συλλέχτηκε το δείγμα τους κατά τις εκτιμήσεις. Με άλλα λόγια, επειδή η διαδικασία δειγματοληψίας στη δημοσκόπηση του Literary Digest συστηματικά έρχεται σε αντίθεση με ορισμένους ερωτηθέντες, οι ερευνητές χρειάστηκαν να χρησιμοποιήσουν μια πιο περίπλοκη διαδικασία εκτίμησης, η οποία στάθμισε ορισμένους ερωτηθέντες περισσότερο από άλλους. Αργότερα σε αυτό το κεφάλαιο, θα σας δείξω μια τέτοια διαδικασία στάθμισης - μετά τη στρωματοποίηση - που θα σας επιτρέψει να κάνετε καλύτερες εκτιμήσεις από τυχαία δείγματα.