3.6.1 Εμπλουτισμένη ερώτηση

Στην εμπλουτισμένη ερώτηση, τα δεδομένα της έρευνας συσσωρεύουν ένα περιβάλλον γύρω από μια μεγάλη πηγή δεδομένων που περιέχει μερικές σημαντικές μετρήσεις αλλά δεν έχουν άλλες.

Ένας τρόπος για να συνδυάσετε τα δεδομένα των ερευνών και τις μεγάλες πηγές δεδομένων είναι μια διαδικασία που θα ονομάσω εμπλουτισμένη ερώτηση . Σε εμπλουτισμένη ερώτηση, μια μεγάλη πηγή δεδομένων περιέχει μερικές σημαντικές μετρήσεις αλλά στερείται άλλων μετρήσεων έτσι ώστε ο ερευνητής να συλλέγει αυτές τις ελλείπουσες μετρήσεις σε μια έρευνα και στη συνέχεια να συνδέσει τις δύο πηγές δεδομένων μαζί. Ένα παράδειγμα εμπλουτισμένης ερώτησης είναι η μελέτη από τον Burke and Kraut (2014) για το αν η αλληλεπίδραση στο Facebook αυξάνει τη δύναμη φιλίας, την οποία περιέγραψα στην ενότητα 3.2). Σε αυτή την περίπτωση, ο Burke και ο Kraut συνδυάζουν δεδομένα έρευνας με δεδομένα καταγραφής Facebook.

Το περιβάλλον στο οποίο εργάζονταν οι Burke και Kraut, ωστόσο, σήμαινε ότι δεν έπρεπε να ασχοληθούν με δύο μεγάλα προβλήματα που οι ερευνητές έκαναν εμπλουτισμένα ζητώντας τυπικά το πρόσωπο. Πρώτον, συνδέοντας πραγματικά τα σύνολα δεδομένων μεμονωμένου επιπέδου, μια διαδικασία που ονομάζεται σύνδεση εγγραφής , μπορεί να είναι δύσκολη αν δεν υπάρχει μοναδικό αναγνωριστικό και στις δύο πηγές δεδομένων που μπορούν να χρησιμοποιηθούν για να διασφαλιστεί ότι η σωστή εγγραφή σε ένα σύνολο δεδομένων συμφωνεί με τη σωστή εγγραφή στο άλλο σύνολο δεδομένων. Το δεύτερο κύριο πρόβλημα με την εμπλουτισμένη ερώτηση είναι ότι η ποιότητα της μεγάλης πηγής δεδομένων θα είναι συχνά δύσκολη για τους ερευνητές, επειδή η διαδικασία μέσω της οποίας δημιουργούνται τα δεδομένα μπορεί να είναι ιδιόκτητη και θα μπορούσε να είναι ευαίσθητη σε πολλά από τα προβλήματα που περιγράφονται στο κεφάλαιο 2. Με άλλα λόγια, η εμπλουτισμένη ερώτηση θα περιλαμβάνει συχνά τη σύνδεση των ερευνών με σφάλματα στις πηγές δεδομένων μαύρου κουτιού άγνωστης ποιότητας. Παρά τα προβλήματα αυτά, όμως, η εμπλουτισμένη ερώτηση μπορεί να χρησιμοποιηθεί για τη διεξαγωγή σημαντικής έρευνας, όπως κατέδειξαν οι Stephen Ansolabehere και Eitan Hersh (2012) στην έρευνα τους σχετικά με τα πρότυπα ψηφοφορίας στις Ηνωμένες Πολιτείες.

Η προσέλευση των ψηφοφόρων αποτέλεσε αντικείμενο εκτεταμένης έρευνας στην πολιτική επιστήμη και, στο παρελθόν, η κατανόηση των ερευνητών σχετικά με το ποιος ψηφίζει και γιατί βασίστηκε γενικά στην ανάλυση των δεδομένων της έρευνας. Η ψηφοφορία στις Ηνωμένες Πολιτείες, ωστόσο, είναι μια ασυνήθιστη συμπεριφορά στο ότι η κυβέρνηση καταγράφει αν κάθε πολίτης έχει ψηφίσει (βέβαια, η κυβέρνηση δεν καταγράφει ποιος ο κάθε πολίτης ψηφίζει). Για πολλά χρόνια, αυτά τα κυβερνητικά αρχεία ψηφοφορίας ήταν διαθέσιμα σε έντυπη μορφή, διάσπαρτα σε διάφορα γραφεία της τοπικής αυτοδιοίκησης σε όλη τη χώρα. Αυτό κατέστησε πολύ δύσκολο, αλλά όχι αδύνατο, οι πολιτικοί επιστήμονες να έχουν μια πλήρη εικόνα του εκλογικού σώματος και να συγκρίνουν όσα λένε οι έρευνες για την ψηφοφορία με την πραγματική συμπεριφορά τους στις ψηφοφορίες (Ansolabehere and Hersh 2012) .

Αυτά τα αρχεία ψηφοφορίας έχουν πλέον ψηφιοποιηθεί και πολλές ιδιωτικές εταιρείες έχουν συστηματικά συλλέξει και συγχωνεύσει τα στοιχεία για να παράγουν ολοκληρωμένα αρχεία με κύρια ψηφοφορία τα οποία περιέχουν τη συμπεριφορά ψήφου όλων των Αμερικανών. Η Ansolabehere και ο Hersh συνεργάστηκαν με μία από αυτές τις εταιρείες - LCC καταλόγου - προκειμένου να χρησιμοποιήσουν τον κύριο φάκελο ψηφοφορίας τους για να βοηθήσουν στην ανάπτυξη καλύτερης εικόνας του εκλογικού σώματος. Επιπλέον, επειδή η μελέτη τους βασιζόταν σε ψηφιακά αρχεία που συλλέχθηκαν και επιμελήθηκαν από μια εταιρεία που είχε επενδύσει σημαντικούς πόρους στη συλλογή και εναρμόνιση των δεδομένων, προσέφερε πολλά πλεονεκτήματα σε σχέση με προηγούμενες προσπάθειες που είχαν γίνει χωρίς τη βοήθεια εταιρειών και χρησιμοποιώντας αναλογικά αρχεία.

Όπως πολλές από τις μεγάλες πηγές δεδομένων στο κεφάλαιο 2, το αρχείο καταλόγου των καταλανικών δεν περιελάμβανε πολλές από τις δημογραφικές, συμπεριφορικές και συμπεριφορικές πληροφορίες που χρειάζονταν οι Ansolabehere και Hersh. Στην πραγματικότητα, ενδιαφέρονται ιδιαίτερα να συγκρίνουν την αναφερόμενη συμπεριφορά ψηφοφορίας σε έρευνες με επικυρωμένη συμπεριφορά στις ψηφοφορίες (δηλαδή, οι πληροφορίες στη βάση δεδομένων Catalist). Έτσι οι Ansolabehere και Hersh συνέλεξαν τα δεδομένα που ήθελαν ως μια μεγάλη κοινωνική έρευνα, το CCES, που αναφέρθηκε προηγουμένως σε αυτό το κεφάλαιο. Στη συνέχεια έδωσαν τα δεδομένα τους στον καταλύτη και ο Καταρράκτης τους έστειλε ένα συγχωνευμένο αρχείο δεδομένων που περιελάμβανε επικυρωμένη συμπεριφορά ψήφου (από τον Καταλαμιστή), την αυτοαναφερόμενη συμπεριφορά ψήφου (από το CCES) και τα δημογραφικά στοιχεία και τις στάσεις των ερωτηθέντων (από το CCES) 3.13). Με άλλα λόγια, οι Ansolabehere και Hersh συνένωσαν τα δεδομένα των αρχείων ψηφοφορίας με δεδομένα έρευνας προκειμένου να πραγματοποιηθεί έρευνα που δεν ήταν δυνατή με την καθεμία από τις πηγές δεδομένων ξεχωριστά.

Σχήμα 3.13: Σχηματική μελέτη της μελέτης των Ansolabehere και Hersh (2012). Για να δημιουργήσει το κύριο αρχείο δεδομένων, ο Catalist συνδυάζει και εναρμονίζει τις πληροφορίες από πολλές διαφορετικές πηγές. Αυτή η διαδικασία συγχώνευσης, ανεξάρτητα από το πόσο προσεκτικός, θα προωθήσει σφάλματα στις αρχικές πηγές δεδομένων και θα εισαγάγει νέα σφάλματα. Μια δεύτερη πηγή σφαλμάτων είναι ο σύνδεσμος εγγραφής μεταξύ των δεδομένων της έρευνας και του κύριου αρχείου δεδομένων. Αν κάθε άτομο είχε σταθερό, μοναδικό αναγνωριστικό και στις δύο πηγές δεδομένων, τότε η σύνδεση θα ήταν ασήμαντη. Αλλά, ο Καταλύτης έπρεπε να κάνει τη σύνδεση χρησιμοποιώντας ατελείς αναγνωριστές, στην περίπτωση αυτή όνομα, φύλο, έτος γέννησης και διεύθυνση κατοικίας. Δυστυχώς, σε πολλές περιπτώσεις μπορεί να υπάρχουν ελλιπείς ή ανακριβείς πληροφορίες. ένας ψηφοφόρος που ονομάζεται Όμηρος Σίμπσον μπορεί να εμφανιστεί ως ο Όμηρος Τζέι Σίμπσον, ο Χόμι Ζ Σίμπσον, ή ακόμα και ο Όμηρος Σαμψίν. Παρά τις πιθανότητες για σφάλματα στο αρχείο δεδομένων καταλόγου Catalist και τα λάθη στη σύνδεση εγγραφής, η Ansolabehere και η Hersh κατάφεραν να δημιουργήσουν εμπιστοσύνη στις εκτιμήσεις τους μέσω διαφόρων τύπων ελέγχων.

Σχήμα 3.13: Σχηματική μελέτη της μελέτης των Ansolabehere and Hersh (2012) . Για να δημιουργήσει το κύριο αρχείο δεδομένων, ο Catalist συνδυάζει και εναρμονίζει τις πληροφορίες από πολλές διαφορετικές πηγές. Αυτή η διαδικασία συγχώνευσης, ανεξάρτητα από το πόσο προσεκτικός, θα προωθήσει σφάλματα στις αρχικές πηγές δεδομένων και θα εισαγάγει νέα σφάλματα. Μια δεύτερη πηγή σφαλμάτων είναι ο σύνδεσμος εγγραφής μεταξύ των δεδομένων της έρευνας και του κύριου αρχείου δεδομένων. Αν κάθε άτομο είχε σταθερό, μοναδικό αναγνωριστικό και στις δύο πηγές δεδομένων, τότε η σύνδεση θα ήταν ασήμαντη. Αλλά, ο Καταλύτης έπρεπε να κάνει τη σύνδεση χρησιμοποιώντας ατελείς αναγνωριστές, στην περίπτωση αυτή όνομα, φύλο, έτος γέννησης και διεύθυνση κατοικίας. Δυστυχώς, σε πολλές περιπτώσεις μπορεί να υπάρχουν ελλιπείς ή ανακριβείς πληροφορίες. ένας ψηφοφόρος που ονομάζεται Όμηρος Σίμπσον μπορεί να εμφανιστεί ως ο Όμηρος Τζέι Σίμπσον, ο Χόμι Ζ Σίμπσον, ή ακόμα και ο Όμηρος Σαμψίν. Παρά τις πιθανότητες για σφάλματα στο αρχείο δεδομένων καταλόγου Catalist και τα λάθη στη σύνδεση εγγραφής, η Ansolabehere και η Hersh κατάφεραν να δημιουργήσουν εμπιστοσύνη στις εκτιμήσεις τους μέσω διαφόρων τύπων ελέγχων.

Με το συνδυασμένο αρχείο τους, οι Ansolabehere και Hersh κατέληξαν σε τρία σημαντικά συμπεράσματα. Πρώτον, η υπερβολική αναφορά των ψηφοφοριών είναι ασταθής: σχεδόν οι μισοί από τους μη φτωχούς ανέφεραν ψηφοφορία και εάν κάποιος ανέφερε την ψηφοφορία, υπάρχει μόνο 80% πιθανότητα να ψηφίσουν. Δεύτερον, η υπερβολική αναφορά δεν είναι τυχαία: η υπερβολική αναφορά είναι πιο συνηθισμένη μεταξύ των υψηλού εισοδήματος, μορφωμένων, συμπατριωτών που ασχολούνται με δημόσιες υποθέσεις. Με άλλα λόγια, οι άνθρωποι που είναι πιο πιθανό να ψηφίσουν είναι επίσης πιθανότατα ψέμα για την ψηφοφορία. Τρίτον και πιο κριτικά, λόγω της συστηματικής φύσης της υπερβολικής αναφοράς, οι πραγματικές διαφορές μεταξύ των ψηφοφόρων και των μη αιμοδοτών είναι μικρότερες από αυτές που εμφανίζονται μόνο από τις έρευνες. Για παράδειγμα, όσοι έχουν πτυχίο πανεπιστημίου είναι περίπου 22 εκατοστιαίες μονάδες πιο πιθανό να αναφέρουν ψηφοφορία, αλλά είναι πολύ πιο πιθανό να ψηφίσουν μόνο 10 εκατοστιαίες μονάδες. Αποδεικνύεται, ίσως, δεν είναι εκπληκτικό, ότι οι υφιστάμενες βασισμένες σε πόρους θεωρίες της ψηφοφορίας είναι πολύ καλύτερες στην πρόβλεψη του ποιος θα αναφέρει την ψηφοφορία (ποια είναι τα στοιχεία που οι ερευνητές χρησιμοποίησαν στο παρελθόν) από ό, τι στην πρόβλεψη του ποιος πραγματικά ψηφίζει. Έτσι, το εμπειρικό εύρημα των Ansolabehere and Hersh (2012) απαιτεί νέες θεωρίες για την κατανόηση και την πρόβλεψη της ψηφοφορίας.

Αλλά πόσο πρέπει να εμπιστευθούμε αυτά τα αποτελέσματα; Να θυμάστε ότι αυτά τα αποτελέσματα εξαρτώνται από τη σύνδεση με τα σφάλματα με τα δεδομένα μαύρου κουτιού με άγνωστα ποσά σφάλματος. Πιο συγκεκριμένα, τα αποτελέσματα εξαρτώνται από δύο βασικά βήματα: (1) την ικανότητα του Catalist να συνδυάζει πολλές διαφορετικές πηγές δεδομένων για να παράγει ένα ακριβές master αρχείο δεδομένων και (2) την ικανότητα του Catalist να συνδέσει τα δεδομένα της έρευνας με το κύριο αρχείο δεδομένων. Κάθε ένα από αυτά τα βήματα είναι δύσκολο και τα σφάλματα σε κάθε βήμα θα μπορούσαν να οδηγήσουν τους ερευνητές σε λάθος συμπεράσματα. Ωστόσο, τόσο η επεξεργασία δεδομένων όσο και η σύνδεση είναι ζωτικής σημασίας για τη συνεχιζόμενη ύπαρξη του Καταλανιού ως εταιρίας, ώστε να μπορεί να επενδύσει πόρους στην επίλυση αυτών των προβλημάτων, συχνά σε κλίμακα που κανένας ακαδημαϊκός ερευνητής δεν μπορεί να ταυτιστεί. Στην εργασία τους, οι Ansolabehere και Hersh περνούν μερικά βήματα για να ελέγξουν τα αποτελέσματα αυτών των δύο βημάτων - παρόλο που μερικά από αυτά είναι ιδιόκτητα - και αυτοί οι έλεγχοι μπορεί να είναι χρήσιμοι για άλλους ερευνητές που επιθυμούν να συνδέσουν τα δεδομένα της έρευνας με μεγάλα δεδομένα μαύρου κουτιού πηγές.

Ποια είναι τα γενικά διδάγματα που μπορούν να αντλήσουν οι ερευνητές από αυτή τη μελέτη; Πρώτον, υπάρχει τεράστια αξία τόσο από τον εμπλουτισμό των μεγάλων πηγών δεδομένων με τα δεδομένα των ερευνών όσο και από τον εμπλουτισμό των δεδομένων της έρευνας με μεγάλες πηγές δεδομένων (μπορείτε να δείτε αυτή την μελέτη με κάθε τρόπο). Συνδυάζοντας αυτές τις δύο πηγές δεδομένων, οι ερευνητές ήταν σε θέση να κάνουν κάτι που ήταν αδύνατο μεμονωμένα. Το δεύτερο γενικό μάθημα είναι ότι, αν και συγκεντρωτικά, οι εμπορικές πηγές δεδομένων, όπως τα δεδομένα από τους Καταλαμιστές, δεν πρέπει να θεωρούνται "αλήθεια εδάφους", σε ορισμένες περιπτώσεις, μπορούν να είναι χρήσιμες. Οι σκεπτικιστές μερικές φορές συγκρίνουν αυτή την αθροιστική, εμπορική πηγή δεδομένων με απόλυτη Αλήθεια και επισημαίνουν ότι αυτές οι πηγές δεδομένων υπολείπονται. Ωστόσο, σε αυτήν την περίπτωση, οι σκεπτικιστές κάνουν λάθος σύγκριση: όλα τα δεδομένα που χρησιμοποιούν οι ερευνητές υπολείπονται της απόλυτης Αλήθειας. Αντ 'αυτού, είναι καλύτερο να συγκρίνετε τις συγκεντρωτικές πηγές εμπορικών δεδομένων με άλλες διαθέσιμες πηγές δεδομένων (π.χ., αυτοαναφερόμενη συμπεριφορά ψήφου), οι οποίες έχουν πάντα και σφάλματα. Τέλος, το τρίτο γενικό μάθημα της μελέτης Ansolabehere και Hersh είναι ότι σε ορισμένες περιπτώσεις, οι ερευνητές μπορούν να επωφεληθούν από τις τεράστιες επενδύσεις που κάνουν πολλές ιδιωτικές εταιρείες για τη συλλογή και την εναρμόνιση πολύπλοκων συνόλων κοινωνικών δεδομένων.