2.4.1 Μετρώντας τα πράγματα

Απλή καταμέτρηση μπορεί να είναι ενδιαφέρον αν συνδυάσετε μια καλή ερώτηση με καλά στοιχεία.

Παρόλο που είναι διατεταγμένο σε περίπλοκη γλώσσα, πολλές κοινωνικές έρευνες πραγματικά μετράνε πράγματα. Στην εποχή των μεγάλων δεδομένων, οι ερευνητές μπορούν να μετρήσουν περισσότερο από ποτέ, αλλά αυτό δεν σημαίνει ότι πρέπει απλώς να αρχίσουν να μετράνε τυχαία. Αντ 'αυτού, οι ερευνητές θα πρέπει να ρωτήσουν: Ποια πράγματα αξίζει να μετράνε; Αυτό μπορεί να φαίνεται σαν ένα εντελώς υποκειμενικό ζήτημα, αλλά υπάρχουν ορισμένα γενικά πρότυπα.

Συχνά οι σπουδαστές κινητοποιούν την έρευνα καταμέτρησης τους λέγοντας: Πάω να υπολογίζω κάτι που κανείς δεν έχει υπολογίσει ποτέ πριν. Για παράδειγμα, ένας φοιτητής μπορεί να πει ότι πολλοί άνθρωποι έχουν σπουδάσει μετανάστες και πολλοί άνθρωποι έχουν σπουδάσει δίδυμα, αλλά κανείς δεν έχει σπουδάσει δίδυμα μεταναστών. Από την εμπειρία μου, αυτή η στρατηγική, την οποία ονομάζω κίνητρο λόγω απουσίας , δεν οδηγεί συνήθως σε καλή έρευνα. Το κίνητρο από την απουσία είναι σαν να λέτε ότι υπάρχει μια τρύπα εκεί και θα πάω πολύ σκληρά για να το γεμίσω. Αλλά δεν πρέπει να γεμίσει κάθε τρύπα.

Αντί να κινητοποιούμε από την απουσία, πιστεύω ότι μια καλύτερη στρατηγική είναι να αναζητήσουμε ερευνητικά ερωτήματα που είναι σημαντικά ή ενδιαφέροντα (ή ιδανικά και τα δύο). Και οι δύο αυτοί όροι είναι δύσκολο να καθοριστούν, αλλά ένας τρόπος να σκεφτούμε μια σημαντική έρευνα είναι ότι έχει κάποιο μετρήσιμο αντίκτυπο ή τροφοδοτεί μια σημαντική απόφαση των υπευθύνων χάραξης πολιτικής. Για παράδειγμα, η μέτρηση του ποσοστού ανεργίας είναι σημαντική διότι αποτελεί δείκτη της οικονομίας που οδηγεί σε αποφάσεις πολιτικής. Γενικά, πιστεύω ότι οι ερευνητές έχουν μια αρκετά καλή αίσθηση του τι είναι σημαντικό. Έτσι λοιπόν, στο υπόλοιπο τμήμα αυτής της σελίδας, θα δώσω δύο παραδείγματα όπου νομίζω ότι η καταμέτρηση είναι ενδιαφέρουσα. Σε κάθε περίπτωση, οι ερευνητές δεν μετέφεραν τυχαία. Αντιμετώπισαν μάλιστα πολύ συγκεκριμένες ρυθμίσεις που αποκάλυψαν σημαντικές ιδέες για γενικότερες ιδέες για το πώς λειτουργούν τα κοινωνικά συστήματα. Με άλλα λόγια, πολλά από αυτά που κάνουν τις συγκεκριμένες ασκήσεις μέτρησης ενδιαφέροντα δεν είναι τα ίδια τα δεδομένα, προέρχονται από αυτές τις πιο γενικές ιδέες.

Ένα παράδειγμα της απλής εξουσίας της καταμέτρησης προέρχεται από τη μελέτη του Henry Farber (2015) για τη συμπεριφορά των οδηγών ταξί της Νέας Υόρκης. Παρόλο που αυτή η ομάδα ίσως δεν ακούγεται εγγενώς ενδιαφέρουσα, είναι ένας στρατηγικός χώρος έρευνας για τη δοκιμή δύο ανταγωνιστικών θεωριών στην οικονομία της εργασίας. Για τους σκοπούς της έρευνας της Farber υπάρχουν δύο σημαντικά χαρακτηριστικά για το περιβάλλον εργασίας των οδηγών ταξί: (1) ο ωριαίος μισθός τους κυμαίνεται καθημερινά, βασιζόμενος εν μέρει σε παράγοντες όπως ο καιρός και (2) ο αριθμός ωρών η εργασία μπορεί να κυμαίνεται κάθε μέρα με βάση τις αποφάσεις τους. Αυτά τα χαρακτηριστικά οδηγούν σε μια ενδιαφέρουσα ερώτηση σχετικά με τη σχέση μεταξύ ωριαίων μισθών και ωρών εργασίας. Τα νεοκλασικά μοντέλα στα οικονομικά προβλέπουν ότι οι οδηγοί ταξί θα εργάζονται περισσότερο στις μέρες που έχουν υψηλότερους ωριαίους μισθούς. Εναλλακτικά, μοντέλα από τη συμπεριφορά των οικονομικών προβλέπουν ακριβώς το αντίθετο. Εάν οι οδηγοί καθορίσουν συγκεκριμένο στόχο εισοδήματος - πχ 100 δολάρια την ημέρα - και δουλειά μέχρι να επιτευχθεί αυτός ο στόχος, τότε οι οδηγοί θα καταλήξουν να εργάζονται λιγότερες ώρες στις μέρες που κερδίζουν περισσότερα. Για παράδειγμα, εάν ήσασταν στόχος στόχος, ίσως καταλήξετε να εργάζεστε τέσσερις ώρες σε μια καλή μέρα ($ 25 ανά ώρα) και πέντε ώρες σε μια κακή ημέρα ($ 20 ανά ώρα). Έτσι, οι οδηγοί δουλεύουν περισσότερες ώρες σε ημέρες με υψηλότερους ωριαίους μισθούς (όπως προβλεπόταν από τα νεοκλασικά μοντέλα) ή περισσότερες ώρες σε ημέρες με χαμηλότερους ωριαίους μισθούς (όπως προβλέπεται από συμπεριφορικά οικονομικά μοντέλα);

Για να απαντήσει σε αυτή την ερώτηση, ο Farber συγκέντρωσε στοιχεία για κάθε ταξί ταξίδι που πραγματοποίησε η καμπίνα της Νέας Υόρκης από το 2009 έως το 2013, δεδομένα που είναι τώρα διαθέσιμα στο κοινό. Αυτά τα στοιχεία - τα οποία συλλέχθηκαν με ηλεκτρονικούς μετρητές που η πόλη απαιτεί να χρησιμοποιούν τα ταξί - περιλαμβάνουν πληροφορίες για κάθε ταξίδι: ώρα έναρξης, θέση εκκίνησης, ώρα λήξης, τελική θέση, ναύλος και συμβουλή (αν η συμβουλή πληρώθηκε με πιστωτική κάρτα) . Χρησιμοποιώντας τα δεδομένα αυτού του μετρητή ταξί, ο Farber διαπίστωσε ότι οι περισσότεροι οδηγοί δουλεύουν περισσότερο στις μέρες που οι μισθοί είναι υψηλότεροι, σύμφωνα με τη νεοκλασική θεωρία.

Εκτός από αυτό το κύριο εύρημα, ο Farber ήταν σε θέση να χρησιμοποιήσει το μέγεθος των δεδομένων για την καλύτερη κατανόηση της ετερογένειας και της δυναμικής. Διαπίστωσε ότι, με την πάροδο του χρόνου, οι νεώτεροι οδηγοί μαθαίνουν σταδιακά να εργάζονται περισσότερες ώρες στις μέρες με υψηλά ημερομίσθια (π.χ. μαθαίνουν να συμπεριφέρονται όπως προβλέπει το νεοκλασικό μοντέλο). Και οι νέοι οδηγοί που συμπεριφέρονται περισσότερο σαν εισοδηματίες έχουν περισσότερες πιθανότητες να εγκαταλείψουν τους οδηγούς ταξί. Και τα δύο αυτά πιο λεπτομερή ευρήματα, τα οποία βοηθούν στην εξήγηση της παρατηρούμενης συμπεριφοράς των τρέχοντων οδηγών, ήταν δυνατά μόνο λόγω του μεγέθους του συνόλου δεδομένων. Δεν ήταν δυνατό να εντοπιστούν σε παλαιότερες μελέτες που χρησιμοποίησαν φύλλα χαρτιού από μικρό αριθμό οδηγών ταξί σε σύντομο χρονικό διάστημα (Camerer et al. 1997) .

Η μελέτη του Farber ήταν κοντά σε ένα βέλτιστο σενάριο για μια έρευνα που χρησιμοποιεί μια μεγάλη πηγή δεδομένων επειδή τα δεδομένα που συλλέχθηκαν από την πόλη ήταν αρκετά κοντά στα δεδομένα που θα συγκέντρωνε ο Farber (μια διαφορά είναι ότι ο Farber θα ήθελε δεδομένα για το σύνολο μισθούς-τιμές και συμβουλές-αλλά τα δεδομένα της πόλης περιελάμβαναν μόνο συμβουλές που πληρώνονται με πιστωτική κάρτα). Ωστόσο, τα δεδομένα μόνο δεν ήταν αρκετά. Το κλειδί για την έρευνα του Farber έφερε μια ενδιαφέρουσα ερώτηση στα δεδομένα, ένα ζήτημα που έχει μεγαλύτερες επιπτώσεις πέρα ​​από αυτό ακριβώς το συγκεκριμένο περιβάλλον.

Ένα δεύτερο παράδειγμα μέτρησης των πραγμάτων προέρχεται από την έρευνα της Gary King, Jennifer Pan και Molly Roberts (2013) σχετικά με την online λογοκρισία από την κινεζική κυβέρνηση. Σε αυτή την περίπτωση, ωστόσο, οι ερευνητές έπρεπε να συγκεντρώσουν τα δικά τους μεγάλα δεδομένα και έπρεπε να ασχοληθούν με το γεγονός ότι τα δεδομένα τους ήταν ελλιπή.

Ο βασιλιάς και οι συνάδελφοί του υποκινήθηκαν από το γεγονός ότι οι θέσεις των κοινωνικών μέσων ενημέρωσης στην Κίνα λογοκρίνονται από μια τεράστια κρατική συσκευή που θεωρείται ότι περιλαμβάνει δεκάδες χιλιάδες ανθρώπους. Ωστόσο, οι ερευνητές και οι πολίτες έχουν ελάχιστη αίσθηση για το πώς αυτοί οι λογοκριτές αποφασίζουν ποιο περιεχόμενο πρέπει να διαγραφεί. Οι μελετητές της Κίνας έχουν αντιφατικές προσδοκίες σχετικά με το ποιες θέσεις είναι πιθανότερο να διαγραφούν. Ορισμένοι πιστεύουν ότι οι λογοκριτές επικεντρώνονται σε θέσεις που είναι κρίσιμες για το κράτος, ενώ άλλοι πιστεύουν ότι επικεντρώνονται σε θέσεις που ενθαρρύνουν συλλογική συμπεριφορά, όπως διαμαρτυρίες. Η εκτίμηση ποιες από αυτές τις προσδοκίες είναι σωστές έχει επιπτώσεις για το πώς οι ερευνητές κατανοούν την Κίνα και άλλες αυταρχικές κυβερνήσεις που εμπλέκονται σε λογοκρισία. Επομένως, ο King και οι συνεργάτες του θέλησαν να συγκρίνουν τις δημοσιεύσεις που δημοσιεύθηκαν και στη συνέχεια διαγράφηκαν με δημοσιεύσεις που δημοσιεύθηκαν και δεν διαγράφηκαν ποτέ.

Η συλλογή αυτών των θέσεων αφορούσε την καταπληκτική μηχανικής κατόρθωμα της σέρνεται πάνω από 1.000 Κινέζοι ιστοσελίδες-το καθένα τα μέσα κοινωνικής δικτύωσης με διαφορετικές διατάξεις σελίδας εύρεσης σχετικών θέσεων, και στη συνέχεια την αναθεώρηση αυτών των θέσεων για να δείτε ποια διαγράφηκαν στη συνέχεια. Εκτός από τα συνήθη προβλήματα μηχανικής που συνδέονται με μεγάλης κλίμακας web-crawling, το έργο αυτό είχε την προστιθέμενη πρόκληση που θα έπρεπε να είναι εξαιρετικά γρήγορα γιατί πολλοί λογοκρίνονται θέσεις που λαμβάνονται σε λιγότερο από 24 ώρες. Με άλλα λόγια, μια αργή ερπυστριοφόρο θα χάσετε τα μέρη των θέσεων που είχαν λογοκριθεί. Περαιτέρω, οι αντιολισθητικές αλυσίδες έπρεπε να κάνει όλη αυτή τη συλλογή δεδομένων, ενώ αποφύγει την ανίχνευση μήπως οι ιστοσελίδες κοινωνικών μέσων μαζικής ενημέρωσης εμποδίσει την πρόσβαση ή αλλιώς να αλλάξουν τις πολιτικές τους για την αντιμετώπιση της μελέτης.

Μέχρι τη στιγμή που ολοκληρώθηκε αυτό το τεράστιο έργο μηχανικού, ο King και οι συνάδελφοί του είχαν συγκεντρώσει περίπου 11 εκατομμύρια θέσεις σε 85 διαφορετικά προκαθορισμένα θέματα, καθένα από τα οποία είχε υποτιθέμενο επίπεδο ευαισθησίας. Για παράδειγμα, ένα θέμα υψηλής ευαισθησίας είναι ο Ai Weiwei, ο διαφωνούντος καλλιτέχνης. ένα θέμα μεσαίας ευαισθησίας είναι η εκτίμηση και η υποτίμηση του κινεζικού νομίσματος και το θέμα της χαμηλής ευαισθησίας είναι το Παγκόσμιο Κύπελλο. Από αυτές τις 11 εκατομμύρια θέσεις, περίπου 2 εκατομμύρια είχαν λογοκριθεί. Κάπως απροσδόκητα, ο King και οι συνάδελφοί του διαπίστωσαν ότι οι θέσεις σε ιδιαίτερα ευαίσθητα θέματα λογοκρίνονταν μόνο ελαφρώς συχνότερα από τις δημοσιεύσεις σε θέματα μεσαίας και χαμηλής ευαισθησίας. Με άλλα λόγια, οι κινέζικες λογοκρισίες είναι πιθανό να λογοκρίνουν μια θέση που αναφέρει τον Ai Weiwei ως θέση που αναφέρει το Παγκόσμιο Κύπελλο. Αυτά τα ευρήματα δεν υποστηρίζουν την ιδέα ότι η κυβέρνηση λογοκρίνει όλες τις θέσεις σε ευαίσθητα θέματα.

Αυτός ο απλός υπολογισμός του ποσοστού λογοκρισίας ανά θέμα μπορεί να είναι παραπλανητικός. Για παράδειγμα, η κυβέρνηση μπορεί να λογοκρίνει τις θέσεις που υποστηρίζουν τον Ai Weiwei, αλλά αφήνει θέσεις που είναι κρίσιμες γι 'αυτόν. Προκειμένου να γίνει πιο ξεκάθαρη η διάκριση μεταξύ των θέσεων, οι ερευνητές χρειάστηκαν να μετρήσουν το συναίσθημα κάθε θέσης. Δυστυχώς, παρά την πολλή δουλειά, οι πλήρως αυτοματοποιημένες μέθοδοι ανίχνευσης συναισθημάτων χρησιμοποιώντας προϋφιστάμενα λεξικά εξακολουθούν να μην είναι πολύ καλά σε πολλές περιπτώσεις (σκεφτείτε τα προβλήματα που δημιουργούν ένα συναισθηματικό χρονοδιάγραμμα της 11ης Σεπτεμβρίου 2001 που περιγράφεται στο τμήμα 2.3.9). Ως εκ τούτου, ο King και οι συνάδελφοί του χρειάστηκαν έναν τρόπο να επισημάνουν τις θέσεις των κοινωνικών μέσων 11 εκατομμυρίων για το αν ήταν (1) επικριτικοί έναντι του κράτους, (2) υποστηρίζοντας το κράτος ή (3) άσχετες ή πραγματικές αναφορές για τα γεγονότα. Αυτό μοιάζει με μια τεράστια δουλειά, αλλά το επιλύουν χρησιμοποιώντας ένα ισχυρό τέχνασμα που είναι συνηθισμένο στην επιστήμη των δεδομένων, αλλά σχετικά σπάνιο στην κοινωνική επιστήμη: εποπτευόμενη μάθηση . βλ. σχήμα 2.5.

Πρώτον, σε ένα βήμα που συνήθως ονομάζεται προεπεξεργασία , οι ερευνητές μετέτρεψαν τις δημοσιεύσεις των κοινωνικών μέσων σε μια μήτρα εγγράφων , όπου υπήρχε μια σειρά για κάθε έγγραφο και μία στήλη που κατέγραψε αν η δημοσίευση περιείχε μια συγκεκριμένη λέξη (π.χ. διαμαρτυρία ή κυκλοφορία) . Στη συνέχεια, μια ομάδα ερευνητικών βοηθών χειρογράφησε το συναίσθημα ενός δείγματος θέσεων. Στη συνέχεια, χρησιμοποίησαν αυτά τα δεδομένα με το χέρι για να δημιουργήσουν ένα μοντέλο μηχανικής μάθησης που θα μπορούσε να συναγάγει το συναίσθημα μιας θέσης με βάση τα χαρακτηριστικά της. Τέλος, χρησιμοποίησαν αυτό το μοντέλο για να εκτιμήσουν το συναίσθημα και των 11 εκατομμυρίων θέσεων.

Έτσι, αντί να διαβάζουν και να επισημαίνουν με μη αυτόματο τρόπο 11 εκατομμύρια θέσεις - οι οποίες θα ήταν αδύνατον από την άποψη του λογισμικού - ο βασιλιάς και οι συνάδελφοί του ονόμασαν χειροκίνητα έναν μικρό αριθμό θέσεων και έπειτα χρησιμοποιούσαν εποπτευόμενη μάθηση για να εκτιμήσουν το συναίσθημα όλων των θέσεων. Μετά την ολοκλήρωση αυτής της ανάλυσης, κατέληξαν στο συμπέρασμα ότι, κάπως απροσδόκητα, η πιθανότητα διαγραφής μιας θέσης δεν είχε καμία σχέση με το αν ήταν κριτική στην κατάσταση ή την υποστήριξη του κράτους.

Σχήμα 2.5: Απλοποιημένο σχήμα της διαδικασίας που χρησιμοποίησαν οι King, Pan και Roberts (2013) για να εκτιμήσει το συναίσθημα 11 εκατομμυρίων θέσεων κοινωνικών κινεζικών μέσων ενημέρωσης. Πρώτον, σε ένα στάδιο προεπεξεργασίας, οι ερευνητές μετέτρεψαν τις θέσεις των κοινωνικών μέσων σε μια μήτρα εγγράφων (βλέπε Grimmer και Stewart (2013) για περισσότερες πληροφορίες). Δεύτερον, κωδικοποίησαν τα συναισθήματα ενός μικρού δείγματος θέσεων. Τρίτον, εκπαιδεύτηκαν ένα εποπτευόμενο μοντέλο μάθησης για να ταξινομήσουν το συναίσθημα των θέσεων. Τέταρτον, χρησιμοποίησαν το εποπτευόμενο μοντέλο μάθησης για να εκτιμήσουν το συναίσθημα όλων των θέσεων. Δείτε King, Pan, και Roberts (2013), προσάρτημα Β για μια πιο λεπτομερή περιγραφή.

Σχήμα 2.5: Απλοποιημένο σχήμα της διαδικασίας που χρησιμοποίησαν οι King, Pan, and Roberts (2013) για να εκτιμήσει το συναίσθημα 11 εκατομμυρίων θέσεων κοινωνικών κινεζικών μέσων ενημέρωσης. Πρώτον, σε ένα στάδιο προεπεξεργασίας , οι ερευνητές μετέτρεψαν τις θέσεις των κοινωνικών μέσων σε μια μήτρα εγγράφων (βλέπε Grimmer and Stewart (2013) για περισσότερες πληροφορίες). Δεύτερον, κωδικοποίησαν τα συναισθήματα ενός μικρού δείγματος θέσεων. Τρίτον, εκπαιδεύτηκαν ένα εποπτευόμενο μοντέλο μάθησης για να ταξινομήσουν το συναίσθημα των θέσεων. Τέταρτον, χρησιμοποίησαν το εποπτευόμενο μοντέλο μάθησης για να εκτιμήσουν το συναίσθημα όλων των θέσεων. Δείτε King, Pan, and Roberts (2013) , προσάρτημα Β για μια πιο λεπτομερή περιγραφή.

Τελικά, οι βασιλιάδες και οι συνάδελφοί του ανακάλυψαν ότι μόνο τρεις κατηγορίες θέσεων λογοκρίνονταν τακτικά: η πορνογραφία, η κριτική των λογοκριτών και εκείνων που είχαν δυνατότητες συλλογικής δράσης (δηλαδή τη δυνατότητα να οδηγήσουν σε μεγάλης κλίμακας διαμαρτυρίες). Παρατηρώντας έναν τεράστιο αριθμό θέσεων που διαγράφηκαν και μηνυμάτων που δεν είχαν διαγραφεί, ο Βασιλιάς και οι συνεργάτες του ήταν σε θέση να μάθουν πώς λειτουργούν οι λογοκρισίες μόνο με την παρακολούθηση και την καταμέτρηση. Περαιτέρω, προτείνοντας ένα θέμα που θα εμφανιστεί σε αυτό το βιβλίο, η προσέγγιση εποπτευόμενης μάθησης που χρησιμοποίησαν - η χειρογράφηση ορισμένων αποτελεσμάτων και στη συνέχεια η οικοδόμηση ενός μοντέλου μηχανικής μάθησης για την επισήμανση του υπολοίπου - αποδεικνύεται πολύ συνηθισμένη στην κοινωνική έρευνα στην ψηφιακή εποχή . Θα δείτε εικόνες πολύ παρόμοιες με το σχήμα 2.5 στα κεφάλαια 3 (Ζητώντας ερωτήσεις) και 5 (Δημιουργία μαζικής συνεργασίας). αυτή είναι μια από τις λίγες ιδέες που εμφανίζονται σε πολλά κεφάλαια.

Αυτά τα παραδείγματα - η συμπεριφορά εργασίας των οδηγών ταξί στη Νέα Υόρκη και η συμπεριφορά λογοκρισίας των κινεζικών κυβερνήσεων στα κοινωνικά μέσα - δείχνουν ότι η σχετικά απλή καταμέτρηση μεγάλων πηγών δεδομένων μπορεί, σε ορισμένες περιπτώσεις, να οδηγήσει σε ενδιαφέρουσα και σημαντική έρευνα. Και στις δύο περιπτώσεις, ωστόσο, οι ερευνητές έπρεπε να φέρουν ενδιαφέρουσες ερωτήσεις στη μεγάλη πηγή δεδομένων. τα δεδομένα από μόνα τους δεν ήταν αρκετά.