2.2 Big Data

Τα μεγάλα δεδομένα δημιουργούνται και συλλέγονται από εταιρείες και κυβερνήσεις για σκοπούς άλλους από την έρευνα. Η χρήση αυτών των δεδομένων για έρευνα, συνεπώς, απαιτεί επανατοποθέτηση.

Ο πρώτος τρόπος με τον οποίο πολλοί άνθρωποι συναντούν κοινωνική έρευνα στην ψηφιακή εποχή είναι μέσω αυτού που ονομάζεται συχνά μεγάλα δεδομένα . Παρά τη διαδεδομένη χρήση αυτού του όρου, δεν υπάρχει συναίνεση σχετικά με τα μεγάλα δεδομένα. Ωστόσο, ένας από τους πιο συνηθισμένους ορισμούς των μεγάλων δεδομένων επικεντρώνεται στο "3 Vs": Όγκος, Ποικιλία και Ταχύτητα. Σχεδόν υπάρχουν πολλά δεδομένα σε διάφορες μορφές και δημιουργούνται συνεχώς. Μερικοί οπαδοί των μεγάλων δεδομένων προσθέτουν επίσης και άλλα "Vs" όπως Veracity και Value, ενώ μερικοί κριτικοί προσθέτουν Vs όπως Vague και Vacuous. Αντί για τα 3 "Vs" (ή τα 5 "Vs" ή τα 7 "Vs"), για τους σκοπούς της κοινωνικής έρευνας, νομίζω ότι ένα καλύτερο μέρος για να ξεκινήσετε είναι το 5 "Ws": Ποιος, τι, , και γιατί. Στην πραγματικότητα, νομίζω ότι πολλές από τις προκλήσεις και τις ευκαιρίες που δημιουργούνται από μεγάλες πηγές δεδομένων ακολουθούν απλά ένα "W": Γιατί.

Στην αναλογική εποχή, τα περισσότερα από τα δεδομένα που χρησιμοποιήθηκαν για την κοινωνική έρευνα δημιουργήθηκαν με σκοπό την έρευνα. Στην ψηφιακή εποχή, όμως, δημιουργούνται τεράστια ποσά δεδομένων από εταιρείες και κυβερνήσεις για σκοπούς άλλους από την έρευνα, όπως η παροχή υπηρεσιών, η δημιουργία κερδών και η διαχείριση νόμων. Ωστόσο, οι δημιουργικοί άνθρωποι συνειδητοποίησαν ότι μπορείτε να επανατοποθετήσετε αυτά τα εταιρικά και κυβερνητικά δεδομένα για έρευνα. Αναφορικά με την αναλογία τέχνης στο κεφάλαιο 1, ακριβώς όπως ο Duchamp αντικατέστησε ένα αντικείμενο που βρέθηκε για να δημιουργήσει την τέχνη, οι επιστήμονες μπορούν τώρα να επανατοποθετήσουν τα δεδομένα που βρέθηκαν για να δημιουργήσουν έρευνα.

Παρόλο που υπάρχουν αναμφισβήτητα τεράστιες ευκαιρίες για επαναπροώθηση, η χρήση δεδομένων που δεν δημιουργήθηκαν για σκοπούς έρευνας παρουσιάζει επίσης νέες προκλήσεις. Συγκρίνετε, για παράδειγμα, μια υπηρεσία κοινωνικών μέσων ενημέρωσης, όπως το Twitter, με μια παραδοσιακή δημοσκόπηση, όπως η Γενική Κοινωνική Έρευνα. Οι κύριοι στόχοι του Twitter είναι να παρέχουν υπηρεσίες στους χρήστες του και να αποκομίζουν κέρδος. Η γενική κοινωνική έρευνα, από την άλλη πλευρά, επικεντρώνεται στη δημιουργία δεδομένων γενικού σκοπού για την κοινωνική έρευνα, ιδιαίτερα για την έρευνα κοινής γνώμης. Αυτή η διαφορά στους στόχους σημαίνει ότι τα δεδομένα που δημιουργούνται από το Twitter και αυτά που δημιουργούνται από τη Γενική Κοινωνική Έρευνα έχουν διαφορετικές ιδιότητες, παρόλο που και οι δύο μπορούν να χρησιμοποιηθούν για τη μελέτη της κοινής γνώμης. Το Twitter λειτουργεί σε κλίμακα και ταχύτητα που η Γενική Κοινωνική Έρευνα δεν μπορεί να ταιριάξει, αλλά, σε αντίθεση με τη Γενική Κοινωνική Έρευνα, το Twitter δεν προσελκύει προσεκτικά τους χρήστες και δεν εργάζεται σκληρά για να διατηρήσει τη συγκρισιμότητα με την πάροδο του χρόνου. Επειδή αυτές οι δύο πηγές δεδομένων είναι τόσο διαφορετικές, δεν έχει νόημα να λέμε ότι η Γενική Κοινωνική Έρευνα είναι καλύτερη από το Twitter ή το αντίστροφο. Εάν θέλετε ωριαία μέτρα παγκόσμιας διάθεσης (π.χ., Golder and Macy (2011) ), το Twitter είναι το καλύτερο. Από την άλλη πλευρά, αν θέλετε να κατανοήσετε τις μακροπρόθεσμες αλλαγές στην πόλωση των στάσεων στις Ηνωμένες Πολιτείες (π.χ. DiMaggio, Evans, and Bryson (1996) ), τότε η γενική κοινωνική έρευνα είναι η καλύτερη επιλογή. Γενικότερα, αντί να επιχειρήσουμε να υποστηρίξουμε ότι οι μεγάλες πηγές δεδομένων είναι καλύτερες ή χειρότερες από άλλες μορφές δεδομένων, αυτό το κεφάλαιο θα προσπαθήσει να αποσαφηνίσει για ποιους τύπους ερευνητικών ερωτημάτων οι μεγάλες πηγές δεδομένων έχουν ελκυστικά περιουσιακά στοιχεία και για ποια είδη ερωτήσεων μπορεί να μην είναι ιδανικό.

Όταν σκεφτόμαστε τις μεγάλες πηγές δεδομένων, πολλοί ερευνητές επικεντρώνονται άμεσα σε ηλεκτρονικά δεδομένα που δημιουργούνται και συλλέγονται από εταιρείες, όπως ημερολόγιο μηχανών αναζήτησης και θέσεις κοινωνικών μέσων. Ωστόσο, αυτή η στενή εστίαση αφήνει έξω άλλες δύο σημαντικές πηγές μεγάλων δεδομένων. Πρώτον, ολοένα και μεγαλύτερες εταιρικές πηγές δεδομένων προέρχονται από ψηφιακές συσκευές στον φυσικό κόσμο. Για παράδειγμα, σε αυτό το κεφάλαιο, θα σας πω μια μελέτη που ανέλυσε τα δεδομένα check out των σούπερ μάρκετ για να μελετήσει πώς επηρεάζεται η παραγωγικότητα των εργαζομένων από την παραγωγικότητα των συνομηλίκων της (Mas and Moretti 2009) . Στη συνέχεια, σε επόμενα κεφάλαια, θα σας πω για τους ερευνητές που χρησιμοποίησαν αρχεία κλήσεων από κινητά τηλέφωνα (Blumenstock, Cadamuro, and On 2015) και τα δεδομένα χρέωσης που δημιουργήθηκαν από τις επιχειρήσεις ηλεκτρικής ενέργειας (Allcott 2015) . Όπως αυτά τα παραδείγματα επεξηγούν, οι εταιρικές μεγάλες πηγές δεδομένων είναι κάτι περισσότερο από απλή ηλεκτρονική συμπεριφορά.

Η δεύτερη σημαντική πηγή μεγάλων δεδομένων που χάθηκε από μια στενή εστίαση στην ηλεκτρονική συμπεριφορά είναι τα δεδομένα που δημιουργήθηκαν από τις κυβερνήσεις. Αυτά τα κυβερνητικά δεδομένα, τα οποία οι ερευνητές ονομάζουν κρατικά διοικητικά αρχεία , περιλαμβάνουν πράγματα όπως τα φορολογικά αρχεία, τα σχολικά αρχεία και τα ζωτικά στατιστικά στοιχεία (π.χ. μητρώα γεννήσεων και θανάτων). Οι κυβερνήσεις δημιούργησαν αυτά τα δεδομένα για εκατοντάδες χρόνια, και οι κοινωνικοί επιστήμονες τους εκμεταλλεύονται για όσο καιρό έχουν υπάρξει κοινωνικοί επιστήμονες. Αυτό που έχει αλλάξει, ωστόσο, είναι η ψηφιοποίηση, η οποία έχει καταστήσει δραματικά ευκολότερη για τις κυβερνήσεις τη συλλογή, τη μετάδοση, την αποθήκευση και την ανάλυση δεδομένων. Για παράδειγμα, σε αυτό το κεφάλαιο, θα σας πω μια μελέτη που επαναφέρει τα δεδομένα από τα ψηφιακά ταξίμετρα της κυβέρνησης της Νέας Υόρκης προκειμένου να αντιμετωπίσει μια θεμελιώδη συζήτηση στην οικονομία της εργασίας (Farber 2015) . Στη συνέχεια, σε μεταγενέστερα κεφάλαια, θα σας πω πώς χρησιμοποιούνται τα αρχεία ψηφοφορίας που συγκεντρώθηκαν από την κυβέρνηση σε μια έρευνα (Ansolabehere and Hersh 2012) και ένα πείραμα (Bond et al. 2012) .

Πιστεύω ότι η ιδέα της επανατοποθέτησης είναι θεμελιώδους σημασίας για τη μάθηση από μεγάλες πηγές δεδομένων και, πριν μιλήσω πιο συγκεκριμένα για τις ιδιότητες των μεγάλων πηγών δεδομένων (τμήμα 2.3) και πώς μπορούν να χρησιμοποιηθούν στην έρευνα (ενότητα 2.4), θα ήθελα να προσφέρετε δύο γενικές συμβουλές για την αναμόρφωση. Πρώτον, μπορεί να είναι δελεαστικό να σκεφτεί κανείς την αντίθεση που έχω δημιουργήσει ως να είναι ανάμεσα σε "ευρήματα" και "σχεδιασμένα" δεδομένα. Αυτό είναι κοντά, αλλά δεν είναι σωστό. Παρόλο που, από τη σκοπιά των ερευνητών, οι "μεγάλες" πηγές δεδομένων "βρίσκονται", δεν πέφτουν μόνο από τον ουρανό. Αντ 'αυτού, οι πηγές δεδομένων που "βρίσκουν" οι ερευνητές σχεδιάζονται από κάποιον για κάποιο σκοπό. Επειδή τα δεδομένα "βρέθηκαν" σχεδιάστηκαν από κάποιον, συνιστώ πάντα να προσπαθείτε να κατανοήσετε όσο το δυνατόν περισσότερο τα άτομα και τις διαδικασίες που δημιούργησαν τα δεδομένα σας. Δεύτερον, όταν αναπαραγάγετε δεδομένα, είναι συχνά εξαιρετικά χρήσιμο να φανταστείτε το ιδανικό σύνολο δεδομένων για το πρόβλημά σας και στη συνέχεια να συγκρίνετε αυτό το ιδανικό σύνολο δεδομένων με αυτό που χρησιμοποιείτε. Αν δεν έχετε συλλέξει τα προσωπικά σας δεδομένα, πιθανόν να υπάρχουν σημαντικές διαφορές μεταξύ του τι θέλετε και του τι έχετε. Παρατηρώντας αυτές τις διαφορές, θα διευκρινίσετε τι μπορείτε και δεν μπορείτε να μάθετε από τα δεδομένα που έχετε και μπορεί να προτείνει νέα δεδομένα που πρέπει να συλλέξετε.

Σύμφωνα με την εμπειρία μου, οι κοινωνικοί επιστήμονες και οι επιστήμονες των δεδομένων τείνουν να προσεγγίζουν την επαναφορά πολύ διαφορετικά. Οι κοινωνικοί επιστήμονες, οι οποίοι είναι συνηθισμένοι να εργάζονται με δεδομένα που έχουν σχεδιαστεί για έρευνα, τυπικά είναι γρήγοροι να επισημάνουν τα προβλήματα με επαναπροσδιορισμένα δεδομένα, ενώ αγνοούν τα δυνατά τους. Από την άλλη πλευρά, οι επιστήμονες δεδομένων είναι συνήθως γρήγορο να επισημάνει τα οφέλη των επαναλαμβανόμενων δεδομένων, αγνοώντας τις αδυναμίες τους. Φυσικά, η καλύτερη προσέγγιση είναι ένα υβρίδιο. Δηλαδή, οι ερευνητές πρέπει να κατανοήσουν τα χαρακτηριστικά των μεγάλων πηγών δεδομένων - τόσο καλών όσο και κακών - και στη συνέχεια να καταλάβουν πώς να μάθουν από αυτά. Και αυτό είναι το σχέδιο για το υπόλοιπο του κεφαλαίου αυτού. Στην επόμενη ενότητα, θα περιγράψω δέκα κοινά χαρακτηριστικά των μεγάλων πηγών δεδομένων. Στη συνέχεια, στην επόμενη ενότητα, θα περιγράψω τρεις ερευνητικές προσεγγίσεις που μπορούν να λειτουργήσουν καλά με τέτοια δεδομένα.