2.3.1 Μεγάλο

Μεγάλα σύνολα δεδομένων είναι ένα μέσο για ένα τέλος? δεν είναι αυτοσκοπός.

Το πιο ευρέως διαδεδομένο χαρακτηριστικό των μεγάλων πηγών δεδομένων είναι ότι είναι μεγάλοι. Πολλές εργασίες, για παράδειγμα, ξεκινούν με τη συζήτηση - και μερικές φορές με καυχηρία - για το πόσα δεδομένα αναλύθηκαν. Για παράδειγμα, ένα βιβλίο που δημοσιεύτηκε στην επιστήμη που μελετά τις τάσεις χρήσης λέξεων στο σώμα των βιβλίων Google περιλαμβάνει τα ακόλουθα (Michel et al. 2011) :

"Το σώμα μας περιέχει πάνω από 500 δισεκατομμύρια λέξεις, στα αγγλικά (361 δισεκατομμύρια), γαλλικά (45 δισεκατομμύρια), ισπανικά (45 δισεκατομμύρια), γερμανικά (37 δισεκατομμύρια), κινεζικά (13 δισεκατομμύρια), ρώσικα (35 δισεκατομμύρια) (2 δισ. Ευρώ). Τα παλαιότερα έργα δημοσιεύθηκαν στη δεκαετία του 1500. Οι πρώτες δεκαετίες αντιπροσωπεύονται μόνο από λίγα βιβλία ανά έτος, που περιλαμβάνουν αρκετές εκατοντάδες χιλιάδες λέξεις. Μέχρι το 1800, το σώμα αυξάνεται σε 98 εκατομμύρια λέξεις ανά έτος. έως το 1900, 1,8 δισ. ευρώ. και μέχρι το 2000, 11 δισ. ευρώ. Το σώμα δεν μπορεί να διαβαστεί από έναν άνθρωπο. Εάν προσπαθήσατε να διαβάσετε μόνο καταχωρήσεις αγγλικής γλώσσας από το 2000 μόνο, με λογικό ρυθμό 200 λέξεων / λεπτό, χωρίς διακοπές για φαγητό ή ύπνο, θα χρειάζονταν 80 χρόνια. Η αλληλουχία των γραμμάτων είναι 1000 φορές μεγαλύτερη από το ανθρώπινο γονιδίωμα: Εάν το γράψατε σε ευθεία γραμμή, θα φτάσει στη Σελήνη και θα επιστρέψει 10 φορές.

Η κλίμακα αυτών των δεδομένων είναι αναμφισβήτητα εντυπωσιακή και είμαστε όλοι τυχεροί που η ομάδα των Βιβλίων Google κυκλοφόρησε τα δεδομένα αυτά στο κοινό (στην πραγματικότητα ορισμένες από τις δραστηριότητες στο τέλος αυτού του κεφαλαίου κάνουν χρήση αυτών των δεδομένων). Αλλά, κάθε φορά που βλέπετε κάτι τέτοιο, πρέπει να ρωτήσετε: είναι ότι όλα αυτά τα δεδομένα κάνουν πραγματικά κάτι; Θα μπορούσαν να έχουν κάνει την ίδια έρευνα εάν τα δεδομένα θα μπορούσαν να φθάσουν στη Σελήνη και να επιστρέψουν μόνο μία φορά; Τι γίνεται αν τα δεδομένα θα μπορούσαν να φτάσουν στην κορυφή του Mount Everest ή στην κορυφή του Πύργου του Άιφελ;

Σε αυτή την περίπτωση, η έρευνά τους έχει, στην πραγματικότητα, κάποια ευρήματα που απαιτούν ένα τεράστιο σώμα λέξεων για μεγάλο χρονικό διάστημα. Για παράδειγμα, ένα πράγμα που ερευνούνται είναι η εξέλιξη της γραμματικής, ιδιαίτερα οι αλλαγές στην ταχύτητα της ακανόνιστης σύζευξης ρήματος. Δεδομένου ότι ορισμένα ακανόνιστα ρήματα είναι αρκετά σπάνια, χρειάζεται μεγάλη ποσότητα δεδομένων για την ανίχνευση αλλαγών με την πάροδο του χρόνου. Πολύ συχνά, ωστόσο, οι ερευνητές φαίνεται να αντιμετωπίζουν το μέγεθος της μεγάλης πηγής δεδομένων ως τελικό "βλέμμα πόσα δεδομένα μπορώ να κρίνω" - παρά μόνο ένα μέσο για έναν πιο σημαντικό επιστημονικό στόχο.

Από την εμπειρία μου, η μελέτη σπάνιων συμβάντων είναι ένας από τους τρεις ειδικούς επιστημονικούς στόχους που τείνουν να επιτρέψουν μεγάλα σύνολα δεδομένων. Η δεύτερη είναι η μελέτη της ετερογένειας, όπως μπορεί να φανεί από μια μελέτη του Raj Chetty και συναδέλφων (2014) σχετικά με την κοινωνική κινητικότητα στις Ηνωμένες Πολιτείες. Στο παρελθόν, πολλοί ερευνητές μελέτησαν την κοινωνική κινητικότητα συγκρίνοντας τα αποτελέσματα ζωής των γονέων και των παιδιών. Ένα σταθερό εύρημα από αυτή τη βιβλιογραφία είναι ότι οι γονείς που προτιμούν έχουν την τάση να έχουν ευνοημένα παιδιά, αλλά η ισχύς αυτής της σχέσης ποικίλλει με την πάροδο του χρόνου και μεταξύ των χωρών (Hout and DiPrete 2006) . Πιο πρόσφατα, ωστόσο, ο Chetty και οι συνεργάτες του ήταν σε θέση να χρησιμοποιήσουν τα φορολογικά αρχεία από 40 εκατομμύρια ανθρώπους για να εκτιμήσουν την ανομοιογένεια της κινητικότητας μεταξύ των γενεών στις περιοχές των Ηνωμένων Πολιτειών (σχήμα 2.1). Βρήκαν, για παράδειγμα, ότι η πιθανότητα ένα παιδί να φτάσει στην κορυφή του πεμπτουσού της εθνικής διανομής εισοδήματος ξεκινώντας από μια οικογένεια στο κάτω πεμπτημόριο είναι περίπου 13% στο Σαν Χοσέ της Καλιφόρνιας, αλλά μόνο περίπου 4% στο Σαρλότ της Βόρειας Καρολίνας. Αν κοιτάξετε την εικόνα 2.1 για μια στιγμή, ίσως αρχίσετε να αναρωτιέστε γιατί η κινητικότητα μεταξύ γενεών είναι υψηλότερη σε ορισμένα μέρη από άλλες. Ο Chetty και οι συνάδελφοί του είχαν ακριβώς την ίδια ερώτηση και διαπίστωσαν ότι οι περιοχές υψηλής κινητικότητας έχουν μικρότερο οικιακό διαχωρισμό, λιγότερη εισοδηματική ανισότητα, καλύτερα δημοτικά σχολεία, μεγαλύτερο κοινωνικό κεφάλαιο και μεγαλύτερη οικογενειακή σταθερότητα. Φυσικά, μόνο αυτοί οι συσχετισμοί δεν δείχνουν ότι αυτοί οι παράγοντες προκαλούν μεγαλύτερη κινητικότητα, αλλά προτείνουν πιθανούς μηχανισμούς που μπορούν να εξερευνηθούν σε περαιτέρω εργασία, κάτι που ακριβώς συνέβησαν οι Chetty και οι συνεργάτες του στις επόμενες εργασίες. Παρατηρήστε πώς το μέγεθος των δεδομένων ήταν πραγματικά σημαντικό σε αυτό το έργο. Εάν ο Chetty και οι συνάδελφοί του είχαν χρησιμοποιήσει τα φορολογικά αρχεία 40 χιλιάδων ανθρώπων και όχι 40 εκατομμυρίων, δεν θα ήταν σε θέση να εκτιμήσουν την περιφερειακή ετερογένεια και ποτέ δεν θα μπορούσαν να κάνουν μεταγενέστερες έρευνες για να προσπαθήσουν να εντοπίσουν τους μηχανισμούς που δημιουργούν αυτήν την παραλλαγή.

Σχήμα 2.1: Εκτιμήσεις της πιθανότητας του παιδιού να φτάσει το 20% της διανομής του εισοδήματος με 20% (Chetty et al., 2014). Οι εκτιμήσεις σε περιφερειακό επίπεδο, οι οποίες δείχνουν ανομοιογένεια, οδηγούν φυσικά σε ενδιαφέροντα και σημαντικά ερωτήματα που δεν προκύπτουν από μια ενιαία εκτίμηση σε εθνικό επίπεδο. Αυτές οι εκτιμήσεις σε περιφερειακό επίπεδο έγιναν δυνατές εν μέρει επειδή οι ερευνητές χρησιμοποιούν μια μεγάλη μεγάλη πηγή δεδομένων: τα φορολογικά αρχεία των 40 εκατομμυρίων ανθρώπων. Δημιουργήθηκε από τα διαθέσιμα στοιχεία στη διεύθυνση http://www.equality-of-opportunity.org/.

Σχήμα 2.1: Εκτιμήσεις της πιθανότητας του παιδιού να φτάσει το 20% της διανομής του εισοδήματος με 20% (Chetty et al. 2014) . Οι εκτιμήσεις σε περιφερειακό επίπεδο, οι οποίες δείχνουν ανομοιογένεια, οδηγούν φυσικά σε ενδιαφέροντα και σημαντικά ερωτήματα που δεν προκύπτουν από μια ενιαία εκτίμηση σε εθνικό επίπεδο. Αυτές οι εκτιμήσεις σε περιφερειακό επίπεδο έγιναν δυνατές εν μέρει επειδή οι ερευνητές χρησιμοποιούν μια μεγάλη μεγάλη πηγή δεδομένων: τα φορολογικά αρχεία των 40 εκατομμυρίων ανθρώπων. Δημιουργήθηκε από τα διαθέσιμα στοιχεία στη διεύθυνση http://www.equality-of-opportunity.org/.

Τέλος, εκτός από τη μελέτη σπάνιων γεγονότων και τη μελέτη της ετερογένειας, μεγάλα σύνολα δεδομένων επιτρέπουν επίσης στους ερευνητές να ανιχνεύουν μικρές διαφορές. Στην πραγματικότητα, μεγάλο μέρος της επικέντρωσης στα μεγάλα δεδομένα στη βιομηχανία αφορά αυτές τις μικρές διαφορές: η αξιόπιστη ανίχνευση της διαφοράς μεταξύ 1% και 1,1% των ποσοστών κλικ-κλικ σε μια διαφήμιση μπορεί να μεταφραστεί σε εκατομμύρια δολάρια σε πρόσθετα έσοδα. Ωστόσο, σε ορισμένες επιστημονικές συνθήκες, τέτοιες μικρές διαφορές μπορεί να μην είναι ιδιαίτερα σημαντικές, ακόμη και αν είναι στατιστικά σημαντικές (Prentice and Miller 1992) . Ωστόσο, σε ορισμένες πολιτικές ρυθμίσεις, μπορούν να γίνουν σημαντικές όταν εξετάζονται συνολικά. Για παράδειγμα, εάν υπάρχουν δύο παρεμβάσεις δημόσιας υγείας και μία είναι ελαφρώς πιο αποτελεσματική από την άλλη, τότε η επιλογή της αποτελεσματικότερης παρέμβασης θα μπορούσε να καταλήξει εξοικονομώντας χιλιάδες επιπλέον ζωές.

Αν και η ευρωστία είναι γενικά μια καλή ιδιότητα όταν χρησιμοποιείται σωστά, παρατήρησα ότι μπορεί μερικές φορές να οδηγήσει σε εννοιολογικό σφάλμα. Για κάποιο λόγο, η καλοσύνη φαίνεται να οδηγεί τους ερευνητές να αγνοούν τον τρόπο με τον οποίο δημιουργήθηκαν τα δεδομένα τους. Ενώ η ευρωστία μειώνει την ανάγκη να ανησυχείτε για τυχαίο σφάλμα, αυξάνει την ανάγκη να ανησυχείτε για συστηματικά σφάλματα, τα είδη σφαλμάτων που θα περιγράψω παρακάτω που προκύπτουν από προκαταλήψεις σχετικά με τον τρόπο δημιουργίας των δεδομένων. Για παράδειγμα, σε ένα έργο που θα περιγράψω αργότερα σε αυτό το κεφάλαιο, οι ερευνητές χρησιμοποίησαν μηνύματα που δημιουργήθηκαν στις 11 Σεπτεμβρίου 2001 για να δημιουργήσουν ένα συναισθηματικό χρονοδιάγραμμα της αντίδρασης στην τρομοκρατική επίθεση (Back, Küfner, and Egloff 2010) . Επειδή οι ερευνητές είχαν μεγάλο αριθμό μηνυμάτων, δεν έπρεπε πραγματικά να ανησυχούν για το αν τα μοτίβα που παρατηρούσαν - αυξανόμενο θυμό κατά τη διάρκεια της ημέρας - μπορούσαν να εξηγηθούν με τυχαία διακύμανση. Υπήρχαν τόσα πολλά στοιχεία και το πρότυπο ήταν τόσο σαφές, ώστε όλες οι στατιστικές στατιστικές δοκιμές πρότειναν ότι αυτό ήταν ένα πραγματικό πρότυπο. Αλλά, αυτές οι στατιστικές δοκιμές ήταν άγνοια για το πώς δημιουργήθηκαν τα δεδομένα. Στην πραγματικότητα, αποδείχθηκε ότι πολλά από τα μοτίβα οφείλονταν σε ένα μόνο bot που δημιούργησε όλο και πιο νόημα μηνύματα καθ 'όλη τη διάρκεια της ημέρας. Η αφαίρεση αυτού του ενός bot κόπηκε εντελώς μερικά από τα βασικά ευρήματα του εγγράφου (Pury 2011; Back, Küfner, and Egloff 2011) . Πολύ απλά, οι ερευνητές που δεν σκέφτονται συστηματικά σφάλματα αντιμετωπίζουν τον κίνδυνο να χρησιμοποιήσουν τα μεγάλα σύνολα δεδομένων τους για να πάρουν μια ακριβή εκτίμηση μιας ασήμαντης ποσότητας, όπως το συναισθηματικό περιεχόμενο των άχρηστων μηνυμάτων που παράγονται από ένα αυτοματοποιημένο bot.

Εν κατακλείδι, τα μεγάλα σύνολα δεδομένων δεν αποτελούν αυτοσκοπό, αλλά μπορούν να επιτρέψουν ορισμένα είδη έρευνας, συμπεριλαμβανομένης της μελέτης των σπάνιων συμβάντων, της εκτίμησης της ετερογένειας και της ανίχνευσης μικρών διαφορών. Μεγάλα σύνολα δεδομένων φαίνεται επίσης να οδηγούν ορισμένους ερευνητές να αγνοούν τον τρόπο με τον οποίο δημιουργήθηκαν τα δεδομένα τους, γεγονός που μπορεί να τους οδηγήσει σε ακριβή εκτίμηση μιας μη σημαντικής ποσότητας.