2.3.7 Παρασύρεται

Η μετατόπιση του πληθυσμού, η μετατόπιση χρήσης και η μετατόπιση του συστήματος καθιστούν δύσκολη τη χρήση μεγάλων πηγών δεδομένων για τη μελέτη των μακροπρόθεσμων τάσεων.

Ένα από τα μεγάλα πλεονεκτήματα πολλών μεγάλων πηγών δεδομένων είναι ότι συλλέγουν δεδομένα με την πάροδο του χρόνου. Οι κοινωνικοί επιστήμονες ονομάζουν αυτό το είδος δεδομένων διαχρονικών δεδομένων υπερβολικού χρόνου. Και, φυσικά, τα διαχρονικά δεδομένα είναι πολύ σημαντικά για τη μελέτη της αλλαγής. Για να μετρηθεί όμως αξιόπιστα η αλλαγή, το ίδιο το σύστημα μέτρησης πρέπει να είναι σταθερό. Σύμφωνα με τους κοινωνιολόγους Otis Dudley Duncan, "αν θέλετε να μετρήσετε την αλλαγή, μην αλλάξετε το μέτρο" (Fischer 2011) .

Δυστυχώς, πολλά μεγάλα συστήματα δεδομένων - ειδικά επιχειρηματικά συστήματα - αλλάζουν συνεχώς, μια διαδικασία που θα ονομάσω παρασυρόμενα . Συγκεκριμένα, τα συστήματα αυτά αλλάζουν με τρεις βασικούς τρόπους: την μετατόπιση του πληθυσμού (αλλαγή του ποιος τους χρησιμοποιεί), την παρακίνηση συμπεριφοράς (αλλαγή του τρόπου με τον οποίο τα χρησιμοποιούν) και τη μετατόπιση του συστήματος (αλλαγή στο ίδιο το σύστημα). Οι τρεις πηγές παραμόρφωσης σημαίνουν ότι οποιοδήποτε πρότυπο σε μια μεγάλη πηγή δεδομένων θα μπορούσε να προκληθεί από μια σημαντική αλλαγή στον κόσμο ή θα μπορούσε να προκληθεί από κάποια μορφή παρασυρόμενων.

Η πρώτη πηγή παρασυρόμενων παρασυρόμενων πληθυσμών-προκαλείται από αλλαγές στο ποιος χρησιμοποιεί το σύστημα και οι αλλαγές αυτές μπορούν να συμβούν τόσο σε σύντομο όσο και σε μακροχρόνιο χρονικό διάστημα. Για παράδειγμα, κατά τις προεδρικές εκλογές στις ΗΠΑ το ποσοστό των tweets σχετικά με την πολιτική που γράφτηκαν από τις γυναίκες κυμάνθηκε καθημερινά (Diaz et al. 2016) . Επομένως, αυτό που μπορεί να φαίνεται να είναι μια αλλαγή στη διάθεση του Twitter στίβου μπορεί στην πραγματικότητα να είναι απλώς μια αλλαγή σε ποιον μιλάει ανά πάσα στιγμή. Εκτός από αυτές τις βραχυπρόθεσμες διακυμάνσεις, υπήρξε επίσης μια μακροπρόθεσμη τάση ορισμένων δημογραφικών ομάδων να υιοθετούν και να εγκαταλείπουν το Twitter.

Εκτός από τις αλλαγές σε ποιος χρησιμοποιεί ένα σύστημα, υπάρχουν επίσης αλλαγές στον τρόπο με τον οποίο χρησιμοποιείται το σύστημα, το οποίο καλώ τη συμπεριφορά. Για παράδειγμα, κατά τη διάρκεια των διαδηλώσεων του 2003 Occupy Gezi στην Τουρκία, οι διαδηλωτές άλλαξαν τη χρήση των hashtags καθώς εξελίχθηκε η διαμαρτυρία. Ακολουθεί ο τρόπος με τον οποίο ο Zeynep Tufekci (2014) περιέγραψε τη συμπεριφορά, την οποία κατάφερε να ανιχνεύσει επειδή παρατηρούσε συμπεριφορά στο Twitter και αυτοπροσώπως:

"Αυτό που είχε συμβεί ήταν ότι μόλις η διαμαρτυρία έγινε η κυρίαρχη ιστορία, μεγάλος αριθμός ανθρώπων ... σταμάτησε να χρησιμοποιεί τα hashtags εκτός από την επισήμανση ενός νέου φαινομένου ... Ενώ οι διαμαρτυρίες συνέχισαν και ακόμη και εντατικοποιήθηκαν, τα hashtags πέθαναν κάτω. Οι συνεντεύξεις αποκάλυψαν δύο λόγους γι 'αυτό. Κατ 'αρχάς, αφού ο καθένας γνώριζε το θέμα, η hashtag ήταν ταυτόχρονα περιττή και σπατάλη στην πλατφόρμα Twitter που περιείχε χαρακτήρες. Δεύτερον, τα hashtags θεωρήθηκαν μόνο χρήσιμα για να προσελκύσουν την προσοχή σε ένα συγκεκριμένο θέμα, όχι για να μιλήσουν γι 'αυτό. "

Έτσι, ερευνητές που μελετούσαν τις διαμαρτυρίες από την ανάλυση των tweets με διέσεις διαμαρτυρίας που σχετίζονται θα έχουν μια διαστρεβλωμένη αίσθηση του τι συνέβαινε εξαιτίας αυτής της συμπεριφοράς drift. Για παράδειγμα, μπορεί να πιστεύουν ότι η συζήτηση της διαμαρτυρίας μειώθηκε πολύ πριν στην πραγματικότητα μειώθηκε.

Το τρίτο είδος μετατόπισης είναι η μετατόπιση του συστήματος. Σε αυτή την περίπτωση, δεν αλλάζουν οι άνθρωποι ή η συμπεριφορά τους αλλάζει αλλά το ίδιο το σύστημα αλλάζει. Για παράδειγμα, με την πάροδο του χρόνου το Facebook αύξησε το όριο της διάρκειας των ενημερώσεων κατάστασης. Έτσι, οποιαδήποτε διαχρονική μελέτη των ενημερώσεων κατάστασης θα είναι ευάλωτη σε αντικείμενα που προκαλούνται από αυτήν την αλλαγή. Η μετατόπιση του συστήματος σχετίζεται στενά με ένα πρόβλημα που ονομάζεται αλγοριθμική σύγχυση, το οποίο θα καλύψω στο τμήμα 2.3.8.

Συμπερασματικά, πολλές μεγάλες πηγές δεδομένων παρασύρονται εξαιτίας αλλαγών σε ποιος τους χρησιμοποιεί, τον τρόπο με τον οποίο χρησιμοποιούνται και τον τρόπο λειτουργίας των συστημάτων. Αυτές οι πηγές αλλαγής είναι μερικές φορές ενδιαφέρουσες ερευνητικές ερωτήσεις, αλλά αυτές οι αλλαγές περιπλέκουν την ικανότητα των μεγάλων πηγών δεδομένων να παρακολουθούν τις μακροπρόθεσμες αλλαγές με την πάροδο του χρόνου.