3.6.2 Ενισχυμένη ερώτηση

Ενισχυμένη ερώτηση χρησιμοποιώντας ένα μοντέλο πρόβλεψης για να συνδυάσετε δεδομένα από λίγα άτομα με μεγάλη πηγή δεδομένων από πολλούς ανθρώπους.

Ένας διαφορετικός τρόπος για να συνδυάσετε την έρευνα και τις μεγάλες πηγές δεδομένων είναι μια διαδικασία που θα κάνω να ζητήσω ενισχυμένη ερώτηση . Σε μια ενισχυμένη ερώτηση, ένας ερευνητής χρησιμοποιεί ένα μοντέλο πρόβλεψης για να συνδυάσει ένα μικρό αριθμό δεδομένων έρευνας με μια μεγάλη πηγή δεδομένων, προκειμένου να παράγει εκτιμήσεις σε κλίμακα ή λεπτομερή ανάλυση που δεν θα ήταν δυνατή με την κάθε μία από τις πηγές δεδομένων ξεχωριστά. Ένα σημαντικό παράδειγμα ενισχυμένης ερώτησης προέρχεται από τη δουλειά του Joshua Blumenstock, ο οποίος ήθελε να συλλέξει δεδομένα που θα μπορούσαν να βοηθήσουν στην ανάπτυξη της ανάπτυξης στις φτωχές χώρες. Στο παρελθόν, οι ερευνητές που συλλέγουν αυτό το είδος δεδομένων έπρεπε γενικά να ακολουθήσουν μία από τις δύο προσεγγίσεις: δειγματοληπτικές έρευνες ή απογραφές. Οι δειγματοληπτικές έρευνες, όπου οι ερευνητές συνεντεύουν έναν μικρό αριθμό ατόμων, μπορούν να είναι ευέλικτοι, έγκαιροι και σχετικά φθηνοί. Ωστόσο, οι έρευνες αυτές, επειδή βασίζονται σε δείγμα, συχνά περιορίζονται στην επίλυση τους. Με μια δειγματοληπτική έρευνα, είναι συχνά δύσκολο να γίνουν εκτιμήσεις για συγκεκριμένες γεωγραφικές περιοχές ή για συγκεκριμένες δημογραφικές ομάδες. Από την άλλη πλευρά, οι απογραφές προσπαθούν να κάνουν συνέντευξη σε όλους και έτσι μπορούν να χρησιμοποιηθούν για την παραγωγή εκτιμήσεων για μικρές γεωγραφικές περιοχές ή δημογραφικές ομάδες. Αλλά οι απογραφές είναι γενικά ακριβές, στενές στο επίκεντρο (περιλαμβάνουν μόνο ένα μικρό αριθμό ερωτήσεων) και όχι έγκαιρες (συμβαίνουν σε σταθερό χρονοδιάγραμμα, όπως κάθε 10 χρόνια) (Kish 1979) . Αντί να είστε κολλημένοι με δειγματοληπτικές έρευνες ή απογραφές, φανταστείτε εάν οι ερευνητές θα μπορούσαν να συνδυάσουν τα καλύτερα χαρακτηριστικά και των δύο. Φανταστείτε αν οι ερευνητές θα μπορούσαν να κάνουν κάθε ερώτηση σε κάθε άτομο κάθε μέρα. Προφανώς, αυτή η πανταχού παρούσα έρευνα πάντα είναι ένα είδος κοινωνικής φαντασίας. Ωστόσο, φαίνεται ότι μπορούμε να αρχίσουμε να προσεγγίζουμε αυτό, συνδυάζοντας ερωτήματα έρευνας από ένα μικρό αριθμό ατόμων με ψηφιακά ίχνη από πολλούς ανθρώπους.

Η έρευνα της Blumenstock ξεκίνησε όταν συνεργαζόταν με τον μεγαλύτερο πάροχο κινητής τηλεφωνίας στη Ρουάντα και η εταιρεία παρείχε ανώνυμες εγγραφές συναλλαγών από περίπου 1,5 εκατομμύρια πελάτες μεταξύ 2005 και 2009. Αυτές οι εγγραφές περιείχαν πληροφορίες για κάθε κλήση και μήνυμα κειμένου όπως η ώρα έναρξης, , και κατά προσέγγιση γεωγραφική θέση του καλούντος και του δέκτη. Πριν μιλήσω για τα στατιστικά ζητήματα, αξίζει να σημειωθεί ότι αυτό το πρώτο βήμα μπορεί να είναι ένα από τα πιο δύσκολα για πολλούς ερευνητές. Όπως περιγράφεται στο κεφάλαιο 2, οι περισσότερες μεγάλες πηγές δεδομένων είναι απρόσιτες για τους ερευνητές. Ειδικότερα, τα μετα-δεδομένα του τηλεφώνου είναι ιδιαίτερα απροσπέλαστα επειδή είναι σχεδόν αδύνατο να ανώνυμα και σχεδόν βέβαια περιέχει πληροφορίες που οι συμμετέχοντες θα θεωρούσαν ευαίσθητες (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Στη συγκεκριμένη περίπτωση, οι ερευνητές ήταν προσεκτικοί για την προστασία των δεδομένων και η εργασία τους εποπτεύονταν από ένα τρίτο μέρος (δηλαδή το IRB τους). Θα επανέλθω σε αυτά τα ηθικά ζητήματα με περισσότερες λεπτομέρειες στο κεφάλαιο 6.

Η Blumenstock ενδιαφέρθηκε να μετρήσει τον πλούτο και την ευημερία. Αλλά αυτά τα χαρακτηριστικά δεν είναι απευθείας στα αρχεία κλήσεων. Με άλλα λόγια, αυτά τα αρχεία κλήσεων είναι ελλιπή για την έρευνα αυτή - ένα κοινό χαρακτηριστικό των μεγάλων πηγών δεδομένων που αναλύθηκε λεπτομερώς στο κεφάλαιο 2. Ωστόσο, φαίνεται πιθανό ότι τα αρχεία κλήσεων πιθανόν να έχουν κάποιες πληροφορίες που θα μπορούσαν έμμεσα να παρέχουν πληροφορίες για τον πλούτο και ευεξία. Με δεδομένη αυτή τη δυνατότητα, ο Blumenstock ρώτησε αν ήταν δυνατόν να εκπαιδεύσει ένα μοντέλο μηχανικής μάθησης για να προβλέψει πώς κάποιος θα ανταποκριθεί σε μια έρευνα βασισμένη στα αρχεία κλήσεων. Αν αυτό ήταν δυνατό, τότε η Blumenstock θα μπορούσε να χρησιμοποιήσει αυτό το μοντέλο για να προβλέψει τις απαντήσεις της έρευνας σε όλα τα 1,5 εκατομμύρια πελάτες.

Για να οικοδομήσουμε και να εκπαιδεύσουμε ένα τέτοιο μοντέλο, η Blumenstock και οι βοηθοί της έρευνας από το Ινστιτούτο Επιστήμης και Τεχνολογίας του Κιγκάλι ονόμασαν τυχαίο δείγμα περίπου χίλιων πελατών. Οι ερευνητές εξήγησαν τους στόχους του έργου στους συμμετέχοντες, ζήτησαν τη συγκατάθεσή τους να συνδέσουν τις απαντήσεις της έρευνας με τα αρχεία κλήσεων και έπειτα τους ζήτησαν μια σειρά από ερωτήσεις για να μετρήσουν τον πλούτο και την ευημερία τους, όπως "Διαθέτετε ραδιόφωνο; "και" Διαθέτετε ποδήλατο; "(βλ. εικόνα 3.14 για μερική λίστα). Όλοι οι συμμετέχοντες στην έρευνα αποζημιώθηκαν οικονομικά.

Στη συνέχεια, η Blumenstock χρησιμοποίησε μια διαδικασία δύο βημάτων κοινή στην εκμάθηση μηχανών: μηχανική των χαρακτηριστικών που ακολουθείται από εποπτευόμενη μάθηση. Πρώτον, στο βήμα της μηχανικής των χαρακτηριστικών , για όλους όσους ερωτήθηκαν, η Blumenstock μετέτρεψε τα αρχεία κλήσεων σε ένα σύνολο χαρακτηριστικών για κάθε άτομο. οι επιστήμονες των δεδομένων θα μπορούσαν να αποκαλούν αυτά τα χαρακτηριστικά γνωρίσματα και οι κοινωνικοί επιστήμονες θα τους αποκαλούσαν «μεταβλητές». Για παράδειγμα, για κάθε άτομο, ο Blumenstock υπολόγισε τον συνολικό αριθμό ημερών με τη δραστηριότητα, τον αριθμό των ξεχωριστών ατόμων με τα οποία έχει έρθει σε επαφή, το ποσό των χρημάτων που δαπανώνται για το χρόνο ομιλίας και ούτω καθεξής. Κρίσιμα, η καλή τεχνική απαιτεί γνώση του ερευνητικού πλαισίου. Για παράδειγμα, εάν είναι σημαντικό να γίνει διάκριση μεταξύ εγχώριων και διεθνών κλήσεων (ίσως αναμένουμε ότι οι άνθρωποι που καλούν σε διεθνές επίπεδο να είναι πλουσιότεροι), τότε αυτό πρέπει να γίνει στο βήμα της μηχανικής. Ένας ερευνητής με ελάχιστη κατανόηση της Ρουάντα μπορεί να μην περιλαμβάνει αυτό το χαρακτηριστικό και τότε η προγνωστική απόδοση του μοντέλου θα υποφέρει.

Στη συνέχεια, στο μάθημα εποπτευόμενης μάθησης , η Blumenstock δημιούργησε ένα πρότυπο για να προβλέψει την απόκριση της έρευνας για κάθε άτομο βάσει των χαρακτηριστικών τους. Στην περίπτωση αυτή, ο Blumenstock χρησιμοποίησε την υλικοτεχνική παλινδρόμηση, αλλά θα μπορούσε να χρησιμοποιήσει μια ποικιλία άλλων προσεγγίσεων στατιστικής ή μηχανικής μάθησης.

Έτσι πόσο καλά λειτούργησε; Μήπως η Blumenstock ήταν σε θέση να προβλέψει απαντήσεις σε ερωτήσεις έρευνας όπως "Έχετε ένα ραδιόφωνο;" και "Διαθέτετε ποδήλατο;" χρησιμοποιώντας στοιχεία που προέρχονται από εγγραφές κλήσεων; Για να αξιολογήσει την απόδοση του προγνωστικού προτύπου του, η Blumenstock χρησιμοποίησε διασταυρούμενη επικύρωση , μια τεχνική που χρησιμοποιείται συνήθως στην επιστήμη των δεδομένων, αλλά σπάνια στην κοινωνική επιστήμη. Ο στόχος της διασταυρούμενης επικύρωσης είναι να παρέχει μια δίκαιη αξιολόγηση της πρόβλεψης απόδοσης ενός μοντέλου, εκπαιδεύοντάς τον και εξετάζοντάς τον σε διαφορετικά υποσύνολα δεδομένων. Συγκεκριμένα, η Blumenstock χωρίζει τα δεδομένα της σε 10 κομμάτια των 100 ατόμων το καθένα. Στη συνέχεια, χρησιμοποίησε εννέα από τα κομμάτια για να εκπαιδεύσει το μοντέλο του, και η πρόβλεψη των επιδόσεων του εκπαιδευμένου μοντέλου αξιολογήθηκε στο υπόλοιπο κομμάτι. Επανέλαβε αυτή τη διαδικασία 10 φορές - με κάθε κομμάτι δεδομένων να πάρει μία στροφή ως δεδομένα επικύρωσης - και κατά μέσο όρο τα αποτελέσματα.

Η ακρίβεια των προβλέψεων ήταν υψηλή για ορισμένα χαρακτηριστικά (σχήμα 3.14). για παράδειγμα, η Blumenstock θα μπορούσε να προβλέψει με ακρίβεια 97,6% αν κάποιος είχε ραδιοφωνικό σταθμό. Αυτό μπορεί να ακούγεται εντυπωσιακό, αλλά είναι πάντα σημαντικό να συγκρίνετε μια σύνθετη μέθοδο πρόβλεψης με μια απλή εναλλακτική λύση. Στην περίπτωση αυτή, μια απλή εναλλακτική λύση είναι να προβλέψουμε ότι όλοι θα δώσουν την πιο κοινή απάντηση. Για παράδειγμα, το 97,3% των ερωτηθέντων δήλωσε ότι διαθέτει ένα ραδιόφωνο, οπότε αν η Blumenstock είχε προβλέψει ότι όλοι θα αναφέρουν ότι διαθέτουν ραδιόφωνο, θα είχε ακρίβεια 97,3%, κάτι που είναι εκπληκτικά παρόμοιο με την απόδοση της πιο σύνθετης διαδικασίας του (ακρίβεια 97,6% . Με άλλα λόγια, όλα τα δεδομένα φαντασίας και η μοντελοποίηση αύξησαν την ακρίβεια της πρόβλεψης από 97,3% σε 97,6%. Ωστόσο, για άλλες ερωτήσεις, όπως "Διαθέτετε ποδήλατο;", οι προβλέψεις βελτιώθηκαν από 54,4% σε 67,6%. Γενικότερα, η εικόνα 3.15 δείχνει ότι για ορισμένα χαρακτηριστικά, η Blumenstock δεν βελτιώθηκε πολύ πέρα ​​από την απλή πρόβλεψη της βασικής γραμμής, αλλά ότι για άλλα χαρακτηριστικά υπήρξε κάποια βελτίωση. Κοιτάζοντας όμως αυτά τα αποτελέσματα, ίσως να μην νομίζετε ότι αυτή η προσέγγιση είναι ιδιαίτερα ελπιδοφόρα.

Σχήμα 3.14: Προγνωστική ακρίβεια για ένα στατιστικό μοντέλο εκπαιδευμένο με εγγραφές κλήσεων. Προσαρμοσμένη από την Blumenstock (2014), πίνακας 2.

Σχήμα 3.14: Προγνωστική ακρίβεια για ένα στατιστικό μοντέλο εκπαιδευμένο με εγγραφές κλήσεων. Προσαρμοσμένη από την Blumenstock (2014) , πίνακας 2.

Σχήμα 3.15: Σύγκριση της ακρίβειας πρόβλεψης για ένα στατιστικό μοντέλο εκπαιδευμένο με εγγραφές κλήσεων σε απλή πρόβλεψη βασικής γραμμής. Τα σημεία είναι ελαφρώς θορυβώδη για να αποφευχθεί η επικάλυψη. Προσαρμοσμένη από την Blumenstock (2014), πίνακας 2.

Σχήμα 3.15: Σύγκριση της ακρίβειας πρόβλεψης για ένα στατιστικό μοντέλο εκπαιδευμένο με εγγραφές κλήσεων σε απλή πρόβλεψη βασικής γραμμής. Τα σημεία είναι ελαφρώς θορυβώδη για να αποφευχθεί η επικάλυψη. Προσαρμοσμένη από την Blumenstock (2014) , πίνακας 2.

Ωστόσο, μόλις ένα χρόνο αργότερα, ο Blumenstock και δύο συνάδελφοι-Gabriel Cadamuro και Robert On-δημοσίευσαν ένα έγγραφο στην επιστήμη με σημαντικά καλύτερα αποτελέσματα (Blumenstock, Cadamuro, and On 2015) . Υπήρχαν δύο βασικοί τεχνικοί λόγοι για τη βελτίωση αυτή: (1) χρησιμοποίησαν πιο εξελιγμένες μεθόδους (δηλαδή μια νέα προσέγγιση στη μηχανική των χαρακτηριστικών και ένα πιο εξελιγμένο μοντέλο για την πρόβλεψη των απαντήσεων από τα χαρακτηριστικά) και (2) αντί να επιχειρήσουν να συνάγουν απαντήσεις σε μεμονωμένα (π.χ. "κατέχετε ένα ραδιόφωνο;"), προσπάθησαν να συνάψουν ένα σύνθετο δείκτη πλούτου. Αυτές οι τεχνικές βελτιώσεις σήμαιναν ότι θα μπορούσαν να κάνουν εύλογη εργασία χρησιμοποιώντας αρχεία κλήσεων για να προβλέψουν πλούτο για τους ανθρώπους στο δείγμα τους.

Ωστόσο, η πρόβλεψη του πλούτου των ανθρώπων στο δείγμα δεν ήταν ο τελικός στόχος της έρευνας. Θυμηθείτε ότι ο απώτερος στόχος ήταν να συνδυάσετε μερικά από τα καλύτερα χαρακτηριστικά των δειγματοληπτικών ερευνών και απογραφών για να παράγετε ακριβείς, υψηλής ανάλυσης εκτιμήσεις της φτώχειας στις αναπτυσσόμενες χώρες. Για να αξιολογήσουν την ικανότητά τους να επιτύχουν αυτόν τον στόχο, ο Blumenstock και οι συνεργάτες του χρησιμοποίησαν το πρότυπο και τα δεδομένα τους για να προβλέψουν τον πλούτο όλων των 1,5 εκατομμυρίων ανθρώπων στα αρχεία κλήσεων. Και χρησιμοποίησαν τις γεωχωρικές πληροφορίες που είναι ενσωματωμένες στα αρχεία κλήσεων (υπενθυμίζουμε ότι τα δεδομένα περιλάμβαναν την τοποθεσία του πλησιέστερου πύργου κυττάρων για κάθε κλήση) για να εκτιμήσουν τον κατά προσέγγιση τόπο διαμονής κάθε ατόμου (σχήμα 3.17). Κάνοντας αυτές τις δύο εκτιμήσεις μαζί, ο Blumenstock και οι συνάδελφοί του παρήγαγαν μια εκτίμηση της γεωγραφικής κατανομής του πλούτου των συνδρομητών σε εξαιρετικά λεπτή χωρική κοκκινότητα. Για παράδειγμα, θα μπορούσαν να εκτιμήσουν τον μέσο όρο πλούτου σε κάθε ένα από τα 2,148 κύτταρα της Ρουάντα (τη μικρότερη διοικητική μονάδα στη χώρα).

Πόσο καλά οι εκτιμήσεις αυτές αντιστοιχούσαν στο πραγματικό επίπεδο φτώχειας στις περιοχές αυτές; Προτού απαντήσω στην ερώτηση αυτή, θέλω να τονίσω το γεγονός ότι υπάρχουν πολλοί λόγοι να είμαστε σκεπτικοί. Για παράδειγμα, η δυνατότητα πρόβλεψης σε ατομικό επίπεδο ήταν αρκετά θορυβώδης (εικόνα 3.17). Και, ίσως το πιο σημαντικό, οι άνθρωποι με κινητά τηλέφωνα μπορεί να είναι συστηματικά διαφορετικοί από τους ανθρώπους χωρίς κινητά τηλέφωνα. Έτσι, οι Blumenstock και οι συνάδελφοί τους μπορεί να υποφέρουν από τους τύπους σφαλμάτων κάλυψης που μεροληψούσαν την έρευνα του 1936 Λογοτεχνικού Ψηφίσματος που περιέγραψα νωρίτερα.

Για να αποκτήσουν μια αίσθηση της ποιότητας των εκτιμήσεών τους, οι Blumenstock και οι συνεργάτες τους χρειάστηκαν να τις συγκρίνουν με κάτι άλλο. Ευτυχώς, την ίδια χρονική στιγμή με τη μελέτη τους, μια άλλη ομάδα ερευνητών διεξήγαγε μια πιο παραδοσιακή κοινωνική έρευνα στη Ρουάντα. Αυτή η άλλη έρευνα - η οποία ήταν μέρος του ευρέως αναγνωρισμένου προγράμματος δημογραφικών και υγειονομικών μελετών - είχε μεγάλο προϋπολογισμό και χρησιμοποίησε παραδοσιακές μεθόδους υψηλής ποιότητας. Ως εκ τούτου, οι εκτιμήσεις από την δημογραφική έρευνα και την έρευνα για την υγεία θα μπορούσαν λογικά να θεωρηθούν ως χρυσό πρότυπο εκτιμήσεις. Όταν συγκρίθηκαν οι δύο εκτιμήσεις, ήταν αρκετά παρόμοιες (εικόνα 3.17). Με άλλα λόγια, συνδυάζοντας ένα μικρό αριθμό δεδομένων ερευνών με τα αρχεία κλήσεων, η Blumenstock και οι συνεργάτες της ήταν σε θέση να παράγουν εκτιμήσεις συγκρίσιμες με εκείνες των χρυσών προσεγγίσεων.

Ένας σκεπτικιστής μπορεί να δει αυτά τα αποτελέσματα ως απογοήτευση. Εξάλλου, ένας τρόπος προβολής τους είναι να πούμε ότι με τη χρήση μεγάλων δεδομένων και μηχανικής μάθησης, οι Blumenstock και οι συνεργάτες τους ήταν σε θέση να παράγουν εκτιμήσεις που θα μπορούσαν να γίνουν πιο αξιόπιστες με ήδη υπάρχουσες μεθόδους. Αλλά δεν νομίζω ότι αυτός είναι ο σωστός τρόπος για να σκεφτείς αυτή τη μελέτη για δύο λόγους. Πρώτον, οι εκτιμήσεις από τους Blumenstock και τους συναδέλφους ήταν περίπου 10 φορές γρηγορότερες και 50 φορές φθηνότερες (όταν το κόστος μετριέται με βάση το μεταβλητό κόστος). Όπως υποστήριξα προηγουμένως σε αυτό το κεφάλαιο, οι ερευνητές αγνοούν το κόστος τους. Στην περίπτωση αυτή, για παράδειγμα, η δραματική μείωση του κόστους σημαίνει ότι, αντί να γίνεται κάθε λίγα χρόνια - όπως συμβαίνει με τις δημογραφικές και υγειονομικές έρευνες - αυτό το είδος έρευνας θα μπορούσε να διεξαχθεί κάθε μήνα, γεγονός που θα προσέφερε πολλά πλεονεκτήματα για τους ερευνητές και την πολιτική κατασκευαστές. Ο δεύτερος λόγος για να μην ληφθεί η άποψη του σκεπτικιστή είναι ότι αυτή η μελέτη παρέχει μια βασική συνταγή που μπορεί να προσαρμοστεί σε πολλές διαφορετικές ερευνητικές καταστάσεις. Αυτή η συνταγή έχει μόνο δύο συστατικά και δύο βήματα. Τα συστατικά είναι (1) μια μεγάλη πηγή δεδομένων που είναι ευρεία αλλά λεπτή (δηλαδή, έχει πολλούς ανθρώπους αλλά όχι τις πληροφορίες που χρειάζεστε για κάθε άτομο) και (2) μια έρευνα που είναι στενή αλλά παχιά (δηλ. λίγοι άνθρωποι, αλλά έχει τις πληροφορίες που χρειάζεστε για αυτούς τους ανθρώπους). Αυτά τα συστατικά στη συνέχεια συνδυάζονται σε δύο στάδια. Πρώτον, για τους ανθρώπους και στις δύο πηγές δεδομένων, οικοδομήστε ένα μοντέλο μηχανικής μάθησης που χρησιμοποιεί τη μεγάλη πηγή δεδομένων για να προβλέψει τις απαντήσεις της έρευνας. Στη συνέχεια, χρησιμοποιήστε αυτό το μοντέλο για να καταλογίσετε τις απαντήσεις της έρευνας σε όλους στη μεγάλη πηγή δεδομένων. Έτσι, αν υπάρχει κάποια ερώτηση που θέλετε να ζητήσετε από πολλούς ανθρώπους, αναζητήστε μια μεγάλη πηγή δεδομένων από εκείνους τους ανθρώπους που θα μπορούσαν να χρησιμοποιηθούν για να προβλέψουν την απάντησή τους, ακόμα και αν δεν σας ενδιαφέρει η μεγάλη πηγή δεδομένων . Δηλαδή, η Blumenstock και οι συνεργάτες της δεν ενδιαφέρονται εγγενώς για τα αρχεία κλήσεων. ενδιαφέρονται μόνο για τα αρχεία κλήσεων επειδή θα μπορούσαν να χρησιμοποιηθούν για να προβλέψουν τις απαντήσεις σε έρευνα που τους νοιάζονταν. Αυτό το έμμεσο ενδιαφέρον μόνο για τη μεγάλη πηγή δεδομένων καθιστά την ερώτηση να είναι διαφορετική από την ενσωματωμένη ερώτηση, την οποία περιέγραψα προηγουμένως.

Σχήμα 3.16: Σχήμα της μελέτης των Blumenstock, Cadamuro, και On (2015). Τα αρχεία κλήσεων από την εταιρεία τηλεφώνου μετατράπηκαν σε μήτρα με μία σειρά για κάθε άτομο και μία στήλη για κάθε χαρακτηριστικό (δηλ. Μεταβλητή). Έπειτα, οι ερευνητές δημιούργησαν ένα εποπτευόμενο μοντέλο εκμάθησης για να προβλέψουν τις απαντήσεις της έρευνας από το matrix person-by-feature. Στη συνέχεια, το εποπτικό μοντέλο μάθησης χρησιμοποιήθηκε για να καταλογίσει τις απαντήσεις της έρευνας για όλους τους 1,5 εκατομμύρια πελάτες. Επίσης, οι ερευνητές εκτιμούν τον κατά προσέγγιση τόπο διαμονής για όλους τους 1,5 εκατομμύρια πελάτες με βάση τις τοποθεσίες των κλήσεών τους. Όταν οι δύο αυτές εκτιμήσεις - ο εκτιμώμενος πλούτος και ο εκτιμώμενος τόπος διαμονής - συνδυάστηκαν, τα αποτελέσματα ήταν παρόμοια με τις εκτιμήσεις από την δημογραφική και την υγειονομική έρευνα, μια παραδοσιακή έρευνα χρυσού (εικόνα 3.17).

Σχήμα 3.16: Σχήμα της μελέτης των Blumenstock, Cadamuro, and On (2015) . Τα αρχεία κλήσεων από την εταιρία τηλεφώνου μετατράπηκαν σε μήτρα με μία σειρά για κάθε άτομο και μία στήλη για κάθε χαρακτηριστικό (δηλ. Μεταβλητή). Έπειτα, οι ερευνητές δημιούργησαν ένα εποπτευόμενο μοντέλο εκμάθησης για να προβλέψουν τις απαντήσεις της έρευνας από το matrix person-by-feature. Στη συνέχεια, το εποπτικό μοντέλο μάθησης χρησιμοποιήθηκε για να καταλογίσει τις απαντήσεις της έρευνας για όλους τους 1,5 εκατομμύρια πελάτες. Επίσης, οι ερευνητές εκτιμούν τον κατά προσέγγιση τόπο διαμονής για όλους τους 1,5 εκατομμύρια πελάτες με βάση τις τοποθεσίες των κλήσεών τους. Όταν οι δύο αυτές εκτιμήσεις - ο εκτιμώμενος πλούτος και ο εκτιμώμενος τόπος διαμονής - συνδυάστηκαν, τα αποτελέσματα ήταν παρόμοια με εκτιμήσεις από την Δημογραφική και την Έρευνα για την Υγεία, μια παραδοσιακή έρευνα χρυσού (εικόνα 3.17).

Σχήμα 3.17: Αποτελέσματα από Blumenstock, Cadamuro και On (2015). Σε ατομικό επίπεδο, οι ερευνητές ήταν σε θέση να κάνουν λογική δουλειά για να προβλέψουν τον πλούτο κάποιου από τα αρχεία κλήσεων τους. Οι εκτιμήσεις για τον πλούτο σε επίπεδο επαρχίας για τις 30 συνοικίες της Ρουάντα - οι οποίες βασίστηκαν σε εκτιμήσεις του πλούτου και του τόπου διαμονής σε επιμέρους επίπεδο - ήταν παρόμοιες με τα αποτελέσματα της δημογραφικής και υγειονομικής έρευνας, μιας παραδοσιακής χρυσού έρευνας. Προσαρμοσμένη από τους Blumenstock, Cadamuro και On (2015), τα σχήματα 1α και 3γ.

Σχήμα 3.17: Αποτελέσματα από Blumenstock, Cadamuro, and On (2015) . Σε ατομικό επίπεδο, οι ερευνητές ήταν σε θέση να κάνουν λογική δουλειά για να προβλέψουν τον πλούτο κάποιου από τα αρχεία κλήσεων τους. Οι εκτιμήσεις για τον πλούτο σε επίπεδο επαρχίας για τις 30 συνοικίες της Ρουάντα - οι οποίες βασίστηκαν σε εκτιμήσεις του πλούτου και του τόπου διαμονής σε επιμέρους επίπεδο - ήταν παρόμοιες με τα αποτελέσματα της δημογραφικής και υγειονομικής έρευνας, μιας παραδοσιακής χρυσού έρευνας. Προσαρμοσμένη από τους Blumenstock, Cadamuro, and On (2015) , τα σχήματα 1α και 3γ.

Εν κατακλείδι, η ενισχυμένη ερώτηση προσέγγισης της Blumenstock συνδυάζει τα στοιχεία της έρευνας με μια μεγάλη πηγή δεδομένων για την παραγωγή εκτιμήσεων συγκρίσιμων με εκείνες από μια έρευνα χρυσού-πρότυπου. Το συγκεκριμένο παράδειγμα διευκρινίζει επίσης ορισμένες από τις αντιπαραθέσεις μεταξύ ενισχυμένων ερωτήσεων και παραδοσιακών μεθόδων έρευνας. Οι ενισχυμένες ερωτήσεις ήταν πιο έγκαιρες, ουσιαστικά φθηνότερες και πιο κοκκώδεις. Αλλά, από την άλλη πλευρά, δεν υπάρχει ακόμη μια ισχυρή θεωρητική βάση για αυτό το είδος ενισχυμένων ζητώντας. Αυτό το μόνο παράδειγμα δεν δείχνει πότε θα λειτουργήσει αυτή η προσέγγιση και πότε δεν θα το κάνει και οι ερευνητές που χρησιμοποιούν αυτή την προσέγγιση πρέπει να ανησυχούν ιδιαίτερα για πιθανές προκαταλήψεις που προκαλούνται από το ποιος συμπεριλαμβάνεται και που δεν περιλαμβάνεται στη μεγάλη τους πηγή δεδομένων. Επιπλέον, η ενισχυμένη ερώτηση προσέγγιση δεν έχει ακόμη καλούς τρόπους για να ποσοτικοποιήσει την αβεβαιότητα γύρω από τις εκτιμήσεις της. Ευτυχώς, η ενισχυμένη ερώτηση έχει βαθιές συνδέσεις με τρεις μεγάλες περιοχές στα στατιστικά στοιχεία - εκτιμήσεις μικρών περιοχών (Rao and Molina 2015) , καταλογισμός (Rubin 2004) και μεταστρωματοποίηση βασισμένη στο μοντέλο (η οποία συνδέεται στενά με τον κ. P., τη μέθοδο που περιγράψαμε προηγουμένως στο κεφάλαιο) (Little 1993) . Λόγω αυτών των βαθιών συνδέσεων, αναμένω ότι πολλά από τα μεθοδολογικά θεμέλια της ενισχυμένης ερώτησης σύντομα θα βελτιωθούν.

Τέλος, η σύγκριση της πρώτης και δεύτερης απόπειρας του Blumenstock δείχνει επίσης ένα σημαντικό μάθημα για την κοινωνική έρευνα ψηφιακής ηλικίας: η αρχή δεν είναι το τέλος. Δηλαδή, πολλές φορές, η πρώτη προσέγγιση δεν θα είναι η καλύτερη, αλλά αν οι ερευνητές συνεχίσουν να εργάζονται, τα πράγματα μπορούν να βελτιωθούν. Γενικότερα, κατά την αξιολόγηση νέων προσεγγίσεων στην κοινωνική έρευνα στην ψηφιακή εποχή, είναι σημαντικό να γίνουν δύο ξεχωριστές αξιολογήσεις: (1) Πόσο καλά λειτουργεί αυτό τώρα; και (2) Πόσο καλά θα λειτουργήσει αυτό στο μέλλον καθώς το τοπίο των δεδομένων αλλάζει και οι ερευνητές δίνουν μεγαλύτερη προσοχή στο πρόβλημα; Αν και οι ερευνητές εκπαιδεύονται να κάνουν το πρώτο είδος αξιολόγησης, το δεύτερο είναι συχνά πιο σημαντικό.