2.4.3 προσέγγιση πειράματα

Μπορούμε να προσεγγίσουμε πειράματα που δεν έχουμε ή δεν μπορούμε να κάνουμε. Δύο προσεγγίσεις που επωφελούνται ιδιαίτερα από μεγάλες πηγές δεδομένων είναι φυσικά πειράματα και αντιστοίχιση.

Ορισμένα σημαντικά επιστημονικά και πολιτικά ερωτήματα είναι αιτιακά. Για παράδειγμα, ποιος είναι ο αντίκτυπος ενός προγράμματος κατάρτισης εργασίας στους μισθούς; Ένας ερευνητής που προσπαθεί να απαντήσει σε αυτή την ερώτηση μπορεί να συγκρίνει τα κέρδη των ανθρώπων που έχουν εγγραφεί για κατάρτιση σε όσους δεν το έκαναν. Αλλά πόση διαφορά των μισθών μεταξύ αυτών των ομάδων οφείλεται στην εκπαίδευση και πόσο οφείλεται στις προϋπάρχουσες διαφορές μεταξύ των ανθρώπων που υπογράφουν και εκείνων που δεν το κάνουν; Πρόκειται για μια δύσκολη ερώτηση και είναι αυτή που δεν ξεφεύγει αυτόματα με περισσότερα δεδομένα. Με άλλα λόγια, η ανησυχία για πιθανές προϋπάρχουσες διαφορές τίθεται ανεξάρτητα από τον αριθμό των εργαζομένων που βρίσκονται στα δεδομένα σας.

Σε πολλές περιπτώσεις, ο ισχυρότερος τρόπος για να εκτιμηθεί η αιτιώδης επίδραση κάποιας θεραπείας, όπως είναι η επαγγελματική κατάρτιση, είναι να εκτελεστεί ένα τυχαίο ελεγχόμενο πείραμα όπου ένας ερευνητής παραδίδει τυχαία τη θεραπεία σε μερικούς ανθρώπους και όχι σε άλλους. Θα αφιερώσω όλο το κεφάλαιο 4 σε πειράματα, οπότε εδώ θα επικεντρωθώ σε δύο στρατηγικές που μπορούν να χρησιμοποιηθούν με μη πειραματικά δεδομένα. Η πρώτη στρατηγική εξαρτάται από την αναζήτηση κάτι που συμβαίνει στον κόσμο που τυχαία (ή σχεδόν τυχαία) αποδίδει τη θεραπεία σε μερικούς ανθρώπους και όχι σε άλλους. Η δεύτερη στρατηγική εξαρτάται από τη στατιστική προσαρμογή των μη πειραματικών δεδομένων σε μια προσπάθεια να ληφθούν υπόψη οι προϋπάρχουσες διαφορές μεταξύ εκείνων που έκαναν και δεν έλαβαν τη θεραπεία.

Ένας σκεπτικιστής μπορεί να ισχυριστεί ότι και οι δύο αυτές στρατηγικές πρέπει να αποφευχθούν επειδή απαιτούν ισχυρές υποθέσεις, υποθέσεις που είναι δύσκολο να εκτιμηθούν και που στην πράξη συχνά παραβιάζονται. Παρόλο που συμφωνώ με αυτόν τον ισχυρισμό, νομίζω ότι αυτό είναι υπερβολικό. Βεβαίως είναι αλήθεια ότι είναι δύσκολο να γίνουν αξιόπιστα αιτιώδεις εκτιμήσεις από μη πειραματικά δεδομένα, αλλά δεν νομίζω ότι αυτό σημαίνει ότι δεν πρέπει ποτέ να προσπαθήσουμε. Συγκεκριμένα, οι μη πειραματικές προσεγγίσεις μπορεί να είναι χρήσιμες εάν ο υλικοτεχνικός περιορισμός σας εμποδίζει να πραγματοποιήσετε ένα πείραμα ή εάν οι ηθικοί περιορισμοί σημαίνουν ότι δεν θέλετε να εκτελέσετε ένα πείραμα. Επιπλέον, οι μη πειραματικές προσεγγίσεις μπορούν να σας βοηθήσουν εάν θέλετε να επωφεληθείτε από τα δεδομένα που υπάρχουν ήδη για να σχεδιάσετε ένα τυχαίο ελεγχόμενο πείραμα.

Πριν προχωρήσουμε, αξίζει επίσης να σημειωθεί ότι η πρόκληση αιτιωδών εκτιμήσεων είναι ένα από τα πιο σύνθετα θέματα στην κοινωνική έρευνα και αυτό που μπορεί να οδηγήσει σε έντονες και συναισθηματικές συζητήσεις. Στη συνέχεια, θα παρουσιάσω μια αισιόδοξη περιγραφή κάθε προσέγγισης για να δημιουργήσω μια διαίσθηση γι 'αυτό, τότε θα περιγράψω κάποιες από τις προκλήσεις που προκύπτουν κατά τη χρήση αυτής της προσέγγισης. Περισσότερες λεπτομέρειες για κάθε προσέγγιση είναι διαθέσιμες στα υλικά στο τέλος αυτού του κεφαλαίου. Εάν σχεδιάζετε να χρησιμοποιήσετε κάποια από αυτές τις προσεγγίσεις στη δική σας έρευνα, συστήνω ανεπιφύλακτα να διαβάσετε ένα από τα πολλά εξαιρετικά βιβλία σχετικά με την αιτιώδη συνειδητοποίηση (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

Μια προσέγγιση για την πρόκληση αιτιωδών εκτιμήσεων από μη πειραματικά δεδομένα είναι η αναζήτηση ενός γεγονότος που έχει εκχωρήσει τυχαία μια θεραπεία σε μερικούς ανθρώπους και όχι σε άλλους. Αυτές οι καταστάσεις ονομάζονται φυσικά πειράματα . Ένα από τα σαφέστερα παραδείγματα ενός φυσικού πειράματος προέρχεται από την έρευνα του Joshua Angrist (1990) μετρά την επίδραση των στρατιωτικών υπηρεσιών στα κέρδη. Κατά τη διάρκεια του πολέμου στο Βιετνάμ, οι Ηνωμένες Πολιτείες αύξησαν το μέγεθος των ενόπλων δυνάμεών τους μέσω ενός σχεδίου. Για να αποφασίσει ποιοι πολίτες θα τεθούν σε υπηρεσία, η αμερικανική κυβέρνηση διεξήγαγε λαχειοφόρο αγορά. Κάθε ημερομηνία γέννησης γράφτηκε σε ένα κομμάτι χαρτί και, όπως φαίνεται στο σχήμα 2.7, αυτά τα κομμάτια χαρτιού επιλέχθηκαν μία κάθε φορά για να καθορίσουν τη σειρά με την οποία θα καλούσαν νεαροί άνδρες (οι νέες γυναίκες δεν υποβάλλονταν στο σχέδιο). Με βάση τα αποτελέσματα, οι άντρες που γεννήθηκαν στις 14 Σεπτεμβρίου κλήθηκαν πρώτα, οι άνδρες που γεννήθηκαν στις 24 Απριλίου κλήθηκαν δεύτεροι και ούτω καθεξής. Τελικά, σε αυτό το λαχείο, συντάχθηκαν άνδρες που γεννήθηκαν σε 195 διαφορετικές ημέρες, ενώ οι άνδρες που γεννήθηκαν σε 171 ημέρες δεν ήταν.

Εικόνα 2.7: Ο αρχιτέκτονας Αλέξανδρος Πίρνι (R-NY), ο οποίος κατάρτισε την πρώτη κάψα για το σχέδιο επιλεκτικής υπηρεσίας την 1η Δεκεμβρίου 1969. Ο Joshua Angrist (1990) συνέδεσε το σχέδιο λοταρίας με τα στοιχεία κερδών από τη διοίκηση κοινωνικής ασφάλισης για να εκτιμήσει την επίδραση της στρατιωτικής θητείας επί των κερδών. Αυτό είναι ένα παράδειγμα έρευνας που χρησιμοποιεί ένα φυσικό πείραμα. Πηγή: U.S. Selective Service System (1969) / Wikimedia Commons.

Εικόνα 2.7: Ο αρχιτέκτονας Αλέξανδρος Πίρνι (R-NY), ο οποίος κατάρτισε την πρώτη κάψα για το σχέδιο επιλεκτικής υπηρεσίας την 1η Δεκεμβρίου 1969. Ο Joshua Angrist (1990) συνέδεσε το σχέδιο λοταρίας με τα στοιχεία κερδών από τη διοίκηση κοινωνικής ασφάλισης για να εκτιμήσει την επίδραση της στρατιωτικής θητείας επί των κερδών. Αυτό είναι ένα παράδειγμα έρευνας που χρησιμοποιεί ένα φυσικό πείραμα. Πηγή: US Selective Service System (1969) / Wikimedia Commons .

Παρόλο που ίσως να μην είναι άμεσα εμφανές, ένα σχέδιο λοταρίας έχει μια κρίσιμη ομοιότητα με ένα τυχαίο ελεγχόμενο πείραμα: και στις δύο περιπτώσεις, οι συμμετέχοντες ανατίθενται τυχαία για να λάβουν θεραπεία. Για να μελετήσει την επίδραση αυτής της τυχαιοποιημένης θεραπείας, ο Angrist εκμεταλλεύτηκε ένα συνεχώς μεγάλο σύστημα δεδομένων: την Αμερικανική Υπηρεσία Κοινωνικής Ασφάλισης, η οποία συλλέγει πληροφορίες σχετικά με τα κέρδη από την απασχόληση σχεδόν όλων των Αμερικανών. Συνδυάζοντας τις πληροφορίες σχετικά με το ποιος τυχαία επιλέχθηκε στο σχέδιο λοταρίας με τα στοιχεία για τα κέρδη που συλλέχθηκαν σε κυβερνητικά διοικητικά αρχεία, ο Angrist κατέληξε στο συμπέρασμα ότι τα κέρδη των βετεράνων ήταν περίπου 15% λιγότερα από τα κέρδη συγκρίσιμων μη βετεράνων.

Όπως δείχνει αυτό το παράδειγμα, μερικές φορές οι κοινωνικές, πολιτικές ή φυσικές δυνάμεις εκχωρούν θεραπείες με τρόπο που μπορούν να αξιοποιηθούν από τους ερευνητές και μερικές φορές οι επιπτώσεις αυτών των θεραπειών συλλαμβάνονται σε πάντοτε μεγάλες πηγές δεδομένων. Αυτή η ερευνητική στρατηγική μπορεί να συνοψιστεί ως εξής: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

Για να δείξουμε αυτή τη στρατηγική στην ψηφιακή εποχή, ας εξετάσουμε μια μελέτη των Alexandre Mas και Enrico Moretti (2009) που προσπάθησε να εκτιμήσει την επίδραση της συνεργασίας με παραγωγικούς συναδέλφους στην παραγωγικότητα του εργαζόμενου. Πριν δει τα αποτελέσματα, αξίζει να σημειωθεί ότι υπάρχουν αντιφατικές προσδοκίες που μπορεί να έχετε. Από τη μία πλευρά, μπορείτε να περιμένετε ότι η συνεργασία με παραγωγικούς συναδέλφους θα οδηγούσε έναν εργαζόμενο να αυξήσει την παραγωγικότητά του εξαιτίας της πίεσης των ομοτίμων. Ή, από την άλλη πλευρά, ίσως αναμένεται ότι η ύπαρξη σκληρών εργατών θα μπορούσε να οδηγήσει έναν εργάτη να χαλαρώσει, επειδή το έργο θα γίνει από τους συνομηλίκους της ούτως ή άλλως. Ο σαφέστερος τρόπος μελέτης των επιπτώσεων της παραγωγικότητας από ομοτίμους θα ήταν ένα τυχαίο ελεγχόμενο πείραμα όπου οι εργαζόμενοι θα τοποθετούνται τυχαία σε βάρδιες με εργαζόμενους διαφορετικών επιπέδων παραγωγικότητας και στη συνέχεια η προκύπτουσα παραγωγικότητα θα μετράται για όλους. Οι ερευνητές, ωστόσο, δεν ελέγχουν το πρόγραμμα των εργαζομένων σε οποιαδήποτε πραγματική επιχείρηση και έτσι ο Mas και ο Moretti έπρεπε να βασίζονται σε ένα φυσικό πείραμα που αφορούσε ταμίες σε ένα σούπερ μάρκετ.

Σε αυτό το συγκεκριμένο σούπερ μάρκετ, λόγω του τρόπου με τον οποίο ο προγραμματισμός έγινε και του τρόπου με τον οποίο οι μετατοπίσεις επικαλύπτονταν, κάθε ταμία είχε διαφορετικούς συναδέλφους σε διαφορετικές ώρες της ημέρας. Επιπλέον, σε αυτό το συγκεκριμένο σούπερ μάρκετ, η ανάθεση των ταμιευτήρων δεν σχετίζεται με την παραγωγικότητα των συνομηλίκων τους ή με το πόσο απασχολημένος ήταν το κατάστημα. Με άλλα λόγια, παρόλο που ο προγραμματισμός των ταμείων δεν καθοριζόταν από μια λαχειοφόρο αγορά, οι εργαζόμενοι μερικές φορές τυχαία ανατέθηκαν να δουλεύουν με υψηλά (ή χαμηλά) παραγωγούς. Ευτυχώς, αυτό το σούπερ μάρκετ διέθετε επίσης ένα σύστημα εξαργύρωσης ψηφιακών χρόνων που παρακολούθησε τα στοιχεία που κάθε ταμία σάρωε ανά πάσα στιγμή. Από αυτά τα στοιχεία καταγραφής του Checkout, οι Mas και Moretti ήταν σε θέση να δημιουργήσουν ένα ακριβές, ατομικό και πάντα-κατά μέτρο παραγωγικότητας: τον αριθμό των αντικειμένων που σαρώθηκαν ανά δευτερόλεπτο. Συνδυάζοντας αυτά τα δύο πράγματα - τη φυσική ποικιλία στην παραγωγικότητα των ομότιμων και το συνεχές μέτρο της παραγωγικότητας - οι Mas και Moretti εκτιμούν ότι εάν ένα ταμείο απονεμήθηκε σε συνεργάτες που ήταν 10% πιο παραγωγικοί από τον μέσο όρο, η παραγωγικότητά της θα αυξανόταν κατά 1,5% . Επιπλέον, χρησιμοποίησαν το μέγεθος και τον πλούτο των δεδομένων τους για να διερευνήσουν δύο σημαντικά ζητήματα: την ετερογένεια αυτού του αποτελέσματος (Για ποια είδη εργαζομένων το αποτέλεσμα είναι μεγαλύτερο;) και τους μηχανισμούς πίσω από το αποτέλεσμα (Γιατί οι υψηλοί παραγωγοί που οδηγούν υψηλότερη παραγωγικότητα;). Θα επιστρέψουμε σε αυτά τα δύο σημαντικά ζητήματα - ετερογένεια των επιδράσεων και μηχανισμών της θεραπείας - στο κεφάλαιο 4, όταν συζητάμε λεπτομερέστερα τα πειράματα.

Γενικεύοντας από αυτές τις δύο μελέτες, ο πίνακας 2.3 συνοψίζει άλλες μελέτες που έχουν αυτή την ίδια δομή: χρησιμοποιώντας μια πηγή δεδομένων πάντα για να μετρήσετε την επίδραση κάποιας τυχαίας διακύμανσης. Στην πράξη, οι ερευνητές χρησιμοποιούν δύο διαφορετικές στρατηγικές για την εξεύρεση φυσικών πειραμάτων, και τα δύο μπορούν να είναι καρποφόρα. Μερικοί ερευνητές ξεκινούν με μια πηγή δεδομένων και πάντα αναζητούν τυχαία γεγονότα στον κόσμο. άλλοι ξεκινούν τυχαία γεγονότα στον κόσμο και αναζητούν πηγές δεδομένων που καταγράφουν τις επιπτώσεις τους.

Πίνακας 2.3: Παραδείγματα φυσικών πειραμάτων που χρησιμοποιούν μεγάλες πηγές δεδομένων
Ουσιαστική εστίαση Πηγή φυσικού πειράματος Πάντα πηγή δεδομένων Αναφορά
Επιπτώσεις από ομοτίμους στην παραγωγικότητα Διαδικασία προγραμματισμού Στοιχεία ελέγχου Mas and Moretti (2009)
Σύνθεση φιλίας Τυφώνας Facebook Phan and Airoldi (2015)
Διάδοση των συναισθημάτων Βροχή Facebook Lorenzo Coviello et al. (2014)
Οικονομικές μεταβιβάσεις από ομοτίμους Σεισμός Στοιχεία κινητού χρήματος Blumenstock, Fafchamps, and Eagle (2011)
Προσωπική συμπεριφορά κατανάλωσης 2013 κλείσιμο της κυβέρνησης των ΗΠΑ Προσωπικά οικονομικά στοιχεία Baker and Yannelis (2015)
Οικονομικός αντίκτυπος των συστημάτων συμβούλων Διάφορος Περιήγηση δεδομένων στο Amazon Sharma, Hofman, and Watts (2015)
Επίδραση του στρες στα αγέννητα μωρά 2006 Πόλεμος Ισραήλ-Χεζμπολάχ Εγγραφές γέννησης Torche and Shwed (2015)
Η συμπεριφορά ανάγνωσης στη Wikipedia Snow αποκαλύψεις Αρχεία καταγραφής της Wikipedia Penney (2016)
Επιπτώσεις από την ομαδική άσκηση στην άσκηση Καιρός Εξοπλισμός παρακολούθησης γυμναστικής Aral and Nicolaides (2017)

Στη συζήτηση μέχρι στιγμής σχετικά με τα φυσικά πειράματα, έχω αφήσει ένα σημαντικό σημείο: η μετάβαση από τη φύση που έχει προσφέρει σε αυτό που θέλετε μπορεί μερικές φορές να είναι αρκετά δύσκολη. Ας επιστρέψουμε στο παράδειγμα του Βιετνάμ. Στην περίπτωση αυτή, ο Angrist ενδιαφέρθηκε να εκτιμήσει την επίδραση της στρατιωτικής θητείας στα κέρδη. Δυστυχώς, η στρατιωτική θητεία δεν ανατέθηκε τυχαία. μάλλον σχεδιάστηκε αυτό που εκχωρήθηκε τυχαία. Ωστόσο, δεν συντάχθηκαν όλοι όσοι συντάχθηκαν (υπήρχαν ποικίλες εξαιρέσεις) και δεν συντάχθηκε όλοι όσοι υπηρέτησαν (οι άνθρωποι μπορούσαν να προσφέρουν εθελοντικά να υπηρετήσουν). Επειδή η σύνταξη έγινε τυχαία, ένας ερευνητής μπορεί να εκτιμήσει το αποτέλεσμα της σύνταξης για όλους τους άνδρες στο σχέδιο. Αλλά ο Αγκίστρι δεν ήθελε να μάθει το αποτέλεσμα της σύνταξης. ήθελε να μάθει την επίδραση της υπηρεσίας στο στρατό. Για να γίνει αυτή η εκτίμηση, ωστόσο, απαιτούνται πρόσθετες υποθέσεις και επιπλοκές. Πρώτον, οι ερευνητές πρέπει να υποθέσουν ότι ο μόνος τρόπος με τον οποίο συντάσσονται τα επηρεασμένα κέρδη είναι μέσω της στρατιωτικής θητείας, μια υπόθεση που ονομάζεται περιορισμός αποκλεισμού . Αυτή η παραδοχή θα μπορούσε να είναι λανθασμένη αν, για παράδειγμα, οι άνδρες που συντάχθηκαν παρέμειναν στο σχολείο περισσότερο για να αποφύγουν την υπηρεσία ή αν οι εργοδότες είχαν λιγότερες πιθανότητες να προσλάβουν άντρες που είχαν συνταχθεί. Γενικά, ο περιορισμός αποκλεισμού είναι μια κρίσιμη υπόθεση και είναι συνήθως δύσκολο να επαληθευτεί. Ακόμα και αν ο περιορισμός εξαίρεσης είναι σωστός, είναι ακόμα αδύνατο να εκτιμηθεί η επίδραση της υπηρεσίας σε όλους τους άνδρες. Αντ 'αυτού, αποδεικνύεται ότι οι ερευνητές μπορούν μόνο να εκτιμήσουν την επίδραση σε ένα συγκεκριμένο υποσύνολο των αντρών που ονομάζονται compliers (άνδρες που θα υπηρετούσαν όταν σχεδιάστηκαν, αλλά δεν θα εξυπηρετούσαν όταν δεν συντάχθηκαν) (Angrist, Imbens, and Rubin 1996) . Οι υπεύθυνοι συμμόρφωσης, ωστόσο, δεν ήταν ο αρχικός πληθυσμός ενδιαφέροντος. Παρατηρήστε ότι αυτά τα προβλήματα προκύπτουν ακόμη και στην σχετικά καθαρή περίπτωση του σχεδίου λοταρίας. Ένα άλλο σύνολο επιπλοκών προκύπτει όταν η θεραπεία δεν αποδίδεται από μια φυσική λαχειοφόρο αγορά. Για παράδειγμα, στη μελέτη Mas και Moretti για ταμίες, προκύπτουν επιπρόσθετα ερωτήματα σχετικά με την υπόθεση ότι η ανάθεση των συνομηλίκων είναι ουσιαστικά τυχαία. Εάν αυτή η υπόθεση παραβιαστεί έντονα, θα μπορούσε να προκαλέσει τις εκτιμήσεις τους. Συμπερασματικά, τα φυσικά πειράματα μπορούν να είναι μια ισχυρή στρατηγική για την πραγματοποίηση αιτιώδεις εκτιμήσεις από μη πειραματικά δεδομένα και μεγάλες πηγές δεδομένων αυξάνουν την ικανότητά μας να αξιοποιούμε φυσικά πειράματα όταν συμβαίνουν. Ωστόσο, θα χρειαστεί πιθανώς μεγάλη προσοχή - και μερικές φορές ισχυρές υποθέσεις - για να προχωρήσετε από τη φύση που παρέσχε στην εκτίμηση που θέλετε.

Η δεύτερη στρατηγική που θα ήθελα να σας πω για να κάνετε αιτιώδεις εκτιμήσεις από μη πειραματικά δεδομένα εξαρτάται από τη στατιστική προσαρμογή των μη πειραματικών δεδομένων σε μια προσπάθεια να ληφθούν υπόψη οι προϋπάρχουσες διαφορές μεταξύ εκείνων που έκαναν και δεν έλαβαν τη θεραπεία. Υπάρχουν πολλές τέτοιες προσεγγίσεις προσαρμογής, αλλά θα επικεντρωθώ σε μια λέξη που ταιριάζει . Κατά την αντιστοίχιση, ο ερευνητής εξετάζει μη πειραματικά δεδομένα για να δημιουργήσει ζεύγη ατόμων που είναι παρόμοια, εκτός από το ότι κάποιος έχει λάβει τη θεραπεία και κάποιος δεν το έχει. Στη διαδικασία αντιστοίχισης, οι ερευνητές στην πραγματικότητα κλαδεύονται επίσης. δηλαδή, απορρίπτοντας περιπτώσεις όπου δεν υπάρχει προφανής αντιστοίχιση. Έτσι, αυτή η μέθοδος θα ονομαζόταν με μεγαλύτερη ακρίβεια το ταιριάζοντας-και-κλάδεμα, αλλά θα παραμείνω με τον παραδοσιακό όρο: ταιριάζουν.

Ένα παράδειγμα της εξουσίας αντιστοίχισης στρατηγικών με μαζικές μη πειραματικές πηγές δεδομένων προέρχεται από την έρευνα σχετικά με τη συμπεριφορά των καταναλωτών από τον Liran Einav και τους συναδέλφους του (2015) . Ενδιαφερόταν για τους πλειστηριασμούς που πραγματοποιούνταν στο eBay και, περιγράφοντας το έργο τους, θα επικεντρωθώ στην επίδραση της τιμής εκκίνησης σε δημοπρασία, όπως η τιμή πώλησης ή η πιθανότητα πώλησης.

Ο πιο αφελής τρόπος εκτίμησης της επίδρασης της τιμής εκκίνησης στην τιμή πώλησης είναι ο απλός υπολογισμός της τελικής τιμής για τους πλειστηριασμούς με διαφορετικές τιμές εκκίνησης. Αυτή η προσέγγιση θα ήταν καλή αν θέλατε να προβλέψετε την τιμή πώλησης δεδομένης της τιμής εκκίνησης. Αν όμως η ερώτησή σας αφορά την επίδραση της αρχικής τιμής, τότε αυτή η προσέγγιση δεν θα λειτουργήσει επειδή δεν βασίζεται σε δίκαιες συγκρίσεις. οι δημοπρασίες με χαμηλότερες τιμές εκκίνησης ενδέχεται να είναι εντελώς διαφορετικές από αυτές με υψηλότερες τιμές εκκίνησης (π.χ., μπορεί να είναι για διαφορετικά είδη προϊόντων ή να περιλαμβάνουν διαφορετικούς τύπους πωλητών).

Αν γνωρίζετε ήδη τα προβλήματα που μπορεί να προκύψουν όταν κάνετε αιτιώδεις εκτιμήσεις από μη πειραματικά δεδομένα, μπορείτε να παραλείψετε την αφελής προσέγγιση και να εξετάσετε το ενδεχόμενο να εκτελέσετε ένα πείραμα πεδίου όπου θα πωλήσετε ένα συγκεκριμένο στοιχείο - σύνολο παραμέτρων δημοπρασίας-ας πούμε, δωρεάν αποστολή και δημοπρασία ανοικτή για δύο εβδομάδες-αλλά με τυχαία εκχωρημένες τιμές εκκίνησης. Συγκρίνοντας τα προκύπτοντα αποτελέσματα αγοράς, αυτό το πειραματικό πεδίο θα προσφέρει μια πολύ σαφή μέτρηση της επίδρασης της τιμής εκκίνησης στην τιμή πώλησης. Αλλά αυτή η μέτρηση θα ισχύει μόνο για ένα συγκεκριμένο προϊόν και ένα σύνολο παραμέτρων δημοπρασίας. Τα αποτελέσματα μπορεί να είναι διαφορετικά, για παράδειγμα, για διαφορετικούς τύπους προϊόντων. Χωρίς μια ισχυρή θεωρία, είναι δύσκολο να προεκτείνουμε από αυτό το μοναδικό πείραμα την πλήρη σειρά πιθανών πειραμάτων που θα μπορούσαν να εκτελεστούν. Επιπλέον, τα πειράματα πεδίου είναι αρκετά δαπανηρά ώστε να μην είναι εφικτή η εκτέλεση κάθε παραλλαγής που ίσως θέλετε να δοκιμάσετε.

Σε αντίθεση με τις αφελείς και πειραματικές προσεγγίσεις, ο Einav και οι συνάδελφοί του υιοθέτησαν μια τρίτη προσέγγιση: αντιστοίχιση. Το βασικό κόλπο της στρατηγικής τους είναι να ανακαλύψουν πράγματα παρόμοια με πειράματα πεδίου που έχουν ήδη συμβεί στο eBay. Για παράδειγμα, το σχήμα 2.8 δείχνει μερικές από τις 31 καταχωρίσεις για το ίδιο ακριβώς γκολφ - ένα Taylormade Burner 09 Driver-που πωλείται από τον ίδιο πωλητή - "budgetgolfer." Ωστόσο, αυτές οι 31 καταχωρήσεις έχουν ελαφρώς διαφορετικά χαρακτηριστικά, την τιμή, τις ημερομηνίες λήξης και τα έξοδα αποστολής. Με άλλα λόγια, είναι σαν το "budgetgolfer" να τρέχει πειράματα για τους ερευνητές.

Αυτές οι καταχωρίσεις του οδηγού Taylormade Burner 09 που πωλούνται από το "budgetgolfer" είναι ένα παράδειγμα ενός συνδυασμένου συνδυασμού λιστών, όπου το ίδιο ακριβώς είδος πωλείται από τον ίδιο ακριβώς πωλητή, αλλά κάθε φορά με ελαφρώς διαφορετικά χαρακτηριστικά. Μέσα στα μαζικά αρχεία καταγραφής του eBay υπάρχουν κυριολεκτικά εκατοντάδες χιλιάδες συνδυασμένων σειρών που περιλαμβάνουν εκατομμύρια καταχωρίσεις. Έτσι, αντί να συγκρίνει την τελική τιμή για όλους τους πλειστηριασμούς με μια δεδομένη τιμή εκκίνησης, ο Einav και οι συνάδελφοί του συγκρίνουν τις αντιστοιχίες. Προκειμένου να συνδυαστούν τα αποτελέσματα από τις συγκρίσεις εντός αυτών των εκατοντάδων χιλιάδων συνδυασμένων συνόλων, ο Einav και οι συνεργάτες του εκ νέου εξέφρασαν την τιμή εκκίνησης και την τελική τιμή σε σχέση με την τιμή αναφοράς κάθε στοιχείου (π.χ. μέση τιμή πώλησης). Για παράδειγμα, αν ο οδηγός Taylormade Burner 09 είχε τιμή αναφοράς $ 100 (με βάση τις πωλήσεις του), τότε μια τιμή εκκίνησης $ 10 θα εκφραζόταν ως 0,1 και τελική τιμή $ 120 ως 1,2.

Εικόνα 2.8: Παράδειγμα αντιστοίχου συνόλου. Αυτή είναι ακριβώς η ίδια λέσχη γκολφ (Taylormade Burner 09 Driver) που πωλείται από το ίδιο άτομο (budgetgolfer), αλλά ορισμένες από αυτές τις πωλήσεις πραγματοποιήθηκαν υπό διαφορετικές συνθήκες (π.χ. διαφορετικές τιμές εκκίνησης). Αναπαράγεται με την άδεια του Einav et al. (2015), σχήμα 1b.

Εικόνα 2.8: Παράδειγμα αντιστοίχου συνόλου. Αυτή είναι ακριβώς η ίδια λέσχη γκολφ (Taylormade Burner 09 Driver) που πωλείται από το ίδιο άτομο ("budgetgolfer"), αλλά ορισμένες από αυτές τις πωλήσεις πραγματοποιήθηκαν υπό διαφορετικές συνθήκες (π.χ. διαφορετικές τιμές εκκίνησης). Αναπαράγεται με την άδεια του Einav et al. (2015) , σχήμα 1b.

Υπενθυμίζουμε ότι ο Einav και οι συνεργάτες του ενδιαφέρονταν για την επίδραση της τιμής εκκίνησης στα αποτελέσματα των δημοπρασιών. Πρώτον, χρησιμοποίησαν γραμμική υποχώρηση για να εκτιμήσουν ότι οι υψηλότερες τιμές εκκίνησης μειώνουν την πιθανότητα μιας πώλησης και ότι υψηλότερες τιμές εκκίνησης αυξάνουν την τελική τιμή πώλησης (εξαρτώμενη από την πραγματοποίηση πώλησης). Από μόνα τους, αυτές οι εκτιμήσεις - οι οποίες περιγράφουν μια γραμμική σχέση και υπολογίζονται κατά μέσο όρο σε όλα τα προϊόντα - δεν είναι όλα αυτά ενδιαφέροντα. Στη συνέχεια, ο Einav και οι συνάδελφοί του χρησιμοποίησαν το τεράστιο μέγεθος των δεδομένων τους για να δημιουργήσουν μια ποικιλία πιο λεπτών εκτιμήσεων. Για παράδειγμα, υπολογίζοντας ξεχωριστά το αποτέλεσμα για μια ποικιλία διαφορετικών τιμών εκκίνησης, διαπίστωσαν ότι η σχέση μεταξύ τιμής εκκίνησης και τιμής πώλησης είναι μη γραμμική (σχήμα 2.9). Συγκεκριμένα, για την εκκίνηση των τιμών μεταξύ 0,05 και 0,85, η τιμή εκκίνησης έχει πολύ μικρή επίπτωση στην τιμή πώλησης, ένα συμπέρασμα που αποκόπηκε εντελώς από την πρώτη τους ανάλυση. Επιπλέον, αντί να υπολογίζεται ο μέσος όρος για όλα τα στοιχεία, ο Einav και οι συνεργάτες του εκτιμούσαν τον αντίκτυπο της τιμής εκκίνησης για 23 διαφορετικές κατηγορίες αντικειμένων (π.χ. προμήθειες για ζώα συντροφιάς, ηλεκτρονικά είδη και αναμνηστικά για αθλητισμό) (σχήμα 2.10). Αυτές οι εκτιμήσεις δείχνουν ότι για πιο διακριτά αντικείμενα - όπως τα αναμνηστικά - η τιμή εκκίνησης έχει μικρότερη επίδραση στην πιθανότητα πώλησης και μεγαλύτερη επίδραση στην τελική τιμή πώλησης. Περαιτέρω, για τα προϊόντα που είναι πιο εύκαμπτα, όπως τα DVD, η τιμή εκκίνησης δεν έχει σχεδόν καμία επίδραση στην τελική τιμή. Με άλλα λόγια, ένας μέσος όρος που συνδυάζει τα αποτελέσματα από 23 διαφορετικές κατηγορίες αντικειμένων κρύβει σημαντικές διαφορές μεταξύ αυτών των στοιχείων.

Σχήμα 2.9: Σχέση μεταξύ τιμής εκκίνησης και πιθανότητας πώλησης (α) και τιμής πώλησης (β). Υπάρχει περίπου γραμμική σχέση μεταξύ της τιμής έναρξης και της πιθανότητας πώλησης, αλλά μια μη γραμμική σχέση μεταξύ της τιμής εκκίνησης και της τιμής πώλησης. για την εκκίνηση των τιμών μεταξύ 0,05 και 0,85, η τιμή εκκίνησης έχει πολύ μικρή επίπτωση στην τιμή πώλησης. Και στις δύο περιπτώσεις, οι σχέσεις είναι βασικά ανεξάρτητες από την αξία του στοιχείου. Προσαρμοσμένη από τους Einav et αϊ. (2015), τα σχήματα 4α και 4b.

Σχήμα 2.9: Σχέση μεταξύ τιμής εκκίνησης και πιθανότητας πώλησης (α) και τιμής πώλησης (β). Υπάρχει περίπου γραμμική σχέση μεταξύ της τιμής έναρξης και της πιθανότητας πώλησης, αλλά μια μη γραμμική σχέση μεταξύ της τιμής εκκίνησης και της τιμής πώλησης. για την εκκίνηση των τιμών μεταξύ 0,05 και 0,85, η τιμή εκκίνησης έχει πολύ μικρή επίπτωση στην τιμή πώλησης. Και στις δύο περιπτώσεις, οι σχέσεις είναι βασικά ανεξάρτητες από την αξία του στοιχείου. Προσαρμοσμένη από τους Einav et al. (2015) , τα σχήματα 4α και 4b.

Σχήμα 2.10: Εκτιμήσεις από κάθε κατηγορία αντικειμένων. η σταθερή τιμή είναι η εκτίμηση για όλες τις κατηγορίες που συγκεντρώνονται μαζί (Einav et al., 2015). Αυτές οι εκτιμήσεις δείχνουν ότι για πιο διακριτά στοιχεία - όπως τα αναμνηστικά - η τιμή εκκίνησης έχει μικρότερη επίδραση στην πιθανότητα πώλησης (άξονα x) και μεγαλύτερη επίδραση στην τελική τιμή πώλησης (άξονας y). Προσαρμοσμένη από τους Einav et αϊ. (2015), σχήμα 8.

Σχήμα 2.10: Εκτιμήσεις από κάθε κατηγορία αντικειμένων. η σταθερή τιμή είναι η εκτίμηση για όλες τις κατηγορίες που συγκεντρώνονται μαζί (Einav et al. 2015) . Αυτές οι εκτιμήσεις δείχνουν ότι για πιο διακριτά στοιχεία - όπως τα αναμνηστικά - η τιμή εκκίνησης έχει μικρότερο αντίκτυπο στην πιθανότητα μιας πώλησης ( \(x\) -axis) και μια μεγαλύτερη επίδραση στην τελική τιμή πώλησης ( \(y\) -άξονας). Προσαρμοσμένη από τους Einav et al. (2015) , σχήμα 8.

Ακόμη και αν δεν ενδιαφέρεστε ιδιαίτερα για δημοπρασίες στο eBay, θα πρέπει να θαυμάσετε τον τρόπο που το σχήμα 2.9 και το σχήμα 2.10 προσφέρουν μια πλουσιότερη κατανόηση του eBay από απλές εκτιμήσεις που περιγράφουν μια γραμμική σχέση και συνδυάζουν πολλές διαφορετικές κατηγορίες αντικειμένων. Περαιτέρω, αν και θα ήταν επιστημονικά εφικτό να δημιουργηθούν αυτές οι πιο λεπτές εκτιμήσεις με πειράματα πεδίου, το κόστος θα κατέστησε τέτοια πειράματα ουσιαστικά αδύνατο.

Όπως συμβαίνει με τα φυσικά πειράματα, υπάρχουν διάφοροι τρόποι με τους οποίους η αντιστοίχιση μπορεί να οδηγήσει σε κακές εκτιμήσεις. Νομίζω ότι η μεγαλύτερη ανησυχία με τις αντίστοιχες εκτιμήσεις είναι ότι μπορούν να προκαταληφθούν από πράγματα που δεν χρησιμοποιήθηκαν στην αντιστοίχιση. Για παράδειγμα, στα κύρια αποτελέσματά τους, ο Einav και οι συνεργάτες του έκαναν ακριβή αντιστοίχιση σε τέσσερα χαρακτηριστικά: τον αριθμό αναγνώρισης του πωλητή, την κατηγορία στοιχείων, τον τίτλο του στοιχείου και τους υπότιτλους. Εάν τα στοιχεία ήταν διαφορετικά με τρόπους που δεν χρησιμοποιήθηκαν για αντιστοίχιση, τότε αυτό θα μπορούσε να δημιουργήσει μια άδικη σύγκριση. Για παράδειγμα, αν το budgetgolfer μείωσε τις τιμές για τον οδηγό Taylormade Burner 09 το χειμώνα (όταν τα κλαμπ γκολφ είναι λιγότερο δημοφιλείς), τότε θα μπορούσε να φανεί ότι οι χαμηλότερες τιμές εκκίνησης οδηγούν σε χαμηλότερες τελικές τιμές, ενώ στην πραγματικότητα αυτό θα ήταν ένα τεχνούργημα εποχιακή διακύμανση της ζήτησης. Μια προσέγγιση για την αντιμετώπιση αυτής της ανησυχίας προσπαθεί πολλά διαφορετικά είδη αντιστοίχισης. Για παράδειγμα, οι Einav και οι συνάδελφοί τους επανέλαβαν την ανάλυσή τους, αλλάζοντας το χρονικό παράθυρο που χρησιμοποιήθηκε για την αντιστοίχιση (τα ταιριαστά σύνολα περιελάμβαναν στοιχεία που πωλούνταν εντός ενός έτους, μέσα σε ένα μήνα και ταυτόχρονα). Ευτυχώς, βρήκαν παρόμοια αποτελέσματα για όλα τα παράθυρα χρόνου. Μια περαιτέρω ανησυχία για την αντιστοίχιση προκύπτει από την ερμηνεία. Οι εκτιμήσεις από την αντιστοίχιση ισχύουν μόνο για αντιστοιχισμένα δεδομένα. δεν ισχύουν για τις περιπτώσεις που δεν μπορούσαν να συνδυαστούν. Για παράδειγμα, περιορίζοντας την έρευνά τους σε αντικείμενα με πολλαπλές λίστες, η Einav και οι συνεργάτες της επικεντρώνονται σε επαγγελματίες και ημι-επαγγελματίες πωλητές. Έτσι, κατά την ερμηνεία αυτών των συγκρίσεων πρέπει να θυμόμαστε ότι ισχύουν μόνο για αυτό το υποσύνολο του eBay.

Η αντιστοίχιση είναι μια ισχυρή στρατηγική για την εξεύρεση δίκαιων συγκρίσεων σε μη πειραματικά δεδομένα. Για πολλούς κοινωνικούς επιστήμονες, η αντιστοίχιση θεωρείται δεύτερη καλύτερη σε πειράματα, αλλά αυτή είναι μια πεποίθηση που μπορεί να αναθεωρηθεί, ελαφρώς. Η αντιστοίχιση σε μαζικά δεδομένα μπορεί να είναι καλύτερη από ένα μικρό αριθμό πειραμάτων πεδίου όταν (1) η ετερογένεια των επιδράσεων είναι σημαντική και (2) έχουν μετρηθεί οι σημαντικές μεταβλητές που απαιτούνται για την αντιστοίχιση. Ο Πίνακας 2.4 παρέχει μερικά άλλα παραδείγματα για τον τρόπο με τον οποίο η αντιστοίχιση μπορεί να χρησιμοποιηθεί με μεγάλες πηγές δεδομένων.

Πίνακας 2.4: Παραδείγματα μελετών που χρησιμοποιούν αντιστοίχιση με μεγάλες πηγές δεδομένων
Ουσιαστική εστίαση Μεγάλη πηγή δεδομένων Αναφορά
Επίδραση των πυροβολισμών στη βία της αστυνομίας Σταματήστε και ακούστε τα αρχεία Legewie (2016)
Επίδραση της 11ης Σεπτεμβρίου 2001 στις οικογένειες και τους γείτονες Ψηφίσματα ψηφοφορίας και αρχεία δωρεάς Hersh (2013)
Κοινωνική μόλυνση Δεδομένα επικοινωνίας και υιοθεσίας προϊόντων Aral, Muchnik, and Sundararajan (2009)

Συμπερασματικά, η εκτίμηση των αιτιακών αποτελεσμάτων από μη πειραματικά δεδομένα είναι δύσκολη, αλλά μπορούν να χρησιμοποιηθούν προσεγγίσεις όπως φυσικά πειράματα και στατιστικές προσαρμογές (π.χ. αντιστοίχιση). Σε ορισμένες περιπτώσεις, αυτές οι προσεγγίσεις μπορεί να πάθουν κακώς λάθος, αλλά όταν αναπτύσσονται προσεκτικά, αυτές οι προσεγγίσεις μπορούν να αποτελέσουν ένα χρήσιμο συμπλήρωμα στην πειραματική προσέγγιση που περιγράφω στο κεφάλαιο 4. Επιπλέον, αυτές οι δύο προσεγγίσεις φαίνονται ιδιαίτερα πιθανό να επωφεληθούν από την ανάπτυξη πάντα- στα μεγάλα συστήματα δεδομένων.