2.4.3.2 Matching

Terjemahan ini diciptakan oleh komputer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

2.4.3.2 Matching

Pencocokan membuat perbandingan yang adil dengan memangkas pergi kasus.

perbandingan yang adil dapat berasal dari salah acak terkontrol percobaan atau eksperimen alami. Tapi, ada banyak situasi di mana Anda tidak dapat menjalankan percobaan yang ideal dan alam belum tersedia eksperimen alami. Dalam pengaturan ini, cara terbaik untuk membuat perbandingan yang adil adalah pencocokan. Dalam pencocokan, peneliti terlihat melalui data non-eksperimental untuk membuat pasangan orang yang sama kecuali satu yang telah menerima pengobatan dan satu tidak. Dalam proses pencocokan, peneliti sebenarnya juga pemangkasan; yaitu, membuang kasus di mana tidak ada perbandingan yang jelas. Dengan demikian, metode ini akan lebih tepat jika disebut pencocokan-dan-pemangkasan, tapi aku akan tetap dengan istilah tradisional: pencocokan.

Sebuah contoh yang indah dari kekuatan pencocokan strategi dengan sumber data non-eksperimental besar berasal dari penelitian tentang perilaku konsumen dengan Liran Einav dan rekan (2015) . Einav dan rekan tertarik dalam lelang berlangsung di eBay, dan dalam menggambarkan pekerjaan mereka, saya akan fokus pada satu aspek tertentu: efek lelang mulai harga pada hasil lelang, seperti harga jual atau probabilitas penjualan.

Cara yang paling naif untuk menjawab pertanyaan tentang pengaruh harga mulai dari harga jual untuk hanya akan menghitung harga akhir untuk lelang dengan harga awal yang berbeda. Pendekatan ini akan baik-baik saja jika Anda hanya ingin memprediksi harga jual dari barang yang diberikan yang telah dimasukkan di eBay dengan harga mulai diberikan. Tapi, jika pertanyaan Anda adalah apa efek dari mulai harga pada hasil pasar pendekatan ini tidak akan bekerja karena tidak didasarkan pada perbandingan yang adil; lelang dengan harga awal yang lebih rendah mungkin sangat berbeda dari lelang dengan harga awal yang lebih tinggi (misalnya, mereka mungkin untuk berbagai jenis barang atau mencakup berbagai jenis penjual).

Jika Anda sudah khawatir tentang membuat perbandingan yang adil, Anda mungkin melewatkan pendekatan naif dan menjalankan eksperimen bidang di mana Anda akan menjual khusus barang-mengatakan, klub-dengan golf tetap set lelang parameter-mengatakan, pengiriman gratis, lelang terbuka selama dua minggu, dll-tapi dengan acak menetapkan harga mulai. Dengan membandingkan hasil pasar yang dihasilkan, percobaan lapangan ini akan menawarkan pengukuran yang sangat jelas tentang efek dari mulai harga pada harga jual. Tapi, pengukuran ini hanya akan berlaku untuk satu produk tertentu dan mengatur parameter lelang. Hasil mungkin berbeda, misalnya, untuk berbagai jenis produk. Tanpa teori yang kuat, sulit untuk ekstrapolasi dari percobaan tunggal ini berbagai kemungkinan eksperimen yang bisa dijalankan. Selanjutnya, percobaan lapangan yang cukup mahal yang akan layak untuk menjalankan cukup dari mereka untuk menutupi ruang parameter seluruh produk dan jenis lelang.

Berbeda dengan pendekatan naif dan pendekatan eksperimental, Einav dan rekan mengambil pendekatan ketiga: pencocokan. Trik utama dari strategi mereka adalah untuk menemukan hal-hal yang sama dengan percobaan lapangan yang telah terjadi di eBay. Misalnya, Gambar 2.6 menunjukkan beberapa 31 daftar untuk persis golf club-a sama Taylormade Burner 09 driver-yang dijual oleh persis Penjual- "budgetgolfer" yang sama. Namun, daftar ini memiliki karakteristik yang sedikit berbeda. Sebelas dari mereka menawarkan driver untuk harga tetap $ 124,99, sementara yang lain 20 adalah lelang dengan tanggal akhir yang berbeda. Juga, daftar menetapkan biaya pengiriman yang berbeda, baik $ 7,99 atau $ 9,99. Dengan kata lain, seolah-olah "budgetgolfer" berjalan eksperimen untuk peneliti.

Daftar dari Taylormade Burner 09 driver yang dijual oleh "budgetgolfer" adalah salah satu contoh dari serangkaian cocok listing, di mana item yang sama persis yang dijual oleh penjual yang sama persis, tetapi setiap kali dengan karakteristik yang sedikit berbeda. Dalam log besar eBay ada ratusan ribu set cocok melibatkan jutaan daftar. Jadi, daripada membandingkan harga akhir untuk semua lelang dalam harga mulai diberikan, Einav dan rekan membuat perbandingan dalam set cocok. Untuk menggabungkan hasil dari perbandingan dalam ratusan ribu set cocok, Einav dan rekan re-mengungkapkan harga awal dan harga akhir dari segi nilai referensi dari setiap item (misalnya, harga jual rata-rata). Misalnya, jika Taylormade Burner 09 driver memiliki nilai referensi dari $ 100 (berdasarkan penjualan), maka harga mulai dari $ 10 akan dinyatakan sebagai 0,1 dan harga akhir $ 120 akan dinyatakan sebagai 1,2.

Gambar 2.6: Contoh set cocok. Ini adalah tepat klub golf yang sama (a Taylormade Burner 09 Driver) yang dijual oleh orang yang sama persis ( "budgetgolfer"), tetapi beberapa penjualan tersebut dilakukan kondisi yang berbeda (misalnya, harga awal yang berbeda). Gambar diambil dari Einav et al. (2015) .

Ingat bahwa Einav dan rekan tertarik pada efek dari harga awal pada hasil lelang. Pertama, menggunakan regresi linier mereka memperkirakan bahwa harga awal yang tinggi mengurangi kemungkinan penjualan, dan bahwa harga awal yang lebih tinggi meningkatkan harga penjualan akhir, tergantung pada penjualan terjadi. Sendiri, perkiraan-mana ini rata-rata lebih dari semua produk dan menganggap hubungan linear antara harga awal dan akhir hasil-tidak semua yang menarik. Tapi, Einav dan rekan juga menggunakan ukuran besar data mereka untuk memperkirakan berbagai temuan yang lebih halus. Pertama, Einav dan rekan membuat perkiraan ini secara terpisah untuk produk dari harga yang berbeda dan tanpa menggunakan regresi linear. Mereka menemukan bahwa sementara hubungan antara harga awal dan kemungkinan penjualan adalah linear, hubungan antara harga awal dan harga jual jelas non-linear (Gambar 2.7). Secara khusus, untuk memulai harga antara 0,05 dan 0,85, harga mulai memiliki dampak yang sangat kecil pada harga jual, sebuah temuan yang selesai terjawab dalam analisis yang telah diasumsikan hubungan linear.

Gambar 2.7: Hubungan antara harga awal lelang dan kemungkinan penjualan (panel kiri) dan harga jual (panel kanan). Ada kira-kira hubungan linear antara harga awal dan kemungkinan dijual, tetapi ada hubungan non-linear antara harga awal dan harga jual; untuk memulai harga antara 0,05 dan 0,85, harga mulai memiliki dampak yang sangat kecil pada harga jual. Dalam kedua kasus, hubungan pada dasarnya independen dari nilai barang. Grafik ini mereproduksi Gambar 4a dan 4b Einav et al. (2015) .

Kedua, daripada rata-rata lebih semuanya, Einav dan rekan juga menggunakan skala besar data mereka untuk memperkirakan dampak dari harga awal untuk 23 kategori yang berbeda dari item (misalnya, persediaan hewan peliharaan, elektronik, dan memorabilia olahraga) (Gambar 2.8). Perkiraan ini menunjukkan bahwa lebih khas item-seperti harga memorabilia-start memiliki efek yang lebih kecil pada kemungkinan penjualan dan efek yang lebih besar pada harga penjualan akhir. Selanjutnya, untuk lebih terkomodifikasi item-seperti DVD dan video harga awal hampir tidak berdampak pada harga akhir. Dengan kata lain, rata-rata yang menggabungkan hasil dari 23 kategori yang berbeda dari item menyembunyikan informasi penting tentang perbedaan antara barang-barang tersebut.

Gambar 2.8: Hasil penelitian menunjukkan perkiraan dari masing-masing kategori individual; titik yang solid dalam perkiraan untuk semua kategori dikumpulkan bersama-sama (Einav et al. 2015, Table 11) . Perkiraan ini menunjukkan bahwa lebih khas item-seperti memorabilia-harga mulai memiliki efek yang lebih kecil pada kemungkinan penjualan (x-axis) dan efek yang lebih besar pada harga penjualan akhir (y-axis).

Bahkan jika Anda tidak tertarik dalam lelang di eBay, Anda harus mengagumi cara yang Gambar 2.7 dan Gambar 2.8 menawarkan pemahaman yang lebih kaya dari eBay dari perkiraan regresi linier sederhana yang mengasumsikan hubungan linear dan menggabungkan berbagai kategori item. Ini perkiraan yang lebih halus menggambarkan kekuatan yang cocok dalam data besar; perkiraan ini tidak mungkin tanpa sejumlah besar percobaan lapangan, yang akan menjadi mahal.

Tentu saja, kita harus memiliki kurang kepercayaan hasil dari setiap penelitian yang cocok tertentu daripada kita akan di hasil percobaan sebanding. Ketika menilai hasil dari setiap penelitian yang cocok, ada dua masalah penting. Pertama, kita harus ingat bahwa kita hanya dapat memastikan perbandingan yang adil pada hal-hal yang digunakan untuk pencocokan. Dalam hasil utama mereka, Einav dan rekan tidak tepat pencocokan pada empat karakteristik: penjual nomor ID, kategori item, judul item, dan subtitle. Jika item yang berbeda dalam cara-cara yang tidak digunakan untuk pencocokan, yang bisa membuat perbandingan yang tidak adil. Sebagai contoh, jika "budgetgolfer" menurunkan harga untuk Taylormade Burner 09 driver di musim dingin (ketika klub golf kurang populer), maka bisa muncul bahwa harga awal yang lebih rendah menyebabkan menurunkan harga akhir, padahal sebenarnya ini akan menjadi artefak musiman variasi dalam permintaan. Secara umum, pendekatan terbaik untuk masalah ini tampaknya akan berusaha berbagai macam pencocokan. Misalnya, Einav dan rekan mengulangi analisis mereka di mana set cocok termasuk item dijual dalam satu tahun, dalam waktu satu bulan, dan serentak. Membuat jendela waktu ketat mengurangi jumlah set cocok, tetapi mengurangi kekhawatiran tentang variasi musiman. Untungnya, mereka menemukan bahwa hasilnya tidak berubah oleh perubahan-perubahan dalam kriteria yang cocok. Dalam literatur yang cocok, jenis perhatian biasanya dinyatakan dalam hal diamati dan unobservables, tetapi gagasan kunci adalah benar-benar bahwa para peneliti hanya menciptakan perbandingan yang adil pada fitur yang digunakan dalam pencocokan.

Perhatian utama kedua ketika menafsirkan hasil yang cocok adalah bahwa mereka hanya berlaku untuk data yang cocok; mereka tidak berlaku untuk kasus-kasus yang tidak bisa dicocokkan. Misalnya, dengan membatasi penelitian mereka untuk item yang memiliki beberapa listing Einav dan rekan berfokus pada penjual profesional dan semi-profesional. Dengan demikian, ketika menafsirkan perbandingan ini kita harus ingat bahwa mereka hanya berlaku untuk bagian ini eBay.

Pencocokan strategi yang kuat untuk menemukan perbandingan yang adil di dataset besar. Untuk banyak ilmuwan sosial, pencocokan terasa seperti terbaik kedua untuk percobaan, tapi itu adalah kepercayaan yang harus direvisi, sedikit. Pencocokan data besar mungkin lebih baik daripada sejumlah kecil percobaan lapangan saat: 1) heterogenitas di efek penting dan 2) ada diamati baik untuk pencocokan. Tabel 2.4 memberikan beberapa contoh lain tentang bagaimana yang cocok dapat digunakan dengan sumber data yang besar.

Tabel 2.4: Contoh penelitian yang menggunakan pencocokan untuk menemukan perbandingan yang adil dalam jejak digital.
fokus substantif	Sumber data besar	Kutipan
Pengaruh penembakan tentang kekerasan polisi	Stop-dan-penggeledahan catatan	Legewie (2016)
Pengaruh 11 September 2001 tentang keluarga dan tetangga	catatan suara dan catatan donasi	Hersh (2013)
penularan sosial	Komunikasi dan adopsi data produk	Aral, Muchnik, and Sundararajan (2009)

Kesimpulannya, pendekatan naif untuk memperkirakan efek kausal dari data non-eksperimental yang berbahaya. Namun, strategi untuk membuat estimasi kausal berbaring sepanjang kontinum dari terkuat ke terlemah, dan peneliti dapat menemukan perbandingan yang adil dalam data non-eksperimental. Pertumbuhan selalu-on, sistem data besar meningkatkan kemampuan kita untuk secara efektif menggunakan dua metode yang ada: eksperimen alami dan cocok.