2.4.3 thí nghiệm Tạo xấp xỉ

Bản dịch này đã được tạo ra bởi một máy tính. ×

2.4.3 thí nghiệm Tạo xấp xỉ

Chúng tôi có thể thử nghiệm gần đúng mà chúng tôi đã không hoặc không thể làm. Hai cách tiếp cận đặc biệt được hưởng lợi từ các nguồn dữ liệu lớn là các thí nghiệm tự nhiên và phù hợp.

Một số câu hỏi khoa học và chính sách quan trọng là nhân quả. Ví dụ, hiệu quả của chương trình đào tạo nghề về tiền lương là gì? Một nhà nghiên cứu đang cố gắng trả lời câu hỏi này có thể so sánh thu nhập của những người đã đăng ký đào tạo cho những người không tham gia. Nhưng có bao nhiêu sự khác biệt trong tiền lương giữa các nhóm này là do đào tạo và bao nhiêu là do sự khác biệt trước đây giữa những người đăng ký và những người không? Đây là một câu hỏi khó, và đó là một câu hỏi không tự động biến mất với nhiều dữ liệu hơn. Nói cách khác, mối quan tâm về sự khác biệt có thể tồn tại từ trước có thể xảy ra cho dù có bao nhiêu công nhân trong dữ liệu của bạn.

Trong nhiều trường hợp, cách mạnh nhất để ước tính hiệu quả nhân quả của một số điều trị, chẳng hạn như đào tạo nghề, là chạy một thử nghiệm ngẫu nhiên có đối chứng, nơi một nhà nghiên cứu phân phối ngẫu nhiên cách điều trị cho một số người chứ không phải người khác. Tôi sẽ dành tất cả chương 4 cho các thí nghiệm, vì vậy ở đây tôi sẽ tập trung vào hai chiến lược có thể được sử dụng với dữ liệu phi thực nghiệm. Chiến lược đầu tiên phụ thuộc vào việc tìm kiếm một cái gì đó đang xảy ra trên thế giới ngẫu nhiên (hoặc gần như ngẫu nhiên) chỉ định việc điều trị cho một số người chứ không phải cho người khác. Chiến lược thứ hai phụ thuộc vào thống kê điều chỉnh dữ liệu phi thực nghiệm trong một nỗ lực để tính toán sự khác biệt có từ trước giữa những người đã làm và không nhận được điều trị.

Một người hoài nghi có thể khẳng định rằng cả hai chiến lược này nên tránh vì chúng đòi hỏi giả định mạnh mẽ, giả định khó đánh giá và thực tế, thường bị vi phạm. Trong khi tôi thông cảm với tuyên bố này, tôi nghĩ rằng nó đi một chút quá xa. Nó chắc chắn đúng là rất khó để có thể ước tính nhân quả một cách đáng tin cậy từ dữ liệu phi thực nghiệm, nhưng tôi không nghĩ điều đó có nghĩa là chúng ta không bao giờ nên thử. Đặc biệt, các phương pháp tiếp cận phi thử nghiệm có thể hữu ích nếu ràng buộc hậu cần ngăn cản bạn tiến hành một thử nghiệm hoặc nếu các ràng buộc đạo đức có nghĩa là bạn không muốn chạy thử nghiệm. Hơn nữa, các phương pháp tiếp cận phi thử nghiệm có thể hữu ích nếu bạn muốn tận dụng lợi thế của dữ liệu đã tồn tại để thiết kế một thử nghiệm được kiểm soát ngẫu nhiên.

Trước khi tiếp tục, nó cũng đáng chú ý rằng làm cho ước tính nhân quả là một trong những chủ đề phức tạp nhất trong nghiên cứu xã hội, và một trong đó có thể dẫn đến cuộc tranh luận dữ dội và tình cảm. Trong phần tiếp theo, tôi sẽ đưa ra một mô tả lạc quan về từng cách tiếp cận để xây dựng trực giác về nó, sau đó tôi sẽ mô tả một số thách thức nảy sinh khi sử dụng phương pháp đó. Các chi tiết khác về mỗi phương pháp tiếp cận có sẵn trong các tài liệu ở cuối chương này. Nếu bạn có kế hoạch sử dụng một trong những cách tiếp cận này trong nghiên cứu của riêng bạn, tôi khuyên bạn nên đọc một trong những cuốn sách tuyệt vời về suy luận nhân quả (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

Một cách tiếp cận để thực hiện ước tính nhân quả từ dữ liệu phi thực nghiệm là tìm kiếm một sự kiện đã chỉ định ngẫu nhiên cách điều trị cho một số người chứ không phải cho người khác. Những tình huống này được gọi là thí nghiệm tự nhiên . Một trong những ví dụ rõ ràng nhất của một thí nghiệm tự nhiên xuất phát từ nghiên cứu của Joshua Angrist (1990) đo lường ảnh hưởng của các dịch vụ quân sự đối với thu nhập. Trong chiến tranh ở Việt Nam, Hoa Kỳ đã tăng quy mô lực lượng vũ trang của mình thông qua một dự thảo. Để quyết định công dân nào sẽ được đưa vào phục vụ, chính phủ Hoa Kỳ đã tổ chức bốc thăm. Mỗi ngày sinh được viết trên một mảnh giấy, và, như thể hiện trong hình 2.7, những mảnh giấy này được chọn từng lần để xác định thứ tự mà những người đàn ông trẻ tuổi sẽ được gọi để phục vụ (phụ nữ trẻ không phải là môn học vào bản nháp). Dựa trên kết quả, những người đàn ông sinh ngày 14 tháng 9 được gọi là đầu tiên, những người đàn ông sinh ngày 24 tháng 4 được gọi là thứ hai, và cứ thế. Cuối cùng, trong cuộc xổ số này, những người đàn ông sinh ra trong 195 ngày khác nhau đã được soạn thảo, trong khi những người đàn ông sinh ra trong 171 ngày thì không.

Hình 2.7: Dân biểu Alexander Pirnie (R-NY) vẽ viên nang đầu tiên cho dự thảo Lựa chọn dịch vụ vào ngày 1 tháng 12 năm 1969. Joshua Angrist (1990) kết hợp dự thảo xổ số với dữ liệu thu nhập từ Cơ quan An sinh Xã hội để ước tính hiệu quả của dịch vụ quân sự về thu nhập. Đây là một ví dụ về nghiên cứu sử dụng thử nghiệm tự nhiên. Nguồn: Hệ thống dịch vụ chọn lọc của Hoa Kỳ (1969) / Wikimedia Commons .

Mặc dù nó có thể không rõ ràng ngay lập tức, một dự thảo xổ số có một điểm tương đồng quan trọng đối với một thử nghiệm ngẫu nhiên có đối chứng: trong cả hai tình huống, những người tham gia được phân ngẫu nhiên để được điều trị. Để nghiên cứu ảnh hưởng của phương pháp điều trị ngẫu nhiên này, Angrist đã lợi dụng một hệ thống dữ liệu lớn luôn luôn: Cơ quan An sinh Xã hội Hoa Kỳ, thu thập thông tin về thu nhập của mọi người Mỹ từ việc làm. Bằng cách kết hợp thông tin về người được chọn ngẫu nhiên trong dự thảo xổ số với dữ liệu thu nhập được thu thập trong hồ sơ hành chính của chính phủ, Angrist kết luận rằng thu nhập của các cựu chiến binh thấp hơn khoảng 15% so với thu nhập của các cựu chiến binh.

Như ví dụ này minh họa, đôi khi các lực lượng xã hội, chính trị hoặc tự nhiên chỉ định phương pháp điều trị theo cách có thể được các nhà nghiên cứu tận dụng và đôi khi ảnh hưởng của các phương pháp điều trị này được ghi lại trong các nguồn dữ liệu lớn. Chiến lược nghiên cứu này có thể được tóm tắt như sau: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

Để minh họa cho chiến lược này trong thời đại kỹ thuật số, chúng ta hãy xem xét một nghiên cứu của Alexandre Mas và Enrico Moretti (2009) đã cố gắng ước tính hiệu quả của việc làm việc với các đồng nghiệp sản xuất về năng suất của người lao động. Trước khi nhìn thấy kết quả, nó là giá trị chỉ ra rằng có những kỳ vọng mâu thuẫn mà bạn có thể có. Một mặt, bạn có thể hy vọng rằng làm việc với các đồng nghiệp sản xuất sẽ dẫn một công nhân để tăng năng suất của mình vì áp lực ngang hàng. Hoặc, mặt khác, bạn có thể mong đợi rằng có những người cùng làm việc chăm chỉ có thể khiến một công nhân bị sa thải bởi vì công việc sẽ được thực hiện bởi các đồng nghiệp của cô. Cách rõ ràng nhất để nghiên cứu hiệu ứng đồng đẳng về năng suất sẽ là một thử nghiệm ngẫu nhiên có đối chứng khi người lao động được giao ngẫu nhiên để thay đổi với người lao động ở các mức năng suất khác nhau và kết quả là năng suất được đo cho tất cả mọi người. Tuy nhiên, các nhà nghiên cứu không kiểm soát lịch trình của công nhân trong bất kỳ doanh nghiệp thực sự nào, và vì vậy Mas và Moretti phải dựa vào một thử nghiệm tự nhiên liên quan đến nhân viên thu ngân tại một siêu thị.

Trong siêu thị đặc biệt này, vì cách lập kế hoạch đã được thực hiện và cách thay đổi chồng lên nhau, mỗi nhân viên thu ngân có các đồng nghiệp khác nhau tại các thời điểm khác nhau trong ngày. Hơn nữa, trong siêu thị đặc biệt này, việc phân công nhân viên thu ngân không liên quan đến năng suất của các đồng nghiệp của họ hoặc làm thế nào mà cửa hàng bận rộn. Nói cách khác, mặc dù lịch trình của nhân viên thu ngân không được xác định bằng xổ số, như thể đôi khi công nhân được phân công ngẫu nhiên để làm việc với các đồng nghiệp năng suất cao (hoặc thấp). May mắn thay, siêu thị này cũng có một hệ thống thanh toán kỹ thuật số theo tuổi mà theo dõi các mục mà mỗi nhân viên thu ngân đang quét mọi lúc. Từ dữ liệu nhật ký thanh toán này, Mas và Moretti đã có thể tạo ra một thước đo chính xác, cá nhân và luôn luôn về năng suất: số lượng mục được quét mỗi giây. Kết hợp hai điều này - sự thay đổi tự nhiên về năng suất ngang hàng và năng suất luôn luôn - Mas và Moretti ước tính rằng nếu một nhân viên thu ngân được phân công đồng nghiệp có năng suất cao hơn 10% so với mức trung bình, năng suất của cô ấy sẽ tăng 1,5% . Hơn nữa, họ sử dụng kích thước và sự phong phú của dữ liệu của họ để khám phá hai vấn đề quan trọng: tính không đồng nhất của hiệu ứng này (Các loại công nhân nào lớn hơn?) Và các cơ chế đằng sau hiệu quả năng suất cao hơn?). Chúng ta sẽ trở lại hai vấn đề quan trọng này - tính không đồng nhất của các hiệu ứng và cơ chế điều trị - trong chương 4 khi chúng ta thảo luận các thí nghiệm chi tiết hơn.

Tóm tắt từ hai nghiên cứu này, bảng 2.3 tóm tắt các nghiên cứu khác có cùng cấu trúc này: sử dụng nguồn dữ liệu luôn bật để đo lường tác động của một số biến thể ngẫu nhiên. Trong thực tế, các nhà nghiên cứu sử dụng hai chiến lược khác nhau để tìm kiếm các thí nghiệm tự nhiên, cả hai đều có thể có hiệu quả. Một số nhà nghiên cứu bắt đầu với một nguồn dữ liệu luôn luôn và tìm kiếm các sự kiện ngẫu nhiên trên thế giới; những người khác bắt đầu một sự kiện ngẫu nhiên trên thế giới và tìm kiếm các nguồn dữ liệu nắm bắt được tác động của nó.

Bảng 2.3: Ví dụ về thử nghiệm tự nhiên sử dụng nguồn dữ liệu lớn
Tập trung đáng kể	Nguồn thử nghiệm tự nhiên	Nguồn dữ liệu luôn bật	Tài liệu tham khảo
Hiệu ứng ngang hàng về năng suất	Quy trình lập lịch	Dữ liệu thanh toán	Mas and Moretti (2009)
Hình thành tình bạn	Cơn bão	Facebook	Phan and Airoldi (2015)
Lây lan cảm xúc	Mưa	Facebook	Lorenzo Coviello et al. (2014)
Chuyển khoản kinh tế ngang hàng	Động đất	Dữ liệu tiền di động	Blumenstock, Fafchamps, and Eagle (2011)
Hành vi tiêu dùng cá nhân	2013 Chính phủ Hoa Kỳ tắt máy	Dữ liệu tài chính cá nhân	Baker and Yannelis (2015)
Tác động kinh tế của hệ thống giới thiệu	Đa dạng	Duyệt dữ liệu tại Amazon	Sharma, Hofman, and Watts (2015)
Ảnh hưởng của stress đối với thai nhi	Chiến tranh Israel-Hezbollah 2006	Hồ sơ khai sinh	Torche and Shwed (2015)
Đọc hành vi trên Wikipedia	Những tiết lộ của Snowden	Nhật ký Wikipedia	Penney (2016)
Hiệu ứng ngang hàng trên bài tập	Thời tiết	Trình theo dõi tập thể dục	Aral and Nicolaides (2017)

Trong cuộc thảo luận cho đến nay về các thí nghiệm tự nhiên, tôi đã bỏ ra một điểm quan trọng: đi từ những gì thiên nhiên đã cung cấp cho những gì bạn muốn đôi khi có thể khá phức tạp. Hãy trở về ví dụ dự thảo Việt Nam. Trong trường hợp này, Angrist quan tâm đến việc ước lượng ảnh hưởng của dịch vụ quân sự đối với thu nhập. Thật không may, dịch vụ quân sự không được giao ngẫu nhiên; thay vào đó nó đã được soạn thảo được phân ngẫu nhiên. Tuy nhiên, không phải tất cả những người được soạn thảo phục vụ (có nhiều loại miễn trừ), và không phải tất cả những người phục vụ đều được soạn thảo (mọi người có thể tình nguyện phục vụ). Bởi vì được soạn thảo được phân công ngẫu nhiên, một nhà nghiên cứu có thể ước tính hiệu quả của việc được soạn thảo cho tất cả nam giới trong dự thảo. Nhưng Angrist không muốn biết hiệu quả của việc được soạn thảo; anh muốn biết tác dụng của việc phục vụ trong quân đội. Tuy nhiên, để thực hiện ước tính này, các giả định và biến chứng bổ sung là bắt buộc. Đầu tiên, các nhà nghiên cứu cần giả định rằng cách duy nhất được soạn thảo thu nhập bị ảnh hưởng là thông qua dịch vụ quân sự, một giả định được gọi là hạn chế loại trừ . Giả định này có thể sai nếu, ví dụ, những người đàn ông đã được soạn thảo ở lại trường lâu hơn để tránh phục vụ hoặc nếu người sử dụng lao động ít có khả năng thuê những người đàn ông đã được soạn thảo. Nói chung, hạn chế loại trừ là một giả định quan trọng và thường khó xác minh. Ngay cả khi hạn chế loại trừ là chính xác, vẫn không thể ước tính hiệu quả của dịch vụ đối với tất cả nam giới. Thay vào đó, nó chỉ ra rằng các nhà nghiên cứu chỉ có thể ước tính hiệu quả trên một tập hợp con cụ thể của những người được gọi là người khiếu nại (những người sẽ phục vụ khi được soạn thảo, nhưng sẽ không phục vụ khi không được soạn thảo) (Angrist, Imbens, and Rubin 1996) . Tuy nhiên, các khiếu nại không phải là số lượng người quan tâm ban đầu. Lưu ý rằng những vấn đề này phát sinh ngay cả trong trường hợp tương đối sạch của dự thảo xổ số. Một loạt các biến chứng khác phát sinh khi việc điều trị không được chỉ định bởi một cuộc xổ số thể chất. Ví dụ, trong nghiên cứu của Mas và Moretti về thủ quỹ, các câu hỏi bổ sung nảy sinh về giả định rằng việc phân công đồng nghiệp là cơ bản ngẫu nhiên. Nếu giả định này bị vi phạm mạnh, nó có thể thiên vị các ước tính của họ. Để kết luận, thử nghiệm tự nhiên có thể là một chiến lược mạnh mẽ để ước tính nhân quả từ dữ liệu phi thực nghiệm và các nguồn dữ liệu lớn làm tăng khả năng tận dụng các thử nghiệm tự nhiên của chúng khi chúng xuất hiện. Tuy nhiên, nó có thể sẽ đòi hỏi sự chăm sóc tuyệt vời - và đôi khi những giả định mạnh mẽ - để đi từ những gì thiên nhiên đã cung cấp cho ước tính mà bạn muốn.

Chiến lược thứ hai tôi muốn nói với bạn về việc ước tính nhân quả từ dữ liệu phi thực nghiệm phụ thuộc vào việc điều chỉnh thống kê dữ liệu phi thực nghiệm trong một nỗ lực tính toán sự khác biệt trước đây giữa những người đã làm và không nhận được sự điều trị. Có rất nhiều cách tiếp cận điều chỉnh như vậy, nhưng tôi sẽ tập trung vào một kết hợp được gọi là. Trong kết hợp, nhà nghiên cứu xem xét thông qua dữ liệu phi thực nghiệm để tạo ra các cặp người tương tự, ngoại trừ một người đã được điều trị và người đó không được điều trị. Trong quá trình kết hợp, các nhà nghiên cứu thực sự cũng cắt tỉa ; có nghĩa là, loại bỏ các trường hợp không có kết quả rõ ràng. Vì vậy, phương pháp này sẽ được gọi chính xác hơn là kết hợp-và-cắt tỉa, nhưng tôi sẽ gắn bó với thuật ngữ truyền thống: phù hợp.

Một ví dụ về sức mạnh của các chiến lược phù hợp với các nguồn dữ liệu phi thực nghiệm lớn đến từ nghiên cứu về hành vi của người tiêu dùng bởi Liran Einav và các đồng nghiệp (2015) . Họ quan tâm đến đấu giá diễn ra trên eBay, và trong việc mô tả công việc của họ, tôi sẽ tập trung vào tác động của giá khởi điểm đấu giá trên kết quả đấu giá, chẳng hạn như giá bán hoặc xác suất bán hàng.

Cách ngây thơ nhất để ước tính hiệu quả của giá khởi điểm trên giá bán sẽ đơn giản là tính giá cuối cùng cho các phiên đấu giá với giá khởi điểm khác nhau. Cách tiếp cận này sẽ ổn nếu bạn muốn dự đoán giá bán với giá khởi điểm. Nhưng nếu câu hỏi của bạn liên quan đến hiệu quả của giá khởi điểm, thì cách tiếp cận này sẽ không hoạt động bởi vì nó không dựa trên các so sánh công bằng; các phiên đấu giá với giá khởi điểm thấp hơn có thể khác với giá khởi điểm cao hơn (ví dụ, chúng có thể cho các loại hàng hóa khác nhau hoặc bao gồm các loại người bán khác nhau).

Nếu bạn đã biết về các vấn đề có thể phát sinh khi ước tính nhân quả từ dữ liệu phi thực nghiệm, bạn có thể bỏ qua cách tiếp cận ngây thơ và xem xét chạy thử nghiệm thực địa, nơi bạn sẽ bán một mặt hàng cụ thể — tập hợp các thông số đấu giá — giả sử, giao hàng và đấu giá miễn phí mở trong hai tuần — nhưng với giá khởi điểm được chỉ định ngẫu nhiên. Bằng cách so sánh kết quả thị trường kết quả, thử nghiệm thực địa này sẽ cung cấp một phép đo rất rõ ràng về tác động của giá khởi điểm trên giá bán. Nhưng đo lường này sẽ chỉ áp dụng cho một sản phẩm cụ thể và tập hợp các thông số đấu giá. Kết quả có thể khác, ví dụ, đối với các loại sản phẩm khác nhau. Nếu không có một lý thuyết mạnh mẽ, rất khó để ngoại suy từ thí nghiệm đơn này đến đầy đủ các thí nghiệm có thể đã được chạy. Hơn nữa, các thử nghiệm thực địa là đủ tốn kém nên sẽ không thể chạy mọi biến thể mà bạn có thể muốn thử.

Trái ngược với cách tiếp cận ngây thơ và thử nghiệm, Einav và các đồng nghiệp đã có một cách tiếp cận thứ ba: phù hợp. Bí quyết chính trong chiến lược của họ là khám phá những thứ tương tự như các thử nghiệm thực địa đã xảy ra trên eBay. Ví dụ, hình 2.8 cho thấy một số trong số 31 danh sách cho chính xác cùng một câu lạc bộ golf - một Taylormade Burner 09 Driver - được bán bởi chính xác cùng một người bán- “budgetgolfer.” Tuy nhiên, 31 danh sách này có đặc điểm hơi khác nhau, chẳng hạn như khởi đầu khác nhau giá, ngày kết thúc và phí giao hàng. Nói cách khác, nó giống như là "budgetgolfer" đang chạy thử nghiệm cho các nhà nghiên cứu.

Những danh sách này của Taylormade Burner 09 Driver được bán bởi “budgetgolfer” là một ví dụ về một tập hợp danh sách phù hợp, trong đó mặt hàng chính xác được bán bởi cùng một người bán, nhưng mỗi lần có những đặc điểm hơi khác nhau. Trong các bản ghi khổng lồ của eBay, có hàng trăm nghìn bộ phù hợp liên quan đến hàng triệu danh sách. Do đó, thay vì so sánh giá cuối cùng cho tất cả các phiên đấu giá với một mức giá khởi điểm nhất định, Einav và các đồng nghiệp đã so sánh trong các tập hợp phù hợp. Để kết hợp các kết quả so sánh trong hàng trăm nghìn bộ phù hợp này, Einav và các đồng nghiệp đã biểu thị lại giá khởi điểm và giá cuối cùng về giá trị tham chiếu của từng mặt hàng (ví dụ giá bán trung bình của nó). Ví dụ: nếu trình điều khiển Taylormade Burner 09 có giá trị tham chiếu là 100 đô la (dựa trên doanh thu của nó), thì giá khởi điểm là 10 đô la sẽ được biểu thị bằng 0,1 và giá cuối cùng là 120 đô la là 1,2.

Hình 2.8: Ví dụ về một tập hợp phù hợp. Đây là câu lạc bộ golf chính xác (Taylormade Burner 09 Driver) được bán bởi cùng một người (budgetgolfer), nhưng một số bán hàng này được thực hiện trong các điều kiện khác nhau (ví dụ: giá khởi điểm khác nhau). Sao chép theo sự cho phép của Einav et al. (2015), hình 1b.

Hình 2.8: Ví dụ về một tập hợp phù hợp. Đây là câu lạc bộ golf chính xác (một Taylormade Burner 09 Driver) được bán bởi cùng một người (“budgetgolfer”), nhưng một số bán hàng được thực hiện trong các điều kiện khác nhau (ví dụ, giá khởi điểm khác nhau). Sao chép theo sự cho phép của Einav et al. (2015) , hình 1b.

Nhớ lại rằng Einav và các đồng nghiệp đã quan tâm đến ảnh hưởng của giá khởi điểm đến kết quả đấu giá. Đầu tiên, họ sử dụng hồi quy tuyến tính để ước tính rằng giá khởi điểm cao hơn làm giảm khả năng bán hàng, và giá khởi điểm cao hơn làm tăng giá bán cuối cùng (có điều kiện khi bán hàng). Bản thân họ, những ước tính này — mô tả mối quan hệ tuyến tính và được tính trung bình trên tất cả các sản phẩm — không phải tất cả đều thú vị. Sau đó, Einav và các đồng nghiệp đã sử dụng kích thước lớn dữ liệu của họ để tạo ra một loạt các ước tính tinh tế hơn. Ví dụ, bằng cách ước tính hiệu ứng riêng biệt với nhiều mức giá khởi điểm khác nhau, họ nhận thấy rằng mối quan hệ giữa giá khởi điểm và giá bán là phi tuyến (hình 2.9). Đặc biệt, với giá khởi điểm từ 0,05 đến 0,85, giá khởi điểm có rất ít tác động đến giá bán, một phát hiện đã bị bỏ lỡ hoàn toàn bởi phân tích đầu tiên của họ. Hơn nữa, thay vì tính trung bình trên tất cả các mặt hàng, Einav và các đồng nghiệp ước tính tác động của giá khởi điểm cho 23 loại mặt hàng khác nhau (ví dụ như vật nuôi, đồ điện tử và kỷ vật thể thao) (hình 2.10). Những ước tính này cho thấy rằng đối với các mặt hàng đặc biệt hơn — chẳng hạn như kỷ vật — giá khởi điểm có ảnh hưởng nhỏ hơn đến xác suất bán hàng và ảnh hưởng lớn hơn đến giá bán cuối cùng. Hơn nữa, đối với các mặt hàng được gia công nhiều hơn - chẳng hạn như DVD — giá khởi điểm hầu như không ảnh hưởng đến giá cuối cùng. Nói cách khác, trung bình kết hợp các kết quả từ 23 loại mục khác nhau ẩn sự khác biệt quan trọng giữa các mục này.

Hình 2.9: Mối quan hệ giữa giá khởi điểm đấu giá và xác suất bán hàng (a) và giá bán (b). Có một mối quan hệ tuyến tính giữa giá khởi điểm và xác suất bán hàng, nhưng mối quan hệ phi tuyến giữa giá khởi điểm và giá bán; với giá khởi điểm từ 0,05 đến 0,85, giá khởi điểm có rất ít tác động đến giá bán. Trong cả hai trường hợp, các mối quan hệ về cơ bản không phụ thuộc vào giá trị mục. Chuyển thể từ Einav et al. (2015) , số liệu 4a và 4b.

Hình 2.10: Các ước tính từ mỗi loại mục; dấu chấm rắn là ước tính cho tất cả các loại được gộp chung với nhau (Einav et al. 2015) . Những ước tính này cho thấy rằng đối với các mặt hàng đặc biệt hơn — chẳng hạn như kỷ vật - giá khởi điểm có ảnh hưởng nhỏ hơn đến xác suất bán ( \(x\) -axis) và ảnh hưởng lớn hơn đến giá bán cuối cùng ( \(y\) -axis) Chuyển thể từ Einav et al. (2015) , hình 8.

Thậm chí nếu bạn không đặc biệt quan tâm đến đấu giá trên eBay, bạn phải ngưỡng mộ cách con số 2.9 và hình 2.10 cung cấp sự hiểu biết phong phú hơn về eBay so với ước tính đơn giản mô tả mối quan hệ tuyến tính và kết hợp nhiều loại mục khác nhau. Hơn nữa, mặc dù nó sẽ là khoa học có thể để tạo ra những ước tính tinh tế hơn với các thí nghiệm thực địa, chi phí sẽ làm cho thí nghiệm như vậy về cơ bản là không thể.

Như với các thử nghiệm tự nhiên, có một số cách phù hợp có thể dẫn đến ước tính xấu. Tôi nghĩ mối quan tâm lớn nhất với các ước tính phù hợp là chúng có thể bị thiên vị bởi những thứ không được sử dụng trong kết hợp. Ví dụ, trong kết quả chính của họ, Einav và các đồng nghiệp đã kết hợp chính xác trên bốn đặc điểm: số ID người bán, danh mục mặt hàng, tiêu đề mục và phụ đề. Nếu các mục khác nhau theo những cách không được sử dụng để khớp, thì điều này có thể tạo ra sự so sánh không công bằng. Ví dụ, nếu “budgetgolfer” hạ giá cho Taylormade Burner 09 Driver vào mùa đông (khi các câu lạc bộ golf ít phổ biến hơn), thì có thể xuất hiện giá khởi điểm thấp hơn dẫn đến giá cuối cùng thấp hơn, khi thực tế đây sẽ là một vật phẩm sự thay đổi theo mùa trong nhu cầu. Một cách tiếp cận để giải quyết mối quan tâm này đang thử nhiều loại kết hợp khác nhau. Ví dụ, Einav và các đồng nghiệp lặp lại phân tích của họ trong khi thay đổi cửa sổ thời gian được sử dụng để kết hợp (bộ phù hợp bao gồm các mặt hàng được bán trong vòng một năm, trong vòng một tháng và đồng thời). May mắn thay, họ tìm thấy kết quả tương tự cho tất cả các cửa sổ thời gian. Một mối quan tâm hơn nữa với phù hợp phát sinh từ việc giải thích. Ước tính từ kết hợp chỉ áp dụng cho dữ liệu phù hợp; chúng không áp dụng cho các trường hợp không thể khớp. Ví dụ, bằng cách giới hạn nghiên cứu của họ cho các mục có nhiều danh sách, Einav và các đồng nghiệp đang tập trung vào những người bán chuyên nghiệp và bán chuyên nghiệp. Vì vậy, khi giải thích những so sánh này, chúng ta phải nhớ rằng chúng chỉ áp dụng cho tập con này của eBay.

Kết hợp là chiến lược mạnh mẽ để tìm kiếm các so sánh công bằng trong dữ liệu phi thực nghiệm. Đối với nhiều nhà khoa học xã hội, việc kết hợp cảm thấy tốt thứ hai với các thí nghiệm, nhưng đó là niềm tin có thể được sửa đổi, một chút. Kết hợp trong dữ liệu lớn có thể tốt hơn so với một số ít các thí nghiệm thực địa khi (1) tính không đồng nhất trong các hiệu ứng là quan trọng và (2) các biến quan trọng cần thiết để phù hợp đã được đo. Bảng 2.4 cung cấp một số ví dụ khác về cách kết hợp có thể được sử dụng với các nguồn dữ liệu lớn.

Bảng 2.4: Ví dụ về các nghiên cứu sử dụng kết hợp với các nguồn dữ liệu lớn
Tập trung đáng kể	Nguồn dữ liệu lớn	Tài liệu tham khảo
Ảnh hưởng của vụ nổ súng trên bạo lực của cảnh sát	Bản ghi dừng và nhanh	Legewie (2016)
Ảnh hưởng của ngày 11 tháng 9 năm 2001 đối với gia đình và hàng xóm	Hồ sơ biểu quyết và hồ sơ quyên góp	Hersh (2013)
Xã hội lây lan	Dữ liệu thông tin và tiếp nhận sản phẩm	Aral, Muchnik, and Sundararajan (2009)

Tóm lại, ước lượng hiệu quả nhân quả từ dữ liệu phi thực nghiệm là khó khăn, nhưng các phương pháp như thí nghiệm tự nhiên và điều chỉnh thống kê (ví dụ, kết hợp) có thể được sử dụng. Trong một số trường hợp, những cách tiếp cận này có thể sai, nhưng khi được triển khai một cách cẩn thận, những cách tiếp cận này có thể là một bổ sung hữu ích cho phương pháp thử nghiệm mà tôi mô tả trong chương 4. Hơn nữa, hai phương pháp này dường như đặc biệt có khả năng hưởng lợi từ sự tăng trưởng luôn trên, các hệ thống dữ liệu lớn.