Các hoạt động

Bản dịch này đã được tạo ra bởi một máy tính. ×

Các hoạt động

mức độ khó khăn: dễ dàng , Trung bình , cứng , rất chăm chỉ
yêu cầu toán học ( $yêu cầu toán học$ )
yêu cầu mã hóa ( )
thu thập dữ liệu ( )
mục yêu thích của tôi ( )

[ , ] Berinsky và cộng sự (2012) đánh giá MTurk một phần bằng cách nhân rộng ba thí nghiệm cổ điển. Tái tạo thí nghiệm khung hình bệnh châu Á cổ điển của Tversky and Kahneman (1981) . Kết quả của bạn có phù hợp với Tversky và Kahneman không? Kết quả của bạn có phù hợp với những người Berinsky và đồng nghiệp không? Điều gì — nếu có - điều này dạy chúng ta về việc sử dụng MTurk cho các thí nghiệm khảo sát?
[ , ] Trong một bài viết có phần lưỡi-trong-má có tựa đề “Chúng ta phải chia tay”, nhà tâm lý học xã hội Robert Cialdini, một trong những tác giả của Schultz et al. (2007) , đã viết rằng ông đã nghỉ hưu sớm từ công việc của mình như là một giáo sư, một phần vì những thách thức ông phải đối mặt làm thí nghiệm thực địa trong một kỷ luật (tâm lý) mà chủ yếu tiến hành các thí nghiệm trong phòng thí nghiệm (Cialdini 2009) . Đọc bài báo của Cialdini, và viết cho anh ấy một email kêu gọi anh ta xem xét lại sự chia tay của anh ấy theo các khả năng của các thí nghiệm kỹ thuật số. Sử dụng các ví dụ cụ thể về nghiên cứu giải quyết các mối quan ngại của anh ấy.
[ Để xác định xem những thành công ban đầu nhỏ có bị khóa hay biến mất hay không, van de Rijt và đồng nghiệp (2014) can thiệp vào bốn hệ thống khác nhau, thành công trên những người tham gia được lựa chọn ngẫu nhiên, và sau đó đo lường tác động lâu dài của thành công tùy ý này. Bạn có thể nghĩ về các hệ thống khác mà bạn có thể chạy thử nghiệm tương tự không? Đánh giá các hệ thống này về mặt các vấn đề về giá trị khoa học, gây nhiễu thuật toán (xem chương 2) và đạo đức.
[ , ] Kết quả của một thử nghiệm có thể phụ thuộc vào những người tham gia. Tạo một thử nghiệm và sau đó chạy nó trên MTurk sử dụng hai chiến lược tuyển dụng khác nhau. Hãy thử chọn chiến lược thử nghiệm và tuyển dụng để kết quả sẽ khác nhau nhất có thể. Ví dụ: chiến lược tuyển dụng của bạn có thể là tuyển dụng người tham gia vào buổi sáng và buổi tối hoặc bồi thường những người tham gia có mức lương cao và thấp. Những khác biệt này trong chiến lược tuyển dụng có thể dẫn đến các nhóm người tham gia khác nhau và các kết quả thử nghiệm khác nhau. Kết quả của bạn khác nhau như thế nào? Điều gì sẽ tiết lộ về việc chạy thử nghiệm trên MTurk?
[ , $yêu cầu toán học$ , ] Hãy tưởng tượng rằng bạn đang lên kế hoạch cho thí nghiệm Tình cảm Contagion (Kramer, Guillory, and Hancock 2014) . Sử dụng kết quả từ một nghiên cứu quan sát trước đó của Kramer (2012) để quyết định số lượng người tham gia trong từng điều kiện. Hai nghiên cứu này không khớp hoàn hảo vì vậy hãy chắc chắn liệt kê rõ ràng tất cả các giả định mà bạn thực hiện:
1. Chạy mô phỏng sẽ quyết định số lượng người tham gia cần thiết để phát hiện hiệu ứng lớn như hiệu ứng trong Kramer (2012) với $\alpha = 0.05$ và $1 - \beta = 0.8$ .
2. Làm tương tự tính toán phân tích.
3. Với kết quả từ Kramer (2012) là tình cảm Contagion (Kramer, Guillory, and Hancock 2014) over-powered (ví dụ, nó đã có nhiều người tham gia hơn cần thiết)?
4. Trong số các giả định mà bạn đã tạo, có ảnh hưởng lớn nhất đến tính toán của bạn?
[ , $yêu cầu toán học$ , ] Trả lời câu hỏi trước một lần nữa, nhưng lần này thay vì sử dụng nghiên cứu quan sát trước đó của Kramer (2012) , sử dụng kết quả từ một thí nghiệm tự nhiên trước đó của Lorenzo Coviello et al. (2014) .
[ ] Cả Margetts et al. (2011) và van de Rijt et al. (2014) đã thực hiện các thí nghiệm nghiên cứu quy trình của người ký một bản kiến nghị. So sánh và đối chiếu các thiết kế và kết quả của các nghiên cứu này.
[ Dwyer, Maki, and Rothman (2015) đã tiến hành hai thí nghiệm thực địa về mối quan hệ giữa các chỉ tiêu xã hội và hành vi thân thiện với môi trường. Đây là tóm tắt của bài báo của họ:

“Khoa học tâm lý học có thể được sử dụng như thế nào để khuyến khích hành vi môi trường? Trong hai nghiên cứu, các biện pháp can thiệp nhằm thúc đẩy hành vi bảo tồn năng lượng trong phòng tắm công cộng đã kiểm tra ảnh hưởng của các chỉ tiêu mô tả và trách nhiệm cá nhân. Trong Nghiên cứu 1, trạng thái ánh sáng (tức là bật hoặc tắt) đã được thao tác trước khi có người vào phòng tắm công cộng trống, báo hiệu chỉ tiêu mô tả cho thiết lập đó. Những người tham gia có nhiều khả năng sẽ tắt đèn nếu họ tắt khi họ bước vào. Trong nghiên cứu 2, một điều kiện bổ sung đã được bao gồm trong đó chỉ tiêu tắt đèn đã được chứng minh bởi một liên minh, nhưng những người tham gia không phải là chính họ chịu trách nhiệm cho việc bật nó lên. Trách nhiệm cá nhân đã kiểm duyệt ảnh hưởng của các tiêu chuẩn xã hội đối với hành vi; khi những người tham gia không chịu trách nhiệm bật đèn, ảnh hưởng của tiêu chuẩn đã giảm đi. Những kết quả này cho thấy các chỉ tiêu mô tả và trách nhiệm cá nhân có thể điều chỉnh hiệu quả của các biện pháp can thiệp môi trường như thế nào. ”

Đọc bài báo của họ và thiết kế một bản sao của nghiên cứu 1.
[ , ] Xây dựng trên câu hỏi trước, bây giờ thực hiện thiết kế của bạn.
1. Kết quả so sánh như thế nào?
2. Điều gì có thể giải thích những khác biệt này?
[ ] Đã có cuộc tranh luận đáng kể về các thí nghiệm sử dụng những người tham gia được tuyển dụng từ MTurk. Song song, cũng đã có cuộc tranh luận đáng kể về các thí nghiệm sử dụng những người tham gia được tuyển dụng từ các quần thể sinh viên đại học. Viết một bản ghi nhớ hai trang so sánh và tương phản Turkers và sinh viên đại học như những người tham gia nghiên cứu. So sánh của bạn nên bao gồm một cuộc thảo luận về cả hai vấn đề khoa học và hậu cần.
[ ] Cuốn sách của Jim Manzi Uncontrolled (2012) là một giới thiệu tuyệt vời về sức mạnh của thử nghiệm trong kinh doanh. Trong cuốn sách, ông chuyển tiếp câu chuyện sau:

“Tôi đã từng một lần trong một cuộc họp với một thiên tài kinh doanh đích thực, một tỷ phú tự lập, người có một sự hiểu biết sâu sắc, trực quan về sức mạnh của các thí nghiệm. Công ty của ông đã dành nguồn lực đáng kể cố gắng để tạo ra các cửa sổ hiển thị cửa hàng tuyệt vời mà sẽ thu hút người tiêu dùng và tăng doanh số bán hàng, như sự khôn ngoan thông thường nói rằng họ nên. Các chuyên gia đã kiểm tra cẩn thận thiết kế sau khi thiết kế và trong các phiên đánh giá thử nghiệm riêng lẻ trong một khoảng thời gian nhiều năm liên tục không cho thấy hiệu quả quan trọng của mỗi thiết kế hiển thị mới trên doanh số bán hàng. Giám đốc điều hành tiếp thị và bán hàng cao cấp đã gặp Giám đốc điều hành để xem xét các kết quả kiểm tra lịch sử này trong toto. Sau khi trình bày tất cả các dữ liệu thử nghiệm, họ kết luận rằng sự khôn ngoan thông thường là sai - cửa sổ hiển thị không thúc đẩy doanh số bán hàng. Hành động được đề nghị của họ là giảm chi phí và nỗ lực trong lĩnh vực này. Điều này đã chứng minh một cách đáng kể khả năng thử nghiệm lật đổ trí tuệ thông thường. Phản ứng của CEO rất đơn giản: 'Kết luận của tôi là các nhà thiết kế của bạn không tốt lắm'. Giải pháp của ông là tăng cường nỗ lực trong thiết kế trưng bày cửa hàng, và để có được những người mới để làm điều đó. ” (Manzi 2012, 158–9)

Loại hiệu lực nào là mối quan tâm của CEO?
[ ] Xây dựng trên câu hỏi trước, hãy tưởng tượng rằng bạn đang ở cuộc họp nơi kết quả của các thí nghiệm được thảo luận. Bốn câu hỏi mà bạn có thể yêu cầu - một câu hỏi cho mỗi loại hiệu lực (thống kê, xây dựng, nội bộ và bên ngoài) là gì?
[ ] Bernedo, Ferraro, and Price (2014) nghiên cứu ảnh hưởng bảy năm của can thiệp tiết kiệm nước được mô tả trong Ferraro, Miranda, and Price (2011) (xem hình 4.11). Trong bài báo này, Bernedo và các đồng nghiệp cũng tìm cách hiểu cơ chế đằng sau hiệu quả bằng cách so sánh hành vi của các hộ gia đình có và không di chuyển sau khi điều trị được thực hiện. Đó là, gần, họ đã cố gắng để xem liệu điều trị ảnh hưởng đến nhà hoặc chủ nhà.
1. Đọc bài báo, mô tả thiết kế của họ và tóm tắt những phát hiện của họ.
2. Những phát hiện của họ có ảnh hưởng đến cách bạn nên đánh giá hiệu quả chi phí của các can thiệp tương tự không? Nếu vậy, tại sao? Nếu không, tai sao không?
[ ] Theo dõi Schultz et al. (2007) , Schultz và các đồng nghiệp đã thực hiện một loạt ba thí nghiệm về hiệu quả của các chỉ tiêu mô tả và bắt buộc về hành vi môi trường khác nhau (sử dụng khăn) trong hai bối cảnh (một khách sạn và một căn hộ timeshare) (Schultz, Khazian, and Zaleski 2008) .
1. Tóm tắt thiết kế và kết quả của ba thí nghiệm này.
2. Làm thế nào, nếu có, họ có thay đổi cách giải thích của bạn về Schultz et al. (2007) ?
[ ] Để đáp ứng với Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) đã chạy một loạt các thí nghiệm giống như phòng thí nghiệm để nghiên cứu thiết kế hóa đơn tiền điện. Đây là cách họ mô tả nó trong phần tóm tắt:

“Trong một thử nghiệm dựa trên khảo sát, mỗi người tham gia đã thấy một hóa đơn điện giả định cho một gia đình có sử dụng điện tương đối cao, bao gồm thông tin về (a) sử dụng lịch sử, (b) so sánh với hàng xóm và (c) sử dụng lịch sử với sự cố thiết bị. Những người tham gia đã thấy tất cả các loại thông tin theo một trong ba định dạng bao gồm (a) bảng, (b) biểu đồ thanh và (c) biểu đồ biểu tượng. Chúng tôi báo cáo về ba phát hiện chính. Thứ nhất, người tiêu dùng hiểu được từng loại thông tin sử dụng điện nhiều nhất khi nó được trình bày trong một bảng, có lẽ vì các bảng tạo điều kiện cho việc đọc điểm đơn giản. Thứ hai, sở thích và ý định tiết kiệm điện là mạnh nhất đối với thông tin sử dụng lịch sử, độc lập với định dạng. Thứ ba, những người có khả năng đọc viết năng lượng thấp hơn hiểu tất cả thông tin ít hơn. ”

Không giống như các nghiên cứu tiếp theo khác, kết quả chính quan tâm đến Canfield, Bruin, and Wong-Parodi (2016) được báo cáo là hành vi, chứ không phải hành vi thực tế. Điểm mạnh và điểm yếu của loại nghiên cứu này trong một chương trình nghiên cứu rộng hơn là thúc đẩy tiết kiệm năng lượng là gì?
[ , Smith and Pell (2003) trình bày một phân tích tổng hợp các nghiên cứu chứng minh hiệu quả của dù. Họ kết luận:

“Như với nhiều biện pháp can thiệp nhằm ngăn ngừa bệnh tật, hiệu quả của dù không bị đánh giá nghiêm ngặt bằng cách sử dụng các thử nghiệm đối chứng ngẫu nhiên. Những người ủng hộ y học dựa trên bằng chứng đã chỉ trích việc áp dụng các can thiệp được đánh giá bằng cách sử dụng dữ liệu quan sát duy nhất. Chúng tôi nghĩ rằng tất cả mọi người có thể hưởng lợi nếu các nhân vật chính cấp tiến nhất của y học dựa trên bằng chứng được tổ chức và tham gia vào một thử nghiệm đôi, ngẫu nhiên, giả dược, kiểm soát chéo của dù. ”

Viết một op-ed phù hợp cho một tờ báo độc giả nói chung, chẳng hạn như tờ New York Times , tranh cãi chống lại sự tôn sùng bằng chứng thực nghiệm. Cung cấp các ví dụ cụ thể, cụ thể. Gợi ý: Xem thêm Deaton (2010) và Bothwell et al. (2016) .
[ , , Các bộ ước lượng khác biệt về hiệu quả điều trị có thể chính xác hơn so với các ước tính có ý nghĩa khác biệt. Viết một bản ghi nhớ cho một kỹ sư chịu trách nhiệm kiểm tra A / B tại một công ty truyền thông xã hội khởi nghiệp giải thích giá trị của phương pháp khác biệt trong việc chạy thử nghiệm trực tuyến. Bản ghi nhớ nên bao gồm một tuyên bố của vấn đề, một số trực giác về các điều kiện theo đó ước lượng khác biệt-trong-khác biệt sẽ tốt hơn so với ước tính khác biệt trong trung bình, và một nghiên cứu mô phỏng đơn giản.
[ , Gary Loveman là giáo sư tại Trường Kinh doanh Harvard trước khi trở thành CEO của Harrah's, một trong những công ty casino lớn nhất thế giới. Khi anh chuyển đến Harrah's, Loveman đã biến công ty thành một chương trình khách hàng thân thiết thường xuyên, thu hút một lượng lớn dữ liệu về hành vi của khách hàng. Trên đầu trang của hệ thống đo lường luôn luôn này, công ty bắt đầu chạy thử nghiệm. Ví dụ: họ có thể chạy thử nghiệm để đánh giá hiệu quả của phiếu thưởng cho một đêm khách sạn miễn phí cho khách hàng có mẫu cờ bạc cụ thể. Đây là cách mà Loveman mô tả tầm quan trọng của thử nghiệm đối với các hoạt động kinh doanh hàng ngày của Harrah:

“Nó giống như bạn không quấy rối phụ nữ, bạn không ăn cắp, và bạn phải có một nhóm kiểm soát. Đây là một trong những thứ mà bạn có thể mất việc tại Harrah's — không phải là một nhóm kiểm soát. ” (Manzi 2012, 146)

Viết email cho một nhân viên mới giải thích tại sao Loveman nghĩ rằng điều quan trọng là phải có một nhóm kiểm soát. Bạn nên cố gắng bao gồm một ví dụ — hoặc là thực hoặc được tạo thành — để minh họa quan điểm của bạn.
[ , $yêu cầu toán học$ ] Một thử nghiệm mới nhằm mục đích ước tính hiệu quả của việc nhận lời nhắc tin nhắn văn bản về sự hấp thu vaccin. Một trăm năm mươi phòng khám, mỗi phòng có 600 bệnh nhân đủ điều kiện, sẵn sàng tham gia. Có một chi phí cố định là 100 đô la cho mỗi phòng khám mà bạn muốn hợp tác và chi phí là 1 đô la cho mỗi tin nhắn văn bản mà bạn muốn gửi. Hơn nữa, bất kỳ phòng khám mà bạn đang làm việc với sẽ đo lường kết quả (cho dù ai đó nhận được tiêm chủng) miễn phí. Giả sử rằng bạn có ngân sách 1.000 đô la.
1. Dưới những điều kiện nào có thể tốt hơn để tập trung nguồn lực của bạn vào một số lượng nhỏ các phòng khám và trong điều kiện nào có thể tốt hơn để truyền bá chúng rộng rãi hơn?
2. Yếu tố nào sẽ xác định kích thước hiệu ứng nhỏ nhất mà bạn có thể phát hiện đáng tin cậy với ngân sách của mình?
3. Viết một bản ghi nhớ giải thích những sự thỏa hiệp này cho một nhà tài trợ tiềm năng.
[ , $yêu cầu toán học$ ] Một vấn đề lớn với các khóa học trực tuyến là tiêu hao: nhiều sinh viên bắt đầu các khóa học kết thúc bỏ học. Hãy tưởng tượng rằng bạn đang làm việc tại một nền tảng học tập trực tuyến, và một nhà thiết kế ở nền tảng này đã tạo ra một thanh tiến trình trực quan mà cô nghĩ sẽ giúp ngăn chặn sinh viên bỏ học. Bạn muốn kiểm tra hiệu ứng của thanh tiến trình trên sinh viên trong một khóa học khoa học xã hội tính toán lớn. Sau khi giải quyết bất kỳ vấn đề đạo đức nào có thể phát sinh trong thử nghiệm, bạn và đồng nghiệp của bạn lo lắng rằng khóa học có thể không có đủ sinh viên để phát hiện các hiệu ứng của thanh tiến trình một cách đáng tin cậy. Trong các tính toán sau, bạn có thể giả định rằng một nửa số sinh viên sẽ nhận được thanh tiến trình và một nửa không. Hơn nữa, bạn có thể giả định rằng không có sự can thiệp. Nói cách khác, bạn có thể giả định rằng những người tham gia chỉ bị ảnh hưởng bởi liệu họ có được điều trị hoặc kiểm soát hay không; chúng không bị ảnh hưởng bởi việc người khác nhận được sự điều trị hay kiểm soát (đối với một định nghĩa chính thức hơn, xem chương 8 của Gerber and Green (2012) ). Theo dõi bất kỳ giả định bổ sung nào mà bạn thực hiện.
1. Giả sử thanh tiến trình dự kiến sẽ tăng tỷ lệ học sinh hoàn thành lớp lên 1 điểm phần trăm; kích thước mẫu cần thiết để phát hiện hiệu quả một cách đáng tin cậy là bao nhiêu?
2. Giả sử thanh tiến trình dự kiến sẽ tăng tỷ lệ học sinh hoàn thành lớp lên 10 điểm phần trăm; kích thước mẫu cần thiết để phát hiện hiệu quả một cách đáng tin cậy là bao nhiêu?
3. Bây giờ hãy tưởng tượng rằng bạn đã chạy thử nghiệm và sinh viên đã hoàn thành tất cả các tài liệu khóa học đã thực hiện bài kiểm tra cuối khóa. Khi bạn so sánh điểm thi cuối khóa của các sinh viên nhận được thanh tiến trình với điểm số của những người không, bạn thấy, nhiều điều ngạc nhiên của bạn, rằng những sinh viên không nhận được thanh tiến trình thực sự ghi điểm cao hơn. Điều này có nghĩa là thanh tiến trình khiến sinh viên học ít hơn? Bạn có thể học được gì từ dữ liệu kết quả này? (Gợi ý: Xem chương 7 của Gerber and Green (2012) )
[ , , ] Hãy tưởng tượng rằng bạn đang làm việc như một nhà khoa học dữ liệu tại một công ty công nghệ. Một người nào đó từ bộ phận tiếp thị yêu cầu bạn trợ giúp đánh giá thử nghiệm mà họ đang lập kế hoạch để đo lường lợi tức đầu tư (ROI) cho chiến dịch quảng cáo trực tuyến mới. ROI được xác định là lợi nhuận ròng từ chiến dịch chia cho chi phí của chiến dịch. Ví dụ: chiến dịch không ảnh hưởng đến doanh thu sẽ có ROI là -100%; chiến dịch mà lợi nhuận được tạo bằng chi phí sẽ có ROI là 0; và chiến dịch mà lợi nhuận được tạo gấp đôi chi phí sẽ có ROI là 200%.

Trước khi khởi chạy thử nghiệm, bộ phận tiếp thị cung cấp cho bạn thông tin sau dựa trên nghiên cứu trước đây của họ (trên thực tế, các giá trị này là điển hình của các chiến dịch quảng cáo trực tuyến thực được báo cáo trong Lewis và Rao (2015) ):
- Doanh số trung bình trên mỗi khách hàng theo sau phân phối bình thường với mức trung bình là $ 7 và độ lệch chuẩn là 75 đô la.
- Chiến dịch này dự kiến sẽ tăng doanh thu thêm 0,35 đô la cho mỗi khách hàng, tương ứng với mức tăng lợi nhuận là 0,175 đô la cho mỗi khách hàng.
- Quy mô thí nghiệm dự kiến là 200.000 người: một nửa trong nhóm điều trị và một nửa trong nhóm đối chứng.
- Chi phí của chiến dịch là $ 0,14 cho mỗi người tham gia.
- ROI dự kiến cho chiến dịch là 25% [ $(0.175 - 0.14)/0.14$ ]. Nói cách khác, bộ phận tiếp thị tin rằng đối với mỗi 100 đô la chi cho tiếp thị, công ty sẽ kiếm thêm 25 đô la lợi nhuận.
Viết một bản ghi nhớ đánh giá thử nghiệm được đề xuất này. Bản ghi nhớ của bạn nên sử dụng bằng chứng từ mô phỏng mà bạn tạo và sẽ giải quyết hai vấn đề chính: (1) Bạn có đề xuất khởi chạy thử nghiệm này theo kế hoạch không? Nếu vậy, tại sao? Nếu không, tai sao không? Hãy chắc chắn để được rõ ràng về các tiêu chí mà bạn đang sử dụng để đưa ra quyết định này. (2) Bạn muốn giới thiệu kích thước mẫu nào cho thử nghiệm này? Một lần nữa hãy chắc chắn để được rõ ràng về các tiêu chí mà bạn đang sử dụng để đưa ra quyết định này.

Một bản ghi nhớ tốt sẽ giải quyết trường hợp cụ thể này; một bản ghi nhớ tốt hơn sẽ tổng quát hóa từ trường hợp này theo một cách (ví dụ, thể hiện cách quyết định thay đổi như một chức năng có kích thước ảnh hưởng của chiến dịch); và một bản ghi nhớ tuyệt vời sẽ trình bày một kết quả tổng quát đầy đủ. Bản ghi nhớ của bạn nên sử dụng biểu đồ để giúp minh họa kết quả của bạn.

Dưới đây là hai gợi ý. Trước tiên, bộ phận tiếp thị có thể đã cung cấp cho bạn một số thông tin không cần thiết và họ có thể đã không cung cấp cho bạn một số thông tin cần thiết. Thứ hai, nếu bạn đang sử dụng R, hãy lưu ý rằng hàm rlnorm () không hoạt động theo cách mà nhiều người mong đợi.

Hoạt động này sẽ cung cấp cho bạn thực hành phân tích năng lượng, tạo mô phỏng và truyền đạt kết quả của bạn bằng các từ và đồ thị. Nó sẽ giúp bạn tiến hành phân tích năng lượng cho bất kỳ loại thử nghiệm nào, không chỉ các thử nghiệm được thiết kế để ước tính ROI. Hoạt động này giả định rằng bạn có một số kinh nghiệm với kiểm tra thống kê và phân tích năng lượng. Nếu bạn không quen thuộc với phân tích năng lượng, tôi khuyên bạn nên đọc "Một mồi điện" bởi Cohen (1992) .

Hoạt động này được lấy cảm hứng từ một bài báo đáng yêu của RA Lewis and Rao (2015) , minh họa sinh động một giới hạn thống kê cơ bản của các thí nghiệm thậm chí lớn. Bài báo của họ — ban đầu có tựa đề khiêu khích “Về tính không thể đo lường lợi nhuận cho quảng cáo” - cho thấy khó khăn như thế nào để đo lường lợi tức đầu tư của quảng cáo trực tuyến, ngay cả với các thử nghiệm kỹ thuật số liên quan đến hàng triệu khách hàng. Nói chung, RA Lewis and Rao (2015) minh họa một thực tế thống kê cơ bản đặc biệt quan trọng đối với các thí nghiệm tuổi kỹ thuật số: khó ước tính hiệu quả điều trị nhỏ giữa dữ liệu kết quả ồn ào.
[ , $yêu cầu toán học$ ] Làm tương tự như câu hỏi trước, nhưng, thay vì mô phỏng, bạn nên sử dụng kết quả phân tích.
[ , $yêu cầu toán học$ , ] Làm tương tự như câu hỏi trước, nhưng sử dụng cả kết quả mô phỏng và phân tích.
[ , $yêu cầu toán học$ , ] Hãy tưởng tượng rằng bạn đã viết bản ghi nhớ được mô tả ở trên và một người nào đó từ bộ phận tiếp thị cung cấp một phần thông tin mới: họ mong đợi mối tương quan 0.4 giữa doanh số bán hàng trước và sau thử nghiệm. Làm cách nào để thay đổi các đề xuất trong bản ghi nhớ của bạn? (Gợi ý: xem phần 4.6.2 để biết thêm về ước tính khác biệt của phương tiện và ước tính khác biệt về chênh lệch.)
[ , $yêu cầu toán học$ ] Để đánh giá hiệu quả của một chương trình hỗ trợ việc làm dựa trên web mới, một trường đại học đã tiến hành một thử nghiệm đối chứng ngẫu nhiên trong số 10.000 sinh viên vào năm cuối của trường. Đăng ký miễn phí với thông tin đăng nhập duy nhất được gửi qua thư mời qua email dành riêng cho 5.000 sinh viên được chọn ngẫu nhiên, trong khi 5.000 sinh viên khác thuộc nhóm kiểm soát và không có đăng ký. Mười hai tháng sau, một cuộc khảo sát tiếp theo (không có phản ứng) cho thấy trong cả nhóm điều trị và kiểm soát, 70% học sinh đã bảo đảm việc làm toàn thời gian trong lĩnh vực mà họ chọn (bảng 4.6). Do đó, dường như dịch vụ dựa trên web không có hiệu lực.

Tuy nhiên, một nhà khoa học dữ liệu thông minh tại trường đại học đã xem xét dữ liệu chặt chẽ hơn một chút và thấy rằng chỉ có 20% sinh viên trong nhóm điều trị đã từng đăng nhập vào tài khoản sau khi nhận được email. Hơn nữa, và phần nào đáng ngạc nhiên, trong số những người đã đăng nhập vào trang web, chỉ có 60% đã bảo đảm việc làm toàn thời gian trong lĩnh vực mà họ chọn, thấp hơn tỷ lệ cho những người không đăng nhập và thấp hơn tỷ lệ cho mọi người trong điều kiện điều khiển (bảng 4.7).
1. Cung cấp giải thích cho những gì có thể đã xảy ra.
2. Hai cách khác nhau để tính hiệu quả của việc điều trị trong thử nghiệm này là gì?
3. Với kết quả này, liệu có nên cung cấp dịch vụ này cho tất cả học sinh không? Chỉ cần được rõ ràng, đây không phải là một câu hỏi với một câu trả lời đơn giản.
4. Họ nên làm gì tiếp theo?
Gợi ý: Câu hỏi này vượt ra ngoài tài liệu được đề cập trong chương này, nhưng giải quyết các vấn đề phổ biến trong các thử nghiệm. Loại thiết kế thử nghiệm này đôi khi được gọi là thiết kế khuyến khích vì người tham gia được khuyến khích tham gia vào việc điều trị. Vấn đề này là một ví dụ về những gì được gọi là sự không tuân thủ một phía (xem chương 5 của Gerber and Green (2012) ).
[ ] Sau khi kiểm tra thêm, hóa ra là thí nghiệm được mô tả trong câu hỏi trước thậm chí còn phức tạp hơn. Hóa ra 10% số người trong nhóm kiểm soát đã trả tiền để tiếp cận dịch vụ, và họ kết thúc với tỷ lệ việc làm là 65% (bảng 4.8).
1. Viết email tóm tắt những gì bạn nghĩ đang xảy ra và đề xuất một quá trình hành động.
Gợi ý: Câu hỏi này vượt ra ngoài tài liệu được đề cập trong chương này, nhưng giải quyết các vấn đề phổ biến trong các thử nghiệm. Vấn đề này là một ví dụ về những gì được gọi là sự không tuân thủ hai mặt (xem chương 6 của Gerber and Green (2012) ).

Bảng 4.6: Chế độ xem dữ liệu đơn giản từ thử nghiệm dịch vụ nghề nghiệp
Nhóm	Kích thước	Tỷ lệ việc làm
Cấp quyền truy cập vào trang web	5.000	70%
Không được cấp quyền truy cập vào trang web	5.000	70%

Bảng 4.7: Xem toàn bộ dữ liệu từ thử nghiệm dịch vụ nghề nghiệp
Nhóm	Kích thước	Tỷ lệ việc làm
Cấp quyền truy cập vào trang web và đăng nhập	1.000	60%
Cấp quyền truy cập vào trang web và không bao giờ đăng nhập	4.000	72,5%
Không được cấp quyền truy cập vào trang web	5.000	70%

Bảng 4.8: Xem toàn bộ dữ liệu từ thử nghiệm dịch vụ nghề nghiệp
Nhóm	Kích thước	Tỷ lệ việc làm
Cấp quyền truy cập vào trang web và đăng nhập	1.000	60%
Cấp quyền truy cập vào trang web và không bao giờ đăng nhập	4.000	72,5%
Không được cấp quyền truy cập vào trang web và trả tiền cho nó	500	65%
Không được cấp quyền truy cập vào trang web và không trả tiền cho nó	4.500	70,56%