Các hoạt động

Bản dịch này đã được tạo ra bởi một máy tính. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

Các hoạt động

Chìa khóa:

mức độ khó khăn: dễ dàng , Trung bình , cứng , Rất cứng
đòi hỏi toán ( $đòi hỏi toán học$ )
đòi hỏi mã hóa ( )
thu thập dữ liệu ( )
mục yêu thích của tôi ( )

[ , ] Berinsky và các cộng sự (2012) đánh giá Mechanical Turk một phần bằng cách tái tạo ba thí nghiệm cổ điển. Nhân rộng các thử nghiệm khung Bệnh châu Á cổ điển bởi Tversky and Kahneman (1981) . Do kết quả của bạn phù hợp Tversky và Kahneman của? Do kết quả của bạn phù hợp Berinsky và đồng nghiệp? Điều gì-nếu bất cứ điều gì, điều này dạy chúng ta về việc sử dụng Mechanical Turk cho các thí nghiệm khảo sát?
[ , ] Trong một bài báo có phần lưỡi-in-má tựa đề "Chúng tôi đã để Break Up", nhà tâm lý học xã hội Robert Cialdini, một trong các tác giả của Schultz et al. (2007) , đã viết rằng ông đã nghỉ hưu sớm từ công việc của mình như là một giáo sư, một phần vì những thách thức phải đối mặt với ông làm thí nghiệm trong một kỷ luật (tâm lý) mà chủ yếu là tiến hành các thí nghiệm trong phòng thí nghiệm (Cialdini 2009) . Đọc báo Cialdini, và viết cho anh một email yêu cầu ông phải xem xét lại mình chia tay trong ánh sáng của các khả năng của các thí nghiệm kỹ thuật số. Sử dụng các ví dụ cụ thể của nghiên cứu nhằm giải quyết mối quan tâm của mình.
[ ] Để xác định liệu những thành công ban đầu nhỏ lock-in hoặc mờ dần, van de Rijt và và các cộng sự (2014) đã can thiệp thành bốn hệ thống khác nhau ban tặng cho thành công trên người được lựa chọn ngẫu nhiên, và sau đó đo các tác động lâu dài của thành công tùy tiện này. Bạn có thể nghĩ rằng các hệ thống khác, trong đó bạn có thể chạy các thí nghiệm tương tự? Đánh giá các hệ thống về vấn đề giá trị khoa học, thuật toán nhiễu (xem Chương 2), và đạo đức.
[ , ] Các kết quả của một thí nghiệm có thể phụ thuộc vào những người tham gia. Tạo một thử nghiệm và sau đó chạy nó trên Amazon Mechanical Turk (MTurk) sử dụng hai chiến lược tuyển dụng khác nhau. Hãy cố gắng chọn những chiến lược thử nghiệm và tuyển dụng do đó kết quả sẽ khác nhau như có thể. Ví dụ, chiến lược tuyển dụng của bạn có thể được tuyển chọn tham gia vào buổi sáng và buổi tối hoặc để bù đắp những người tham gia được trả lương cao và thấp. Những loại khác biệt trong chiến lược tuyển dụng có thể dẫn đến hồ bơi khác nhau của người tham gia và kết quả thí nghiệm khác nhau. Làm thế nào khác nhau đã kết quả của bạn lần lượt ra? không tiết lộ gì về chạy thử nghiệm trên MTurk?
[ , $đòi hỏi toán học$ , , ] Hãy tưởng tượng rằng bạn đang có kế hoạch nghiên cứu Contagion Emotional (Kramer, Guillory, and Hancock 2014) . Sử dụng các kết quả từ một nghiên cứu quan sát trước đó của Kramer (2012) để quyết định số lượng người tham gia trong mỗi điều kiện. Hai nghiên cứu không phù hợp một cách hoàn hảo như vậy chắc chắn danh sách rõ ràng tất cả các giả định rằng bạn thực hiện:
1. Chạy mô phỏng sẽ quyết định có bao nhiêu người tham gia sẽ được cần thiết để phát hiện một hiệu ứng lớn như hiệu quả trong Kramer (2012) với \ (\ alpha = 0,05 \) và \ (1 - \ beta = 0.8 \).
2. Do tính toán tương tự phân tích.
3. Với các kết quả từ Kramer (2012) đã được cảm xúc Contagion (Kramer, Guillory, and Hancock 2014) over-powered (tức là, đã làm nó có nhiều người tham gia hơn cần thiết)?
4. Các giả định rằng bạn đã thực hiện, trong đó có tác dụng lớn nhất trên tính toán của bạn?
[ , $đòi hỏi toán học$ , , ] Trả lời các câu hỏi trên, nhưng thay vì sử dụng các nghiên cứu quan sát trước đó của Kramer (2012) sử dụng các kết quả từ một thí nghiệm tự nhiên trước đó của Coviello et al. (2014) .
[ ] Cả Rijt et al. (2014) và Margetts et al. (2011) cả hai thực hiện thí nghiệm mà nghiên cứu các quá trình của người ký thỉnh nguyện thư. So sánh và đối chiếu các thiết kế và kết quả của những nghiên cứu này.
[ ] Dwyer, Maki, and Rothman (2015) đã tiến hành hai thí nghiệm về mối quan hệ giữa chuẩn mực xã hội và hành vi proenvironmental. Dưới đây là tóm tắt của bài báo của họ:

"Làm thế nào khoa học tâm lý có thể được sử dụng để khuyến khích hành vi proenvironmental? Trong hai nghiên cứu, can thiệp nhằm thúc đẩy hành vi bảo tồn năng lượng trong phòng tắm công cộng đã kiểm tra ảnh hưởng của các chỉ tiêu mô tả và trách nhiệm cá nhân. Trong nghiên cứu 1, tình trạng ánh sáng (ví dụ, hoặc tắt) được chế tác trước khi ai đó bước vào một phòng tắm công cộng trống, báo hiệu sự chuẩn mô tả cho thiết lập. Những người tham gia có nhiều khả năng để tắt đèn nếu họ ra khi họ bước vào. Trong nghiên cứu 2, một điều kiện bổ sung đã được bao gồm trong đó các chỉ tiêu tắt đèn đã được chứng minh bởi một liên minh, nhưng người tham gia không tự chịu trách nhiệm khi chuyển nó vào. Trách nhiệm cá nhân kiểm duyệt các ảnh hưởng của chuẩn mực xã hội về hành vi; khi tham gia đều không chịu trách nhiệm cho bật ánh sáng, ảnh hưởng của các tiêu chuẩn nào được giảm bớt. Những kết quả này chỉ ra cách chuẩn mực và trách nhiệm cá nhân mô tả có thể điều chỉnh hiệu quả của các biện pháp can thiệp proenvironmental. "

Đọc bài báo của họ và thiết kế một bản sao của nghiên cứu 1.
[ , ] Dựa trên câu hỏi trước đây, bây giờ thực hiện thiết kế của bạn.
1. Làm thế nào để kết quả so sánh?
2. Điều gì có thể giải thích sự khác biệt này?
[ ] Hiện đã có cuộc tranh luận đáng kể về các thí nghiệm sử dụng người tham gia tuyển dụng từ Amazon Mechanical Turk. Song song đó, có cũng được tranh luận đáng kể về các thí nghiệm sử dụng người tham gia tuyển dụng từ các quần thể sinh viên đại học. Viết một bản ghi nhớ hai trang so sánh và tương phản các Turkers và sinh viên đại học như các nhà nghiên cứu tham gia. so sánh của bạn nên bao gồm một cuộc thảo luận về cả hai vấn đề khoa học và hậu cần.
[ Sách] Jim Manzi của không kiểm soát (2012) là một giới thiệu tuyệt vời vào sức mạnh của thử nghiệm trong kinh doanh. Trong cuốn sách, ông kể lại câu chuyện này:

"Tôi đã một lần trong một cuộc họp với một thiên tài kinh doanh thật sự, một tỷ phú tự thân lập nghiệp, người đã có một, understating trực giác sâu sắc về sức mạnh của các thí nghiệm. Công ty của ông đã dành nguồn lực đáng kể cố gắng để tạo ra hiển thị cửa sổ tuyệt vời mà sẽ thu hút khách hàng và tăng doanh số bán hàng, như sự khôn ngoan thông thường cho biết họ cần. Các chuyên gia kỹ thử nghiệm thiết kế sau khi thiết kế, và trong phiên xét nghiệm cá nhân trong khoảng thời gian năm giữ cho thấy không có ảnh hưởng đáng kể quan hệ nhân quả của mỗi thiết kế màn hình mới về doanh số bán. tiếp thị và bán hàng điều hành cấp cao đã gặp gỡ các giám đốc điều hành để xem xét các kết quả kiểm tra lịch sử trong toto. Sau khi trình bày tất cả các dữ liệu thực nghiệm, họ kết luận rằng sự khôn ngoan thông thường là sai mà cửa sổ hiển thị không lái xe bán hàng. hành động đề nghị của họ là để giảm chi phí và công sức trong lĩnh vực này. Điều này đã chứng minh một cách đáng kể khả năng của các thí nghiệm để lật đổ sự khôn ngoan thông thường. Phản ứng của Giám đốc điều hành rất đơn giản: "Kết luận của tôi là thiết kế của bạn không phải là rất tốt." Giải pháp của ông là tăng nỗ lực trong thiết kế cửa hàng trưng bày, và để có được những người mới để làm điều đó. " (Manzi 2012, 158–9)

Các loại giá trị là mối quan tâm của các CEO?
[ ] Dựa trên câu hỏi trước đó, hãy tưởng tượng rằng bạn đang ở các cuộc họp mà kết quả của các thí nghiệm đã được thảo luận. bốn câu hỏi mà bạn có thể hỏi, một cho mỗi loại có giá trị (thống kê, xây dựng, nội bộ và bên ngoài) là gì?
[ ] Bernedo, Ferraro, and Price (2014) nghiên cứu hiệu ứng bảy năm của sự can thiệp tiết kiệm nước được mô tả trong Ferraro, Miranda, and Price (2011) (xem Hình 4.10). Trong bài báo này, Bernedo và các đồng nghiệp cũng tìm hiểu các cơ chế đằng sau hiệu ứng bằng cách so sánh hành vi của các hộ gia đình đã và chưa di chuyển sau khi điều trị được giao. Đó là, khoảng, họ thử xem liệu điều trị tác động đến nhà hoặc chủ nhà.
1. Đọc báo, mô tả thiết kế của họ, và tóm tắt những phát hiện của họ. b) Không phát hiện của họ ảnh hưởng như thế nào, bạn nên đánh giá chi phí-hiệu quả của các biện pháp can thiệp tương tự? Nếu vậy, tại sao? Nếu không, tại sao không?
[ ] Trong một theo dõi để Schultz et al. (2007) , Schultz và các đồng nghiệp thực hiện một loạt các ba thí nghiệm về ảnh hưởng của các chỉ tiêu mô tả và bắt buộc về hành vi môi trường khác nhau (khăn tái sử dụng) trong hai bối cảnh (một khách sạn và chung cư timeshare) (Schultz, Khazian, and Zaleski 2008) .
1. Tóm tắt các thiết kế và phát hiện của ba thí nghiệm.
2. Làm thế nào, nếu có, làm họ thay đổi giải thích của bạn Schultz et al. (2007) ?
[ ] Để đáp ứng Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) chạy một loạt các thí nghiệm trong phòng thí nghiệm như để nghiên cứu thiết kế của các hóa đơn điện. Dưới đây là cách mà họ mô tả nó một cách trừu tượng:

"Trong một thí nghiệm khảo sát dựa trên, mỗi người tham gia nhìn thấy một hóa đơn điện giả thuyết cho một gia đình có sử dụng điện tương đối cao, bao gồm thông tin về (a) sử dụng lịch sử, (b) so sánh với các nước láng giềng, và (c) sử dụng lịch sử với sự cố thiết bị. Những người tham gia đã nhìn thấy tất cả các loại thông tin theo một trong ba định dạng bao gồm (a) Bàn, (b) đồ thị thanh, và (c) các đồ thị biểu tượng. Chúng tôi báo cáo về ba vấn đề chính. Đầu tiên, người tiêu dùng hiểu từng loại thông tin điện sử dụng nhiều nhất khi nó được trình bày trong một bảng, có lẽ vì bàn tạo điều kiện đọc điểm đơn giản. Thứ hai, sở thích và ý định để tiết kiệm điện là mạnh nhất đối với các thông tin sử dụng lịch sử, độc lập với các định dạng. Thứ ba, các cá nhân có năng lượng thấp hơn tỷ lệ cho phái hiểu tất cả thông tin ít hơn. "

Không giống như các nghiên cứu tiếp theo khác, kết quả chính của lãi suất trong Canfield, Bruin, and Wong-Parodi (2016) được báo cáo hành vi không hành vi thực tế. những điểm mạnh và điểm yếu của loại nghiên cứu này trong một chương trình nghiên cứu rộng lớn hơn thúc đẩy tiết kiệm năng lượng là gì?
[ , ] Smith and Pell (2003) là một phân tích meta trào phúng của nghiên cứu chứng minh hiệu quả của dù. Họ kết luận:

"Cũng như nhiều biện pháp can thiệp nhằm ngăn chặn bệnh tật, hiệu quả của dù đã không bị lệ thuộc vào đánh giá nghiêm ngặt bằng cách sử dụng thử nghiệm ngẫu nhiên có kiểm soát. Những người ủng hộ của y học chứng cứ đã chỉ trích việc áp dụng các biện pháp can thiệp được đánh giá bằng cách sử dụng dữ liệu chỉ quan sát. Chúng tôi nghĩ rằng tất cả mọi người có thể có lợi nếu những nhân vật chính cơ bản nhất của y học chứng cứ tổ chức và tham gia vào một người mù đôi, ngẫu nhiên, kiểm soát, dùng thử chéo của dù. "

Viết một op-ed phù hợp cho một tờ báo độc giả nói chung, chẳng hạn như The New York Times, lập luận chống lại sự sùng bái của bằng chứng thực nghiệm. Cung cấp các ví dụ cụ thể, bê tông. Gợi ý: Xem thêm, Bothwell et al. (2016) và Deaton (2010)
[ , , ] Sự khác biệt-trong-khác biệt ước lượng của một hiệu quả điều trị có thể được chính xác hơn so dự toán khác biệt-trong-trung bình. Viết một bản ghi nhớ với một kỹ sư phụ trách thử nghiệm A / B tại một công ty truyền thông xã hội bắt đầu lên giải thích giá trị của phương pháp tiếp cận khác biệt-trong-khác biệt để chạy thử nghiệm trực tuyến. Các bản ghi nhớ bao gồm một tuyên bố về vấn đề này, một số trực giác về những điều kiện mà ước lượng sự khác biệt-trong-khác biệt sẽ tốt hơn các ước lượng sự khác biệt-trong-trung bình, và một nghiên cứu mô phỏng đơn giản.
[ , ] Gary Loveman là một giáo sư tại Harvard Business School trước khi trở thành Giám đốc điều hành của Harrah, một trong những công ty sòng bạc lớn nhất thế giới. Khi ông chuyển đến Harrah, Loveman chuyển đổi các công ty với một chương trình lòng trung thành tờ rơi như thường xuyên mà thu thập một lượng lớn dữ liệu về hành vi khách hàng. Ngày đầu của hệ thống đo lường luôn-on này, công ty đã bắt đầu chạy thử nghiệm. Ví dụ, họ có thể chạy thử nghiệm để đánh giá ảnh hưởng của một phiếu giảm giá cho một đêm khách sạn miễn phí cho khách hàng với một mẫu hình cờ bạc cụ thể. Dưới đây là cách Loveman mô tả tầm quan trọng của thử nghiệm cho hoạt động kinh doanh hàng ngày của Harrah:

"Nó giống như bạn không quấy rối phụ nữ, bạn không ăn cắp, và bạn đã có để có một nhóm kiểm soát. Đây là một trong những điều mà bạn có thể bị mất công việc của bạn trong ít Harrah's-không chạy một nhóm kiểm soát. " (Manzi 2012, 146)

Viết thư cho một nhân viên mới giải thích lý do tại sao Loveman nghĩ rằng nó là rất quan trọng để có một nhóm kiểm soát. Bạn nên cố gắng bao gồm một ví dụ-thể là thực hoặc làm để minh họa cho quan điểm của bạn.
[ , $đòi hỏi toán học$ ] Một thí nghiệm mới nhằm ước tính ảnh hưởng của nhận lời nhắc tin nhắn văn bản trên sự thu tiêm chủng. 150 phòng khám, mỗi 600 bệnh nhân đủ điều kiện, sẵn sàng tham gia. Có một chi phí cố định là 100 đô la cho mỗi phòng khám bạn muốn làm việc với, và nó có giá 1 đô la cho mỗi tin nhắn văn bản mà bạn muốn gửi. Hơn nữa, bất kỳ phòng khám mà bạn đang làm việc với sẽ đo lường kết quả (cho dù ai đó nhận được chủng ngừa) miễn phí. Giả sử rằng bạn có một ngân sách 1.000 đô la.
1. Trong những điều kiện nó có thể là tốt hơn để tập trung nguồn lực của mình vào một số lượng nhỏ các phòng khám và điều kiện những gì nó có thể tốt hơn để truyền bá chúng rộng rãi hơn?
2. Những yếu tố nào sẽ quyết định mức độ ảnh hưởng nhỏ nhất mà bạn có thể tin cậy phát hiện với ngân sách của bạn?
3. Viết một bản ghi nhớ giải thích những đánh đổi để một nhà tài trợ tiềm năng.
[ , $đòi hỏi toán học$ ] Một vấn đề lớn với các khóa học trực tuyến là tiêu hao; nhiều học sinh mà bắt đầu khóa học kết thúc thả ra. Hãy tưởng tượng rằng bạn đang làm việc tại một nền tảng học tập trực tuyến, và một nhà thiết kế tại các nền tảng đã tạo ra một thanh tiến trình trực quan mà cô nghĩ sẽ giúp ngăn chặn sinh viên từ bỏ của khóa học. Bạn muốn kiểm tra tác động của thanh tiến về học sinh trong một khóa học khoa học xã hội tính toán lớn. Sau khi giải quyết bất kỳ vấn đề đạo đức có thể phát sinh trong các thử nghiệm, bạn và đồng nghiệp của bạn có lo lắng rằng khóa học có thể không có đủ sinh viên đáng tin cậy để phát hiện những tác động của các thanh tiến trình. Trong các tính toán bên dưới, bạn có thể giả định rằng một nửa số sinh viên sẽ nhận được các thanh tiến trình và một nửa không. Hơn nữa, bạn có thể giả định rằng không có sự can thiệp. Nói cách khác, bạn có thể giả định rằng người tham gia được chỉ bị ảnh hưởng bởi việc họ nhận được điều trị hoặc kiểm soát; họ không được thực hiện bằng cách cho dù những người khác được điều trị hoặc điều khiển (một định nghĩa chính thức hơn, xem Gerber and Green (2012) , Ch. 8). Hãy theo dõi bất kỳ giả định bổ sung mà bạn thực hiện.
1. Giả dụ các thanh tiến trình dự kiến sẽ tăng tỷ lệ học sinh hoàn thành lớp 1 điểm phần trăm, cỡ mẫu cần thiết để phát hiện đáng tin cậy hiệu quả là gì?
2. Giả dụ các thanh tiến trình dự kiến sẽ tăng tỷ lệ học sinh hoàn thành lớp 10 điểm phần trăm, cỡ mẫu cần thiết để phát hiện đáng tin cậy hiệu quả là gì?
3. Bây giờ tưởng tượng rằng bạn đã chạy thử nghiệm và sinh viên đã hoàn thành tất cả các tài liệu học đã thực hiện một kỳ thi cuối cùng. Khi bạn so sánh điểm số kỳ thi cuối cùng của học sinh nhận thanh tiến trình để những người không, bạn tìm thấy, trước sự ngạc nhiên của mình, mà học sinh đã không nhận được các thanh tiến bộ thực sự ghi điểm cao hơn. Điều này có nghĩa rằng các thanh tiến trình gây ra sinh viên phải học ít hơn? Những gì bạn có thể học hỏi từ dữ liệu kết quả này? (Gợi ý: Xem Gerber and Green (2012) , Chương 7).
[ , ] Trong một bài báo đáng yêu, Lewis and Rao (2015) sinh động minh họa cho một giới hạn thống kê cơ bản của thí nghiệm thậm chí còn lớn. Các giấy mà ban đầu có tiêu đề khiêu khích "Trên Gần khả của Đo Trở về quảng cáo" -hiển khó khăn như thế nào để đo lường lợi nhuận trên vốn đầu tư quảng cáo trực tuyến, ngay cả với thí nghiệm kỹ thuật số liên quan đến hàng triệu khách hàng. Tổng quát hơn, bài viết cho thấy rõ ràng rằng đó là khó khăn để ước lượng hiệu quả điều trị nhỏ giữa dữ liệu kết quả ồn ào. Hoặc nói diffently, bài viết cho thấy hiệu quả điều trị ước tính sẽ có khoảng tin cậy lớn khi tác động đến tiêu chuẩn độ lệch (\ (\ frac {\ delta \ thanh {y}} {\ sigma} \)) tỷ lệ nhỏ. Bài học chung quan trọng từ bài báo này là kết quả từ các thí nghiệm với tỷ lệ nhỏ tác động đến tiêu chuẩn độ lệch (ví dụ, ROI của chiến dịch quảng cáo) sẽ không hài lòng. Thách thức của bạn sẽ được để viết một bản ghi nhớ với một ai đó trong bộ phận tiếp thị của công ty bạn evaluting một thí nghiệm lên kế hoạch để đo lường ROI của một chiến dịch quảng cáo. ghi nhớ của bạn cần được hỗ trợ với các đồ thị của các kết quả của các mô phỏng máy tính.

Dưới đây là một số thông tin cơ bản mà bạn có thể cần. Tất cả những giá trị số là điển hình của các thí nghiệm thực tế báo cáo trong Lewis and Rao (2015) :
- ROI, một thước đo quan trọng cho các chiến dịch quảng cáo trực tuyến, được định nghĩa là lợi nhuận ròng từ các chiến dịch (lợi nhuận gộp từ chi phí chiến dịch trừ các chiến dịch) chia cho chi phí của chiến dịch. Ví dụ một chiến dịch đó không có ảnh hưởng trên doanh số sẽ có một ROI -100% và một chiến dịch mà lợi nhuận được tạo ra là tương đương với chi phí sẽ có một ROI 0.
- doanh số bán hàng trung bình mỗi khách hàng là $ 7 với một độ lệch chuẩn của $ 75.
- chiến dịch này dự kiến sẽ tăng doanh thu thêm $ 0.35 mỗi khách hàng tương ứng với sự gia tăng lợi nhuận của $ 0,175 cho mỗi khách hàng. Nói cách khác, tổng lợi nhuận là 50%.
- kích thước dự kiến của thí nghiệm là 200.000 người, một nửa trong nhóm điều trị và một nửa trong nhóm kiểm soát.
- chi phí của chiến dịch là $ 0,14 cho mỗi người tham gia.
Viết một bản ghi nhớ evaluting thí nghiệm này. Bạn có đề nghị phát động thí nghiệm này như kế hoạch? Nếu vậy, tại sao? Nếu không, những thay đổi mà bạn muốn giới thiệu?

Một bản ghi nhớ tốt sẽ giải quyết trường hợp cụ thể; một bản ghi nhớ tốt hơn sẽ khái quát hóa từ trường hợp này bằng cách này (ví dụ, cho thấy sự thay đổi của quyết định như là một hàm của tỷ lệ tác động đến tiêu chuẩn độ lệch); và một bản ghi nhớ lớn sẽ trình bày kết quả tổng quát đầy đủ.
[ , $đòi hỏi toán học$ ] Làm tương tự như câu hỏi trước, nhưng thay vì mô phỏng, bạn nên sử dụng kết quả phân tích.
[ , $đòi hỏi toán học$ , ] Làm tương tự như câu hỏi trước, nhưng sử dụng cả hai mô phỏng và kết quả phân tích.
[ , $đòi hỏi toán học$ , ] Hãy tưởng tượng rằng bạn đã viết các bản ghi nhớ được mô tả ở trên bằng cách sử dụng mô phỏng, kết quả phân tích, hoặc cả hai, và ai đó trong bộ phận tiếp thị khuyến cáo sử dụng một ước lượng sự khác biệt-trong-khác biệt chứ không phải là một sự khác biệt trong phương ước (xem Phần 4.6.2) . Viết một bản ghi nhớ ngắn mới giải thích làm thế nào một sự tương quan giữa 0,4 bán hàng trước khi thử nghiệm và bán hàng sau khi thí nghiệm sẽ làm thay đổi kết luận của bạn.
[ , $đòi hỏi toán học$ ] Để đánh giá hiệu quả của một dịch vụ sự nghiệp dựa trên web mới, một văn phòng dịch vụ sự nghiệp đại học đã tiến hành một thử nghiệm kiểm soát ngẫu nhiên trong số 10.000 học sinh vào năm cuối cùng của trung học. Một thuê bao miễn phí với thông tin đăng nhập độc đáo đã được gửi thông qua một lời mời email độc quyền 5000 của sinh viên được lựa chọn ngẫu nhiên, trong khi 5.000 sinh viên khác đang ở trong nhóm kiểm soát và không có một thuê bao. Mười hai tháng sau đó, một cuộc khảo sát tiếp theo (không có không đáp ứng) cho thấy, trong cả hai nhóm điều trị và kiểm soát, 70% sinh viên đã bảo đảm việc làm toàn thời gian trong lĩnh vực của họ lựa chọn (Bảng 4.5). Như vậy, có vẻ như các dịch vụ dựa trên web không có tác dụng.

Tuy nhiên, một nhà khoa học dữ liệu thông minh tại các trường đại học nhìn các dữ liệu một chút chặt chẽ hơn và thấy rằng chỉ có 20% số học sinh trong nhóm điều trị bao giờ đăng nhập vào tài khoản sau khi nhận được email. Hơn nữa, và hơi ngạc nhiên, trong số những người đã đăng nhập vào các trang web chỉ có 60% đã được bảo đảm việc làm toàn thời gian trong lĩnh vực mà họ đã chọn, thấp hơn tỷ lệ cho những người mà không đăng nhập và thấp hơn tốc độ cho người dân ở các điều kiện kiểm soát (Bảng 4.6).
1. Cung cấp một lời giải thích cho những gì có thể đã xảy ra.
2. hai cách khác nhau để tính toán hiệu quả của việc điều trị trong thí nghiệm này là gì?
3. Với kết quả này, các dịch vụ sự nghiệp đại học nên cung cấp dịch vụ sự nghiệp dựa trên web này cho tất cả sinh viên? Chỉ cần được rõ ràng, đây không phải là một câu hỏi với một câu trả lời đơn giản.
4. họ nên làm gì tiếp theo?
Gợi ý: Câu hỏi này vượt xa các vật liệu che phủ trong chương này, nhưng giải quyết các vấn đề phổ biến trong các thí nghiệm. Đây là loại thiết kế thí nghiệm đôi khi được gọi là một thiết kế khuyến khích bởi vì người tham gia được khuyến khích tham gia vào việc điều trị. Vấn đề này là một ví dụ về những gì được gọi là một trong những mặt không tuân thủ (xem Gerber and Green (2012) , Ch. 5)
[ ] Sau khi kiểm tra kỹ hơn, nó chỉ ra rằng các thí nghiệm được mô tả trong các câu hỏi trước đây thậm chí còn phức tạp hơn. Nó chỉ ra rằng 10% số người trong nhóm kiểm soát được trả cho quyền truy cập vào các dịch vụ, và họ đã kết thúc với một tỷ lệ việc làm là 65% (Bảng 4.7).
1. Viết một email tóm tắt những gì bạn nghĩ đang xảy ra và đề nghị một quá trình hành động.
Gợi ý: Câu hỏi này vượt xa các vật liệu che phủ trong chương này, nhưng giải quyết các vấn đề phổ biến trong các thí nghiệm. Vấn đề này là một ví dụ về những gì được gọi là hai mặt không tuân thủ (xem Gerber and Green (2012) , Chương 6).

Bảng 4.5: Xem đơn giản của dữ liệu từ thí nghiệm các dịch vụ nghề nghiệp.
Nhóm	Kích thước	tỷ lệ việc làm
Cấp quyền truy cập vào trang web	5.000	70%
Không được cấp quyền truy cập vào trang web	5.000	70%

Bảng 4.6: cái nhìn đầy đủ hơn về dữ liệu từ thí nghiệm các dịch vụ nghề nghiệp.
Nhóm	Kích thước	tỷ lệ việc làm
Cấp quyền truy cập vào trang web và đăng nhập	1.000	60%
Cấp quyền truy cập vào trang web và không bao giờ đăng nhập	4.000	85%
Không được cấp quyền truy cập vào trang web	5.000	70%

Bảng 4.7: Xem đầy đủ dữ liệu từ thí nghiệm các dịch vụ nghề nghiệp.
Nhóm	Kích thước	tỷ lệ việc làm
Cấp quyền truy cập vào trang web và đăng nhập	1.000	60%
Cấp quyền truy cập vào trang web và không bao giờ đăng nhập	4.000	72,5%
Không được cấp quyền truy cập vào trang web và trả tiền cho nó	500	65%
Không được cấp quyền truy cập vào trang web và không trả tiền cho nó	4.500	70,56%