5.3.1 Giải Netflix

Giải thưởng Netflix sử dụng cuộc gọi mở để dự đoán phim mọi người sẽ thích.

Các dự án kêu gọi mở nổi tiếng nhất là giải thưởng Netflix. Netflix là một công ty cho thuê phim trực tuyến, và đến năm 2000 đưa ra Cinematch, một dịch vụ để giới thiệu phim cho khách hàng. Ví dụ, Cinematch có thể nhận thấy rằng bạn thích Star WarsStrikes Empire lại và sau đó khuyên bạn nên xem Return of the Jedi. Ban đầu, Cinematch làm việc kém. Nhưng, trong suốt nhiều năm, Cinematch tiếp tục cải thiện khả năng dự đoán những gì phim ảnh khách hàng sẽ được hưởng. Tuy nhiên, vào năm 2006, tiến bộ trên Cinematch giữ nguyên. Các nhà nghiên cứu tại Netflix đã thử khá nhiều tất cả mọi thứ mà họ có thể nghĩ đến, nhưng đồng thời, họ nghi ngờ rằng có những ý tưởng khác có thể giúp họ cải thiện hệ thống của họ. Do đó, họ đã đưa ra với những gì đã, vào thời điểm đó, một giải pháp cực đoan: một cuộc gọi mở.

Quan trọng cho sự thành công cuối cùng của giải thưởng Netflix là cách gọi mở được thiết kế, và thiết kế này có những bài học quan trọng cho cách mở các cuộc gọi có thể được sử dụng cho các nghiên cứu xã hội. Netflix không chỉ cần đặt ra một yêu cầu phi cấu trúc cho những ý tưởng, đó là những gì mà nhiều người tưởng tượng khi họ lần đầu tiên xem xét một cuộc gọi mở. Thay vào đó, Netflix đã đặt ra một vấn đề rõ ràng với một tiêu chí đánh giá đơn giản: họ thách thức mọi người sử dụng một bộ 100.000.000 xếp hạng phim để dự đoán 3.000.000 xếp hạng lấy ra (xếp hạng mà người dùng đã thực hiện nhưng mà Netflix đã không phát hành). Bất cứ ai có thể tạo ra một thuật toán mà có thể dự đoán được 3.000.000 xếp hạng lấy ra 10% tốt hơn Cinematch sẽ giành chiến thắng 1 triệu USD. Điều này rõ ràng và dễ áp ​​dụng tiêu chuẩn đánh giá, so sánh dự đoán xếp hạng để lấy ra xếp hạng, có nghĩa là giải Netflix đã được đóng khung trong một cách mà giải pháp này là dễ dàng hơn để kiểm tra hơn tạo ra; nó bật những thách thức của việc cải thiện Cinematch vào một vấn đề thích hợp cho một cuộc gọi mở.

Trong tháng mười năm 2006, Netflix phát hành một tập dữ liệu có chứa 100 triệu xếp hạng phim từ khoảng khoảng 500.000 khách hàng (chúng tôi sẽ xem xét các khía cạnh riêng tư của phát hành dữ liệu này trong chương 6). Các dữ liệu Netflix có thể được định nghĩa là một ma trận lớn đó là khoảng 500.000 khách hàng bằng 20.000 bộ phim. Trong ma trận này, đã có khoảng 100 triệu xếp hạng theo thang điểm từ 1 đến 5 sao (Bảng 5.2). Thách thức là sử dụng các dữ liệu quan sát trong ma trận để dự đoán 3.000.000 xếp hạng được tổ chức phòng.

Bảng 5.2: Sơ đồ dữ liệu từ các giải thưởng Netflix. Netflix phát hành khoảng 100 triệu xếp hạng (1 sao đến 5 sao) được cung cấp bởi 500.000 khách hàng trên 20.000 bộ phim. Mục tiêu của giải thưởng Netflix đã được sử dụng để xếp để dự đoán xếp hạng lấy ra 3 triệu bộ phim, hiển thị như "?". xếp hạng dự đoán do những người tham gia trong các giải thưởng Netflix được so sánh với các xếp hạng được tổ chức phòng. Tôi sẽ thảo luận về các vấn đề đạo đức xung quanh phát hành dữ liệu này trong chương 6.
Movie 1 Movie 2 Movie 3 . . . Movie 20.000
khách hàng 1 2 5 . ?
khách hàng 2 2 ? . 3
khách hàng 3 ? 2 .
. . . . . . . .
khách hàng 500.000 ? 2 . 1

Các nhà nghiên cứu và các tin tặc trên thế giới đã được rút ra để thách thức, và đến năm 2008 hơn 30.000 người làm việc trên nó (Thompson 2008) . Trong suốt cuộc thi, Netflix đã nhận được hơn 40.000 giải pháp đề xuất từ hơn 5.000 đội (Netflix 2009) . Rõ ràng, Netflix không thể đọc và hiểu được tất cả các giải pháp được đề xuất. Toàn bộ sự việc chạy trơn tru, tuy nhiên, vì các giải pháp đã dễ dàng để kiểm tra. Netflix chỉ có thể có một máy tính so sánh xếp hạng dự đoán xếp hạng được tổ chức ra bởi một số liệu (số liệu cụ thể mà họ sử dụng là căn bậc hai của sai số trung bình bình phương) xác định trước. Đó là khả năng này để nhanh chóng đánh giá các giải pháp kích hoạt Netflix để chấp nhận các giải pháp từ tất cả mọi người, mà hóa ra là quan trọng bởi vì những ý tưởng tốt đến từ một nơi đáng ngạc nhiên. Trong thực tế, các giải pháp chiến thắng đã được gửi bởi một nhóm các nhà nghiên cứu bắt đầu bằng ba mà không có kinh nghiệm xây dựng hệ thống khuyến phim trước (Bell, Koren, and Volinsky 2010) .

Một khía cạnh đẹp của giải thưởng Netflix là nó cho phép tất cả mọi người trên thế giới để có giải pháp của họ được đánh giá khá. Khi mọi người tải lên xếp hạng dự đoán của họ, họ không cần phải tải lên thông tin học tập của họ, họ tuổi tác, chủng tộc, giới tính, khuynh hướng tình dục, hoặc bất cứ điều gì về bản thân mình. Như vậy, xếp hạng dự đoán của một giáo sư nổi tiếng đến từ Stanford đã được điều trị chính xác giống như những người từ một thiếu niên trong phòng ngủ của cô. Thật không may, điều này là không đúng trong hầu hết các nghiên cứu xã hội. Đó là, đối với hầu hết các nghiên cứu xã hội, đánh giá là rất tốn thời gian và một phần chủ quan. Vì vậy, hầu hết các ý tưởng nghiên cứu không bao giờ được đánh giá nghiêm túc, và khi những ý tưởng được đánh giá, rất khó để tách những đánh giá từ các tác giả của ý tưởng. Bởi vì các giải pháp dễ dàng để kiểm tra, các cuộc gọi mở cho phép các nhà nghiên cứu để truy cập tất cả các giải pháp có khả năng tuyệt vời mà sẽ rơi qua các vết nứt nếu họ chỉ được coi là giải pháp từ các giáo sư nổi tiếng.

Ví dụ, tại một thời điểm trong quá trình giải Netflix người có tên màn hình Simon Funk đăng trên blog một giải pháp đề xuất của ông dựa trên một phân hủy giá trị độc đáo, một cách tiếp cận từ đại số tuyến tính mà đã không được sử dụng trước đó bởi người tham gia khác. bài đăng blog Funk là đồng thời kỹ thuật và kì lạ không chính thức. Đã được bài blog này mô tả một giải pháp tốt hay đó là một sự lãng phí thời gian? Bên ngoài của một dự án gọi mở, các giải pháp có thể không bao giờ nhận được đánh giá nghiêm trọng. Sau khi tất cả Simon Funk không phải là một giáo sư tại Cal Tech hay MIT; ông là một nhà phát triển phần mềm người, vào thời điểm đó, đã được trang bị sau lưng xung quanh New Zealand (Piatetsky 2007) . Nếu anh đã gửi qua email ý tưởng này để một kỹ sư tại Netflix, nó gần như chắc chắn sẽ không có được thực hiện nghiêm túc.

May mắn thay, bởi vì các tiêu chí đánh giá rõ ràng và dễ áp ​​dụng, xếp hạng dự đoán của ông được đánh giá, và nó đã ngay lập tức rõ ràng rằng cách tiếp cận của ông là rất mạnh mẽ: ông vọt lên vị trí thứ tư trong cuộc thi này, một kết quả to lớn cho rằng các đội khác đã được làm việc trong nhiều tháng vào vấn đề. Cuối cùng, các bộ phận của cách tiếp cận Simon Funk đã được sử dụng bởi hầu như tất cả các đối thủ cạnh tranh nghiêm trọng (Bell, Koren, and Volinsky 2010) .

Thực tế là Simon Funk đã chọn để viết một bài đăng blog giải thích cách tiếp cận của mình, thay vì cố gắng giữ bí mật, cũng cho thấy nhiều người tham gia trong giải Netflix không được độc quyền thúc đẩy bởi những giải thưởng triệu đô la. Thay vào đó, nhiều người tham gia cũng có vẻ để tận hưởng những thách thức trí tuệ và cộng đồng phát triển xung quanh các vấn đề (Thompson 2008) , cảm giác mà tôi mong đợi nhiều nhà nghiên cứu có thể hiểu được.

Giải thưởng Netflix là một ví dụ điển hình của một cuộc gọi mở. Netflix đặt ra một câu hỏi với một mục tiêu cụ thể (dự đoán xếp hạng phim) và trưng cầu các giải pháp từ nhiều người. Netflix đã có thể đánh giá tất cả các giải pháp này vì họ dễ dàng hơn để xác minh hơn để tạo ra, và cuối cùng là Netflix đã chọn giải pháp tốt nhất. Tiếp theo, tôi sẽ chỉ cho bạn cách tiếp cận này tương tự có thể được sử dụng trong sinh học và pháp luật.