5.3.1 Giải Netflix

Giải thưởng Netflix sử dụng cuộc gọi mở để dự đoán phim mọi người sẽ thích.

Dự án cuộc gọi mở nổi tiếng nhất là Giải thưởng Netflix. Netflix là một công ty cho thuê phim trực tuyến và vào năm 2000, Cinematch đã ra mắt dịch vụ này để giới thiệu phim cho khách hàng. Ví dụ, Cinematch có thể nhận thấy rằng bạn thích Star WarsThe Empire Strikes Back và sau đó khuyên bạn nên xem Return of the Jedi . Ban đầu, Cinematch làm việc kém. Nhưng, trong suốt nhiều năm, nó tiếp tục cải thiện khả năng dự đoán phim nào khách hàng sẽ thích. Tuy nhiên, đến năm 2006, sự tiến bộ trên Cinematch đã được nâng cao. Các nhà nghiên cứu tại Netflix đã thử khá nhiều thứ mà họ có thể nghĩ đến, nhưng, đồng thời, họ nghi ngờ rằng có những ý tưởng khác có thể giúp họ cải thiện hệ thống của họ. Vì vậy, họ đã đưa ra những gì đã được, tại thời điểm đó, một giải pháp cấp tiến: một cuộc gọi mở.

Điều quan trọng đối với sự thành công cuối cùng của Giải thưởng Netflix là cách cuộc gọi mở được thiết kế và thiết kế này có những bài học quan trọng về cách các cuộc gọi mở có thể được sử dụng cho nghiên cứu xã hội. Netflix đã không chỉ đưa ra một yêu cầu không có cấu trúc cho các ý tưởng, đó là những gì nhiều người tưởng tượng khi họ lần đầu tiên xem xét một cuộc gọi mở. Thay vào đó, Netflix đã đặt ra một vấn đề rõ ràng với quy trình đánh giá đơn giản: họ đã thách thức mọi người sử dụng 100 triệu xếp hạng phim để dự đoán 3 triệu xếp hạng được tổ chức (xếp hạng mà người dùng đã thực hiện nhưng Netflix không phát hành). Người đầu tiên tạo ra một thuật toán dự đoán 3 triệu xếp hạng được tổ chức tốt hơn 10% so với Cinematch sẽ giành được một triệu đô la. Thủ tục đánh giá rõ ràng và dễ áp ​​dụng này — so sánh xếp hạng được dự đoán với xếp hạng được tổ chức — có nghĩa là Giải thưởng Netflix được đóng khung sao cho các giải pháp dễ kiểm tra hơn tạo ra; nó trở thành thách thức trong việc cải thiện Cinematch thành một vấn đề phù hợp với một cuộc gọi mở.

Vào tháng 10 năm 2006, Netflix đã phát hành tập dữ liệu chứa 100 triệu lượt xem phim từ khoảng 500.000 khách hàng (chúng tôi sẽ xem xét các tác động riêng tư của việc phát hành dữ liệu này trong chương 6). Dữ liệu Netflix có thể được khái niệm hóa thành một ma trận khổng lồ với khoảng 500.000 khách hàng bởi 20.000 bộ phim. Trong ma trận này, có khoảng 100 triệu xếp hạng trên thang điểm từ một đến năm sao (bảng 5.2). Thách thức là sử dụng dữ liệu quan sát được trong ma trận để dự đoán 3 triệu xếp hạng được tổ chức.

Bảng 5.2: Sơ đồ dữ liệu từ Giải thưởng Netflix
Phim 1 Phim 2 Phim 3 Phim 20.000
Khách hàng 1 2 5 ?
Khách hàng 2 2 ? 3
Khách hàng 3 ? 2
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
500.000 khách hàng ? 2 1

Các nhà nghiên cứu và tin tặc trên toàn thế giới đã bị cuốn hút vào thử thách, và đến năm 2008 có hơn 30.000 người đang nghiên cứu nó (Thompson 2008) . Trong suốt cuộc thi, Netflix đã nhận được hơn 40.000 giải pháp được đề xuất từ ​​hơn 5.000 đội (Netflix 2009) . Rõ ràng, Netflix không thể đọc và hiểu tất cả các giải pháp được đề xuất này. Tuy nhiên, toàn bộ mọi thứ diễn ra trôi chảy vì các giải pháp dễ kiểm tra. Netflix chỉ có thể có máy tính so sánh xếp hạng được dự đoán với xếp hạng được tổ chức bằng cách sử dụng số liệu được xác định trước (số liệu cụ thể mà chúng sử dụng là căn bậc hai của lỗi bình phương bình phương). Chính khả năng này nhanh chóng đánh giá các giải pháp cho phép Netflix chấp nhận các giải pháp từ mọi người, điều này hóa ra là quan trọng bởi vì những ý tưởng hay đến từ một số nơi đáng ngạc nhiên. Trong thực tế, giải pháp chiến thắng đã được đệ trình bởi một nhóm bắt đầu bởi ba nhà nghiên cứu không có kinh nghiệm trước khi xây dựng hệ thống giới thiệu phim (Bell, Koren, and Volinsky 2010) .

Một khía cạnh tuyệt vời của Giải thưởng Netflix là nó cho phép tất cả các giải pháp được đề xuất được đánh giá một cách công bằng. Đó là, khi mọi người tải lên xếp hạng dự đoán của họ, họ không cần tải lên thông tin đăng nhập học tập, tuổi tác, chủng tộc, giới tính, khuynh hướng tình dục hoặc bất kỳ điều gì về bản thân họ. Các xếp hạng dự đoán của một giáo sư nổi tiếng từ Stanford đã được đối xử chính xác giống như những người từ một thiếu niên trong phòng ngủ của cô. Thật không may, điều này là không đúng trong hầu hết các nghiên cứu xã hội. Đó là, đối với hầu hết các nghiên cứu xã hội, đánh giá là rất tốn thời gian và một phần chủ quan. Vì vậy, hầu hết các ý tưởng nghiên cứu không bao giờ được đánh giá nghiêm túc, và khi các ý tưởng được đánh giá, thật khó để tách rời những đánh giá đó khỏi người tạo ra các ý tưởng. Mở các dự án cuộc gọi, mặt khác, có đánh giá dễ dàng và công bằng để họ có thể khám phá những ý tưởng sẽ bị bỏ qua nếu không.

Ví dụ, tại một thời điểm trong Giải Netflix, một người có tên màn hình Simon Funk đăng trên blog của mình một giải pháp được đề xuất dựa trên một phân tích giá trị ít, một cách tiếp cận từ đại số tuyến tính mà trước đây không được sử dụng bởi những người tham gia khác. Bài đăng trên blog của Funk đồng thời mang tính kỹ thuật và phi chính thức. Bài đăng trên blog này có mô tả giải pháp tốt hay không lãng phí thời gian? Bên ngoài dự án cuộc gọi mở, giải pháp có thể chưa bao giờ được đánh giá nghiêm túc. Rốt cuộc, Simon Funk không phải là giáo sư tại MIT; ông là một nhà phát triển phần mềm, vào thời điểm đó, đã quay trở lại New Zealand (Piatetsky 2007) . Nếu anh ta đã gửi email ý tưởng này cho một kỹ sư tại Netflix, nó gần như chắc chắn sẽ không được đọc.

May mắn thay, vì các tiêu chí đánh giá rõ ràng và dễ áp ​​dụng, xếp hạng dự đoán của anh đã được đánh giá, và rõ ràng là phương pháp của anh rất mạnh mẽ: anh tăng lên vị trí thứ tư trong cuộc thi, một kết quả to lớn cho các đội khác làm việc trong nhiều tháng về vấn đề này. Cuối cùng, một phần của phương pháp tiếp cận của ông đã được sử dụng bởi hầu như tất cả các đối thủ cạnh tranh nghiêm trọng (Bell, Koren, and Volinsky 2010) .

Thực tế là Simon Funk đã chọn viết một bài đăng trên blog giải thích cách tiếp cận của mình, thay vì cố gắng giữ bí mật, cũng minh họa rằng nhiều người tham gia Giải thưởng Netflix không được thúc đẩy bởi giải thưởng triệu đô la. Thay vào đó, nhiều người tham gia cũng dường như thích thú với thử thách trí tuệ và cộng đồng phát triển xung quanh vấn đề (Thompson 2008) , những cảm xúc mà tôi mong đợi nhiều nhà nghiên cứu có thể hiểu được.

Giải Netflix là một ví dụ điển hình về một cuộc gọi mở. Netflix đặt ra một câu hỏi với mục tiêu cụ thể (dự đoán xếp hạng phim) và các giải pháp được mời từ nhiều người. Netflix đã có thể đánh giá tất cả các giải pháp này vì chúng dễ kiểm tra hơn là tạo và cuối cùng Netflix đã chọn giải pháp tốt nhất. Tiếp theo, tôi sẽ chỉ cho bạn cách tiếp cận tương tự này có thể được sử dụng trong sinh học và pháp luật, và không có một giải thưởng trị giá hàng triệu đô la.