5.3.1 넷플 릭스 수상

이 번역은 컴퓨터에 의해 만들어졌습니다. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.3.1 넷플 릭스 수상

넷플 릭스 수상은 사람들이 좋아 할 영화 예측하기 위해 공모를 사용합니다.

가장 잘 알려진 공모 프로젝트는 넷플릭스 상이다. 넷플릭스는 온라인 영화 대여 회사이며, 2000 년은 고객에게 영화를 추천 Cinematch, 서비스를 시작했다. 예를 들어, Cinematch는 뒤로 및 다음 제다이의 반환을 시청하는 것이 좋습니다 스타 워즈 제국의 파업을 좋아하는 것을 알 수 있습니다. 처음 Cinematch은 가난했다. 그러나, 몇 년에 걸쳐, Cinematch 고객이 즐길 것입니다 무슨 영화를 예측할 수있는 능력을 향상시키기 위해 계속했다. 2006 년, 그러나, Cinematch에 진행 plateaued. 넷플릭스의 연구자들은 그들이 생각할 수있는 거의 모든 것을 시도했다, 그러나 동시에, 그들은 그들의 시스템을 개선하는 데 도움이 할 수있는 다른 아이디어가 있다고 의심. 오픈 전화 : 따라서, 그들은 시간에, 무엇으로 급진적 인 해결책을 내놓았다.

넷플 릭스 수상의 궁극적 인 성공에 중요한은 공모가 디자인 된 방법이며,이 디자인은 사회 연구에 사용할 수있는 방법을 공개 통화에 대한 중요한 교훈이있다. 넷플릭스는 단지 그들이 먼저 공모를 고려할 때 많은 사람들이 상상하는 것입니다 아이디어를 구조화되지 않은 요청을 넣어하지 않았다. 오히려, 넷플릭스는 간단한 평가 기준과 명확한 문제 제기 : 그들은 3 백만 개최 아웃 등급 예측 억 영화 등급의 세트를 사용하는 사람들이 도전 (사용자가 만든 한 평가를하지만 넷플릭스는 공개하지 않았다). Cinematch 1 백만 달러를이기는 것보다 10 % 더 3,000,000 개최 아웃 등급을 예측할 수있는 알고리즘을 만들 수 있습니다 사람. 이 명확하고 쉽게 평가 개최 아웃을 예측 평가 기준이-비교 적용 할 넷플 릭스 수상이 솔루션은 생성보다 확인하기 쉽게하는 방식으로 액자 것을 평가-의미; 그것은 공모에 적합한 문제에 Cinematch 개선의 도전을 돌았 다.

2006 년 10 월, 넷플릭스 (우리는 제 6 장에서이 데이터 릴리스의 개인 정보 보호 영향을 고려할 것) 약 50 만 고객으로부터 1 억 영화 등급을 포함하는 데이터 집합을 발표했다. 넷플 릭스 데이터는 20,000 영화가 약 50 만 고객 인 거대한 행렬로 개념화 할 수있다. 이 행렬 내 1 ~ 5 점 (표 5.2)에서 규모에 약 1 억 등급이 있었다. 도전은 3,000,000 유지 아웃 평가를 예측하기 위해 매트릭스 관측 데이터를 사용 하였다.

표 5.2 : 넷플 릭스 상 데이터의 도식. 넷플릭스는 20,000 영화에 50 만 고객이 제공 한 약 1 억 등급 (1 등급 ~ 5 개)를 발표했다. 넷플 릭스 수상의 목표는 "?"로 표시 300 만 영화의 개최 아웃 등급을 예측하는이 등급을 사용하는 것이 었습니다. 넷플 릭스 상에 참가자가 제출 한 예상 등급은 유지 아웃 등급을 비교 하였다. 나는 6 장에서이 데이터 공개를 둘러싼 윤리적 문제에 대해 설명합니다.
	영화 1	영화 2	영화 3	. . .	영화 20,000
고객 1	이	(5)		.	?
고객이		이	?	.	삼
고객 3		?	이	.
. . .	.	.	.	.	.
고객 50 만	?		이	.	1

전 세계의 연구자들과 해커 도전에 그려진되었고, 2008 년 30,000 명 이상의 사람들이 작업을 하였다 (Thompson 2008) . 대회의 과정 동안, 넷플릭스는 5,000 개 이상의 팀에서 40,000 개 이상의 제안 된 솔루션을받은 (Netflix 2009) . 물론, 넷플릭스 읽고 모든 제안 된 솔루션을 이해할 수 없었다. 솔루션 확인하기 쉬운했기 때문에 모든 것은, 그러나, 부드럽게 달렸다. 넷플릭스는 컴퓨터가 미리 지정된 측정 항목 (이들이 평균 제곱 오차의 제곱근이었다 사용되는 특정 메트릭)에 의해 유지 된 아웃 평가의 예측 평가를 비교할 수있다. 신속하게 좋은 아이디어 몇 가지 놀라운 곳에서 왔기 때문에 중요한 것으로 밝혀졌다 모든 사람의 솔루션을 적용 넷플 릭스를 사용 솔루션을 평가하는이 능력이었다. 사실, 경력에 빛나는 솔루션은 더 이전에 경험 건물 영화 추천 시스템이 없었다 세 연구자에 의해 시작 팀에 의해 제출 된 (Bell, Koren, and Volinsky 2010) .

넷플 릭스 상을 하나의 아름다운 측면은 자신의 솔루션은 매우 평가하도록 세계에서 모두를 사용할 수 있다는 것입니다. 사람들이 자신의 예상 등급을 업로드 할 때, 그들은 자신의 학력, 자신에 대해 나이, 인종, 성별, 성적 취향, 또는 아무것도를 업로드 할 필요가 없었다. 따라서, 스탠포드에서 유명한 교수의 예측 평가는 정확히 그녀의 침실에서 십대에서와 동일한 처리 하였다. 불행하게도, 이것은 대부분의 사회 조사에서 사실이 아니다. 즉, 대부분의 사회 연구, 평가는 매우 많은 시간이 소요 부분적으로 주관적이다. 그래서, 대부분의 연구 아이디어가 심각하게 평가되지 않습니다, 그리고 아이디어를 평가하는 경우, 아이디어의 창조자에서 그 평가를 분리하기 어렵다. 솔루션은 확인이 용이하기 때문에, 개방 호출은 연구자들이는 유명한 교수의 솔루션을 고려하면 균열을 통해 떨어질 수있는 모든 잠재적으로 훌륭한 솔루션에 액세스 할 수 있습니다.

예를 들어, 화면 이름으로 넷플릭스 수상 사람 중 한 지점에서 시몬 펑크는 특이 값 분해에 기초하여 자신의 블로그 제안 된 솔루션을 게시, 다른 참가자에 의해 이전에 사용되지 않은 선형 대수에서 접근. 펑크의 블로그 게시물을 동시에 기술 및 이상하게 비공식적이었다. 이 블로그 게시물은 좋은 해결책을 설명하거나 시간 낭비였다? 공개 모집 프로젝트의 외부 솔루션은 심각한 평가를받지 못했을 수 있습니다. 모든 사이먼 펑크 칼 테크 또는 MIT 교수 아니었다 후; 그는 당시 뉴질랜드의 주위에 배낭 된, 소프트웨어 개발자이었다 (Piatetsky 2007) . 그가 넷플릭스의 엔지니어에이 아이디어를 이메일로 전송 한 경우, 거의 확실 심각하지 않았을 것입니다.

평가 기준이 명확하고 쉽게 적용 할 수 있었기 때문에 다행히, 그의 예측 등급을 평가하고, 그의 접근 방식은 매우 강력한 것을 즉시 분명했다 : 그는이 대회에서 4 위를 돌진, 엄청난 결과는 다른 팀이 이미 있었다 주어진 문제에 달 동안 작동합니다. 결국, 사이먼 펑크의 접근 방식의 부분은 거의 모든 심각한 경쟁에 의해 사용되었다 (Bell, Koren, and Volinsky 2010) .

사이먼 펑크 오히려 비밀을 유지하는 것보다, 자신의 접근 방식을 설명하는 블로그 게시물을 작성하기로 결정했습니다 사실은, 또한 넷플릭스 상에있는 많은 참가자가 독점적 만 달러의 상금에 의해 좌우되지 않았 음을 보여줍니다. 오히려, 많은 참가자는 지적 도전과 문제를 해결 개발 커뮤니티 즐길 듯 (Thompson 2008) , I는 많은 연구자가 이해할 수있는 기대의 감정을.

넷플 릭스 수상은 공모의 고전적인 예이다. 넷플릭스는 (영화 등급을 예측) 특정 목표에 질문을 제기하고 많은 사람들로부터 솔루션을 유혹. 자신이 만든 것보다 확인하기 쉽게 있었기 때문에 넷플릭스는 모든 솔루션을 평가할 수 있었고, 궁극적으로 넷플릭스는 최고의 솔루션을 골랐다. 이 같은 접근법은 생물학 및 법률에 사용할 수있는 방법을 다음, 나는 당신을 보여줄 것이다.