5.3.1 Netflix-prisen

Den Netflix Prize bruger åben opfordring til at forudsige, hvilke film folk vil kunne lide.

Det mest kendte åbne opkaldsprojekt er Netflix-prisen. Netflix er et online-filmudlejningsfirma, og i 2000 lancerede Cinematch, en tjeneste til at anbefale film til kunder. For eksempel kan Cinematch bemærke, at du kunne lide Star Wars og The Empire Strikes Back og derefter anbefale at du ser Retur af Jedi . I starten arbejdede Cinematch dårligt. Men i løbet af mange år fortsatte den at forbedre sin evne til at forudsige, hvilke film kunder ville nyde. I 2006 havde fremskridtene på Cinematch imidlertid været pladet. Forskerne ved Netflix havde forsøgt stort set alt, hvad de kunne tænke på, men samtidig mente de, at der var andre ideer, der kunne hjælpe dem med at forbedre deres system. Således kom de op på, hvad der på det tidspunkt var en radikal løsning: et åbent opkald.

Kritisk til Netflix-prisen er muligvis, hvordan det åbne opkald blev designet, og dette design har vigtige erfaringer til, hvordan åbne opkald kan bruges til social forskning. Netflix lagde ikke bare en ustruktureret anmodning om ideer, hvilket er, hvad mange mennesker forestiller sig, når de først overvejer et åbent opkald. Netflix stillede et klart problem med en simpel evalueringsprocedure: de udfordrede folk til at bruge et sæt på 100 millioner filmkarakterer for at forudsige 3 millioner hold-out ratings (ratings, som brugere havde lavet, men Netflix slap ikke ud). Den første person til at oprette en algoritme, der forudsagde de 3 millioner hold-out ratings 10% bedre end Cinematch ville vinde en million dollars. Denne klare og nemme anvendelse af evalueringsproceduren - sammenligning af forudsagte ratings med udhulede ratings - medførte, at Netflix-prisen blev indrammet på en sådan måde, at løsninger var nemmere at kontrollere end generere; Det blev udfordringen at forbedre Cinematch til et problem, der passer til et åbent opkald.

I oktober 2006 udgav Netflix et datasæt med 100 millioner filmvurderinger fra omkring 500.000 kunder (vi vil overveje privatlivets konsekvenser af denne dataudgivelse i kapitel 6). Netflix data kan konceptualiseres som en enorm matrix, der er ca. 500.000 kunder med 20.000 film. Inden for denne matrix var der omkring 100 millioner vurderinger på en skala fra en til fem stjerner (tabel 5.2). Udfordringen var at bruge de observerede data i matricen for at forudsige de 3 millioner hold-out ratings.

Tabel 5.2: Skematisk af data fra Netflix-prisen
Film 1 Film 2 Film 3 ... Film 20.000
Kunde 1 2 5 ... ?
Kunde 2 2 ? ... 3
Kunde 3 ? 2 ...
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
Kunden 500.000 ? 2 ... 1

Forskere og hackere rundt om i verden blev trukket til udfordringen, og i 2008 arbejdede mere end 30.000 mennesker (Thompson 2008) . I løbet af konkurrencen modtog Netflix mere end 40.000 foreslåede løsninger fra mere end 5.000 teams (Netflix 2009) . Netflix kunne naturligvis ikke læse og forstå alle disse foreslåede løsninger. Det hele gik dog glat, fordi løsningerne var nemme at kontrollere. Netflix kunne kun få en computer til at sammenligne de forudsagte ratings med de holdede ratings ved hjælp af en forudbestemt metrisk (den særlige metriske de anvendte var kvadratroten af ​​den gennemsnitlige kvadratfeil). Det var denne evne til hurtigt at vurdere løsninger, der gjorde det muligt for Netflix at acceptere løsninger fra alle, hvilket viste sig at være vigtigt, fordi gode ideer kom fra nogle overraskende steder. Faktisk blev den vindende løsning indsendt af et hold startet af tre forskere, der ikke havde nogen tidligere erfaring med at bygge filmanbefalinger systemer (Bell, Koren, and Volinsky 2010) .

Et smukt aspekt af Netflix-prisen er, at det gjorde det muligt at evaluere alle de foreslåede løsninger retfærdigt. Det vil sige, når folk uploadede deres forventede ratings, behøvede de ikke at uploade deres akademiske legitimationsoplysninger, deres alder, race, køn, seksuel orientering eller noget om sig selv. De forventede vurderinger fra en berømt professor fra Stanford blev behandlet nøjagtigt de samme som dem fra en teenager i hendes soveværelse. Desværre er det ikke sandt i de fleste sociale undersøgelser. Det vil sige, at for de fleste sociale undersøgelser er evalueringen meget tidskrævende og delvist subjektiv. Så de fleste forskningsideer bliver aldrig seriøst evalueret, og når ideer evalueres, er det svært at fjerne disse vurderinger fra idéens skaber. Åben opkaldsprojekter har derimod en retfærdig vurdering, så de kan opdage ideer, der ville blive savnet ellers.

For eksempel på et tidspunkt under Netflix-prisen oplyste en person med skærmnavnet Simon Funk på sin blog en foreslået løsning baseret på en enkeltværdisopdeling, en tilgang fra lineær algebra, der ikke tidligere var blevet brugt af andre deltagere. Funks blogindlæg var samtidigt teknisk og underligt uformelt. Var dette blogindlæg en god løsning eller var det spild af tid? Uden for et åbent opkaldsprojekt kan løsningen aldrig have modtaget en seriøs evaluering. Simon Funk var jo ikke professor ved MIT; han var en softwareudvikler, der på det tidspunkt var backpacking omkring New Zealand (Piatetsky 2007) . Hvis han havde sendt denne ide til en ingeniør hos Netflix, ville det næsten ikke være blevet læst.

Heldigvis, fordi evalueringskriterierne var klare og nemme at anvende, blev hans forventede vurderinger vurderet, og det var straks klart, at hans tilgang var meget kraftfuld: han rakede til fjerdeplads i konkurrencen, et enormt resultat, da andre teams allerede var blevet arbejder i flere måneder på problemet. Til sidst blev dele af hans tilgang brugt af stort set alle alvorlige konkurrenter (Bell, Koren, and Volinsky 2010) .

Det faktum, at Simon Funk valgte at skrive et blogpost, der forklarede sin tilgang, i stedet for at forsøge at holde det hemmeligt, illustrerer også, at mange deltagere i Netflix-prisen ikke udelukkende var motiveret af million-dollar-prisen. I stedet syntes mange deltagere også at nyde den intellektuelle udfordring og det samfund, der udviklede sig omkring problemet (Thompson 2008) , følelser, som jeg forventer mange forskere kan forstå.

Netflix-prisen er et klassisk eksempel på et åbent opkald. Netflix stillede et spørgsmål med et specifikt mål (forudsigelse af filmkarakterer) og efterspurgte løsninger fra mange mennesker. Netflix var i stand til at evaluere alle disse løsninger, fordi de var nemmere at kontrollere end at skabe, og i sidste ende valgte Netflix den bedste løsning. Dernæst vil jeg vise dig, hvordan denne samme tilgang kan bruges i biologi og lov, og uden en million dollar-pris.