Bit By Bit - Massen Zusammenarbeit - 5.3.1 Netflix

Diese Übersetzung wurde von einem Computer erstellt. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.3.1 Netflix - Preis

Die Netflix - Preis verwendet offene Aufruf zur Vorhersage , welche Filme die Menschen mögen.

Die bekannteste Open Call Projekt ist der Netflix-Preis. Netflix ist ein Online-Film-Verleih-Unternehmen, im Jahr 2000 ins Leben gerufen es Cinematch, einen Service-Filme für Kunden zu empfehlen. Zum Beispiel könnte Cinematch feststellen , dass Sie Star Wars gemocht und Imperium schlägt zurück und dann wird empfohlen, Die Rückkehr der Jedi - Ritter zu sehen. Zunächst arbeitete Cinematch schlecht. Aber im Laufe von vielen Jahren setzte Cinematch seine Fähigkeit zu verbessern, um vorherzusagen, welche Filme Kunden genießen würden. Bis zum Jahr 2006 jedoch Fortschritte bei Cinematch plateaued. Die Forscher bei Netflix hatte so ziemlich alles versucht, sie denken konnte, aber zugleich, sie vermuteten, dass es andere Ideen waren, die sie ihr System verbessern könnte helfen. So kamen sie mit, was war, zu der Zeit, eine radikale Lösung: einen offenen Aufruf.

Entscheidend für den späteren Erfolg des Netflix-Preis war, wie der offene Aufruf entworfen wurde, und dieser Entwurf hat wichtige Lektionen für wie offen Anrufe können für Sozialforschung verwendet werden. Netflix hat für Ideen löschte nicht nur eine unstrukturierte Anfrage, die viele Menschen ist das, was sich vorstellen, wenn sie zum ersten Mal eine offene Aufforderung betrachten. Vielmehr stellte Netflix ein klares Problem mit einem einfachen Bewertungskriterien: sie Menschen herausgefordert einen Satz von 100 Millionen Filmbewertungen zu verwenden, um vorherzusagen, 3 Millionen gehalten-out Bewertungen (Ratings, die Usern gemacht hatte, aber dass Netflix nicht loslassen). Jeder, der einen Algorithmus schaffen könnte, die die 3 Millionen gehalten-out Bewertungen 10% besser als Cinematch gewinnen würde 1 Million Dollar voraussagen konnte. Diese klare und einfache Bewertungskriterien-Vergleich prognostizierten Ratings gehalten-out Ratings gemeint anzuwenden, dass der Netflix-Preis wurde so gestaltet, dass Lösungen sind leichter zu kontrollieren als erzeugen; es stellte sich die Herausforderung Cinematch in ein Problem der Verbesserung der geeignet für eine offene Ausschreibung.

Im Oktober 2006 veröffentlichte Netflix einen Datensatz enthält 100 Millionen Filmbewertungen von etwa 500.000 Kunden (wir werden die Auswirkungen auf den Datenschutz dieser Datenfreigabe in Kapitel 6 betrachten). Die Netflix-Daten können als eine riesige Matrix konzipiert werden, die rund 500.000 Kunden von 20.000 Filmen. Innerhalb dieser Matrix gab es etwa 100 Millionen Bewertungen auf einer Skala von 1 bis 5 Sternen (Tabelle 5.2). Die Herausforderung bestand darin, die beobachteten Daten in der Matrix zu verwenden, um die 3 Millionen gehalten-out Bewertungen zu prognostizieren.

Tabelle 5.2: Schematische Darstellung der Daten aus dem Netflix-Preis. Netflix veröffentlicht etwa 100 Millionen Bewertungen (1 Stern bis 5 Sterne), um 500.000 Kunden auf 20.000 Filme zur Verfügung gestellt. Das Ziel des Netflix-Preis war diese Bewertungen zu verwenden, um die gehaltene aus Ratings von 3 Millionen Filme vorherzusagen, gezeigt als "?". Prognostizierte Bewertungen durch die Teilnehmer in der Netflix-Preis eingereicht wurden den gehaltenen aus Ratings verglichen. Ich werde die ethischen Fragen rund um diese Datenfreigabe in Kapitel 6 besprechen.
	Film 1	Movie 2	Movie 3	. . .	Film 20.000
Kunde 1	2	5		.	?
Kunde 2		2	?	.	3
Kunde 3		?	2	.
. . .	.	.	.	.	.
Kunden 500.000	?		2	.	1

Forscher und Hacker auf der ganzen Welt wurden auf die Herausforderung gezogen, und bis zum Jahr 2008 mehr als 30.000 Menschen arbeiteten sie (Thompson 2008) . Im Laufe des Wettbewerbs erhielt Netflix mehr als 40.000 vorgeschlagenen Lösungen von mehr als 5.000 Teams (Netflix 2009) . Offensichtlich konnte Netflix nicht lesen und all diese vorgeschlagenen Lösungen zu verstehen. Das Ganze lief reibungslos, aber, weil die Lösungen waren leicht zu überprüfen. Netflix könnte nur ein Computer an den gehaltenen-out-Rating einer vorgegebenen Metrik (die jeweilige Metrik sie verwendet die Quadratwurzel der mittleren quadratischen Fehler war) die vorhergesagten Bewertungen vergleichen. Es war diese Fähigkeit, schnell Lösungen zu bewerten, die Netflix fähigen Lösungen von allen zu akzeptieren, was wichtig zu sein, stellte sich heraus, weil gute Ideen von einigen überraschenden Orten kam. In der Tat wurde die erfolgreiche Lösung von einem Team begann mit drei Forscher vorgelegt , die keine vorherige Erfahrung im Bau von Film Empfehlungssysteme hatte (Bell, Koren, and Volinsky 2010) .

Ein schöner Aspekt der Netflix-Preis ist, dass es jeder in der Welt ermöglicht, ihre Lösung ziemlich ausgewertet zu haben. Wenn die Leute ihre vorhergesagten Bewertungen hochgeladen, sie nicht brauchen, um ihre akademischen Zeugnisse hochladen, Alter, Rasse, Geschlecht, sexueller Orientierung, oder irgendetwas über sich selbst. So wurden die prognostizierten Ratings von einem berühmten Professor an der Stanford behandelt genau die gleichen wie die von einem Teenager in ihrem Schlafzimmer. Leider ist dies in den meisten Sozialforschung nicht wahr. Das heißt, für die meisten Sozialforschung, Auswertung sehr zeitaufwendig und teilweise subjektiv. So sind die meisten Forschungsideen nie ernsthaft untersucht, und wenn die Ideen bewertet werden, ist es schwer, diese Auswertungen aus dem Schöpfer der Ideen zu lösen. Da Lösungen sind einfach zu überprüfen, lassen offen Anrufe Forscher die potenziell wunderbare Lösungen alle zugreifen, die durch die Ritzen fallen würden, wenn sie nur Lösungen von bekannten Professoren betrachtet.

Zum Beispiel an einem Punkt während des Netflix Prize jemand mit dem Chat-Namen Simon Funk hat auf seinem Blog eine vorgeschlagene Lösung basiert auf einer Eigenwertzerlegung, ein Ansatz aus der linearen Algebra, die bisher noch nicht von anderen Teilnehmern benutzt hatte. Funk Blog-Post war gleichzeitig technische und weirdly informell. War diese Blog-Post, eine gute Lösung zu beschreiben, oder war es eine Verschwendung von Zeit? Außerhalb einer offenen Aufforderung Projekt, könnte die Lösung nie ernsthafte Bewertung erhalten haben. Denn Simon Funk war kein Professor an der Cal Tech oder MIT; er war ein Software - Entwickler, der zu der Zeit wurde dem Rucksack um New Zealand (Piatetsky 2007) . Wenn er diese Idee zu einem Ingenieur bei Netflix gemailt hatte, es würde mit ziemlicher Sicherheit nicht ernst genommen worden sind.

Zum Glück, denn die Bewertungskriterien klar und leicht waren anzuwenden, waren seine vorhergesagten Bewertungen beurteilt, und es war sofort klar, dass sein Ansatz war sehr stark: er auf den vierten Platz im Wettbewerb katapultierte, ein enormes Ergebnis gegeben, dass andere Teams bereits gewesen Arbeits Monate über das Problem. Am Ende wurden Teile von Simon Funk Ansatz von praktisch allen ernsthaften Konkurrenten verwendet (Bell, Koren, and Volinsky 2010) .

Die Tatsache, dass Simon Funk wählte einen Blog-Post erklärt seinen Ansatz zu schreiben, anstatt zu versuchen, es geheim zu halten, zeigt auch, dass viele Teilnehmer der Netflix-Preis wurden von der Millionen-Dollar-Preis nicht ausschließlich motiviert. Vielmehr schien viele Teilnehmer auch die intellektuelle Herausforderung und die Gemeinschaft zu genießen, um das Problem entwickelt (Thompson 2008) , Gefühle , die ich viele Forscher erwarten , verstehen kann.

Die Netflix-Preis ist ein klassisches Beispiel für eine offene Ausschreibung. Netflix stellte eine Frage mit einem bestimmten Ziel (Filmbewertungen der Vorhersage) und bat Lösungen von vielen Menschen. Netflix war in der Lage, alle diese Lösungen zu bewerten, da sie einfacher waren, um zu überprüfen, als zu erstellen, und schließlich Netflix hob die beste Lösung. Ich werde nächstes zeigen Ihnen, wie das gleiche Ansatz kann in der Biologie und Recht eingesetzt werden.