5.3.1 Netflix Prize

די Netflix Prize ניצט עפענען רופן צו פאָרויסזאָגן וואָס קינאָ מענטשן וועט ווי.

די מערסט באקאנט עפענען רופן פּרויעקט איז די נעטפליקס פרייז. נעטפליקס איז אַן אָנליין פֿילם פּראָקאַט געזעלשאַפט, און אין 2000 עס לאָנטשט Cinematch, אַ דינסט צו רעקאָמענדירן קינאָ צו קאַסטאַמערז. פֿאַר בייַשפּיל, Cinematch זאל באַמערקן אַז איר לייקט שטערן וואַרס און די אימפעריע סטרייקס צוריק און דעמאָלט רעקאָמענדירן איר היטן צוריק פון די דזשעדי . טכילעס, Cinematch געארבעט שוואַך. אָבער, איבער דעם גאַנג פון פילע יאָרן, עס פארבליבן צו פֿאַרבעסערן זייַן פיייקייַט צו פאָרויסזאָגן וואָס קינאָ קאַסטאַמערז וואָלט הנאה. ביי 2006, אָבער, פּראָגרעס אויף Cinematch האט פּלאַטאָודע. די ריסערטשערז בייַ נעטפליקס האט געפרוווט שיין פיל אַלץ זיי קען טראַכטן וועגן, אָבער, אין דער זעלביקער צייַט, זיי סאַספּעקטיד אַז עס זענען אנדערע געדאנקען וואָס קען העלפן זיי פֿאַרבעסערן זייער סיסטעם. אזוי, זיי געקומען אַרויף מיט וואָס איז, אין דער צייַט, אַ ראַדיקאַל לייזונג: אַ עפענען רופן.

קריטיש צו די לעצט הצלחה פון די נעטפליקס פרייז איז געווען ווי די עפענען רופן איז דיזיינד, און דעם פּלאַן האט וויכטיק לעקציעס פֿאַר ווי עפענען רופט קענען זיין געניצט פֿאַר געזעלשאַפטלעך פאָרשונג. נעטפליקס האט נישט נאָר שטעלן אויס אַ אַנסטראַקשערד בעטן פֿאַר געדאנקען, וואָס איז וואָס פילע מענטשן ימאַדזשאַן ווען זיי ערשטער באַטראַכטן אַ עפענען רופן. אלא, נעטפליקס איז געווען אַ קלאָר פּראָבלעם מיט אַ פּשוט אנטוויקלונג פּראָצעדור: זיי טשאַלאַדזשד מענטשן צו נוצן אַ סכום פון 100,000,000 פֿילם רייטינגז צו פאָרויסזאָגן 3,000,000 געהאלטן-אויס רייטינגז (רייטינגז וואָס וסערס האָבן געמאכט אָבער אַז Netflix האט ניט מעלדונג). דער ערשטער מענטש צו שאַפֿן אַ אַלגערידאַם אַז פּרעדיקטעד די 3,000,000 געהאלטן-אויס רייטינגז 10% בעסער ווי Cinematch וואָלט געווינען אַ מיליאָן דאָללאַרס. דעם קלאָר און גרינג צו צולייגן אַפּעריישאַנאַל פּראָצעדור-קאַמפּערד פּרעדיקטעד רייטינגז מיט געהאלטן-אויס רייטינגז-מענט אַז די נעטפליקס פרייז איז פריימד אין אַזאַ אַ וועג אַז סאַלושאַנז זענען גרינגער צו קאָנטראָלירן ווי דזשענערייט; עס פארקערט די אַרויסרופן פון ימפּרוווינג Cinematch אין אַ פּראָבלעם פּאַסיק פֿאַר אַ עפענען רופן.

אין אקטאבער 2006, Netflix באפרייט אַ דאַטאַסעט מיט 100,000,000 פֿילם רייטינגז פון וועגן 500.000 קאַסטאַמערז (מיר וועלן באַטראַכטן די פּריוואַטקייט ימפּלאַקיישאַנז פון דעם דאַטן מעלדונג אין קאַפּיטל 6). די נעטפליקס דאַטן קענען זיין דיזיינינג ווי אַ ריזיק מאַטריץ אַז איז בעערעך 500.000 קאַסטאַמערז דורך 20,000 קינאָ. ין דעם מאַטריץ, עס זענען וועגן 100,000,000 ראַטינגס אויף אַ וואָג פון 1-5 שטערן (טיש 5.2). דער אַרויסרופן איז צו נוצן די באמערקט דאַטן אין די מאַטריץ צו פאָרויסזאָגן די 3,000,000 געהאלטן-אויס רייטינגז.

טיש 5.2: שעמאַטיק פון דאַטן פון די נעטפליקס פרייז
פֿילם 1 פֿילם 2 פֿילם 3 ... פֿילם 20,000
קונה 1 2 5 ... ?
קונה 2 2 ? ... 3
קונה 3 ? 2 ...
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
קונה 500,000 ? 2 ... 1

די ריסערטשערז און כאַקערז אַרום די וועלט זענען ציען צו די אַרויסרופן, און דורך 2008, מער ווי 30,000 מענטשן זענען ארבעטן אויף עס (Thompson 2008) . איבער דעם גאַנג פון דעם קאָנקורס, Netflix האט באקומען מער ווי 40,000 פארגעלייגט סאַלושאַנז פון מער ווי 5,000 טימז (Netflix 2009) . דאָך, Netflix קען נישט לייענען און פֿאַרשטיין אַלע די פארגעלייגט סאַלושאַנז. דער גאנצער זאַך געלאפן סמודלי, אָבער, ווייַל די סאַלושאַנז זענען גרינג צו קאָנטראָלירן. נעטפליקס קען נאָר האָבן אַ קאָמפּיוטער פאַרגלייַכן די פּרעדיקטעד רייטינגז מיט די געהאלטן-אויס רייטינגז ניצן אַ פּרעספּעסיפיעד מעטריק (די באַזונדער מעטריק זיי געוויינט איז די קוואַדראַט שורש פון די מיינען סקווערד טעות). עס איז געווען די פיייקייַט צו געשווינד אָפּשאַצן סאַלושאַנז אַז ענייבאַלד Netflix צו אָננעמען סאַלושאַנז פון אַלעמען, וואָס פארקערט אויס צו זיין וויכטיק ווייַל גוט געדאנקען געקומען פון עטלעכע חידוש ערטער. אין פאַקט, די ווינינג לייזונג איז דערלאנגט דורך אַ מאַנשאַפֿט סטאַרטעד דורך דרייַ פאָרשער וואָס האט קיין פריערדיק דערפאַרונג בנין פילם רעקאָממענדאַטיאָן סיסטעמס (Bell, Koren, and Volinsky 2010) .

איינער שיין אַספּעקט פון די נעטפליקס פרייז איז אַז עס ענייבאַלד אַלע די פארגעלייגט סאַלושאַנז צו זיין עוואַלואַטעד פערלי. אַז איז, ווען מענטשן זענען ופּלאָאַדעד זייער פּרעדיקטעד רייטינגז, זיי האבן ניט דאַרפֿן צו צופֿעליקער זייער אַקאַדעמיק קרעדענטאַלס, זייער עלטער, ראַסע, גילדער, געשלעכט אָריענטירונג, אָדער עפּעס וועגן זיך. די פּרעדיקטעד רייטינגז פון אַ באַרימט פּראָפעסאָר פון סטאַנפֿאָרד זענען באהאנדלט פּונקט די זעלבע ווי די פון אַ טיניידזשער אין איר שלאָפצימער. צום באַדויערן, דאָס איז ניט אמת אין רובֿ סאציאלע פאָרשונג. וואָס איז, פֿאַר רובֿ סאציאלע פאָרשונג, אפשאצונג איז זייער צייַט-קאַנסומינג און טייל סאַבדזשעקטיוו. אַזוי, רובֿ פאָרשונג געדאנקען זענען קיינמאָל עמעס עוואַלואַטעד, און ווען געדאנקען זענען עוואַלואַטעד, עס איז שווער צו באַזייַטיקן די יוואַליויישאַן פון די באשעפער פון די געדאנקען. עפענען רופן פראיעקטן, אויף די אנדערע האַנט, האָבן גרינג און פער אַסאַפיישאַן אַזוי זיי קענען אַנטדעקן געדאנקען וואָס וואָלט זייַן מיסט אַנדערש.

פֿאַר בייַשפּיל, אין איין נעצן אין די Netflix Prize, עמעצער מיט די פאַרשטעלן נאָמען Simon Funk האט אַרייַנגעשיקט אויף זיין בלאָג אַ פארגעלייגט לייזונג באזירט אויף אַ מעשונעדיק ווערט דיקאַמפּאָוזישאַן, אַן צוגאַנג פון לינעאַר אַלגעבראַ וואָס האט נישט געווען געניצט פריער דורך אנדערע פּאַרטיסאַפּאַנץ. Funk's blog post was simultaneously technical and weirdly informal. איז דאָס בלאָג פּאָסטן דיסקרייבינג אַ גוט לייזונג אָדער איז עס אַ וויסט פון צייַט? אַרויס פון אַ עפענען רופן פּרויעקט, די לייזונג זאל קיינמאָל האָבן געגעבן ערנסט אפשאצונג. נאָך אַלע, שמעון פונק איז נישט אַ פּראָפעסאָר אין מיט; ער איז געווען אַ ווייכווארג דעוועלאָפּער וואס, אין דער צייַט, איז באַקקפּאַקקינג אַרום ניו זילאַנד (Piatetsky 2007) . אויב ער האט ימיילד דעם געדאַנק צו אַ ינזשעניר בייַ נעטפליקס, עס כּמעט זיכער וואָלט נישט לייענען.

גליק, ווייַל די אפשאצונג קרייטיריאַ געווען קלאָר און גרינג צו צולייגן, זיין פּרעדיקטעד רייטינגז זענען עוואַלואַטעד, און עס איז געווען טייקעף קלאָר אַז זיין צוגאַנג איז זייער שטאַרק: ער ראַקאַטיד צו דער פערט אָרט אין די פאַרמעסט, אַ ריזיק רעזולטאַט געגעבן אַז אנדערע טימז זענען שוין אַרבעט פֿאַר חדשים אויף דעם פּראָבלעם. אין די סוף, טיילן פון זייַן צוגאַנג זענען געוויינט דורך כּמעט אַלע ערנסט קאָמפּעטיטאָרס (Bell, Koren, and Volinsky 2010) .

דער פאַקט אַז שמעון פונק אויסדערוויילט צו שרייַבן אַ בלאָג פּאָסטן יקספּליינינג זיין צוגאַנג, אלא ווי טריינג צו האַלטן עס סוד, אויך ילאַסטרייץ אַז פילע פּאַרטיסאַפּאַנץ אין די נעטפליקס פרייז זענען נישט אויסשליסלעך מאָוטאַווייטאַד דורך די מיליאָן דאָלאַר פרייז. אלא, פילע פּאַרטיסאַפּאַנץ אויך געווען צו הנאה דעם אינטעלעקטואַל אַרויסרופן און די קהל וואָס דעוועלאָפּעד אַרום דעם פּראָבלעם (Thompson 2008) , געפילן אַז איך דערוואַרטן פילע פאָרשער קענען פֿאַרשטיין.

די נעטפליקס פרייז איז אַ קלאַסיש בייַשפּיל פון אַ עפענען רופן. נעטפליקס געשטעלט אַ קשיא מיט אַ ספּעציפיש ציל (פּרידיקטינג פֿילם רייטינגז) און סאַליסאַטעד סאַלושאַנז פון פילע מענטשן. נעטפליקס איז ביכולת צו אָפּשאַצן אַלע די סאַלושאַנז ווייַל זיי זענען גרינגער צו קאָנטראָלירן ווי צו שאַפֿן, און לעסאָף נעטפליקס פּיקט דער בעסטער לייזונג. ווייַטער, איך וועט ווייַזן איר ווי דעם זעלביקער צוגאַנג קען זיין געוויינט אין ביאָלאָגי און געזעץ, און אָן אַ מיליאָן דאָללאַר פרייז.