5.3.1 Netflix Prize

די Netflix Prize ניצט עפענען רופן צו פאָרויסזאָגן וואָס קינאָ מענטשן וועט ווי.

די מערסט באַוווסט עפענען רופן פּרויעקט איז די Netflix Prize. Netflix איז אַן אָנליין פֿילם פּראָקאַט פירמע, און אין 2000 עס לאָנטשט סינעמאַטטש, אַ דינסט צו רעקאָמענדירן קינאָ צו קאַסטאַמערז. לעמאָשל, סינעמאַטטש זאל באַמערקן אַז איר לייקט שטערן וואַרס און Empire סטרייקס צוריק און דעמאָלט רעקאָמענדירן אַז איר היטן צוריקקומען פון די דזשעדי. טכילעס, סינעמאַטטש געארבעט שוואַך. אבער, איבער די לויף פון פילע יאָרן, סינעמאַטטש געצויגן צו פֿאַרבעסערן זייַן פיייקייַט צו פאָרויסזאָגן וואָס קינאָ קאַסטאַמערז וואָלט הנאה. דורך 2006, אָבער, פּראָגרעס אויף סינעמאַטטש פּלאַטעאַועד. די ריסערטשערז בייַ Netflix האט פּרובירן שיין פיל אַלץ זיי קען טראַכטן פון, אָבער אין דער זעלביקער צייַט, זיי סאַספּעקטיד אַז עס זענען געווען אנדערע געדאנקען וואס זאל העלפן זיי פֿאַרבעסערן זייער סיסטעם. אזוי, זיי געקומען אַרויף מיט וואָס איז געווען, אין דער צייַט, אַ ראַדיקאַל לייזונג: אַ עפענען רופן.

קריטיש צו די עווענטואַל הצלחה פון די Netflix Prize איז געווען ווי די עפענען רופן איז דיזיינד, און דעם פּלאַן האט וויכטיק לעקציעס פֿאַר ווי עפענען קאַללס קענען ווערן געניצט פֿאַר געזעלשאַפטלעך פאָרשונג. Netflix האט ניט נאָר שטעלן אויס אַ אַנסטראַקשערד בעטן פֿאַר געדאנקען, וואָס איז וואָס פילע מענטשן ימאַדזשאַן ווען זיי ערשטער באַטראַכטן אַ עפענען רופן. אלא, Netflix געשטעלט אַ קלאָר פּראָבלעם מיט אַ פּשוט יוואַליויישאַן קרייטיריאַ: זיי טשאַלאַדזשד מענטשן צו נוצן אַ סכום פון 100 מיליאָן פֿילם רייטינגז צו פאָרויסזאָגן 3 מיליאָן געהאלטן אויס רייטינגז (רייטינגז אַז ניצערס האט געמאכט אָבער אַז Netflix האט נישט מעלדונג). ווער עס יז וואס קען מאַכן אַ אַלגערידאַם אַז קען פאָרויסזאָגן די 3 מיליאָן געהאלטן אויס רייטינגז 10% בעסער ווי סינעמאַטטש וואָלט געווינען 1,000,000 דאָללאַרס. דאס קלאָר און גרינג צו צולייגן יוואַליויישאַן קרייטיריאַ-קאַמפּערינג פּרעדיקטעד רייטינגז צו געהאלטן אויס רייטינגז-מענט אַז די Netflix Prize איז Framed אין אַזאַ אַ וועג אַז סאַלושאַנז זענען גרינגער צו קאָנטראָלירן ווי דזשענערייט; עס אויסגעדרייט די אַרויסרופן פון ימפּרוווינג סינעמאַטטש אין אַ פּראָבלעם פּאַסיק פֿאַר אַ עפענען רופן.

אין אקטאבער פון 2006, Netflix רעלעאַסעד אַ דאַטאַסעט מיט 100 מיליאָן פֿילם רייטינגז פון וועגן וועגן 500.000 קאַסטאַמערז (מיר וועלן באַטראַכטן די פּריוואַטקייט ימפּלאַקיישאַנז פון דעם דאַטן מעלדונג אין פּרק 6). די Netflix דאַטע קענען זיין קאָנסעפּטואַליזעד ווי אַ ריזיק מאַטריץ אַז איז בעערעך 500.000 קאַסטאַמערז דורך 20,000 קינאָ. ין דעם מאַטריץ, עס זענען געווען וועגן 100 מיליאָן רייטינגז אויף אַ וואָג 1-5 שטערן (טיש 5.2). די אַרויסרופן איז געווען צו נוצן די באמערקט דאַטן אין די מאַטריץ צו פאָרויסזאָגן די 3 מיליאָן געהאלטן אויס רייטינגז.

טיש 5.2: סטשעמאַטיק פון דאַטן פון די Netflix Prize. Netflix רעלעאַסעד וועגן 100 מיליאָן רייטינגז (1 שטערן צו 5 שטערן) צוגעשטעלט דורך 500.000 קאַסטאַמערז אויף 20,000 קינאָ. דער ציל פון די Netflix Prize איז צו נוצן די רייטינגז צו פאָרויסזאָגן די געהאלטן אויס רייטינגז פון 3 מיליאָן קינאָ, געוויזן ווי "?". פּרעדיקטעד רייטינגז דערלאנגט דורך פּאַרטיסאַפּאַנץ אין די Netflix Prize זענען קאַמפּערד צו די געהאלטן אויס רייטינגז. איך וועט דיסקוטירן די עטישע ישוז אַרומיק דעם דאַטן מעלדונג אין פּרק 6.
פֿילם 1 פֿילם 2 פֿילם 3 . . . פֿילם 20,000
קונה 1 2 5 . ?
קונה 2 2 ? . 3
קונה 3 ? 2 .
. . . . . . . .
קונה 500,000 ? 2 . 1

רעסעאַרטשערס און כאַקערז אַרום די וועלט זענען ציען צו די אַרויסרופן, און דורך 2008 מער ווי 30,000 מענטשן זענען ארבעטן אויף עס (Thompson 2008) . איבער די לויף פון די קאָנקורס, Netflix באקומען מער ווי 40,000 פּראָפּאָסעד סאַלושאַנז פֿון מער ווי 5,000 טימז (Netflix 2009) . דאָך, Netflix קען ניט לייענען און פֿאַרשטיין אַלע די פּראָפּאָסעד סאַלושאַנז. די גאנצע זאַך געלאָפֿן סמודלי, אָבער, ווייַל די סאַלושאַנז זענען גרינג צו קאָנטראָלירן. Netflix קען נאָר האָבן אַ קאָמפּיוטער פאַרגלייַכן די פּרעדיקטעד רייטינגז צו די געהאלטן אויס רייטינגז דורך אַ PRE-ספּעסיפיעד מעטריק (די באַזונדער מעטריק זיי געניצט איז געווען די קוואַדראַט וואָרצל פון די מיינען-סקווערד טעות). עס איז געווען דעם פיייקייַט צו געשווינד אָפּשאַצן סאַלושאַנז אַז ענייבאַלד Netflix צו אָננעמען סאַלושאַנז פֿון אַלעמען, וואָס אויסגעדרייט אויס צו זייַן וויכטיק ווייַל גוט געדאנקען געקומען פֿון עטלעכע כידעשדיק ערטער. אין פאַקט, די ווינינג לייזונג איז דערלאנגט דורך אַ קאָלעקטיוו סטאַרטעד דורך דרייַ ריסערטשערז אַז האט קיין פריערדיק דערפאַרונג בנין פֿילם רעקאָמענדאַציע סיסטעמס (Bell, Koren, and Volinsky 2010) .

איינער שיין אַספּעקט פון די Netflix Prize איז אַז עס איז ענייבאַלד אַלעמען אין דער וועלט צו האָבן זייער לייזונג עוואַלואַטעד פאַירלי. ווען מען ופּלאָאַדעד זייער פּרעדיקטעד רייטינגז, זיי האבן ניט דאַרפֿן צו ופּלאָאַד זייער אַקאַדעמיק קראַדענשאַלז, זייער עלטער, ראַסע, דזשענדער, געשלעכט אָריענטירונג, אָדער עפּעס וועגן זיך. אזוי, דער פּרעדיקטעד רייטינגז פון אַ באַרימט פּראָפעסאָר פון סטאַנפֿאָרד זענען באהאנדלט פּונקט דער זעלביקער ווי יענע פון ​​אַ טיניידזשער אין איר שלאָפצימער. צום באַדויערן, דאָס איז נישט אמת אין רובֿ געזעלשאַפטלעך פאָרשונג. וואָס איז, פֿאַר רובֿ געזעלשאַפטלעך פאָרשונג, עוואַלואַטיאָן איז זייער צייַט קאַנסומינג און צומ טייל סאַבדזשעקטיוו. אַזוי, רובֿ פאָרשונג געדאנקען זענען קיינמאָל אַפ אַנ עמעס עוואַלואַטעד, און ווען געדאנקען זענען עוואַלואַטעד, עס איז שווער צו אָפּטיילן די יוואַליויישאַנז פון דער שאַפֿער פון די געדאנקען. ווייַל סאַלושאַנז זענען גרינג צו קאָנטראָלירן, עפענען קאַללס לאָזן ריסערטשערז צו צוטריט אַלע די פּאַטענטשאַלי ווונדערלעך סאַלושאַנז אַז וואָלט פאַלן דורך די קראַקס אויב זיי נאָר געהאלטן סאַלושאַנז פון באַרימט פּראָפעססאָרס.

לעמאָשל, בייַ איין פונט בעשאַס די Netflix Prize עמעצער מיט די פאַרשטעלן נאָמען שמעון Funk Posted on זיין בלאָג אַ פּראָפּאָסעד לייזונג באזירט אויף אַ מעשונעדיק ווערט דיקאַמפּאָוזישאַן, אַ צוגאַנג פון לינעאַר אַלגעבראַ, וואס האט ניט געווען געניצט ביז אַהער דורך אנדערע פּאַרטיסאַפּאַנץ. Funk ס בלאָג פּאָסטן איז געווען סיימאַלטייניאַסלי טעכניש און וועירדלי ינפאָרמאַל. איז געווען דעם בלאָג פּאָסטן דיסקרייבינג אַ גוט לייזונג אָדער איז עס אַ וויסט פון צייַט? אַרויס פון אַ עפענען רופן פּרויעקט, די לייזונג זאל קיינמאָל האָבן באקומען ערנסט עוואַלואַטיאָן. נאָך אַלע שמעון Funk איז געווען ניט אַ פּראָפעסאָר בייַ קאַל טעק אָדער MIT; ער איז געווען אַ ווייכווארג דעוועלאָפּער וואס, אין דער צייַט, איז געווען באַקקפּאַקקינג אַרום ניו זילאַנד (Piatetsky 2007) . אויב ער האט ימיילד דעם געדאַנק צו אַ ינזשעניר בייַ Netflix, עס כּמעט אַוואַדע וואָלט נישט האָבן שוין גענומען עמעס.

צומ גליק, ווייַל די עוואַלואַטיאָן קרייטיריאַ זענען קלאָר און גרינג צו צולייגן, זייַן פּרעדיקטעד רייטינגז זענען עוואַלואַטעד, און עס איז טייקעף קלאָר אַז זייַן צוגאַנג איז געווען זייער שטאַרק: ער ראָקקעטעד צו פערט אָרט אין דער פאַרמעסט, אַ קאָלאָסאַל רעזולטאַט געגעבן אַז אנדערע טימז האט שוין געווען ארבעטן פֿאַר חדשים אויף די פּראָבלעם. אין די סוף, פּאַרץ פון שמעון Funk ס צוגאַנג זענען געניצט דורך כמעט אַלע ערנסט קאָמפּעטיטאָרס (Bell, Koren, and Volinsky 2010) .

די פאַקט אַז שמעון Funk אויסדערוויילט צו שרייַבן אַ בלאָג פּאָסטן יקספּליינינג זייַן צוגאַנג, אלא ווי טריינג צו האַלטן עס סוד, אויך ילאַסטרייץ אַז פילע פּאַרטיסאַפּאַנץ אין די Netflix Prize זענען נישט אויסשליסלעך מאָוטאַווייטאַד דורך די מיליאָן דאָלאַר פּריז. אלא, פילע פּאַרטיסאַפּאַנץ אויך געווען צו געניסן די אינטעלעקטואַל אַרויסרופן און די קהל אַז דעוועלאָפּעד אַרום די פּראָבלעם (Thompson 2008) , פעעלינגס איך דערוואַרטן פילע ריסערטשערז קענען פֿאַרשטיין.

די Netflix Prize איז אַ קלאַסיש בייַשפּיל פון אַ עפענען רופן. Netflix געשטעלט אַ קשיא מיט אַ ספּעציפֿיש ציל (פּרידיקטינג פֿילם רייטינגז) און סאָליסיטעד סאַלושאַנז פון פילע מענטשן. Netflix איז געווען ביכולת צו אָפּשאַצן אַלע די סאַלושאַנז ווייַל זיי זענען גרינגער צו באַשטעטיקן ווי צו מאַכן, און לעסאָף Netflix פּיקט דער בעסטער לייזונג. ווייַטער, איך וועט ווייַזן איר ווי דעם זעלביקער צוגאַנג קענען ווערן געניצט אין ביאָלאָגי און געזעץ.