2.4.1 קאַונטינג זאכן

פּראָסט קאַונטינג קענען זייַן טשיקאַווע אויב איר פאַרבינדן אַ גוט קשיא מיט גוט דאַטן.

כאָטש עס איז סאָף אין סאַפיסטאַקייטיד-סאַונדינג שפּראַך, אַ פּלאַץ פון געזעלשאַפטלעך פאָרשונג איז טאַקע נאָר קאַונטינג זאכן. אין דער עלטער פון גרויס דאַטן, ריסערטשערז קענען ציילן מער ווי אלץ, אָבער אַז טוט נישט מיינען אַז זיי זאָל נאָר אָנהייב קאַונטינג האַפאַזאַרדלי. אַנשטאָט, ריסערטשערז זאָל פרעגן: וואָס זאכן זענען ווערט קאַונטינג? דעם קען ויסקומען ווי אַ גאַנץ סאַבדזשעקטיוו ענין, אָבער עס זענען עטלעכע אַלגעמיין פּאַטערנז.

אָפט סטודענטן מאָטיווירן זייער קאַונטינג פאָרשונג דורך זאגן: איך בין געגאנגען צו ציילן עפּעס אַז קיין-איינער האט אלץ גערעכנט איידער. למשל, אַ תּלמיד זאל זאָגן אַז פילע מענטשן האָבן געלערנט מייגראַנץ און פילע מענטשן האָבן געלערנט צווילינג, אָבער קיינער האט נישט געלערנט מייגראַנץ צווילינג. אין מיין דערפאַרונג, דעם סטראַטעגיע, וואָס איך רופן מאָוטאַוויישאַן דורך אַוועק , טוט נישט יוזשאַוואַלי פירן צו גוט פאָרשונג. מאָוטאַוויישאַן דורך אַוועק איז מין פון ווי געזאגט אַז עס איז אַ לאָך איבער דאָרט, און איך בין געגאנגען צו אַרבעט זייער שווער צו פּלאָמבירן עס אַרויף. אָבער ניט יעדער לאָך דאַרף זיין פול.

אַנשטאָט פון מאָוטאַווייטינג דורך אַוועק, איך טראַכטן אַ בעסער סטראַטעגיע איז צו קוקן פֿאַר פאָרשונג פראגעס וואָס זענען וויכטיק אָדער טשיקאַווע (אָדער ידעאַללי ביידע). ביידע פון ​​די ווערטער אַ ביסל שווער צו באַשליסן, אָבער איין וועג צו טראַכטן וועגן וויכטיק פאָרשונג איז אַז עס האט עטלעכע מעזשעראַבאַל פּראַל אָדער פידז אין אַ וויכטיק באַשלוס דורך פּאָליטיש מייקערז. למשל, מעסטן די קורס פון אַרבעטלאָזיקייַט איז וויכטיק ווייַל עס איז אַ גראדן פון דער עקאנאמיע וואָס דרייווז פּאָליטיק דיסיזשאַנז. אין אַלגעמיין, איך טראַכטן אַז פאָרשער האָבן אַ שיין גוט זינען פון וואָס איז וויכטיק. אַזוי, אין די רעשט פון דעם אָפּטיילונג, איך בין געגאנגען צו צושטעלן צוויי ביישפילן ווו איך טראַכטן קאַונטינג איז טשיקאַווע. אין יעדער פאַל, די ריסערטשערז האבן נישט קאַונטינג האַפאַזאַרדלי; אלא, זיי זענען געווען קאַונטינג אין זייער באַזונדער סעטטינגס אַז גילוי וויכטיק ינדיקייץ אין מער גענעראַל געדאנקען וועגן ווי געזעלשאַפטלעך סיסטעמס אַרבעט. אין אנדערע ווערטער, אַ פּלאַץ פון וואָס מאכט די באַזונדער קאַונטינג עקסערסייזיז טשיקאַווע איז נישט די דאַטן זיך, עס קומט פון די מער גענעראַל געדאנקען.

איין בייַשפּיל פון די פּשוט מאַכט פון קאַונטינג קומט פון הענרי פאַרבער ס (2015) לערנען פון דער נאַטור פון ניו יארק סיטי טאַקסי דריווערס. כאָטש דעם גרופּע קען נישט כאַרנאַסט ינכעראַנטלי טשיקאַווע, עס איז אַ סטראַטידזשיק פאָרשונג פּלאַץ פֿאַר טעסטינג צוויי קאַמפּאַטיש טיריז אין אַרבעט עקאנאמיק. פֿאַר די צוועקן פון פערבער ס פאָרשונג, עס זענען צוויי וויכטיק פֿעיִקייטן וועגן די אַרבעט סוויווע פון ​​טאַקסי דריווערס: (1) זייער אַורלי לוין פלאַקטשוייץ פון טאָג צו טאָג, באזירט אויף טייל ווי די וועטער, און (2) די נומער פון שעה זיי אַרבעט קענען וואַקלענ זיך יעדער טאָג באזירט אויף זייער דיסיזשאַנז. די פֿעיִקייטן פירן צו אַ טשיקאַווע קשיא וועגן די שייכות צווישן אַורלי לוין און שעה געארבעט. נעאָקלאַססיקאַל מאָדעלס אין עקאָנאָמיק פאָרויסזאָגן אַז טאַקסי דריווערס וועט אַרבעט מער אויף טעג ווו זיי האָבן העכער אַורלי לוין. אַלטערנאַטיוועלי, מאָדעלס פון נאַטוראַל עקאָנאָמיק פאָרויסזאָגן פּונקט די פאַרקערט. אויב דריווערס שטעלן אַ באַזונדער האַכנאָסע ציל-זאָגן $ 100 פּער טאָג, און אַרבעט ביז אַז ציל איז באגעגנט, דעמאָלט דריווערס וועט סוף אַרויף ארבעטן ווייניקער שעה אויף טעג אַז זיי זענען ערנינג מער. למשל, אויב איר געווען אַ ציל ערנער, איר זאל סוף אַרויף אַ גוט שעה ($ 25 פּער שעה) און פינף שעה אויף אַ שלעכט טאָג ($ 20 פּער שעה). אַזוי, די דריווערס אַרבעט מער שעה אויף טעג מיט העכער אַורלי לוין (ווי פּרעדיקטעד דורך די נעאָקלאַססיקאַל מאָדעלס) אָדער מער שעה אויף טעג מיט נידעריקער אַורלי לוין (ווי פּרעדיקטעד דורך נאַטוראַל עקאָנאָמיש מאָדעלס)?

צו ענטפֿערן דעם קשיא פאַרבן געוואקסן דאַטן אויף יעדער טאַקסי יאַזדע גענומען דורך ניו יארק סיטי קאַבס 2009-2013, דאַטן וואָס זענען איצט בנימצא. די דאַטן-וואָס זענען געזאמלט דורך עלעקטראָניש מעטער אַז די שטאָט ריקווייערז טאַקסיס צו נוצן - אַרייַננעמען אינפֿאָרמאַציע וועגן יעדער יאַזדע: אָנהייב צייַט, אָנהייב אָרט, סוף צייַט, סוף אָרט, אָפּצאָל און שפּיץ (אויב דער שפּיץ איז באַצאָלט מיט אַ קרעדיט קאָרט) . ניצן דעם טאַקסי מעטער דאַטע, פאַרבן געפונען אַז רובֿ דריווערס אַרבעט מער אויף טעג ווען לוין זענען העכער, קאָנסיסטענט מיט די נעאָקלאַססיקאַל טעאָריע.

אין דערצו צו דעם הויפּט דערגייונג, פערבער איז ביכולת צו נוצן די גרייס פון די דאַטן פֿאַר אַ בעסער פארשטאנד פון העטעראָגענעיטי און דינאַמיק. ער געפונען אַז, איבער צייַט, נייַער דריווערס ביסלעכווייַז לערן צו אַרבעטן מער שעה אויף הויך לוין טעג (למשל, זיי לערנען צו פירן ווי די נעאָקלאַססיקאַל מאָדעל פּרידיקץ). און די נייַע דריווערס וואָס האָבן זיך פאַרהעלטניק ווי די ציל אייגנס, זענען מער מסתּמא צו פאַרלאָזן טאַקסי דריווערס. ביידע די סובטלע פיינדינגז, וואָס העלפֿן דערקלערן דעם באמערקט אָפּעראַציע פון ​​קראַנט דריווערס, זענען בלויז מעגלעך ווייַל פון די גרייס פון דעם דאַטאַסעט. זיי זענען געווען אוממעגלעך צו דעטעקט אין פריער שטודיום אַז געניצט פּאַפּיר יאַזדע שיץ פון אַ קליין נומער פון טאַקסי דריווערס איבער אַ קורץ צייַט פון צייַט (Camerer et al. 1997) .

פערבער 'ס לערנען איז געווען נאָענט צו אַ בעסטער-פאַלן סצענאַר פֿאַר אַ פאָרשונג ניצן אַ גרויס דאַטן מקור ווייַל די דאַטן וואָס זענען געזאמלט דורך די שטאָט זענען שיין נאָענט צו די דאַטן וואָס וואָלט האָבן געזאמלט (איין חילוק איז אַז די פיבער וואָלט געוואלט דאַטן אויף גאַנץ לוין-פערז פּלוס עצות-אָבער די שטאָט דאַטן בלויז אַרייַנגערעכנט עצות באַצאָלט דורך קרעדיט קאַרטל). אָבער, די דאַטן אַליין זענען נישט גענוג. דער שליסל צו פערבער 'ס פאָרשונג האט געבראכט אַ טשיקאַווע קשיא צו די דאַטן, אַ קשיא וואָס האט גרעסער ימפּלאַקיישאַנז ווייַטער פון דעם ספּעציפיש באַשטעטיקן.

א צווייטן בייַשפּיל פון קאַונטינג זאכן קומט פון פאָרשונג דורך גערי קינג, דזשענניפער פּאַן, און מאַלי ראָבערץ (2013) אויף אָנליין צענזור דורך די כינעזיש רעגירונג. אין דעם פאַל, אָבער, די ריסערטשערז האָבן צו קלייַבן זייער אייגן דאַטן און זיי האָבן צו האַנדלען מיט די פאַקט אַז זייער דאַטן איז געווען אַנלאַמישט.

מלך און חברים זענען מאָוטאַווייטאַד דורך די פאַקט אַז געזעלשאַפטלעך מידיאַ הודעות אין טשיינאַ זענען סענסערד דורך אַ ריזיק שטאַט אַפּאַראַט וואָס איז געדאַנק צו אַרייַננעמען טענס פון טויזנטער פון מענטשן. אָבער, די ריסערטשערז און בירגערס זייַנען ווייניק זינען פון ווי די צענזערס באַשליסן וואָס אינהאַלט זאָל זיין אויסגעמעקט. געלערנטע פון ​​טשיינאַ האָבן אין פאַקט אַקטשאַוואַלי יקספּיריאַנסט וועגן וואָס מין פון הודעות זענען רובֿ מסתּמא צו באַקומען אויסגעמעקט. עטלעכע טראַכטן אַז סענסאָרס פאָקוס אויף הודעות וואָס זענען קריטיש פון די שטאַט, און אנדערע טראַכטן אַז זיי פאָקוס אויף הודעות וואָס מוטיקן קאָלעקטיוו נאַטור, אַזאַ ווי פראטעסטן. פיגור אויס וואָס פון די עקספּעקטיישאַנז איז ריכטיק האט ימפּלאַקיישאַנז פֿאַר ווי פאָרשערערז פֿאַרשטיין טשיינאַ און אנדערע אַטאָראַטעריאַן גאַווערמאַנץ וואָס דינגען אין צענזור. דעריבער, מלך און חברים געוואלט צו פאַרגלייַכן הודעות וואָס זענען ארויס און דערנאָך אויסגעמעקט מיט הודעות וואָס זענען ארויס און קיינמאָל אויסגעמעקט.

זאַמלען די הודעות ינוואַלווד די אַמייזינג ינזשעניעריע feat פון קראָלינג מער ווי 1,000 כינעזיש געזעלשאַפטלעך מידיאַ וועבסיטעס-יעדער מיט פאַרשידענע בלאַט לייאַוץ-דערגייונג באַטייַטיק הודעות, און דעמאָלט רעוויסיטינג די הודעות צו זען וואָס זענען דערנאָך אויסגעמעקט. אין דערצו צו דער נאָרמאַל ינזשעניעריע פּראָבלעמס פֿאַרבונדן מיט גרויס וואָג וועב-קראָלינג, דעם פּרויעקט האט די צוגעגעבן אַרויסרופן אַז עס דארף צו זיין גאָר שנעל ווייַל פילע סענסערד הודעות זענען גענומען אַראָפּ אין ווייניקער ווי 24 שעה. אין אנדערע ווערטער, אַ פּאַמעלעך קריכער וואָלט פאַרפירן גורל פון הודעות וואָס זענען סענסערד. ווייטער, די קראַוולערס האט צו טאָן אַלע דעם דאַטן זאַמלונג בשעת יוויידינג דיטעקשאַן כדי די געזעלשאַפטלעך מידיאַ וועבסיטעס בלאָק צוטריט אָדער אַנדערש טוישן זייער פּאַלאַסיז אין ענטפער צו דעם לערנען.

די צייט וואָס די מאַסיוו ינזשעניעריע אַרבעט איז געווען געענדיקט, מלך און חברים האָבן באַקומען וועגן 11 מיליאָן הודעות אויף 85 פאַרשידענע פּרעספּעסיפיעד טעמעס, יעדער מיט אַן אַססעססעד סענסיטיוויטי. פֿאַר בייַשפּיל, אַ טעמע פון ​​הויך סענסיטיוויטי איז אַי וועיוועי, די דיסידיד קינסטלער; אַ טעמע פון ​​מיטל סענסיטיוויטי איז אַפּרישייישאַן און דיוואַליויישאַן פון די כינעזיש קראַנטקייַט, און אַ טעמע פון ​​נידעריק סענסיטיוויטי איז די וועלט קאַפּ. פון די 11,000,000 הודעות, וועגן 2,000,000 האט שוין סענסערד. אנטיקווייז סאַפּרייזינגלי, מלך און חברים געפונען אַז הודעות אויף העכסט שפּירעוודיק טעמעס זענען צענאַרעד בלויז אַ ביסל מער אָפט ווי הודעות אויף מיטל- און נידעריק-סענסיטיוויטי טעמעס. אין אנדערע ווערטער, כינעזיש צענזורן זייַנען בעיקר ווי סענסער צו א צענטראלע ארטיקל, וואס אנטלייגט אז אווי וועיוועי ווי א פאסט וואס ווייזט די וועלט קאַפּ. די פיינדינגז טאָן ניט שטיצן די געדאַנק אַז די רעגירונג צענזור אַלע אַרטיקלען אויף שפּירעוודיק טעמעס.

דעם פּשוט כעזשבן פון צענזור קורס דורך טעמע קען זיין מיסלידינג, אָבער. פֿאַר בייַשפּיל, די רעגירונג זאל צענזור הודעות וואָס זענען שטייענדיק פון אַי וועיוועי, אָבער לאָזן הודעות וואָס זענען קריטיש פון אים. אין סדר צו אונטערצונוצן צווישן הודעות מער קערפאַלי, די ריסערטשערז דאַרפֿן צו מעסטן די געפיל פון יעדער פּאָסטן. צום באַדויערן, טראָץ פיל אַרבעט, גאָר אָטאַמייטיד מעטהאָדס פון סענטימענט דיטעקשאַן מיט פאַר-יגזיסטינג דיקשאַנעריז זענען נאָך נישט זייער גוט אין פילע סיטואַטיאָנס (טראַכטן צוריק צו די פראבלעמען וואָס שאפן אַ עמאָציאָנעל טיימליין פון 11 סעפטעמבער 2001 דיסקרייבד אין אָפּטיילונג 2.3.9). דעריבער, מלך און חברים דארפן א וועג צו צייכענען זייער 11 מיליאן געזעלשאפט מעדיע אַרטיקלען ווי צו זיי (1) קריטיש פון די שטאַט, (2) שטיצן פון די שטאַט, אָדער (3) ירעלאַוואַנט אָדער פאקטיש ריפּאָרץ וועגן די געשעענישן. דאָס סאָונדס ווי אַ מאַסיוו אַרבעט, אָבער זיי סאַלווד עס ניצן אַ שטאַרק קונץ אַז איז פּראָסט אין דאַטן וויסנשאַפֿט אָבער לעפיערעך זעלטן אין געזעלשאַפטלעך וויסנשאַפֿט: סופּערווייזד לערנען ; זען פיגורע 2.5.

ערשטער, אין אַ שריט טיפּיקלי גערופן פּרעפּראָסעססינג , די ריסערטשערז געוואקסן די געזעלשאַפטלעך מידיאַ אַרטיקלען אין אַ דאָקומענט-טערמין מאַטריץ , ווו עס איז געווען איינער רודערן פֿאַר יעדער דאָקומענט און איין זייַל אַז רעקאָרדעד צי די פּאָסטן קאַנטיינד אַ ספּעציפיש וואָרט (למשל, פּראָטעסט אָדער פאַרקער) . ווייַטער, אַ גרופּע פון ​​פאָרשונג אַסיסטאַנץ האַנט-מיטן נאָמען די סענטימענט פון אַ מוסטער פון הודעות. דערנאך, זיי געניצט דעם האַנט-מיטן נאָמען דאַטן צו שאַפֿן אַ מאַשין וויסן מאָדעל וואָס קען שאַטן דעם געפיל פון אַ פּאָסטן באזירט אויף זייַן קעראַקטעריסטיקס. צום סוף, זיי געוויינט דעם מאָדעל צו אָפּשאַצן די געפיל פון אַלע 11,000,000 אַרטיקלען.

אזוי, גאַנץ ווי מאַניואַלי לייענען און לייבאַלינג 11,000,000 אַרטיקלען-וואָס וואָלט זיין לאָגיסטיקלי אוממעגלעך-מלך און חברים מאַניואַלי מיטן נאָמען אַ קליין נומער פון אַרטיקלען און דעמאָלט געוויינט סופּערווייזד לערנען צו אָפּשאַצן די סענטימענט פון אַלע די הודעות. נאָך קאַמפּליטינג דעם אַנאַליז, זיי זענען ביכולת צו פאַרענדיקן אַז, עפּעס סאַפּרייזינגלי, די מאַשמאָעס פון אַ פּאָסטן זייַנען אויסגעמעקט איז געווען אַנרילייטיד צו צי עס איז קריטיש פון די שטאַט אָדער שטיצן פון די שטאַט.

ציפער 2.5: סימפּליפיעד סעמאַטיק פון די פּראָצעדור געניצט דורך מלך, פּאַן, און ראָבערץ (2013) צו אָפּשאַצן די געפיל פון 11,000,000 כינעזיש געזעלשאַפטלעך מידיאַ הודעות. ערשטער, אין אַ פּרעפּראָסעססינג שריט, די ריסערטשערז קאָנווערטעד די געזעלשאַפטלעך מידיאַ אַרטיקלען אין אַ דאָקומענט-טערמין מאַטריץ (זען גריממער און סטוערט (2013) פֿאַר מער אינפֿאָרמאַציע). רגע, זיי האַנט-קאָדעד די געפילן פון אַ קליין מוסטער פון הודעות. דריט, זיי טריינד אַ סופּערווייזד לערנען מאָדעל צו קלאַסיפיצירן די געפיל פון הודעות. פערט, זיי געניצט די סופּערווייזד לערנען מאָדעל צו אָפּשאַצן די סענטימענט פון אַלע די הודעות. זען מלך, פּאַן, און ראָבערץ (2013), אַפּענדיקס ב פֿאַר אַ מער דיטיילד באַשרייַבונג.

ציפער 2.5: סימפּליפיעד סעמאַטיק פון די פּראָצעדור געניצט דורך King, Pan, and Roberts (2013) צו אָפּשאַצן די געפיל פון 11,000,000 כינעזיש געזעלשאַפטלעך מידיאַ הודעות. ערשטער, אין אַ פּרעפּראָסעססינג שריט, די ריסערטשערז קאָנווערטעד די געזעלשאַפטלעך מידיאַ אַרטיקלען אין אַ דאָקומענט-טערמין מאַטריץ (זען Grimmer and Stewart (2013) פֿאַר מער אינפֿאָרמאַציע). רגע, זיי האַנט-קאָדעד די געפילן פון אַ קליין מוסטער פון הודעות. דריט, זיי טריינד אַ סופּערווייזד לערנען מאָדעל צו קלאַסיפיצירן די געפיל פון הודעות. פערט, זיי געניצט די סופּערווייזד לערנען מאָדעל צו אָפּשאַצן די סענטימענט פון אַלע די הודעות. זען King, Pan, and Roberts (2013) , אַפּענדיקס ב פֿאַר אַ מער דיטיילד באַשרייַבונג.

אין די סוף, מלך און חברים געפונען אַז בלויז דרייַ טייפּס פון הודעות זענען קעסיידער צענזעד: פּאָרנאָגראַפי, סענסאָרס קריטיש, און יענע וואס האָבן קאפיטאל קאַמף פּאָטענציעל (ד"ה די מעגלעכקייט פון לידינג צו גרויס-וואָג פראטעסטן). דורך אַבזערווינג אַ ריזיק נומער פון הודעות וואָס זענען אויסגעמעקט און הודעות וואָס זענען נישט אויסגעמעקט, מלך און קאָללאַריעס זענען ביכולת צו לערנען ווי די צענזאָר אַרבעט נאָר דורך וואַטשינג און קאַונטינג. דעריבער, פאָרשאַדאָווינג אַ טעמע וואָס וועט פאַלן איבער דעם בוך, די סופּערווייזד לערנען צוגאַנג וואָס זיי געניצט-האַנט-לייבלינג עטלעכע אַוטקאַמז און דעמאָלט בנין אַ מאַשין לערנען מאָדעל צו פירמע די רוץ-טורנס אויס צו זיין זייער פּראָסט אין געזעלשאַפטלעך פאָרשונג אין די דיגיטאַל עלטער . איר וועט זען בילדער זייער ענלעך צו ציפער 2.5 אין די קאפיטלען 3 (פרעגן פראגעס) און 5 (שאפן מאַסע מיטאַרבעט); דאָס איז איינער פון די ווייניק געדאנקען וואָס קומען אין קייפל קאפיטלען.

די ביישפילן פון די אַרבעט אָפּעראַציע פון ​​טאַקסי דריווערס אין ניו יארק און די געזעלשאַפטלעך מעדיע צענזור נאַטור פון די כינעזיש רעגירונג ווייַזן אַז לעפיערעך פּשוט קאַונטינג פון גרויס דאַטע מקורים קענען, אין עטלעכע סיטואַטיאָנס, פירן צו טשיקאַווע און וויכטיק פאָרשונג. אין ביידע קאַסעס, אָבער, די פאָרשער האָבן צו ברענגען טשיקאַווע שאלות צו די גרויס דאַטן מקור; די דאַטן דורך זיך איז נישט גענוג.