3.6.2 אַמפּלאַפייד פארלאנגט

אַמפּלאַפייד בעטן ניצן אַ פּרידיקטיוו מאָדעל צו פאַרבינדן אַרומיק דאַטן פון אַ ביסל מענטשן מיט אַ גרויס דאַטע מקור פון פילע מענטשן.

א אַנדערש וועג צו פאַרבינדן יבערבליק און גרויס דאַטן קוואלן איז אַ פּראָצעס וואָס איך וועל רופן אַמפּלאַפייד אַסקינג . אין אַן אַמפּלאַפייד אַסקינג, אַ פאָרשער ניצט אַ פּרידיקטיוו מאָדעל צו פאַרבינדן אַ קליין סומע פון ​​יבערבליק דאַטן מיט אַ גרויס דאַטן מקור אין סדר צו פּראָדוצירן עסטאַמאַץ אין אַ וואָג אָדער גראַנולאַריטי וואָס וואָלט ניט זיין מעגלעך מיט יעדער דאַטן מקור ינדיווידזשואַלי. אַ וויכטיק בייַשפּיל פון אַמפּלאַפייד אַסקינג קומט פון אַרבעט פון Joshua Blumenstock, וואס וויל צו זאַמלען דאַטן וואָס קען העלפן פירן אַנטוויקלונג אין נעבעך לענדער. אין דער פאַרגאַנגענהייַט, ריסערטשערז קאַלעקטינג דעם טיפּ פון דאַטן בכלל האָבן צו נעמען איינער פון צוויי אַפּראָוטשיז: מוסטער סערווייז אָדער צענזוס. מוסטער סערווייז, ווו ריסערטשערז אינטערוויו אַ קליין נומער פון מענטשן, קענען זיין פלעקסאַבאַל, בייַצייַטיק, און לעפיערעך ביליק. אָבער, די סערווייז, ווייַל זיי זענען באזירט אויף אַ מוסטער, זענען אָפט באגרענעצט אין זייער האַכלאָטע. מיט אַ מוסטער יבערבליק, עס איז אָפט שווער צו מאַכן עסטימאַטעד וועגן ספּעציפיש דזשיאַגראַפיק מקומות אָדער פֿאַר ספּעציפיש דעמאַגראַפיק גרופּעס. סענסוסעס, אויף די אנדערע האַנט, פּרווון צו אינטערוויו אַלעמען, און אַזוי זיי קענען זיין געניצט צו פּראָדוצירן עסטאַמאַץ פֿאַר קליין דזשיאַגראַפיק מקומות אָדער דעמאַגראַפיק גרופּעס. אבער צענוסעס זענען בכלל טייַער, שמאָל אין פאָקוס (זיי נאָר אַרייַננעמען אַ קליין נומער פון פראגעס), און נישט בייַצייַטיק (זיי פּאַסירן אויף אַ פאַרפעסטיקט פּלאַן, אַזאַ ווי יעדער 10 יאר) (Kish 1979) . אלא ווי זייַענדיק סטאַק מיט מוסטער סערווייז אָדער סענסוסעס, ימאַדזשאַן אויב ריסערטשערז קען פאַרבינדן די בעסטער טשאַראַקטעריסטיקס פון ביידע. ימאַדזשאַן אויב פאָרשער קענען פרעגן יעדער קשיא צו יעדער מענטש יעדער טאָג. דאָך, דעם ומעטומיק, שטענדיק-אויף יבערבליק איז אַ מין פון געזעלשאַפטלעך וויסנשאַפֿט פאַנטאַזיע. אָבער עס קען דערשייַנען אַז מיר קענען אָנהייבן צו דערנענטערן דעם דורך קאַמביינינג סערווער פראגעס פון אַ קליין נומער פון מענטשן מיט דיגיטאַל טראַסעס פון פילע מענטשן.

Blumenstock 'ס פאָרשונג אנגעהויבן ווען ער איז געווען partnered with the largest mobile phone provider in Rwanda, and the company provided anonymized transaction records of about 1.5 million customers between 2005 and 2009. These records contained information about each call and text message, such as the start time, duration , און אַפּפּראָקסימאַטע דזשאָורנאַל אָרט פון די קאַללער און ופנעמער. איידער איך רעדן וועגן די סטאַטיסטיש פּראָבלעמס, עס איז ווערט ווייַזן אַז דעם ערשטער שריט קען זיין איינער פון די כאַרדאַסט פֿאַר פילע פאָרשער. ווי איך דיסקרייבד אין קאַפּיטל 2, רובֿ גרויס דאַטן קוואלן זענען ינאַקסעסאַבאַל צו ריסערטשערז. טעלעפאָן מעטאַ-דאַטן, ספּעציעל, איז מערסטנס ינאַקסעסאַבאַל ווייַל עס איז לעגאַמרע אוממעגלעך צו אַנאָנימיזע און עס כּמעט זיכער כּולל אינפֿאָרמאַציע וואָס פּאַרטיסאַפּאַנץ זאָל באַטראַכטן שפּירעוודיק (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . אין דעם באַזונדער פאַל, די ריסערטשערז זענען אָפּגעהיט צו באַשיצן די דאַטן און זייער אַרבעט איז אָוווערסנד דורך אַ דריט טיילווייַז (ד"ה זייער ירב). איך וועל צוריקקומען צו די עטישע ענינים אין מער דעטאַל אין קאַפּיטל 6.

Blumenstock איז אינטערעסירט אין מעסטן רייַכקייַט און געזונט-זאָרגן. אבער די טרייץ זענען נישט גלייַך אין די רופן רעקאָרדס. אין אנדערע ווערטער, די רופן רעקאָרדס זענען ינקאָרפּליט פֿאַר דעם פאָרשונג - אַ פּראָסט שטריך פון גרויס דאַטן קוואלן וואָס איז דיסקאַסט אין דעטאַל אין קאַפּיטל 2. אָבער, עס מיינט מסתּמא אַז די רופן רעקאָרדס מיסטאָמע האָבן עטלעכע אינפֿאָרמאַציע וואָס קען ינטראַטלי צושטעלן אינפֿאָרמאַציע וועגן רייַכקייַט און well-being. געגעבן דעם מעגלעכקייט, Blumenstock האט געפרעגט צי עס איז מעגלעך צו באַן אַ מאַשין לערנען מאָדעל צו פאָרויסזאָגן ווי עמעצער וועט רעספּאָנד צו אַ יבערבליק באזירט אויף זייער רופן רעקאָרדס. אויב דאָס איז מעגלעך, דעמאָלט Blumenstock קען נוצן דעם מאָדעל צו פאָרויסזאָגן די יבערבליק רעספּאָנסעס פון אַלע 1.5 מיליאָן קאַסטאַמערז.

אין סדר צו בויען און טריינג אַזאַ אַ מאָדעל, Blumenstock און פאָרשונג אַסיסטאַנץ פון קיגאַלי אינסטיטוט פון וויסנשאַפֿט און טעכנאָלאָגיע גערופן אַ טראַפאַל מוסטער פון וועגן אַ טויזנט קאַסטאַמערז. די ריסערטשערז דערקלערט די צילן פון די פּרויעקט צו די פּאַרטיסאַפּאַנץ, געבעטן פֿאַר זייער צושטימען צו פֿאַרבעסערן די יבערבליק רעספּאָנסעס צו די רופן רעקאָרדס, און דעמאָלט געבעטן זיי אַ שאלות פון פראגעס צו מעסטן זייער רייַכקייַט און געזונט-זינען, אַזאַ ווי "צי איר אייגן אַ ראַדיאָ? "און" צי איר אייגן אַ וועלאָסיפּעד? "(זען פיגורע 3.14 פֿאַר אַ פּאַרטיייש רשימה). אַלע פּאַרטיסאַפּאַנץ אין די יבערבליק זענען קאַמפּאַנסייטאַד פאַנאַנשאַלי.

ווייַטער, פלאַוססטאָקק געניצט אַ צוויי-שריט פּראָצעדור פּראָסט אין מאַשין לערנען: שטריך ינזשעניעריע נאכגעגאנגען דורך סופּערווייזד לערנען. ערשטער, אין די שטריך אינזשעניריע שריט, פֿאַר אַלעמען וואָס איז געווען ינטערוויוד, Blumenstock האט קאָנווערטעד די רופן רעקאָרדס אין אַ סכום פון קעראַקטעריסטיקס וועגן יעדער מענטש; דאַטן סייאַנטיס קען רופן די פֿעיִקייטן "פֿעיִקייטן" און סאציאל סייאַנטיס וואָלט גערופן זיי "וועריאַבאַלז". פֿאַר בייַשפּיל, פֿאַר יעדער מענטש, פלאַוססטאָקק קאַלקיאַלייטיד די גאַנץ נומער פון טעג מיט טעטיקייט, די נומער פון פאַרשידענע מענטשן אַ מענטש איז געווען אין קאָנטאַקט מיט, די די געלט איז פארבראכט אויף אַירטימע, און אַזוי אויף. קריטיש, גוט שטריך ינזשעניעריע ריקווייערז וויסן פון די פאָרשונג באַשטעטיקן. פֿאַר בייַשפּיל, אויב עס איז וויכטיק צו ויסטיילן צווישן דינער און אינטערנאַציאָנאַלער רופט (מיר זאלן דערוואַרטן מענטשן וואָס רופן ינטערנאַשאַנאַלי צו זיין רעוועכדיק), דעמאָלט דעם מוזן זיין געטאן בייַ די שטריך אינזשעניריע שריט. א פאָרשער מיט ביסל פארשטאנד פון רוואַנדאַ זאל ניט אַרייַננעמען דעם שטריך, און דעמאָלט די פּרידיקטיוו פאָרשטעלונג פון די מאָדעל וואָלט לייַדן.

ווייַטער, אין די סופּערווייזד לערנען שריט, Blumenstock געבויט אַ מאָדעל צו פאָרויסזאָגן די יבערבליק ענטפער פֿאַר יעדער מענטש באזירט אויף זייער פֿעיִקייטן. אין דעם פאַל, Blumenstock האט לאָגיסטיק רעגרעססיאָן, אָבער ער קען האָבן געניצט אַ פאַרשיידנקייַט פון אנדערע סטאַטיסטיש אָדער מאַשין לערנען אַפּערטונאַטיז.

אַזוי ווי געזונט האט עס אַרבעט? איז פלאָרצטאָקק קענען פאָרויסזאָגן ענטפֿערס צו אַרוישעלפן פראגעס אַזאַ ווי "איר האָט אַ ראַדיאָ?" און "איר האָט אַ בייק?" ניצן פֿעיִקייטן פון די רופן רעקאָרדס? אין סדר צו אָפּשאַצן די פאָרשטעלונג פון זייַן פּרידיקטיוו מאָדעל, פלאַוססטאָקק געניצט קרייַז-וואַלאַדיישאַן , אַ טעכניק קאַמאַנלי געניצט אין דאַטן וויסנשאַפֿט אָבער ראַרעלי אין געזעלשאַפטלעך וויסנשאַפֿט. דער ציל פון קרייַז-וואַלאַדיישאַן איז צו צושטעלן אַ שיין אָפּשאַצונג פון אַ מאָדעל ס פּרעדיקטיוו פאָרשטעלונג דורך טריינינג עס און טעסטינג עס אויף פאַרשידענע סובסעטעס פון דאַטן. אין באַזונדער, Blumenstock שפּאַלטן זיין דאַטע אין 10 שטיקער פון 100 מענטשן יעדער. דערנאָך, ער געניצט נייַן פון די טשאַנגקס צו באַן זיין מאָדעל, און די פּרידיקטיוו פאָרשטעלונג פון דער טריינד מאָדעל איז געווען עוואַלואַטעד אויף די רוען טשאַק. ער ריפּיטיד דעם פּראָצעדור 10 מאל-מיט יעדער טשאַנג פון דאַטן געטינג איינער קער ווי די וואַלאַדיישאַן דאַטע-און אַוורידזשד די רעזולטאַטן.

די אַקיעראַסי פון די פֿאָרויסזאָגן איז הויך פֿאַר עטלעכע טרייץ (פיגורע 3.14); פֿאַר בייַשפּיל, Blumenstock קען פאָרויסזאָגן מיט 97.6% אַקיעראַסי אויב עמעצער אָונד אַ ראַדיאָ. דאָס קען געזונט ימפּרעסיוו, אָבער עס איז שטענדיק וויכטיק צו פאַרגלייַכן אַ קאָמפּלעקס פּראָגנאָז אופֿן קעגן אַ פּשוט אנדער ברירה. אין דעם פאַל, אַ פּשוט אָלטערנאַטיוו איז צו פאָרויסזאָגן אַז אַלעמען וועט געבן די מערסט פּראָסט ענטפֿערן. פֿאַר בייַשפּיל, 97.3% פון ריספּאַנדאַנץ געמאלדן אָונינג אַ ראַדיאָ אַזוי אויב Blumenstock האט פּרעדיקטעד אַז אַלעמען וואָלט באַריכט אָונינג אַ ראַדיאָ ער וואָלט האָבן אַ אַקיעראַסי פון 97.3%, וואָס איז סאַפּרייזינגלי ענלעך צו דער פאָרשטעלונג פון זיין מער קאָמפּליצירט פּראָצעדור (97.6% אַקיעראַסי) . אין אנדערע ווערטער, אַלע די פאַנטאַזיע דאַטע און מאָדעלינג געוואקסן די אַקיעראַסי פון די פּראָגנאָז פון 97.3% צו 97.6%. אָבער, פֿאַר אנדערע פראגעס, אַזאַ ווי "צי איר אייגן אַ וועלאָסיפּעד?", די פֿאָרויסזאָגן פֿאַרבעסערן 54.4% צו 67.6%. מער בכלל, פיגורע 3.15 ווייזט אַז פֿאַר עטלעכע טרייץ Blumenstock האט נישט פֿאַרבעסערן פיל אויסער נאָר מאַכן די פּשוט באַסעלינע פּראָגנאָז, אָבער אַז פֿאַר אנדערע טרייץ עס איז געווען עטלעכע פֿאַרבעסערונג. איר זוכט פּונקט אין די רעזולטאַטן, אָבער, איר זאלט ​​נישט טראַכטן אַז דעם צוגאַנג איז ספּעציעל פּראַמאַסינג.

פיגורע 3.14: פּרידיקטיוו אַקיעראַסי פֿאַר אַ סטאַטיסטיש מאָדעל טריינד מיט רופן רעקאָרדס. Adapted from Blumenstock (2014), table 2.

פיגורע 3.14: פּרידיקטיוו אַקיעראַסי פֿאַר אַ סטאַטיסטיש מאָדעל טריינד מיט רופן רעקאָרדס. אַדאַפּטעד פון Blumenstock (2014) , טיש 2.

פיגורע 3.15: פאַרגלייַך פון פּרידיקטיוו אַקיעראַסי פֿאַר אַ סטאַטיסטיש מאָדעל טריינד מיט רופן רעקאָרדס צו פּשוט באַסעלינע פּראָגנאָז. פונקטן זענען אַ ביסל דזשיטערעד צו ויסמייַדן אָוווערלאַפּ. Adapted from Blumenstock (2014), table 2.

פיגורע 3.15: פאַרגלייַך פון פּרידיקטיוו אַקיעראַסי פֿאַר אַ סטאַטיסטיש מאָדעל טריינד מיט רופן רעקאָרדס צו פּשוט באַסעלינע פּראָגנאָז. פונקטן זענען אַ ביסל דזשיטערעד צו ויסמייַדן אָוווערלאַפּ. אַדאַפּטעד פון Blumenstock (2014) , טיש 2.

אָבער, נאָר איין יאָר שפּעטער, Blumenstock און צוויי חברים-גאַבריעל קאַדאַמוראָ און Robert On-ארויס אַ פּאַפּיר אין וויסנשאַפֿט מיט סאַבסטאַנשאַלי בעסער רעזולטאַטן (Blumenstock, Cadamuro, and On 2015) . עס זענען צוויי הויפּט טעכניש סיבות פֿאַר דעם פֿאַרבעסערונג: (1) זיי געניצט מער סאַפיסטאַקייטיד מעטהאָדס (י.ע., אַ נייַע צוגאַנג צו שטריך ינזשעניעריע און אַ מער סאַפיסטאַקייטיד מאָדעל צו פאָרויסזאָגן רעספּאָנסעס פון פֿעיִקייטן) און (2) אלא ווי אַטשיווד צו אַרייַנפיר רעספּאָנסעס צו יחיד אַרוישעלפן פראגעס (למשל, "צי איר אייגן אַ ראַדיאָ?"), זיי געפרוווט צו אַרייַנפיר אַ קאָמפּאָסיטע רייַכקייַט אינדעקס. די טעכניש ימפּרווומאַנץ מענט אַז זיי קענען טאָן אַ גלייַך אַרבעט פון ניצן רופן רעקאָרדס צו פאָרויסזאָגן רייַך פֿאַר די מענטשן אין זייער מוסטער.

פּרעדיקטינג די עשירות פון מענטשן אין דער מוסטער, אָבער, איז ניט די לעצט ציל פון די פאָרשונג. געדענק אַז די לעצט ציל איז צו פאַרבינדן עטלעכע פון ​​די בעסטער פֿעיִקייטן פון מוסטער סערווייז און סענסוסעס צו פּראָדוצירן פּינטלעך, הויך-האַכלאָטע עסטאַמאַץ פון אָרעמקייַט אין דעוועלאָפּינג לענדער. צו אַססעסס זייער פיייקייַט צו דערגרייכן דעם ציל, Blumenstock און חברים געניצט זייער מאָדעל און זייער דאַטן צו פאָרויסזאָגן די עשירות פון אַלע 1.5 מיליאָן מענטשן אין די רופן רעקאָרדס. און זיי גענוצט די געאָספּאַטיאַל אינפֿאָרמאַציע אַרייַנגערעכנט אין די רופן רעקאָרדס (צוריקרופן אַז די דאַטן אַרייַנגערעכנט די אָרט פון די ניראַסט צעל טורעם פֿאַר יעדער רופן) צו אָפּשאַצן די דערנענטערנ אָרט פון וווינאָרט פון יעדער מענטש (געשטאַלט 3.17). פּאַטינג די צוויי עסטאַמאַץ צוזאַמען, Blumenstock און חברים געשאפן אַן אָפּשאַצונג פון די דזשיאַגראַפיק פאַרשפּרייטונג פון אַבאָנעמענט עשירות בייַ גאָר פייַן ספּיישאַל גראַנולאַריטי. פֿאַר בייַשפּיל, זיי קען אָפּשאַצן די דורכשניטלעך רייַכקייַט אין יעדער פון רוואַנדאַ ס 2,148 סעלז (דער קלענסטער אַדמיניסטראַטיווע אַפּאַראַט אין די מדינה).

ווי געזונט האבן די עסטימאַטיז גלייַכן זיך צו די פאַקטיש מדרגה פון אָרעמקייַט אין די מקומות? איידער איך ענטפֿערן דעם קשיא, איך ווילן צו ונטערשטרייַכן די פאַקט אַז עס זענען אַ פּלאַץ פון סיבות צו זיין סקעפּטיקאַל. פֿאַר בייַשפּיל, די פיייקייַט צו מאַכן פּרעדיקשאַנז בייַ די פערזענלעכע מדרגה איז שיין טומלדיק (פיגורע 3.17). און, טאָמער מער וויכטיק, מענטשן מיט רירעוודיק פאָנעס זאל זיין סיסטאַמאַטיקלי אַנדערש פון מענטשן אָן רירעוודיק פאָנעס. אזוי, פלאַוססטאָקק און חברים זאלן ליידן פון די טייפּס פון קאַווערידזש ערראָרס אַז בייז די 1936 ליטערארישע דיידאַסט יבערבליק אַז איך דיסקרייבד פריער.

צו באַקומען אַ געפיל פון די קוואַליטעט פון זייער עסטאַמאַץ, Blumenstock און חברים דאַרפֿן צו פאַרגלייַכן זיי מיט עפּעס אַנדערש. גליק, אַרום די זעלבע צייט ווי זייער לערנען, אן אנדער גרופּע פון ​​פאָרשער איז פליסנדיק אַ מער טראדיציאנעלן געזעלשאַפטלעך יבערבליק אין רוואַנדאַ. דעם אנדערן יבערבליק, וואָס איז געווען טייל פון די ברייט רעספּעקטעד דעמאָגראַפיק און געזונט סורוויי פּראָגראַם, האט אַ גרויס בודזשעט און געוויינט הויך-קוואַליטעט טראדיציאנעלן מעטהאָדס. דעריבער, די עסטאַמאַץ פון די דעמאָגראַפיק און געזונט יבערבליק קען ריזאַנאַבלי ווערן געהאלטן גאָלד-נאָרמאַל עסטאַמאַץ. ווען די צוויי עסטאַמאַץ זענען קאַמפּערד, זיי זענען גאַנץ ענלעך (געשטאַלט 3.17). אין אַנדערע ווערטער, דורך קאַמביינינג אַ קליין סומע פון ​​יבערבליק דאַטן מיט די רופן רעקאָרדס, Blumenstock און קאָללאַגס זענען ביכולת צו פּראָדוצירן די סטייטמאַנץ פאַרגלייַכלעך צו די פון גאָלד-נאָרמאַל אַפּראָוטשיז.

א סקעפּטיקער זאל זען די רעזולטאטן ווי אַ אַנטוישונג. דערנאָך, איין וועג פון וויוינג זיי איז צו זאָגן אַז דורך ניצן גרויס דאַטן און מאַשין וויסן, Blumenstock און קאָללאַגס זענען ביכולת צו פּראָדוצירן עסטאַמאַץ אַז קען זיין מער פאַרלאָזלעך דורך שוין יגזיסטינג מעטהאָדס. אבער איך טאָן נישט טראַכטן אַז דאָס איז די רעכט וועג צו טראַכטן וועגן דעם לערנען פֿאַר צוויי סיבות. ערשטער, די עסטאַמאַץ פון Blumenstock און חברים זענען וועגן 10 מאל פאַסטער און 50 מאל טשיפּער (ווען פּרייַז איז געמאסטן אין טערמינען פון בייַטעוודיק קאָס). ווי איך אַרגיוד פריער אין דעם קאַפּיטל, ריסערטשערז איגנאָרירן פּרייַז בייַ זייער געפאַר. אין דעם פאַל, פֿאַר בייַשפּיל, די דראַמאַטיק פאַרקלענערן אין פּרייַז מיטל אַז אלא ווי זייַענדיק לויפן יעדער ביסל יאָרן - ווי איז נאָרמאַל פֿאַר דעמאָגראַפיק און געזונט סורווייס - דעם סאָרט פון יבערבליק קען זיין לויפן יעדער חודש, וואָס וואָלט צושטעלן סך אַדוואַנידזשיז פֿאַר ריסערטשערז און פּאָליטיק מייקערז. די רגע סיבה נישט צו נעמען די סקעפּטיקער ס מיינונג איז אַז דאָס לערנען גיט אַ יקערדיק רעצעפּט וואָס קען זיין צוגעשטעלט צו פילע פאַרשידענע פאָרשונג סיטואַטיאָנס. דעם רעצעפּט איז בלויז צוויי ינגרידיאַנץ און צוויי טריט. די ינגרידיאַנץ זענען (1) אַ גרויס דאַטע מקור וואָס איז ברייט אָבער דין (אַזוי עס האט פילע מענטשן, אָבער נישט די אינפֿאָרמאַציע וואָס איר דאַרפֿן וועגן יעדער מענטש) און (2) אַ יבערבליק אַז איז ענג אָבער דיק אַ ביסל מענטשן, אָבער עס טוט די אינפֿאָרמאַציע וואָס איר דאַרפֿן וועגן די מענטשן). די ינגרידיאַנץ זענען דעמאָלט קאַמביינד אין צוויי טריט. ערשטער, פֿאַר די מענטשן אין ביידע דאַטן קוואלן, בויען אַ מאַשין וויסן מאָדעל וואָס ניצט די גרויס דאַטע מקור צו פאָרויסזאָגן יבערבליק ענטפֿערס. ווייַטער, נוצן אַז מאָדעל צו אָנמאַכן די יבערבליק ענטפֿערס פון אַלעמען אין די גרויס דאַטן מקור. אזוי, אויב עס איז עטלעכע קשיא אַז איר ווילן צו פרעגן אַ פּלאַץ פון מענטשן, קוק פֿאַר אַ גרויס דאַטע מקור פון די מענטשן וואָס קען זיין געוויינט צו פאָרויסזאָגן זייער ענטפֿערן, אַפֿילו אויב איר טאָן ניט זאָרגן וועגן די גרויס דאַטן מקור . וואָס איז, Blumenstock און חברים האָבן נישט ינכענטלי זאָרגן וועגן רופן רעקאָרדס; זיי בלויז זאָרגן וועגן רופן רעקאָרדס ווייַל זיי קענען זיין געניצט צו פאָרויסזאָגן יבערבליק ענטפֿערס אַז זיי זאָרג וועגן. דעם כאַראַקטעריסטיש-בלויז ומדירעקט אינטערעס אין דער גרויס דאַטע מקור-מאכט אַמפּלאַפייד פארלאנגט אַנדערש פון עמבעדיד אַסקינג, וואָס איך דיסקרייבד פריער.

פיגורע 3.16: סטשעמאַטיק פון די סטודיאָ דורך פלאַענטסטאָקק, קאַדאַמוראָ, און אויף (2015). רופן רעקאָרדס פון די טעלעפאָנירן פירמע איז קאָנווערטעד צו אַ מאַטריץ מיט איין רודערן פֿאַר יעדער מענטש און איין זייַל פֿאַר יעדער שטריך (ה.ה., בייַטעוודיק). ווייַטער, די ריסערטשערז געבויט אַ סופּערווייזד לערנען מאָדעל צו פאָרויסזאָגן די יבערבליק רעספּאָנסעס פון די מענטש-דורך-שטריך מאַטריץ. דעריבער, די סופּערווייזד וויסן מאָדעל איז געניצט צו אָנמאַכן די יבערבליק רעספּאָנסעס פֿאַר אַלע 1.5 מיליאָן קאַסטאַמערז. אויך, די ריסערטשערז עסטימאַטעד די אַפּפּראָקסימאַטע אָרט פון וווינאָרט פֿאַר אַלע 1.5 מיליאָן קאַסטאַמערז באזירט אויף די לאָוקיישאַנז פון זייער רופט. ווען די צוויי עסטאַמאַץ, די עסטימאַטעד עשירות און די עסטימאַטעד אָרט פון וווינאָרט - זענען קאַמביינד, די רעזולטאַטן זענען ענלעך צו עסטימאַטעד פון די דעמאָגראַפיק און געזונט יבערבליק, אַ גאָלד-נאָרמאַל טראדיציאנעלן יבערבליק (פיגורע 3.17).

פיגורע 3.16: סטשעמאַטיק פון די Blumenstock, Cadamuro, and On (2015) דורך Blumenstock, Cadamuro, and On (2015) . רופן רעקאָרדס פון די טעלעפאָנירן פירמע איז קאָנווערטעד צו אַ מאַטריץ מיט איין רודערן פֿאַר יעדער מענטש און איינער זייַל פֿאַר יעדער שטריך (ד"ה, בייַטעוודיק). ווייַטער, די ריסערטשערז געבויט אַ סופּערווייזד לערנען מאָדעל צו פאָרויסזאָגן די יבערבליק רעספּאָנסעס פון די מענטש-דורך-שטריך מאַטריץ. דעריבער, די סופּערווייזד וויסן מאָדעל איז געניצט צו אָנמאַכן די יבערבליק רעספּאָנסעס פֿאַר אַלע 1.5 מיליאָן קאַסטאַמערז. אויך, די ריסערטשערז עסטימאַטעד די אַפּפּראָקסימאַטע אָרט פון וווינאָרט פֿאַר אַלע 1.5 מיליאָן קאַסטאַמערז באזירט אויף די לאָוקיישאַנז פון זייער רופט. ווען די צוויי עסטאַמאַץ, די עסטימאַטעד עשירות און די עסטימאַטעד אָרט פון וווינאָרט - זענען קאַמביינד, די רעזולטאַטן זענען ענלעך צו עסטימאַטעד פון די דעמאָגראַפיק און געזונט יבערבליק, אַ גאָלד-נאָרמאַל טראדיציאנעלן יבערבליק (פיגורע 3.17).

פיגורע 3.17: רעזולטאַטן פון Blumenstock, קאַדאַמוראָ, און אויף (2015). אין דעם פערזענליכע מדרגה, די ריסערטשערז זענען ביכולת צו טאָן אַ גלייַך אַרבעט אין פּרידיקטינג עמעצער ס עשירות פון זייער רופן רעקאָרדס. די עסטאַמאַץ פון די דיסטריקט פון רעוואַנדאַ ס 30 דיסטריקץ - וואָס זענען באזירט אויף יחיד-מדרגה אָפּשאַצן פון רייַכקייַט און אָרט פון וווינאָרט - זענען ענלעך צו רעזולטאַטן פון די דעמאָגראַפיק און געזונט יבערבליק, אַ גאָלד-נאָרמאַל טראדיציאנעלן יבערבליק. אַדאַפּטעד פון Blumenstock, קאַדאַמוראָ, און אויף (2015), פיגיערז 1 אַ און 3 ק.

פיגורע 3.17: רעזולטאַטן פון Blumenstock, Cadamuro, and On (2015) . אין דעם פערזענליכע מדרגה, די ריסערטשערז זענען ביכולת צו טאָן אַ גלייַך אַרבעט אין פּרידיקטינג עמעצער ס עשירות פון זייער רופן רעקאָרדס. די עסטאַמאַץ פון די דיסטריקט פון רעוואַנדאַ ס 30 דיסטריקץ - וואָס זענען באזירט אויף יחיד-מדרגה אָפּשאַצן פון רייַכקייַט און אָרט פון וווינאָרט - זענען ענלעך צו רעזולטאַטן פון די דעמאָגראַפיק און געזונט יבערבליק, אַ גאָלד-נאָרמאַל טראדיציאנעלן יבערבליק. אַדאַפּטעד פון Blumenstock, Cadamuro, and On (2015) , פיגיערז 1 אַ און 3 ק.

אין דערקלערונג, Blumenstock's אַמפּלאַפייד טשאַלאַנדזשינג אַפּלאַקיישאַן קאַמביינד יבערבליק דאַטן מיט אַ גרויס דאַטע מקור צו פּראָדוצירן די אַבזאָרפּשאַן פאַרגלייַכלעך צו די פון אַ גאָלד-נאָרמאַל יבערבליק. דעם באַזונדער בייַשפּיל אויך קלעראַפייז עטלעכע פון ​​די האַנדל-אָפס צווישן אַמפּלאַפייד אַסקינג און טראדיציאנעלן יבערבליק מעטהאָדס. די אַמפּלאַפייד בעטן עסטאַמאַץ זענען מער בייַצייַטיק, סאַבסטאַנשאַלי טשיפּער, און מער גראַניאַלער. אבער, אויף די אנדערע האַנט, עס איז נישט נאָך אַ שטאַרק טעאָרעטיש יקער פֿאַר דעם מין פון אַמפּלאַפייד פארלאנגט. דעם איין בייַשפּיל טוט נישט ווייַזן ווען דעם אַפּלאַקיישאַן וועט אַרבעטן און ווען עס וועט ניט זיין, און ריסערטשערז ניצן דעם צוגאַנג מוזן זיין ספּעציעל זארגן וועגן מעגלעך בייייזאַז געפֿירט דורך וואס איז אַרייַנגערעכנט-און וואס איז נישט אַרייַנגערעכנט-אין זייער גרויס דאַטן מקור. ווייַטער, דער אַמפּלאַפייד אַסקינג צוגאַנג טוט נישט נאָך האָבן גוט וועגן צו קוואַנאַטירן אַנסערטאַנטי אַרום זייַן עסטאַמאַץ. צומ גליק, אַמפּלאַפייד אַסקינג האט טיף קאַנעקשאַנז צו דרייַ גרויס געביטן אין סטאַטיסטיק-קליין-געגנט אָפּשאַצונג (Rao and Molina 2015) , ימפּוטאַטיאָן (Rubin 2004) , און מאָדעל-באזירט פּאָסט-סטראַטיפיקאַטיאָן (וואָס זיך איז ענג שייַכות צו הער פּי, דער אופֿן איך דיסקרייבד פריער אין דעם קאַפּיטל) (Little 1993) . ווייַל פון די טיף קאַנעקשאַנז, איך דערוואַרטן אַז פילע פון ​​די מעטאַאָטשאַל יסודות פון אַמפּלאַפייד אַסקינג וועט באַלד זיין ימפּרוווד.

צום סוף, צו פאַרגרעסערן פלאָרסט סטאָקק ערשטער און רגע פרווון אויך ילימאַנייץ אַ וויכטיק לעקציע וועגן דיגיטאַל-עלטער געזעלשאַפטלעך פאָרשונג: דער אָנהייב איז ניט דער סוף. אַז איז, פילע מאל, דער ערשטער צוגאַנג איז נישט דער בעסטער, אָבער אויב ריסערטשערז פאָרזעצן ארבעטן, עס קען זיין בעסער. מער בכלל, ווען עוואַלואַטינג נייַע אַפּערטונאַטיז צו געזעלשאַפטלעך פאָרשונג אין די דיגיטאַל עלטער, עס איז וויכטיק צו מאַכן צוויי פאַרשידענע עוואַלואַטיאָנס: (1) ווי געזונט טוט דאָס אַרבעט איצט? און (2) ווי געזונט וועט דאָס אַרבעט אין דער צוקונפֿט ווי די דאַטע לאַנדשאַפט ענדערונגען און ווי ריסערטשערז אָפּגעבן מער ופמערקזאַמקייט צו דעם פּראָבלעם? כאָטש ריסערטשערז זענען טריינד צו מאַכן די ערשטע מין פון אפשאצונג, די רגע איז אָפט מער וויכטיק.