3.6.1 ענריטשט אַסקינג

דאס איבערזעצונג איז Created by אַ קאָמפּיוטער. ×

3.6.1 ענריטשט אַסקינג

אין ענריטשט אַסקינג, יבערקוקן דאַטע בויען קאָנטעקסט אַרום אַ גרויס דאַטע מקור אַז כּולל עטלעכע וויכטיק מעזשערמאַנץ אָבער פעלן אנדערע.

איין וועג צו פאַרבינדן יבערבליק דאַטן און גרויס דאַטן קוואלן איז אַ פּראָצעס וואָס איך וועל רופן ענריטשט אַסקינג . אין ענריטשט אַסקינג, אַ גרויס דאַטע מקור כּולל עטלעכע וויכטיק מעזשערמאַנץ אָבער לאַקס אנדערע מעזשערמאַנץ אַזוי די פאָרשער קאַלעקץ די פעלנדיק מעזשערמאַנץ אין אַ יבערבליק און דעמאָלט לינקס די צוויי דאַטן קוואלן צוזאַמען. איין בייַשפּיל פון ענריטשט אַסקינג איז די לערנען פון Burke and Kraut (2014) וועגן צי ינטעראַקטינג אויף פאַסעבאָאָק ינקריסאַז פֿרייַנדשאַפֿט שטאַרקייַט, וואָס איך דיסקרייבד אין אָפּטיילונג 3.2). אין דעם פאַל, Burke and Kraut קאַמביינד יבערבליק דאַטן מיט פאַסעבאָאָק קלאָץ דאַטן.

די באַשטעטיקן אין וועלכע בורקע און קראַוט זענען ארבעטן, אָבער, מענט אַז זיי האבן ניט האָבן צו האַנדלען מיט צוויי גרויס פּראָבלעמס אַז ריסערטשערז טאן ענריטשט אַסקינג טיפּיקלי פּנים. ערשטער, אַקשלי פאַרבינדן צוזאַמען די יחיד-מדרגה דאַטן שטעלט, אַ פּראָצעס גערופן רעקאָרד לינגקאַדזש , קענען זיין שווער אויב עס איז קיין יינציק ידענטיפיער אין ביידע דאַטן קוואלן אַז קענען זיין געניצט צו ענשור אַז די ריכטיק רעקאָרד אין איין דאַטאַסעט איז מאַטשט מיט די ריכטיק רעקאָרד אין די אנדערע דאַטאַסעט. די צווייטע הויפּט פּראָבלעם מיט ענריטשט אַסקינג איז אַז די קוואַליטעט פון די גרויס דאַטן מקור וועט אָפט זיין שווער פֿאַר פאָרשער צו אַססעסס ווייַל דער פּראָצעס דורך וואָס די דאַטן זענען באשאפן קען זיין פּראַפּרייאַטערי און קען זיין סאַסעפּטאַבאַל צו פילע פון די פּראָבלעמס דיסקרייבד אין קאַפּיטל 2. אין אנדערע ווערטער, ענריטשט אַסקינג וועט אָפט אַרייַנקרין טעות-פּראָנע פֿאַרבינדונג פון סערווייז צו שוואַרץ-קעסטל דאַטן קוואלן פון אומבאַקאַנט קוואַליטעט. טראָץ די פּראָבלעמס, אָבער, ענקריפּעד אַסקינג קענען זיין געניצט צו אָנפירן וויכטיק פאָרשונג, ווי איז דעמאַנסטרייטיד דורך סטיווען אַנסאָלאַבעהער און Eitan Hersh (2012) אין זייער פאָרשונג אויף אָפּשטימונג פּאַטערנז אין די פאַרייניקטע שטאַטן.

וואָטער טורנאָוט איז די טעמע פון ברייט פאָרשונג אין פּאָליטיש וויסנשאַפֿט, און, אין דער פאַרגאַנגענהייַט, ריסערטשערז 'פארשטאנד פון וואס וואָוץ און וואָס איז בכלל באזירט אויף די אַנאַליסיס פון יבערבליק דאַטן. די שטימען אין די פאַרייניקטע שטאַטן, אָבער, איז אַ ומגעוויינטלעך אָפּפירונג אין אַז די רעגירונג רעקאָרדעד צי יעדער בירגער האט וואָטעד (פון קורס, די רעגירונג טוט נישט רעקאָרדירן וואָס יעדער בירגער וואָוץ פֿאַר). פֿאַר פילע יאָרן, די רעגירונגס אָפּשטימונג רעקאָרדס זענען בנימצא אויף פּאַפּיר פאָרמס, צעוואָרפן אין פארשיידענע היגע רעגירונג אָפאַסאַז אַרום די מדינה. דאָס האָט עס זייער שווער, אָבער ניט אוממעגלעך, פֿאַר פּאָליטיש סייאַנטיס צו האָבן אַ גאַנץ בילד פון די עלעקטאָראַט און צו פאַרגלייַכן וואָס מענטשן זאָגן אין סערווייז וועגן אָפּשטימונג מיט זייער פאַקטיש אָפּשטימונג נאַטור (Ansolabehere and Hersh 2012) .

אבער די אָפּשטימונג רעקאָרדס האָבן שוין דיסאַבעלייזד, און אַ פּלאַץ פון פּריוואַט קאָמפּאַניעס האָבן סיסטאַמאַטיקלי געזאמלט און מערדזשד זיי צו פּראָדוצירן פולשטענדיק בעל אָפּשטימונג טעקעס וואָס אַנטהאַלטן דעם אָפּשטימונג נאַטור פון אַלע אמעריקאנער. Ansolabehere and Hersh partnered with one of these companies-Catalist LCC-in order to use their master vote file to help develop a better picture of the electorate. דערצו, ווייַל זייער לערנען רילייד אויף דיגיטאַל רעקאָרדס געזאמלט און קעראַטיד דורך אַ פירמע וואָס האט ינוועסטאַד היפּש רעסורסן אין דאַטן זאַמלונג און כאַרמאַניזיישאַן, עס געפֿינט אַ נומער פון אַדוואַנידזשיז איבער פרייַערדיק השתדלות וואָס זענען געטאן אָן די הילף פון קאָמפּאַניעס און דורך ניצן אַנאַלאָג רעקאָרדס.

ווי פילע פון די גרויס דאַטן קוואלן אין קאַפּיטל 2, די קאַטאַליסט בעל טעקע האט נישט אַרייַננעמען פיל פון די דעמאַגראַפיק, אַטטודואַנאַל, און ביכייוויעראַל אינפֿאָרמאַציע אַז אַנסאָלאַבאַירע און הערסש דארף. אין פאַקט, זיי זענען געווען ספּעציעל אינטערעסירט אין קאַמפּערינג געמאלדן אָפּשטימונג נאַטור אין סערווייז מיט וואַלאַדייטאַד אָפּשטימונג אָפּפירונג (ד"ה די אינפֿאָרמאַציע אין די קאַטאַליסט דייטאַבייס). אַזוי זייַנען געוואָרן אַלסאָלאָבערהער און הערסש די דאַטן וואָס זיי ווילן געוואָרן ווי אַ גרויסע סאציאלע יבערבליק, די CCES, וועלכער האָט פריער דערמאָנט אין דעם קאַפּיטל. דעריבער זיי געגעבן זייער דאַטע צו קאַטאַליסט, און קאַטאַליסט געגעבן זיי צוריק אַ מערדזשד דאַטן טעקע אַז אַרייַנגערעכנט וואַלאַדייטאַד אָפּשטימונג אָפּפירונג (פון קאַטאַליסט), די זיך-געמאלדן אָפּשטימונג נאַטור (פון סיס) און די דעמאָגראַפיקס און אַטאַטודז פון ריספּאַנדאַנץ (פון סיס) (געשטאַלט 3.13). אין אנדערע ווערטער, Ansolabehere און Hersh קאַמביינד די אָפּשטימונג רעקאָרדס דאַטן מיט יבערבליק דאַטן אין סדר צו פאָרשונג אַז איז ניט מעגלעך מיט יעדער דאַטן מקור ינדיווידזשואַלי.

פיגורע 3.13: סטעמאַטיק פון דער לערנען דורך אַנסאָלאַבעעהער און הערש (2012). צו שאַפֿן דעם בעל דאַטאַפילע, קאַטאַליסט קאַמביינז און כאַרמאַנייזיז אינפֿאָרמאַציע פון פילע פאַרשידענע מקורים. דעם פּראָצעס פון מערדזשינג, קיין ענין ווי אָפּגעהיט, וועט פּראַפּאַגייט ערראָרס אין די אָריגינעל דאַטן קוואלן און וועט פאָרשטעלן נייַע ערראָרס. א צווייטע מקור פון ערראָרס איז דער רעקארד לינגקידזש צווישן די יבערבליק דאַטן און די בעל דאַטאַפילע. אויב יעדער מענטש האט אַ סטאַביל, יינציק ידענטיפיער אין ביידע דאַטן קוואלן, דעמאָלט לינגקאַדזש וואָלט זיין טריוויאַל. אָבער, Catalist האט צו טאָן דעם לאָקינג ניצן ימפּערפיקט יידענטאַפייערז, אין דעם פאַל נאָמען, דזשענדער, געבורט יאָר און היים אַדרעס. צום באַדויערן, פֿאַר פילע פאלן עס קען זיין אַנקאַמפּליטיד אָדער ומפּינקטלעך אינפֿאָרמאַציע; אַ וואָלטער געהייסן האָמער סימפּסאָן זאל זיין דערשראָקן ווי האָמער דזשייַ סימפּסאָן, האָמיע דזש סימפּסאָן, אָדער אַפֿילו האָמער סאַמפּסין. טראָץ דעם פּאָטענציעל פֿאַר ערראָרס אין די קאַטאַליסט בעל דאַטאַפילע און ערראָרס אין די רעקאָרדינג לינגווידזשז, Ansolabehere and Hersh זענען ביכולת צו בויען בטחון אין זייערע עסטאַמאַץ דורך עטלעכע פאַרשידענע טייפּס פון טשעקס.

פיגורע 3.13: סטעמאַטיק פון דער לערנען דורך Ansolabehere and Hersh (2012) . צו שאַפֿן דעם בעל דאַטאַפילע, קאַטאַליסט קאַמביינז און כאַרמאַנייזיז אינפֿאָרמאַציע פון פילע פאַרשידענע מקורים. דעם פּראָצעס פון מערדזשינג, קיין ענין ווי אָפּגעהיט, וועט פּראַפּאַגייט ערראָרס אין די אָריגינעל דאַטן קוואלן און וועט פאָרשטעלן נייַע ערראָרס. א צווייטע מקור פון ערראָרס איז דער רעקארד לינגקידזש צווישן די יבערבליק דאַטן און די בעל דאַטאַפילע. אויב יעדער מענטש האט אַ סטאַביל, יינציק ידענטיפיער אין ביידע דאַטן קוואלן, דעמאָלט לינגקאַדזש וואָלט זיין טריוויאַל. אָבער, Catalist האט צו טאָן דעם לאָקינג ניצן ימפּערפיקט יידענטאַפייערז, אין דעם פאַל נאָמען, דזשענדער, געבורט יאָר און היים אַדרעס. צום באַדויערן, פֿאַר פילע פאלן עס קען זיין אַנקאַמפּליטיד אָדער ומפּינקטלעך אינפֿאָרמאַציע; אַ וואָלטער געהייסן האָמער סימפּסאָן זאל זיין דערשראָקן ווי האָמער דזשייַ סימפּסאָן, האָמיע דזש סימפּסאָן, אָדער אַפֿילו האָמער סאַמפּסין. טראָץ דעם פּאָטענציעל פֿאַר ערראָרס אין די קאַטאַליסט בעל דאַטאַפילע און ערראָרס אין די רעקאָרדינג לינגווידזשז, Ansolabehere and Hersh זענען ביכולת צו בויען בטחון אין זייערע עסטאַמאַץ דורך עטלעכע פאַרשידענע טייפּס פון טשעקס.

מיט זייער קאַמביינד דאַטע טעקע, Ansolabehere און Hersh זענען געקומען צו דרייַ וויכטיק אויספירן. ערשטער, אָוווערריישאַן פון אָפּשטימונג איז ומגעצוימט: כּמעט העלפט פון די נאָטוואָטערס געמאלדן אָפּשטימונג, און אויב עמעצער געמאלדן אָפּשטימונג, עס איז בלויז אַ 80% געלעגנהייַט אַז זיי פאקטיש וואָוטאַד. רגע, איבער-ריפּאָרטינג איז ניט טראַפיק: איבער-ריפּאָרטינג איז מער געוויינטלעך צווישן הויך-האַכנאָסע, געזונט-געבילדעט, פּאַרטיסאַנס וואס זענען פאַרקנאַסט אין ציבור ענינים. אין אנדערע ווערטער, די מענטשן וואָס זענען רובֿ מסתּמא צו שטימען זענען אויך רובֿ מסתּמא צו פאַרלאָזן. דריט, און רובֿ קריטיקאַללי, ווייַל פון די סיסטעמאַטיש נאַטור פון איבער-ריפּאָרטינג, די פאַקטיש דיפראַנסאַז צווישן וואָטערס און נאָנוואָטערס זענען קלענערער ווי זיי זענען פּונקט פון סערווייז. פֿאַר בייַשפּיל, יענע מיט אַ באָכער 'ס גראַד זענען וועגן 22 פּראָצענט ווייזט מער מסתּמא צו באַריכט אָפּשטימונג, אָבער בלויז 10 פּראָצענט ווייזט מער מסתּמא צו פאקטיש שטימען. עס טורנס אויס, טאָמער ניט סאַפּרייזינגלי, אַז יגזיסטינג מיטל-באזירט טיאָריעס פון אָפּשטימונג זענען פיל בעסער בייַ פּרידיקטינג ווער וועט באַריכט אָפּשטימונג (וואָס איז די דאַטן אַז פאָרשער האָבן געניצט אין דער פאַרגאַנגענהייַט) ווי זיי זענען בייַ פּרידיקטינג וואס פאקטיש וואָוץ. דעריבער, דער עמפּערשאַנאַל דערגייונג פון Ansolabehere and Hersh (2012) רופן פֿאַר נייַע טיריז צו פֿאַרשטיין און פאָרויסזאָגן אָפּשטימונג.

אבער ווי פיל זאָל מיר צוטרוי די רעזולטאַטן? געדענקט, די רעזולטאַטן זענען פארלאנגט אויף טעות-פּראָנע פֿאַרבינדונג צו שוואַרץ-קעסטל דאַטע מיט אומבאַקאַנט אַמאַונץ פון טעות. מער ספּעציעל, די רעזולטאַטן הינגע אויף צוויי שליסל טריט: (1) די פיייקייַט פון קאַטאַליסט צו פאַרבינדן פילע דיספּעריט דאַטן קוואלן צו פּראָדוצירן אַ פּינטלעך בעל דאַטאַפילע און (2) די פיייקייַט פון קאַטאַליסט צו פאַרבינדן די יבערבליק דאַטן צו זייַן בעל דאַטאַפילע. יעדער פון די טריט איז שווער, און ערראָרס אין יעדער שריט קענען פירן פאָרשער צו דעם אומרעכט אויספירן. אָבער, ביידע דאַטן פּראַסעסינג און פֿאַרבינדונג זענען קריטיש צו די קעסיידערדיק עקסיסטירן פון קאַטאַליסט ווי אַ געזעלשאַפט, אַזוי עס קענען ינוועסטירן רעסורסן אין סאַלווינג די פראבלעמען, אָפט אין אַ וואָג אַז קיין אַקאַדעמיק פאָרשער קענען גלייַכן. אין זייערע פּאַפּירס, דאָס איז איינע פון די מעגליכקייטן, אז זיי זאלן איבערקוקן די רעזולטאטן פון די צוויי טריט, כאטש א טייל פון זיי זענען פארשריפטן - און די טשעקס זאלן זיין נוציק פאר אנדערע פארשוינען, קוועלער.

וואָס זענען די גענעראַל לעקציעס ריסערטשערז קענען ציען פון דעם לערנען? ערשטער, עס איז אַ ריזיק ווערט פון ביידע ענקריפּינג גרויס דאַטן קוואלן מיט יבערבליק דאַטן און פון ינקערייטינג יבערבליק דאַטע מיט גרויס דאַטן קוואלן (איר קענען זען דעם לערנען אָדער וועג). דורך קאַמביינינג די צוויי דאַטן קוואלן, די ריסערטשערז זענען ביכולת צו טאָן עפּעס אַז איז אוממעגלעך מיט יעדער ינדיווידזשואַלי. די רגע גענעראַל לעקציע איז אַז כאָטש אַגראַגייטאַד, געשעפט דאַטן קוואלן, אַזאַ ווי די דאַטן פון קאַטאַליסט, זאָל נישט זיין געראָטן "ערד אמת", אין עטלעכע פאלן, זיי קענען זיין נוצלעך. סקעפּטיקס מאל פאַרגלייכן די אַגגרעגאַטעד, געשעפט דאַטע מקור מיט אַבסאָלוט אמת און פונט אויס אַז די דאַטן קוואלן פאַלן קורץ. אָבער, אין דעם פאַל, די סקעפּטיקס זענען געמאכט דעם אומרעכט פאַרגלייַך: אַלע דאַטן וואָס ריסערטשערז נוצן פאַלן קורץ פון אַבסאָלוט אמת. אַנשטאָט, עס איז בעסער צו פאַרגלייַכן אַגראַגייטאַד, געשעפט דאַטן קוואלן מיט אנדערע בנימצא דאַטע קוואלן (למשל, זיך-מארקעטעד אָפּשטימונג אָפּפירונג), וואָס טאָמיד האָבן אַ טעות. צום סוף, די דריט גענעראַל לעקציע פון Ansolabehere און Hersh ס לערנען איז אַז אין עטלעכע סיטואַטיאָנס, ריסערטשערז קענען נוץ פון די ריזיק ינוועסטמאַנץ אַז פילע פּריוואַט קאָמפּאַניעס זענען געמאכט אין קאַלעקטינג און כאַרמאַנייזינג קאָמפּליצירט געזעלשאַפטלעך דאַטן שטעלט.