2.3.1 גרויס

דאס איבערזעצונג איז Created by אַ קאָמפּיוטער. ×

2.3.1 גרויס

גרויס דאַטאַסעץ זענען אַ מיטל צו אַ סוף; זיי זענען נישט אַ סוף אין זיך.

די מערסט וויידלי דיסקאַסט פֿעיִקייטן פון גרויס דאַטן קוואלן איז אַז זיי זענען גרויס. פילע פּאַפּערס, פֿאַר בייַשפּיל, אָנהייב דורך דיסקאַסינג, און מאל בראַגינג-וועגן ווי פיל דאַטן זיי אַנאַלייזד. פֿאַר בייַשפּיל, אַ פּאַפּיר ארויס אין וויסנשאַפֿט לערנען וואָרט-נוצן טרענדס אין די Google ספר קאָרפּוס אַרייַנגערעכנט די פאלגענדע (Michel et al. 2011) :

"אונדזער קאָרפּוס כּולל איבער 500 מיליאַרד ווערטער, אין ענגליש (361 מיליאַרד), פראנצויזיש (45 מיליאַרד), Spanish (45 מיליאַרד), דייַטש (37 מיליאַרד), כינעזיש (13 מיליאַרד), רוסיש (35 מיליאַרד) (2000000000). די אָולדאַסט ווערק זענען ארויס אין די 1500 ס. דער פרי דעקאַדעס זענען רעפּריזענטיד דורך בלויז אַ ביסל ביכער פּער יאָר, קאַמפּרייזינג עטלעכע הונדערט טויזנט ווערטער. דורך 1800, די קאָרפּוס וואקסט צו 98,000,000 ווערטער פּער יאָר; דורך 1900, 1.8 ביליאָן; און דורך 2000, 11 מיליאַרד. די קאָרפּוס קענען נישט לייענען דורך אַ מענטש. אויב איר געפרואווט צו לייענען בלויז ענגליש-שפּראַך איינסן פון די יאָר 2000, אין די גלייַך טעמפּאָ פון 200 ווערטער / מין, אָן ינטעראַפּשאַנז פֿאַר עסנוואַרג אָדער שלאָפן, עס וואָלט נעמען 80 יאר. די סיקוואַנס פון אותיות איז 1000 מאל מער ווי די מענטש גענאָמע: אויב איר שרייַבן עס אין אַ גלייַך ליניע, עס וואָלט דערגרייכן צו די לעוואָנע און צוריק 10 מאל איבער. "

די וואָג פון דעם דאַטן איז בליענדיק ימפּרעסיוו, און מיר זענען אַלע מאַזלדיק אַז די Google ספר מאַנשאַפֿט האט די דאַטן צו די ציבור (אין פאַקט, עטלעכע פון די אַקטיוויטעטן אין די סוף פון דעם קאַפּיטל נוצן די דאַטן). אָבער, ווען איר זען עפּעס ווי דאָס איר זאָל פרעגן: איז אַז אַלע וואָס דאַטן טאַקע טאָן עפּעס? קען זיי האָבן געטאן די זעלבע פאָרשונג אויב די דאַטן קען דערגרייכן צו די לעוואָנע און צוריק נאָר אַמאָל? וואָס אויב די דאַטן קען בלויז דערגרייכן די שפּיץ פון בארג עווערעסט אָדער די שפּיץ פון די עיפפעל טאַוער?

אין דעם פאַל, זייער פאָרשונג טוט, אין פאַקט, האָבן עטלעכע פיינדינגז אַז דאַרפן אַ ריזיק קאָרפּוס פון ווערטער איבער אַ לאַנג צייַט צייַט. פֿאַר בייַשפּיל, איין זאַך זיי ויספאָרשן איז די עוואָלוציע פון גראַמאַטיק, ספּעציעל ענדערונגען אין די קורס פון ירעגיאַלער ווערב קאָנדזשוגאַטיאָן. זינט עטלעכע ירעגיאַלער ווערבז זענען גאַנץ זעלטן, אַ גרויס נומער פון דאַטן איז נייטיק צו דעטעקט ענדערונגען איבער צייַט. אָפט, אָבער, ריסערטשערז ויסקומען צו דערגרייכן די גרייס פון גרויס דאַטן מקור ווי אַ סוף- "קוק ווי פיל דאַטן איך קענען כראָמטשען" -אין אַ מיטל צו עטלעכע מער וויכטיק וויסנשאפטלעכע אָביעקטיוו.

אין מיין דערפאַרונג, די לערנען פון זעלטן געשעענישן איז איינער פון די דרייַ ספּעציפיש וויסנשאפטלעכע ענדס אַז גרויס דאַטאַסעץ טענד צו געבן. די רגע איז די לערנען פון העטעראָגענעיטי, ווי קענען זיין יללוסטראַטעד דורך אַ לערנען דורך ראשי טשעטי און חברים (2014) אויף געזעלשאַפטלעך מאָביליטי אין די פאַרייניקטע שטאַטן. אין דער פאַרגאַנגענהייַט, פילע פאָרשער האָבן געלערנט געזעלשאַפטלעך מאָביליטי דורך קאַמפּערינג די לעבן אַוטקאַמז פון עלטערן און קינדער. א קאָנסיסטענט דערפאַרונג פון דעם ליטעראַטור איז אַז אַדוואַנטיידיד עלטערן טענד צו האָבן אַדוואַנטיידזשאַס קינדער, אָבער די שטאַרקייַט פון דעם שייכות פארבונדן איבער צייַט און אַריבער לענדער (Hout and DiPrete 2006) . לעצטנס, Chetty and colleagues were able to use the tax records from 40 million people to estimate the heterogeneity in intergenerational mobility across regions in the United States (figure 2.1). זיי געפֿינען, למשל, אַז די מאַקסימום וווּהין אַז אַ קינד ריטשאַז די שפּיץ קווינטילע פון די נאציאנאלע האַכנאָסע פאַרשפּרייטונג סטאַרטינג פון אַ משפּחה אין די דנאָ קווינטילע איז וועגן 13% אין סאַן דזשאָסע, קאַליפאָרניאַ, אָבער בלויז וועגן 4% אין שאַרלאַט, צפון קאראליינע. אויב איר קוק אין פיגורע 2.1 פֿאַר אַ מאָמענט, איר זאל אָנהייבן צו ווונדער וואָס ינטערגענעראַטיאָנאַל מאָביליטי איז העכער אין עטלעכע ערטער ווי אנדערע. טשעטי און חברים האבן פּונקט די זעלבע קשיא, און זיי געפונען אַז די הויך-מאָביליטי געביטן האָבן ווייניקער רעזידענטשאַל סעגראַטיאָן, ווייניקער האַכנאָסע ינאַקוואַלאַטי, בעסער ערשטיק שולן, גרעסער סאציאל קאפיטאל, און גרעסערע משפּחה פעסטקייַט. פון קורס, די קאָראַליישאַנז בלויז טאָן ניט ווייַזן אַז די סיבות גרונט העכער מאָביליטי, אָבער זיי פאָרשלאָגן מעגלעך מעקאַניזאַמז אַז קענען זיין יקספּלאָרד אין ווייַטער אַרבעט, וואָס איז פּונקט וואָס טשאַטי און קאָלעגעז האָבן געטאן אין סאַבסאַקוואַנט אַרבעט. באַמערקונג ווי די גרייס פון די דאַטן איז געווען וויכטיק אין דעם פּרויעקט. אויב טשעטי און חברים האָבן געוויינט די שטייער רעקאָרדס פון 40,000 מענטשן אלא ווי 40 מיליאָן, זיי וואָלט נישט האָבן געקענט צו אָפּשאַצן רעגיאָנאַל העטעראָגענעיטי און זיי קיינמאָל וואָלט געווען ביכולת צו טאָן סאַבסאַקוואַנט פאָרשונג צו פּרובירן צו ידענטיפיצירן די מעקאַניזאַמז וואָס מאַכן דעם ווערייישאַן.

פיגורע 2.1: Estimates of a child's chances of reaching the top 20% of income distribution given to parents in the bottom 20% (Chetty et al. 2014) . די רעגיסטרי-מדרגה עסטאַמאַץ, וואָס ווייַזן כעטעראַדזשיניטי, געוויינטלעך פירן צו טשיקאַווע און וויכטיק פראגעס וואָס טאָן ניט אויפשטיין פון אַ איין-מדרגה מדרגה. די רעגיסטרי-מדרגה עסטאַמאַץ זענען געמאכט מעגלעך אין טייל ווייַל די ריסערטשערז זענען ניצן אַ גרויס גרויס דאַטן מקור: די שטייער רעקאָרדס פון 40,000,000 מענטשן. באשאפן פון דאַטן בנימצא אין http://www.equality-of-opportunity.org/.

סוף, אין דערצו צו געלערנט זעלטן געשעענישן און געלערנט העטעראָגענעיטי, גרויס דאַטאַסעץ אויך געבן ריסערטשערז צו דעטעקט קליין דיפעראַנסיז. אין פאַקט, פיל פון די פאָקוס אויף גרויס דאַטע אין אינדוסטריע איז וועגן די קליין דיפעראַנסיז: רילייאַבלי דיטעקשאַן פון די חילוק צווישן 1% און 1.1% גיט-דורך ראַטעס אויף אַן אַד קענען יבערקערן אין מיליאַנז פון דאָללאַרס אין עקסטרע רעוועך. אין עטלעכע וויסנשאפטלעכע סעטטינגס, אַזאַ ווי קליין דיפראַנסאַז זאל נישט זיין וויכטיק, אַפֿילו אויב זיי זענען סטאַטיסטיש באַטייַטיק (Prentice and Miller 1992) . אָבער, אין עטלעכע פּאָליטיק סעטטינגס, זיי קענען ווערן וויכטיק ווען געזען אין אַ גאַנץ. פֿאַר בייַשפּיל, אויב עס זענען צוויי ציבור געזונט ינערווענטשאַנז און איינער איז אַ ביסל מער עפעקטיוו ווי די אנדערע, דעמאָלט פּיקינג די מער עפעקטיוו אריינמישונג קען סוף אַרויף שפּאָרן טויזנטער פון נאָך לעבן.

כאָטש ביגנאַס איז בכלל אַ גוט פאַרמאָג ווען געוויינט ריכטיק, איך ווע באמערקט אַז עס קען מאל פירן צו אַ קאָנסעפּטיאָנאַל טעות. פֿאַר עטלעכע סיבה, bigness seems to lead researchers to ignore how their data was generated. ביגנעסס טוט רעדוצירן די נויט צו זאָרג וועגן טראַפ - טעות, עס פאקטיש ינקריסיז די נויט צו זאָרג וועגן סיסטעמאַטיש ערראָרס, די פאַרשיידנקייַט פון ערראָרס וואָס איך וועט באַשרייַבן ונטן אַז אויפשטיין פון בייאַסיז אין ווי דאַטע זענען באשאפן. פֿאַר בייַשפּיל, אין אַ פּרויעקט איך שרייַבן שפּעטער אין דעם קאַפּיטל, פאָרשער געניצט אַרטיקלען אויף 11 סעפטעמבער 2001 צו פּראָדוצירן אַ הויך-האַכלאָטע עמאָציאָנעל טיימליין פון דער אָפּרוף צו די טעראָריסט באַפאַלן (Back, Küfner, and Egloff 2010) . ווייַל די ריסערטשערז האבן אַ גרויס נומער פון אַרטיקלען, זיי טאָן ניט טאַקע דאַרפֿן צו זאָרג וועגן די מוסטער זיי באמערקט - ינקריסינג קאַס איבער דעם גאַנג פון דעם טאָג - קען זיין דערקלערט דורך טראַפיק ווערייישאַן. עס איז אַזוי פיל דאַטן און די מוסטער איז אַזוי קלאָר אַז אַלע די סטאַטיסטיש סטאַטיסטיש טעסץ סאַגדזשעסטיד אַז דאָס איז אַ פאַקטיש מוסטער. אָבער, די סטאַטיסטיש טעסץ זענען ומוויסנדיק וועגן ווי די דאַטן איז געווען באשאפן. אין פאַקט, עס פארקערט אויס אַז פילע פון די פּאַטערנז זענען אַטריביאַטאַד צו אַ איין באָט אַז דזשענערייטאַד מער און מער סאַנפלאַס אַרטיקלען איבער דעם טאָג. רימוווינג די איין באָט גאָר חרובֿ עטלעכע פון די שליסל פיינדינגז אין די פּאַפּיר (Pury 2011; Back, Küfner, and Egloff 2011) . גאַנץ פשוט, ריסערטשערז וואָס טאָן ניט טראַכטן וועגן סיסטעמאַטיש טעות פּנים די ריזיקירן פון ניצן זייער גרויס דאַטאַסעץ צו באַקומען אַ פּינטלעך אָפּשאַצונג פון אַן ימפּיוראַנט קוואַנטיטי, אַזאַ ווי די עמאָציאָנעל צופרידן פון מינינגלאַס אַרטיקלען געשאפן דורך אַ אָטאַמייטיד באָט.

אין דערקלערונג, גרויס דאַטאַסעץ זענען נישט אַ סוף אין זיך, אָבער זיי קענען געבן עטלעכע מינים פון פאָרשונג אַרייַנגערעכנט די לערנען פון זעלטן געשעענישן, די אָפּשאַצונג פון העטעראָגענעיטי, און די דיטעקשאַן פון קליין דיפעראַנסיז. גרויס דאַטאַסעץ אויך ויסקומען צו פירן עטלעכע ריסערטשערז צו איגנאָרירן ווי זייער דאַטע איז באשאפן, וואָס קענען פירן זיי צו באַקומען אַ פּינטלעך אָפּשאַצונג פון אַן אַנימפּאָרטאַנט קוואַנטיטי.