2.1 הקדמה

אין דער אַנאַלאָג עלטער, קאַלעקטינג דאַטן וועגן אָפּפירונג-וואס טוט וואָס ווען-איז טייַער, און דעריבער, לעפיערעך זעלטן. איצט, אין די דיגיטאַל עלטער, די ביכייוויערז פון ביליאַנז פון מענטשן זענען רעקאָרדעד, סטאָרד, און אַנאַליזאַבלע. לעמאָשל, יעדער צייַט איר דריקט אויף אַ וועבזייַטל, מאַכן אַ רופן אויף אייער צעל טעלעפאָנירן, אָדער באַצאָלן פֿאַר עפּעס מיט דיין קרעדיט קאַרטל, אַ דיגיטאַל רעקאָרד פון דיין נאַטור איז Created און סטאָרד דורך אַ געשעפט. ווייַל די דאַטן זענען אַ דורך-פּראָדוקט פון מענטשן ס יעדער טאָג אַקשאַנז, זיי זענען אָפֿט גערופֿן דיגיטאַל טראַסעס. אין דערצו צו די טראַסעס געהאלטן דורך ביזנעסער, גאַווערמאַנץ אויך האָבן ינקרעדאַבלי רייַך דאַטן וועגן ביידע מענטשן און ביזנעסער, דאַטן וואָס איז אָפֿט דיגיטאַליזירן און אַנאַליזאַבלע. צוזאַמען די געשעפט און רעגירונג רעקאָרדס זענען אָפֿט גערופֿן גרויס דאַטן.

די אלץ-רייזינג מבול פון גרויס דאַטן מיטל אַז מיר האָבן באווויגן פון אַ וועלט ווו ביכייוויעראַל דאַטן איז געווען קאַרג צו אַ וועלט ווו ביכייוויעראַל דאַטן איז שעפעדיק. אבער, ווייַל די טייפּס דאַטן זענען לעפיערעך נייַ, אַ נעבעך סומע פון ​​פאָרשונג ניצן זיי קוקט ווי סייאַנטיס בליינדלי טשייסינג פאַראַנען דאַטן. דעם קאַפּיטל, אַנשטאָט, Offers אַ פּרינסאַפּאַלד צוגאַנג צו שכל די פאַרשידענע קוואלן פון דאַטן און ווי זיי קענען ווערן געניצט. דאס ריטשער שכל זאָל העלפן איר בעסער גלייַכן אייער פאָרשונג שאלות צו צונעמען קוואלן פון דאַטן. אָדער, אויב אַזאַ יגזיסטינג קוואלן זענען פעלנדיק, יבערצייַגן איר צו זאַמלען דיין אייגן דאַטע ניצן די געדאנקען אין צוקונפֿט טשאַפּטערז.

א ערשטער שריט צו וויסן פון גרויס דאַטן איז צו פאַרשטיין אַז עס איז טייל פון אַ ברייטערער קאַטעגאָריע פון דאַטן וואָס האט שוין געניצט פֿאַר געזעלשאַפטלעך פאָרשונג פֿאַר פילע יאָרן: אָבסערוואַטיאָנאַל דאַטע. בעערעך, אָבסערוואַטיאָנאַל דאַטע איז קיין דאַטן אַז רעזולטאטן פון אַבזערווינג אַ געזעלשאַפטלעך סיסטעם אָן ינערווינינג אין עטלעכע וועג. א גראָב וועג צו טראַכטן וועגן עס איז אַז אָבסערוואַטיאָנאַל דאַטע איז אַלץ אַז טוט נישט אַרייַנציען גערעדט מיט מענטשן (למשל, סערווייז, די טעמע פון ​​טשאַפּטער 3) אָדער טשאַנגינג מענטשן ס ינווייראַנמאַנץ (למשל, יקספּעראַמאַנץ, די טעמע פון ​​טשאַפּטער 4). אזוי, אין דערצו צו געשעפט און רעגירונג רעקאָרדס, אָבסערוואַטיאָנאַל דאַטע אויך כולל זאכן ווי די טעקסט פון צייַטונג אַרטיקלען און סאַטעליט ען.

דאס קאַפּיטל האט דרייַ פּאַרץ. ערשטער, אין סעקשאַן 2.2, איך באַשרייַבן גרויס דאַטן אין מער דעטאַל און דערקלערן אַ פונדאַמענטאַל חילוק צווישן עס און די דאַטע אַז האָבן בכלל שוין געניצט פֿאַר געזעלשאַפטלעך פאָרשונג אין די פאַרגאַנגענהייַט. דעמאלט, אין סעקשאַן 2.3, איך באַשרייַבן צען פּראָסט טשאַראַקטעריסטיקס פון גרויס דאַטן קוואלן. שכל די קעראַקטעריסטיקס ינייבאַלז אונדז צו געשווינד דערקענען די סטרענגטס און וויקנאַסאַז פון יגזיסטינג קוואלן און וועט העלפֿן אונדז כאַרנאַס די נייַ קוואלן אַז וועט זיין Created אין דער צוקונפֿט. צום סוף, אין סעקשאַן 2.4, איך באַשרייַבן דרייַ הויפּט פאָרשונג סטראַטעגיעס אַז איר קענען נוצן צו לערנען פון אָבסערוואַטיאָנאַל דאַטע: קאַונטינג זאכן, פאָרעקאַסטינג זאכן, און אַפּפּראָקסימאַטינג אַן עקספּערימענט.