2.3 צען פּראָסט קעראַקטעריסטיקס פון גרויס דאַטן

גרויס דאַטע קוואלן טענד צו האָבן אַ נומער פון קעראַקטעריסטיקס אין פּראָסט; עטלעכע זענען בכלל גוט פֿאַר געזעלשאַפטלעך פאָרשונג און עטלעכע זענען בכלל שלעכט.

כאָטש יעדער גרויס דאַטע מקור איז דיסטשאַרדזשד, עס איז נוציק צו באַמערקן אַז עס זענען זיכער פֿעיִקייטן אַז טענד צו פאַלן איבער און איבער ווידער. דעריבער, אלא ווי גענומען אַ פּלאַטפאָרמע-ביי-פּלאַטפאָרמע צוגאַנג (למשל, דאָ ס וואָס איר דאַרפֿן צו וויסן וועגן טוויטטער, דאָ ס וואָס איר דאַרפֿן צו וויסן וועגן Google זוכן דאַטן, אאז"ו ו), איך בין געגאנגען צו באַשרייַבן צען גענעראַל טשאַראַקטעריסטיקס פון גרויס דאַטן קוואלן. סטעפּינג צוריק פון די פרטים פון יעדער באַזונדער סיסטעם און קוקן בייַ די אַלגעמיינע קעראַקטעריסטיקס ענייבאַלז ריסערטשערז צו געשווינד לערנען וועגן יגזיסטינג דאַטן קוואלן און האָבן אַ פעסט שטעלן פון אידעעס צו צולייגן צו די דאַטן קוואלן אַז וועט ווערן באשאפן אין דער צוקונפֿט.

כאָטש די געבעטן קעראַקטעריסטיקס פון אַ דאַטן מקור אָפענגען אויף דער פאָרשונג ציל, איך געפֿינען עס נוציק צו קרודלי גרופּע די צען קעראַקטעריסטיקס אין צוויי ברייט קאַטעגאָריעס:

  • בכלל נוציק פֿאַר פאָרשונג: גרויס, שטענדיק-אויף און ניט-רעאַקטיוו
  • בכלל פּראָבלעמאַטיק פֿאַר פאָרשונג: אַנקאַמפּליטיד, ינאַקסעסאַבאַל, ניט-רעפּרעסענטאַטיווע, דריפטינג, אַלגערידאַמיקלי קאַנפאַונדיד, גראָב, און שפּירעוודיק

ווי איך בין דיסקרייבינג די קעראַקטעריסטיקס איר וועט באַמערקן אַז זיי אָפט אויפשטיין ווייַל גרויס דאַטע מקורים זענען נישט באשאפן פֿאַר די ציל פון פאָרשונג.