6.6.2 שכל און אָנפירונג ינפאָרמאַטיאָנאַל ריזיקירן

אינפֿאָרמאַציע ריזיקירן איז די מערסט פּראָסט ריזיקירן אין געזעלשאַפטלעך פאָרשונג; עס האט געוואקסן דראַמאַטיקלי; און עס איז די כאַרדאַסט ריזיקירן צו פֿאַרשטיין.

די רגע עטישע אַרויסרופן פֿאַר געזעלשאַפטלעך עלטער דיגיטאַל פאָרשונג איז ינפאָרמאַטיאָנאַל ריזיקירן, דער פּאָטענציעל פֿאַר שאָדן פון די אַנטפּלעקונג פון אינפֿאָרמאַציע (Council 2014) . ינפאָרמאַטיאָנאַל האַרמס פון די אַנטפּלעקונג פון פּערזענלעך אינפֿאָרמאַציע קען זיין עקאָנאָמיש (למשל, לוזינג אַ אַרבעט), געזעלשאַפטלעך (למשל, פאַרלעגנהייַט), סייקאַלאַדזשיקאַל (למשל, דעפּרעסיע), אָדער אַפֿילו פאַרברעכער (למשל, אַרעסט פֿאַר ומלעגאַל אָפּפירונג). צום באַדויערן, די דיגיטאַל עלטער ינקריסיז אינפֿאָרמאַציע ריזיקירן דראַמאַטיקלי-עס איז נאָר אַזוי פיל מער אינפֿאָרמאַציע וועגן אונדזער נאַטור. און, ינפאָרמאַטיאָנאַל ריזיקירן האט פּראָווען זייער שווער צו פֿאַרשטיין און פירן קאַמפּערד צו ריסקס אַז זענען קאַנסערנז אין אַנאַלאָג עלטער געזעלשאַפטלעך פאָרשונג, אַזאַ ווי גשמיות ריזיקירן. צו זען ווי די דיגיטאַל עלטער ינקריסיז ינפאָרמאַטיאָנאַל ריזיקירן, באַטראַכטן די יבערגאַנג פון פּאַפּיר צו עלעקטראָניש מעדיציניש רעקאָרדס. ביידע טייפּס פון רעקאָרדס שאַפֿן ריזיקירן, אָבער די עלעקטראָניש רעקאָרדס שאַפֿן פיל גרעסער ריסקס ווייַל בייַ אַ מאַסיוו וואָג זיי קענען זיין טראַנסמיטטעד צו אַ אַנאָטערייזד פּאַרטיי אָדער מערדזשד מיט אנדערע רעקאָרדס. סאציאל ריסערטשערז אין די דיגיטאַל עלטער האָבן שוין לויפן אין קאָנפליקט מיט ינפאָרמאַטיאָנאַל ריזיקירן, אין טייל ווייַל זיי האט ניט גאָר פֿאַרשטיין ווי צו קוואַנטיפי און פירן עס. אַזוי, איך בין געגאנגען צו פאָרשלאָגן אַ נוציק וועג צו טראַכטן וועגן ינפאָרמאַטיאָנאַל ריזיקירן, און דעמאָלט איך בין געגאנגען צו געבן איר עטלעכע עצה פֿאַר ווי צו פירן די ינפאָרמאַטיאָנאַל ריזיקירן אין דיין פאָרשונג און אין ריליסינג דאַטן צו אנדערע ריסערטשערז.

איין וועג אַז געזעלשאַפטלעך ריסערטשערז פאַרקלענערן ינפאָרמאַטיאָנאַל ריזיקירן איז "אַנאָנימיזאַטיאָן" פון דאַטע. "אַנאָנימיזאַטיאָן" איז דער פּראָצעס פון רימוווינג קלאָר ווי דער טאָג פּערזענלעך ידענטיפיערס אַזאַ ווי נאָמען, אַדרעס, און טעלעפאָן נומער פון די דאַטן. אָבער, דעם צוגאַנג איז פיל ווייניקער עפעקטיוו ווי פילע מענטשן פאַרשטיין, און עס איז, אין פאַקט, דיפּלי און פונדאַמענטאַללי באגרענעצט. פֿאַר וואָס סיבה, ווען איך באַשרייַבן "אַנאָנימיזאַטיאָן," איך וועט נוצן ציטאַט מאַרקס צו דערמאָנען איר אַז דעם פּראָצעס קריייץ דער אויסזען פון אַנאַנימיטי אָבער נישט אמת אַנאַנימיטי.

אַ לעבעדיק בייַשפּיל פון דעם דורכפאַל פון "אַנאָנימיזאַטיאָן" קומט פֿון די שפּעט 1990 ס אין מאסאטשוסעטס (Sweeney 2002) . די גרופּע ינסוראַנסע קאַמישאַן (גיק) איז געווען אַ רעגירונג אַגענטור פאַראַנטוואָרטלעך פֿאַר פּערטשאַסינג געזונט פאַרזיכערונג פֿאַר אַלע שטאַט עמפּלוייז. דורך דעם ווערק, די גיק געזאמלט דיטיילד געזונט רעקאָרדס וועגן טויזנטער פון שטאַט עמפּלוייז. אין אַן אָנשטרענגונג צו ספּור פאָרשונג וועגן וועגן צו פֿאַרבעסערן געזונט, גיק באַשלאָסן צו מעלדונג די רעקאָרדס צו ריסערטשערז. אָבער, זיי האט נישט טיילן אַלע פון ​​זייער דאַטן; אלא, זיי "אַנאָנימיזעד" עס דורך רימוווינג אינפֿאָרמאַציע אַזאַ ווי נאָמען און אַדרעס. אָבער, זיי לינקס אנדערע אינפֿאָרמאַציע אַז זיי געדאַנק קען זיין נוצלעך פֿאַר ריסערטשערז אַזאַ ווי דעמאָגראַפיק אינפֿאָרמאַציע (פאַרשלעסלען קאָד, געבורט טאָג, עטניסיטי, און געשלעכט) און מעדיציניש אינפֿאָרמאַציע (באַזוכן דאַטן, דיאַגנאָסיס, פּראָצעדור) (Figure 6.4) (Ohm 2010) . צום באַדויערן, דעם "אַנאָנימיזאַטיאָן" איז ניט גענוג צו באַשיצן די דאַטן.

ציפער 6.4: אַנאָנימיזאַטיאָן איז דער פּראָצעס פון רימוווינג דאָך ידענטיפיינג אינפֿאָרמאַציע. לעמאָשל, ווען ריליסינג די מעדיציניש פאַרזיכערונג רעקאָרדס פון שטאַט עמפּלוייז די מאַססאַטשוסעטץ גרופּע ינסוראַנסע קאַמישאַן (גיק) אַוועקגענומען נאָמען און אַדרעס פון די טעקעס. איך נוצן ציטירט אַרום די וואָרט אַנאָנימיזאַטיאָן ווייַל דער פּראָצעס גיט די אויסזען פון אַנאַנימיטי, אָבער נישט פאַקטיש אַנאַנימיטי.

ציפער 6.4: "אַנאָנימיזאַטיאָן" איז דער פּראָצעס פון רימוווינג דאָך ידענטיפיינג אינפֿאָרמאַציע. לעמאָשל, ווען ריליסינג די מעדיציניש פאַרזיכערונג רעקאָרדס פון שטאַט עמפּלוייז די מאַססאַטשוסעטץ גרופּע ינסוראַנסע קאַמישאַן (גיק) אַוועקגענומען נאָמען און אַדרעס פון די טעקעס. איך נוצן ציטירט אַרום די וואָרט "אַנאָנימיזאַטיאָן" ווייַל דער פּראָצעס גיט די אויסזען פון אַנאַנימיטי, אָבער נישט פאַקטיש אַנאַנימיטי.

צו אילוסטרירן די שאָרטקאָמינגס פון די גיק "אַנאָנימיזאַטיאָן", לאַטאַניאַ סוועעניי-דעמאָלט אַ גראַדזשאַוואַט תּלמיד אין MIT-באַצאָלט $ 20 צו קריגן די אָפּשטימונג רעקאָרדס פון די שטאָט פון קיימברידזש, די כאָומטאַון פון מאסאטשוסעטס גאווערנאר וויליאם וועלד. די אָפּשטימונג רעקאָרדס ינקלודעד אינפֿאָרמאַציע אַזאַ ווי נאָמען, אַדרעס, פאַרשלעסלען קאָד, געבורט טאָג, און דזשענדער. די פאַקט אַז די מעדיציניש דאַטן טעקע און די וויילער טעקע שערד fields-פאַרשלעסלען קאָד, געבורט טאָג, און געשלעכט-מענט אַז סוועעניי קען לינק זיי. סוועעניי געוואוסט אַז וועלד ס דיין געבורסטאָג איז געווען 31 יולי 1945, און די אָפּשטימונג רעקאָרדס ינקלודעד בלויז זעקס מענטשן אין קיימברידזש מיט וואָס דיין געבורסטאָג. ווייטער, פון יענע זעקס מענטשן, נאָר דרייַ זענען זכר. און, פון יענע דריי מענטשן, נאָר איין שערד וועלד ס פאַרשלעסלען קאָד. אזוי, דער אָפּשטימונג דאַטן געוויזן אַז ווער עס יז אין די מעדיציניש דאַטן מיט וועלד ס קאָמבינאַציע פון ​​געבורט טאָג, דזשענדער, און פאַרשלעסלען קאָד איז וויליאם וועלד. אין עסאַנס, די דרייַ ברעקלעך פון אינפֿאָרמאַציע צוגעשטעלט אַ יינציק פינגערפּרינט צו אים אין די דאַטן. ניצן דעם פאַקט, סוועעניי איז געווען ביכולת צו געפינען וועלד ס מעדיציניש רעקאָרדס, און צו מיטטיילן אים פון איר feat, זי מיילד אים אַ קאָפּיע פון זיין רעקאָרדס (Ohm 2010) .

ציפער 6.5: בעניין-ידעניפיקאַטיאָן פון אַנאָנימיזעד דאַטן. לאַטאַניאַ סוועעניי קאַמביינד די אַנאָנימיזעד געזונט רעקאָרדס מיט אָפּשטימונג רעקאָרדס אין סדר צו געפֿינען די מעדיציניש רעקאָרדס פון גובערנאטאר וויליאם וועלד (סוועעניי 2002).

ציפער 6.5: בעניין-ידעניפיקאַטיאָן פון "אַנאָנימיזעד" דאַטן. לאַטאַניאַ סוועעניי קאַמביינד די "אַנאָנימיזעד" געזונט רעקאָרדס מיט אָפּשטימונג רעקאָרדס אין סדר צו געפֿינען די מעדיציניש רעקאָרדס פון גובערנאטאר וויליאם וועלד (Sweeney 2002) .

סוועעניי ס ווערק ילאַסטרייץ די גרונט סטרוקטור פון דע-אַנאָנימיזאַטיאָן ארויסטריטן -צו אַדאַפּט אַ טערמין פון די קאָמפּיוטער זיכערהייַט קהל. אין די ארויסטריטן, צוויי דאַטן שטעלט, ניט פון וואָס דורך זיך ריווילז שפּירעוודיק אינפֿאָרמאַציע, זענען לינגקט, און דורך דעם לינגקאַדזש, שפּירעוודיק אינפֿאָרמאַציע איז יקספּאָוזד. אין עטלעכע וועגן דעם פּראָצעס איז ענלעך צו דעם וועג וואָס באַקינג סאָדע און עסיק, צוויי סאַבסטאַנסיז אַז זענען דורך זיך זיכער, קענען זיין קאַמביינד צו פּראָדוצירן אַ פּאַסקודנע אַוטקאַם.

אין רעאקציע צו סוועעניי ס ווערק, און אנדערע פֿאַרבונדענע אַרבעט, ריסערטשערז איצט בכלל באַזייַטיקן פיל מער אינפֿאָרמאַציע-אַלע אַזוי גערופֿן "פּערסנאַלי ידענטיפיינג אינפֿאָרמאַציע" (פּיי) (Narayanan and Shmatikov 2010) -דורינג דער פּראָצעס פון "אַנאָנימיזאַטיאָן." ווייטער, פילע ריסערטשערז איצט פאַרשטיין אַז זיכער דאַטן-אַזאַ ווי מעדיציניש רעקאָרדס, פינאַנציעל רעקאָרדס, ענטפֿערס צו יבערבליק שאלות וועגן ומלעגאַל אָפּפירונג-איז מיסטאָמע אויך שפּירעוודיק צו מעלדונג אַפֿילו נאָך "אַנאָנימיזאַטיאָן." אבער, מער פריש יגזאַמפּאַלז אַז איך וועט באַשרייַבן ונטער אָנווייַזן אַז געזעלשאַפטלעך ריסערטשערז דאַרפֿן צו טוישן זייער טראכטן. ווי אַ ערשטער שריט, עס איז קלוג צו יבערנעמען אַז אַלע דאַטע איז פּאַטענטשאַלי ידענטיפיאַבלע און אַלע דאַטן איז פּאַטענטשאַלי שפּירעוודיק. אין אנדערע ווערטער, אלא ווי טראכטן אַז ינפאָרמאַטיאָנאַל ריזיקירן אַפּלייז צו אַ קליין סאַבסעט פון פּראַדזשעקס, מיר זאָל יבערנעמען אַז עס אַפּלייז-צו עטלעכע גראַד-צו אַלע פּראַדזשעקס.

ביידע אַספּעקץ פון דעם שייַעך-אָריענטירונג זענען ילאַסטרייטיד דורך די Netflix Prize. ווי דיסקרייבד אין טשאַפּטער 5, Netflix רעלעאַסעד 100 מיליאָן פֿילם רייטינגז צוגעשטעלט דורך כּמעט 500.000 מיטגלידער, און האָט אַ עפענען רופן ווו מענטשן פון אַלע איבער די וועלט דערלאנגט אַלגערידאַמז אַז קען פֿאַרבעסערן Netflix ס פיייקייַט צו רעקאָמענדירן קינאָ. איידער ריליסינג די דאַטן, Netflix אַוועקגענומען קיין דאָך פּערסנאַלי-ידענטיפיינג אינפֿאָרמאַציע, אַזאַ ווי נעמען. Netflix אויך געגאנגען אַן עקסטרע שריט און באַקענענ קליין פּערטערביישאַנז אין עטלעכע פון ​​די רעקאָרדס (למשל, טשאַנגינג עטלעכע רייטינגז פון 4 שטערן צו 3 שטערן). Netflix באַלד דיסקאַווערד, אָבער, אַז טראָץ זייער השתדלות, די דאַטע זענען דורך קיין מיטל אַנאַנאַמאַס.

נאָר צוויי וואָכן נאָך דער דאַטע זענען רעלעאַסעד Narayanan and Shmatikov (2008) געוויזן אַז עס איז געווען מעגלעך צו לערנען וועגן ספּעציפיש מענטשן ס פֿילם פּרעפֿערענצן. דער קונץ צו זייער שייַעך-לעגיטימאַציע באַפאַלן איז געווען ענלעך צו סוועעניי ס: צונויפגיסן צוזאַמען צוויי אינפֿאָרמאַציע קוואלן, איינער מיט פּאַטענטשאַלי שפּירעוודיק אינפֿאָרמאַציע און קיין דאָך ידענטיפיינג אינפֿאָרמאַציע און איינער אַז כּולל די אידענטיטעט פון מענטשן. יעדער פון די דאַטן קוואלן מייַ זיין ינדיווידזשואַלי זיכער, אָבער ווען זיי זענען קאַמביינד די מערדזשד דאַטאַסעט קענען מאַכן ינפאָרמאַטיאָנאַל ריזיקירן. אין די פאַל פון די Netflix דאַטן, דאָ ס ווי עס קען פּאַסירן. ימאַדזשאַן אַז איך קלייַבן צו טיילן מיין געדאנקען וועגן קאַמף און קאָמעדיע קינאָ מיט מיין גלויבנס-טוערס, אָבער אַז איך בעסער וועלן ניט צו טיילן מיין מיינונג וועגן רעליגיעז און פּאָליטיש קינאָ. מיין גלויבנס-טוערס קען נוצן די אינפֿאָרמאַציע אַז איך ווע שערד מיט זיי צו געפֿינען מיין רעקאָרדס אין די Netflix דאַטן; די אינפֿאָרמאַציע וואס איך טיילן קען זיין אַ יינציק פינגערפּרינט פּונקט ווי וויליאם וועלד ס געבורט טאָג, פאַרשלעסלען קאָד, און געשלעכט. דעריבער, אויב זיי געפינען מיין יינציק פינגערפּרינט אין די דאַטן, זיי קען לערנען מיין רייטינגז וועגן אַלע קינאָ, כולל קינאָ ווו איך קלייַבן ניט צו טיילן. אין דערצו צו דעם מין פון טאַרגעטעד באַפאַלן פאָקוסעד אויף אַ איין מענטש, Narayanan and Shmatikov (2008) אויך געוויזן אַז עס איז געווען מעגלעך צו טאָן אַ ברייט באַפאַלן -איינער ינוואַלווינג פילע מענטשן-דורך מערדזשינג די Netflix דאַטע מיט פּערזענלעך און פֿילם שאַצונג דאַטן אַז עטלעכע מענטשן האָבן אויסדערוויילט צו פּאָסטן אויף די אינטערנעט פֿילם דייטאַבייס (ימדב). קיין אינפֿאָרמאַציע וואָס איז יינציק פינגערפּרינט צו אַ ספּעציפיש מענטש-אַפֿילו זייער שטעלן פון פֿילם רייטינגז-קענען ווערן געניצט צו ידענטיפיצירן זיי.

אַפֿילו כאָטש דער Netflix דאַטע קענען זיין שייַעך-ידענטיפיעד אין אָדער אַ טאַרגעטעד אָדער ברייט באַפאַלן, עס נאָך זאל דערשייַנען צו זיין נידעריק ריזיקירן. נאָך אַלע, פֿילם רייטינגז טאָן ניט ויסקומען זייער שפּירעוודיק. בשעת אַז זאל זיין אמת אין אַלגעמיין, פֿאַר עטלעכע פון ​​די 500,000 מענטשן אין די דאַטאַסעט, פֿילם רייטינגז זאל זיין גאַנץ שפּירעוודיק. אין פאַקט, אין ענטפער צו די דע-אַנאָנימיזאַטיאָן אַ קלאָסעטעד לעסביאַן פרוי זיך איינגעשריבן אַ סאָרט-קאַמף פּאַסן קעגן Netflix. דאָ ס ווי די פּראָבלעם איז געווען אויסגעדריקט אין זייער פּראָצעס (Singel 2009) :

"[ב] אָוויע און שאַצונג דאַטן כּולל אינפֿאָרמאַציע פון ​​אַ מער העכסט פּערזענלעך און שפּירעוודיק נאַטור [סיק]. די מיטגליד ס פֿילם דאַטן יקספּאָוזיז אַ Netflix מיטגליד ס פּערזענלעך אינטערעס און / אָדער ראנגלענישן מיט פאַרשידן העכסט פּערזענלעך ישוז, כולל סעקשואַלאַטי, גייַסטיק קראַנקייַט, אָפּזוך פון אַלקאַכאָליזאַם, און וויקטימיזאַטיאָן פון ינסעסט, גשמיות זידלען, דינער גוואַלד, ניעף, און שענדונג. "

די דע-אַנאָנימיזאַטיאָן פון די Netflix Prize דאַטן ילאַסטרייץ ביידע אַז אַלע דאַטע איז פּאַטענטשאַלי ידענטיפיאַבלע און אַז אַלע דאַטן איז פּאַטענטשאַלי שפּירעוודיק. אין דעם פונט, איר זאל טראַכטן אַז דאָס בלויז אַפּלייז צו דאַטן וואָס אַז פּערפּאָרץ צו זייַן וועגן מענטשן. סורפּריסינגלי, אַז איז ניט דער פאַל. אין ענטפער צו אַ Freedom פון אינפֿאָרמאַציע געזעץ בעטן, די ניו יארק סיטי רעגירונג רעלעאַסעד רעקאָרדס פון יעדער טאַקסי פאָר אין ניו יארק אין 2013, כולל די פּיקאַפּ און פאַלן אַוועק מאל, לאָוקיישאַנז, און אָפּצאָל אַמאַונץ (צוריקרופן פון טשאַפּטער 2 וואָס Farber (2015) געניצט דעם דאַטן צו פּרובירן וויכטיק טיעריז אין אַרבעט עקאָנאָמיק). כאָטש דעם דאַטן וועגן טאַקסי טריפּס זאל ויסקומען גוט ווייַל עס טוט נישט ויסקומען צו זייַן אינפֿאָרמאַציע וועגן מענטשן, אַנטאַני טאָקקאַר איינגעזען אַז דאָס טאַקסי דאַטאַסעט אַקטשאַוואַלי קאַנטיינד גורל פון פּאַטענטשאַלי שפּירעוודיק אינפֿאָרמאַציע וועגן מענטשן. צו אילוסטרירן, ער געקוקט בייַ אַלע טריפּס סטאַרטינג בייַ די הוסטלער קלוב-אַ גרויס פּאַס קלוב אין ניו יארק-צווישן האַלבנאַכט און 6:00 און דעמאָלט געפֿונען זייער קאַפּ-אַוועק לאָוקיישאַנז. דעם זוכן גילוי-אין עסאַנס, אַ רשימה פון ווענדט פון עטלעכע מענטשן וואס אָפט די הוסטלער קלוב (Tockar 2014) . עס איז שווער צו ימאַדזשאַן אַז די שטאָט רעגירונג האט דעם אין גייַסט ווען עס רעלעאַסעד די דאַטן. אין פאַקט, דעם זעלביקער טעכניק קען זיין געניצט צו געפינען די היים ווענדט פון מענטשן וואס באַזוכן קיין פּלאַץ אין די שטאָט, אַ מעדיציניש קליניק, אַ רעגירונג בנין, אָדער אַ רעליגיעז ינסטיטושאַן.

די דאזיקע צוויי קאַסעס-דעם Netflix Prize און די ניו יארק סיטי טאַקסי דאַטן-ווייַזן אַז לעפיערעך באָקע מענטשן ניט אַנדערש צו ריכטיק אָפּשאַצן די ינפאָרמאַטיאָנאַל ריזיקירן אין די דאַטן אַז זיי רעלעאַסעד, און די קאַסעס זענען דורך קיין מיטל יינציק (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . ווייטער, אין פילע פון ​​די קאַסעס, דער פּראָבלעמאַטיק דאַטן איז נאָך פרעעלי בנימצא אָנליין, ינדאַקייטינג די שוועריקייט פון אלץ בטל אַ דאַטע מעלדונג. קאַלעקטיוולי די יגזאַמפּאַלז-ווי ווויל ווי פאָרשונג אין קאָמפּיוטער וויסנשאַפֿט וועגן פּריוואַטקייט-לידז צו אַ וויכטיק מסקנא. רעסעאַרטשערס זאָל יבערנעמען אַז אַלע דאַטע איז פּאַטענטשאַלי ידענטיפיאַבלע און אַלע דאַטן איז פּאַטענטשאַלי שפּירעוודיק.

צום באַדויערן, עס איז ניט פּשוט לייזונג צו דער פאַקט אַז אַלע די דאַטן איז פּאַטענטשאַלי ידענטיפיאַבלע און אַלע דאַטן איז פּאַטענטשאַלי שפּירעוודיק. אָבער, איין וועג צו רעדוצירן אינפֿאָרמאַציע ריזיקירן בשעת איר זענען ארבעטן מיט דאַטן איז צו שאַפֿן און נאָכגיין אַ דאַטן שוץ פּלאַן. דעם פּלאַן וועט דיקריסאַז די געלעגנהייַט אַז אייער דאַטן וועט רינען און וועט פאַרמינערן די שאָדן אויב אַ רינען יז אַקערז. די ספּעסיפיקס פון דאַטן שוץ פּלאַנז, אַזאַ ווי וואָס פאָרעם פון ענקריפּשאַן צו נוצן, וועט טוישן איבער צייַט, אָבער די וק דאַטע באַדינונגען העלפּפוללי אָרגאַנייזיז די יסודות פון אַ דאַטן שוץ פּלאַן אין 5 קאַטעגאָריעס אַז זיי רופן די 5 סאַפעס: זיכער פּראַדזשעקס, זיכער מענטשן , זיכער סעטטינגס, זיכער דאַטע, און זיכער אַוטפּוץ (טיש 6.2) (Desai, Ritchie, and Welpton 2016) . קיינער פון די פינף סאַפעס ינדיווידזשואַלי צושטעלן שליימעסדיק שוץ. אבער, צוזאַמען זיי פֿאָרמירן אַ שטאַרק שטעלן פון סיבות אַז קענען פאַרקלענערן ינפאָרמאַטיאָנאַל ריזיקירן.

טיש 6.2: די 5 סאַפעס זענען פּרינציפּן פֿאַר דיזיינינג און עקסאַקיוטינג אַ דאַטן שוץ פּלאַן (Desai, Ritchie, and Welpton 2016) .
זיכער קאַמף
זיכער פּראַדזשעקס לימאַץ פּראַדזשעקס מיט דאַטן צו די וואס זענען עטישע
זיכער מענטשן צוטריט איז ריסטריקטיד צו מענטשן וואס קענען זיין טראַסטיד מיט דאַטן (למשל, מענטשן האָבן אַנדערגאָן עטישע טריינינג)
זיכער דאַטע דאַטע איז דע-ידענטיפיעד און אַגראַגייטאַד צו דער מאָס מעגלעך
זיכער סעטטינגס דאַטע איז סטאָרד אין קאָמפּיוטערס מיט צונעמען גשמיות (למשל, לאַקט צימער) און ווייכווארג (למשל, פּאַראָל שוץ, ינקריפּטיד) פּראַטעקשאַנז
זיכער רעזולטאַט פאָרשונג רעזולטאַט איז ריוויוד צו פאַרמייַדן אַקסאַדענאַלי פּריוואַטקייט בריטשיז

אין דערצו צו פּראַטעקטינג דיין דאַטן בשעת איר זענען ניצן עס, איינער שריט אין דער פאָרשונג פּראָצעס ווו ינפאָרמאַטיאָנאַל ריזיקירן איז דער הויפּט שטאַרציק איז דאַטן ייַנטיילונג מיט אנדערע ריסערטשערז. דאַטאַ ייַנטיילונג צווישן סייאַנטיס איז אַ האַרץ ווערט פון די SCIENTIFIC ינדעווער, און עס איז זייער פאַסיליטיעס דער אנטוויקלונג פון וויסן. דאָ ס ווי די וק הויז פון קאמאנס און דיסקרייבד די וויכטיקייט פון דאַטן ייַנטיילונג:

"אַקסעס צו דאַטע איז פונדאַמענטאַל אויב ריסערטשערז זענען צו רעפּראָדוצירן, באַשטעטיקן און בויען אויף רעזולטאַטן וואָס זענען געמאלדן אין דער ליטעראַטור. די פּריזאַמפּשאַן מוזן זיין אַז, סייַדן עס איז אַ שטאַרק סיבה אַנדערש, דאַטע זאָל זיין גאָר דיסקלאָוזד און געמאכט פּובליקלי בנימצא. אין שורה מיט דעם פּרינציפּ, ווו מעגלעך, דאַטן פֿאַרבונדן מיט אַלע פּובליקלי פונדעד פאָרשונג זאָל זיין געמאכט וויידלי און פרעעלי בנימצא. " (Molloy 2011)

אבער, דורך ייַנטיילונג דיין דאַטן מיט אנדערן פאָרשער, איר מייַ זייַן ינקריסינג ינפאָרמאַטיאָנאַל ריזיקירן צו אייער פּאַרטיסאַפּאַנץ. אזוי, עס מייַ ויסקומען אַז ריסערטשערז וואס ווינטשן צו טיילן זייער דאַטן-אָדער זענען required צו טיילן זייער דאַטן-זענען facing אַ פונדאַמענטאַל שפּאַנונג. אויף דעם איין האַנט זיי האָבן אַ עטישע פליכט צו טיילן זייער דאַטן מיט אנדערע סיינטיס, ספּעציעל אויב דער אָריגינעל פאָרשונג איז פּובליקלי פונדעד. אבער, אין דער זעלביקער צייַט, ריסערטשערז האָבן אַ עטישע פליכט צו מינאַמייז, ווי פיל ווי מעגלעך, די אינפֿאָרמאַציע ריזיקירן צו זייער פּאַרטיסאַפּאַנץ.

גליק, דעם דילעמאַ איז ניט ווי שטרענג ווי עס אויס. עס איז וויכטיק צו טראַכטן פון דאַטן ייַנטיילונג צוזאמען אַ קאָנטינוום פון קיין דאַטן ייַנטיילונג צו מעלדונג און פאַרגעסן, ווו דאַטן איז "אַנאָנימיזעד" און Posted פֿאַר ווער עס יז צו צוטריט (Figure 6.6). ביידע פון ​​די עקסטרעם שטעלעס האָבן ריסקס און Benefits. אַז איז, עס איז נישט אויטאָמאַטיש די מערסט עטישע זאַך צו נישט טיילן דיין דאַטן; אַזאַ אַ צוגאַנג ילימאַנייץ פילע פּאָטענציעל Benefits צו געזעלשאַפט. אומגעקערט צו געשמאַק, טייז, און צייט, אַ בייַשפּיל דיסקאַסט פריער אין דעם קאַפּיטל, טענות קעגן דאַטן מעלדונג אַז פאָקוס בלויז אויף מעגלעך האַרמס און אַז איגנאָרירן מעגלעך Benefits זענען אָוווערלי איינער-סיידיד; איך וועט באַשרייַבן די פּראָבלעמס מיט דעם איין-סיידיד, אָוווערלי פּראַטעקטיוו צוגאַנג אין מער דעטאַל אין ונטן ווען איך פאָרשלאָגן עצה וועגן מאכן דיסיזשאַנז אין די פּנים פון אַנסערטאַנטי (אָפּטיילונג 6.6.4).

ציפער 6.6: דאַטאַ מעלדונג סטראַטעגיעס קענען פאַלן צוזאמען אַ קאָנטינוום. ווו איר זאָל זייַן צוזאמען דעם קאָנטינוום דעפּענדס אויף די ספּעציפיש דעטאַילס פון אייער דאַטע. אין דעם פאַל, דריט פּאַרטיי אָפּשאַצונג מייַ העלפן איר באַשליסן די צונעמען וואָג פון ריזיקירן און נוץ אין אייער פאַל.

ציפער 6.6: דאַטאַ מעלדונג סטראַטעגיעס קענען פאַלן צוזאמען אַ קאָנטינוום. ווו איר זאָל זייַן צוזאמען דעם קאָנטינוום דעפּענדס אויף די ספּעציפיש דעטאַילס פון אייער דאַטע. אין דעם פאַל, דריט פּאַרטיי אָפּשאַצונג מייַ העלפן איר באַשליסן די צונעמען וואָג פון ריזיקירן און נוץ אין אייער פאַל.

ווייטער, אין צווישן די צוויי עקסטרעם קאַסעס איז וואָס איך וועט גערופֿן אַ וואָלד גאָרטן צוגאַנג ווו דאַטן איז שערד מיט מענטשן וואס טרעפן זיכער קרייטיריאַ און וואס שטימען צו זייַן געבונדן דורך זיכער כּללים (למשל, פאַרזע פון אַ ירב און אַ דאַטן שוץ פּלאַנז) . דאס וואָלד גאָרטן צוגאַנג גיט פילע פון ​​די Benefits פון מעלדונג און פאַרגעסן מיט ווייניקער ריזיקירן. פון לויף, אַ וואָלד גאָרטן צוגאַנג קריייץ פילע שאלות-וואס זאָל האָבן צוטריט, אונטער וואָס באדינגונגען, פֿאַר ווי לאַנג, וואס זאָל צאָלן צו טייַנען און פּאָליצייַ די וואָלד גאָרטן אאז"וו-אָבער די ביסט נישט ינסערמאַונטאַבאַל. אין פאַקט, עס זענען שוין ארבעטן וואָלד גאַרדענס אין פּלאַץ אַז ריסערטשערז קענען נוצן רעכט איצט, אַזאַ ווי די דאַטן אַרקייוו פון דער ינטער-אוניווערסיטעט קאָנסאָרטיום פֿאַר פּאָליטיש און סאציאל פֿאָרש אין דער אוניווערסיטעט פון מישיגן.

אַזוי, ווו זאָל די דאַטן פון דיין לערנען זיין אויף די קאָנטינוום פון קיין ייַנטיילונג, וואָלד גאָרטן, און מעלדונג און פאַרגעסן? עס אָפענגען אויף די דעטאַילס פון אייער דאַטע; ריסערטשערז מוזן וואָג רעספּעקט פֿאַר מענטשן, וווילטעטיקייַט, יושר, און רעספּעקט פֿאַר געזעץ און ציבור אינטערעס. ווען אַסעסינג צונעמען וואָג פֿאַר אנדערע דיסיזשאַנז ריסערטשערז זוכן די עצה און האַסקאָמע פון ​​ירבס, און דאַטע מעלדונג קענען זייַן נאָר אן אנדער טייל פון אַז פּראָצעס. אין אנדערע ווערטער, כאָטש עטלעכע מענטשן טראַכטן פון דאַטן מעלדונג ווי אַ פאַרפאַלן עטישע מאָראַסס, מיר שוין האָבן סיסטעמען אין פּלאַץ צו העלפן ריסערטשערז וואָג די מין פון עטישע דילעממאַס.

איינער לעצט וועג צו טראַכטן וועגן דאַטן ייַנטיילונג איז דורך אַנאַלאַדזשי. יעדער יאָר קאַרס זענען פאַראַנטוואָרטלעך פֿאַר טויזנטער פון דעטס, אָבער מיר טאָן ניט פּרווון צו פאַרבאָט דרייווינג. אין פאַקט, אַזאַ אַ רוף צו פאַרבאָט דרייווינג וואָלט זיין ווילד ווייַל דרייווינג ענייבאַלז פילע ווונדערלעך זאכן. אלא, געזעלשאַפט ערטער ריסטריקשאַנז אויף וואס קענען פאָר (למשל, דאַרפֿן צו זיין אַ זיכער עלטער, דאַרפֿן צו האָבן דורכגעגאנגען זיכער טעסץ) און ווי זיי קענען פאָר (למשל, אונטער די גיכקייַט שיעור). חברה אויך האט מען טאַסקט מיט ענפאָרסינג די כּללים (למשל, פּאָליצייַ), און מיר שטראָפן מענטשן וואס זענען קאַט ווייאַלייטינג זיי. דאס זעלבע מין פון באַלאַנסט טראכטן אַז געזעלשאַפט אַפּלייז צו רעגיאַלייטינג דרייווינג קענען אויך זיין געווענדט צו דאַטן ייַנטיילונג. אַז איז, אלא ווי מאכן אַבסאָלוטיסט טענות פֿאַר אָדער קעגן דאַטן ייַנטיילונג, איך טראַכטן די ביגאַסט Benefits וועט קומען פֿון אויסרעכענען אויס ווי מיר קענען טיילן מער דאַטן מער בעשאָלעם.

צו פאַרענדיקן, ינפאָרמאַטיאָנאַל ריזיקירן האט געוואקסן דראַמאַטיקלי, און עס איז זייער שווער צו פאָרויסזאָגן און קוואַנטיפי. דעריבער, עס איז בעסטער צו יבערנעמען אַז אַלע דאַטע איז פּאַטענטשאַלי ידענטיפיאַבלע און פּאַטענטשאַלי שפּירעוודיק. צו פאַרקלענערן ינפאָרמאַטיאָנאַל ריזיקירן בשעת טאן פאָרשונג, ריסערטשערז קענען מאַכן און נאָכגיין אַ דאַטן שוץ פּלאַן. ווייטער, ינפאָרמאַטיאָנאַל ריזיקירן טוט נישט פאַרמייַדן ריסערטשערז פון ייַנטיילונג דאַטן מיט אנדערע סיינטיס.