6.6.2了解和管理信息風險

這種翻譯是由一個計算機創建。 ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

6.6.2了解和管理信息風險

信息風險是在社會研究中最常見的風險;這顯著增加;並且它是最難風險理解。

社會數字化時代的研究倫理的第二個挑戰是信息的風險 ，從信息披露的潛在危害(Council 2014) 。從個人信息的洩露信息危害可能是經濟的（例如，失去工作），社會（如，尷尬），心理（如抑鬱症），或者甚至是犯罪（如逮捕，非法行為）。不幸的是，數字化時代的信息增加風險顯著，有關於我們的行為只是這麼多的信息。而且，信息風險相比，均模擬時代社會研究問題，如物理風險隱患被證明很難理解和管理。看到數字時代如何提高信息的風險，可考慮從紙電子病歷的過渡。這兩種類型的記錄創建風險，但電子記錄創建更大的風險，因為在大規模它們可以被發送到未授權方或與其他記錄合併。在數字化時代的社會研究者已經運行與信息風險的麻煩，部分原因是他們並不完全了解如何量化和管理。所以，我要提供一個有用的方法來思考信息化的風險，然後我去給你如何管理你的研究信息風險，並發布數據，其他研究人員一些建議。

社會研究降低信息風險的方法之一是數據的“匿名”。 “匿名化”是除去明顯的個人識別碼，如姓名，地址，以及從數據的電話號碼的過程。然而，這種方法是非常有效的少比許多人意識到，這是，其實有著深刻的限制。出於這個原因，每當我描述了“匿名”，我會用引號來提醒你，這個過程會創建匿名的外觀，但不是真正的匿名。

“匿名”失敗的一個生動的例子來自於90年代末在美國馬薩諸塞州(Sweeney 2002)該集團保險委員會（GIC）是一個政府機構，負責購買醫療保險為所有國家工作人員。通過這項工作，在GIC收集了數千名國家工作人員的詳細的健康檔案。在努力激發更多的方法來改善健康的研究，GIC決定將這些記錄發布給研究人員。然而，他們沒有分享他們所有的數據;相反，它們通過除去信息，例如姓名和地址“匿名”它。然而，他們離開，他們認為可能是研究人員非常有用，如人口統計信息（郵政編碼，出生日期，民族和性別）和醫療信息（訪問數據，診斷程序）（圖6.4）其他資料(Ohm 2010) 。不幸的是，這種“匿名”不足以保護數據。

圖6.4：匿名化是除去明顯的識別信息的過程。例如，釋放狀態職工的醫療保險記錄時馬薩諸塞州集團保險委員會（GIC）刪除名稱和地址從文件。我用引號字匿名，因為該方法提供了匿名的外觀，而不是實際的匿名。

圖6.4：“匿名化”是除去明顯的識別信息的過程。例如，釋放狀態職工的醫療保險記錄時馬薩諸塞州集團保險委員會（GIC）刪除名稱和地址從文件。我周圍使用單詞“匿名”的報價，因為該方法提供了匿名的外觀，而不是實際的匿名。

為了說明GIC“匿名”的缺點，Latanya理髮師，然後一名研究生在MIT-支付了$ 20，從劍橋市，馬薩諸塞州州長威廉焊接的家鄉獲得投票記錄。這些投票紀錄，包括信息，如姓名，地址，郵政編碼，出生日期和性別。的事實，即醫療數據文件和選舉人文件共享字段-郵政編碼，出生年月日，和性別意味著理髮師可以鏈接它們。斯威尼知道虛焊的生日是1945年7月31日，和投票記錄只包含六個劍橋人的生日。此外，這些六人，只有三個是男性。而且，那些三個人，只有一個共享焊縫的郵政編碼。因此，投票數據顯示，人在出生日期，性別和郵政編碼焊縫的結合醫療數據是威廉虛焊。在本質上，這三件的信息中的數據提供了一個獨特指紋給他。利用這個事實，斯威尼能夠找到虛焊的醫療記錄，並告訴他她的壯舉，她給他發了他記錄的副本(Ohm 2010) 。

圖6.5：重新idenification匿名數據。 Latanya斯威尼，以便找到州長威廉焊接的醫療記錄（2002年斯威尼）聯合投票記錄的匿名健康檔案。

圖6.5：重新idenification“匿名”的數據。 Latanya斯威尼，以便找到州長威廉焊接的病歷結合投票記錄了“匿名”健康記錄(Sweeney 2002)

斯威尼的工作說明了去匿名攻擊的基本結構-to採用從電腦安全界的一個術語。在這些攻擊中，兩個數據集，無論是其本身的透露敏感信息，鏈接，並通過這種聯繫，敏感信息被暴露。在某些方面該方法是類似的小蘇打和醋，這是由自己的安全兩種物質，可以組合以產生討厭的結果的方式。

在回答理髮師的工作，以及其它相關工作，研究人員現在一般去除更多的信息，所有的所謂的“個人身份信息”（PII） (Narayanan and Shmatikov 2010)現在-during的過程中“匿名”。此外，許多研究人員意識到某些數據，如醫療記錄，財務記錄，回答問卷調查，違法問題的行為，可能是過於敏感，甚至後釋放“匿名”。不過，我會在下面說明表明，社會研究者需要更近的例子改變他們的想法。作為第一步，明智的做法是假設所有的數據都是潛在的識別和所有的數據都是潛在的敏感。換句話說，而不是想著信息的風險應用於項目的一小部分，我們應該假定它適用，在一定程度上對所有的項目。

這種重新取向的兩個方面由Netflix的獎示出。正如在第5章，Netflix公司通過發行近50萬會員提供億電影的收視率，並有一個開放的呼叫，其中來自世界各地的人提出，可以改善Netflix的推薦電影的能力算法。發布數據之前，Netflix的去除任何明顯的個人身份信息，如姓名。 Netflix公司還去了一個額外的步驟，並介紹了一些記錄輕微擾動（如改變一些收視率從4星級到三星級）。 Netflix公司很快發現，然而，儘管他們的努力，數據都決非是匿名的。

數據公佈後短短兩週內被釋放Narayanan and Shmatikov (2008)表明，它可以了解特定人的電影偏好。訣竅其重新鑑定的攻擊類似於斯威尼：兩個信息來源，一是合併一起潛在的敏感信息，並沒有明顯的識別信息和一個包含身份的人。每個這些數據源可以是單獨的安全，但是，當它們被組合合併的數據集可以創建信息風險。在Netflix的數據的情況下，這裡是如何它可能發生。想像一下，我選擇來分享我對動作和喜劇電影和我的同事的想法，但我不想分享我的關於宗教和政治電影的看法。我的同事可以使用，我已經與他們分享發現我在Netflix的數據記錄中的信息;我分享的信息可能是一個獨一無二的指紋一樣，威廉焊接的出生日期，郵政編碼和性別。然後，如果他們發現我唯一的指紋數據，他們可以了解所有的電影，包括電影，我選擇不分享我的收視率。除了這種針對性的攻擊集中在一個人的， Narayanan and Shmatikov (2008)也表明，它是可能的，由人的個人和電影等級數據合併Netflix的數據做涉及許多的廣泛攻擊 -酮，一些人都選擇張貼在互聯網電影數據庫（IMDB）。這是獨一無二的指紋來一個特定的人，連自己的一套電影的任何信息等級，可以用來識別它們。

即使Netflix的數據可以在任何一個定位或廣泛攻擊重新鑑定，它仍可能會出現為低風險。畢竟，電影收視率似乎並不很敏感。雖然這可能在一般是真實的，對於一些50萬人中的數據集的，電影的評分可能是相當敏感。事實上，在應對反匿名一個女同志密談女人加入了集體訴訟對Netflix的。這裡的問題是如何在他們的訴訟表示(Singel 2009) ：

“[M] OVIE及評級數據包含了更高度的個人性和敏感性[原文]的信息。會員的電影數據暴露了Netflix的會員的個人興趣和/或鬥爭與各種高度個人化的問題，包括性生活，精神疾病，酗酒恢復和受害從亂倫，身體上的虐待，家庭暴力，通姦，強姦“。

Netflix的獎數據去說明匿名雙方所有的數據可能是辨認的，所有的數據都是潛在的敏感。在這一點上，你可能會認為這僅適用於宣稱是關於人的數據。出人意料的是，事實並非如此。為了應對信息法要求的自由，紐約市政府在紐約發布每一個乘坐出租車的記錄在2013年，包括皮卡和第2章下車時間，地點和車費金額（回憶一下， Farber (2015)用這個數據來檢驗勞動經濟學重大理論）。雖然關於出租車出行這一數據似乎良性的，因為它似乎並沒有被有關人員的信息，安東尼Tockar意識到這個出租車數據實際上包含很多關於人的潛在敏感信息。為了說明這一點，他看著所有行程開始於江湖浪子俱樂部，大型板帶新午夜早上6點，然後在紐約的俱樂部之間發現他們的落客地點。這種搜索發現，在一些人誰頻繁的騙子俱樂部地址的精髓-列表(Tockar 2014) 。這是很難想像，市政府心目中這個時候公佈的數據。事實上，同樣的技術可以用來找出誰在全市醫療診所，政府大樓或宗教機構訪問任何地方的人的家庭地址。

這兩種情況，Netflix的獎和紐約市的出租車數據顯示，比較熟練的人未能正確估計，他們發布的數據信息的風險，而這些案件決不是唯一的(Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016)此外，在許多情況下，有問題的數據仍然在線免費提供，指示以往撤消數據釋放的難度。總的來說，這些例子，以及在計算機科學中有關隱私，導致一個重要的結論的研究。研究人員假設所有的數據可能是可識別的，所有數據是潛在的敏感。

不幸的是，沒有簡單的解決辦法，所有的數據是潛在的可識別的，並且所有數據是潛在的敏感的事實。然而，為了減少信息風險，而你正在使用數據的一種方法是創建並遵循數據保護計劃 。該計劃將減少您的數據會洩漏，如果洩漏發生在某種程度上會降低危害的機會。數據保護計劃的細節，比如哪些加密形式使用，會隨時間而改變，但英國數據服務很有幫助組織了數據保護計劃的內容分為5類，他們稱之為5保險箱 ：安全工程，安全的人，安全設置，安全數據和安全輸出（見表6.2） (Desai, Ritchie, and Welpton 2016)五個保險櫃沒有單獨提供完美的保護。但是，它們一起構成了一套功能強大，可以降低信息風險因素。

表6.2：5保險箱設計和執行數據保護計劃的原則(Desai, Ritchie, and Welpton 2016)
安全	行動
安全項目	限制項目數據到那些倫理
安全人員	訪問限制誰可以與數據是否可信的人（例如，人們經歷了道德培訓）
數據安全	數據被去識別和聚集盡可能
安全設置	數據被存儲在具有適當的物理（如上鎖的房間）和軟件（如口令保護，加密）保護電腦
安全輸出	研究成果進行審查，以防止意外侵犯隱私

此外，當您使用它保護您的數據，一步一個腳印的研究過程，其中信息的風險尤為突出與其他研究人員的數據共享。科學家之間的數據共享是科學事業的核心價值，知識大大設施的進步。下面是下議院英國房子是如何描述的數據共享的重要性：

如果研究人員複製，核實和建立在那些文獻報導的結果“獲得的數據是根本。推定必須是，除非有一個強有力的理由，否則，數據應充分披露，並公佈於眾。在這個原則，在所有公共資助的研究有關的可能，數據應當廣泛並自由地使用製作行。“ (Molloy 2011)

然而，與其他研究人員共享您的數據，你可能會增加風險信息到您的參與者。因此，它可能看起來誰願意分享他們的數據或要求分享他們的研究數據都面臨著根本性的緊張關係。一方面，他們有一個道德義務，分享他們與其他科學家的數據，特別是如果原來的研究是公費。然而，在同一時間，研究人員有道德義務，以盡量減少，盡可能地，信息風險及其與會者。

幸運的是，這種困境並不像看起來那麼嚴重。認為數據沒有數據共享一個連續共享釋放忘記 ，在數據為“匿名”和張貼任何人訪問（圖6.6），這很重要。這兩種極端的立場有風險和收益。也就是說，它是不會自動不共享您的數據是最道德的事情;這種方法消除了社會許多潛在的好處。回到品味，領帶和時間，前面的章節中討論的一個例子，對數據發布論點，即只注重擊傷害，忽視可能帶來的好處過於片面;當我有關的不確定性（6.6.4節）面對決策提供建議，我將描述這種片面的，過度保護方法的問題更詳細的下文。

圖6.6：數據發布策略可沿連續下跌。在這裡你應該是沿著這個連續取決於數據的具體細節。在這種情況下，第三方審核可以幫助你決定的風險在你的案件的適當平衡和效益。

此外，在這兩種極端情況之間的是什麼，我會叫，其中數據與誰符合一定的標準，誰同意遵守一定的規則約束的人共享一個圍牆花園的方式（例如，從IRB監督和數據保護計劃）。這圍牆花園的方式提供了許多版本的好處和風險較小忘記。當然，一個圍牆花園的方式產生了許多問題，誰應該有機會，什麼條件下，能持續多久，誰應保持和警察圍牆花園等，但這些都不是不可克服的。事實上，目前已經到位，研究人員可以使用，現在，如政治和社會研究的密歇根大學的校際聯盟的數據歸檔工作的圍牆花園。

所以，從您的研究數據，其中應該就沒有共享，圍牆的花園連續，並釋放忘記？這取決於你的數據的詳細內容;研究人員必須為法與公共利益平衡尊重個人，善行，正義和尊重。在評估其他決定適當的平衡研究人員徵求意見和倫理委員會的批准，以及數據發布可以是過程的只是一個組成部分。換句話說，雖然有些人認為數據發布作為一個無望的道德困境，我們已經部署系統，以幫助研究人員權衡這類道德困境。

考慮數據共享的最後一個方法是類比。每年汽車負責數千人死亡，但我們並不試圖禁止駕駛。事實上，由於驅動使許多美好的事物這樣的呼籲，禁止駕駛將是荒謬的。相反，社會則以誰可以駕駛的限制（例如，需要一個一定的年齡，需要先通過一定的測試），以及他們如何能驅動器（例如，在限速）。協會還擁有人執行這些規則（如警察）負責，而我們懲罰誰被發現違反他們的人。這同一種均衡思維該社會適用於調節驅動，也可以應用到數據共享。也就是說，而不是使專制論據支持或反對的數據共享，我覺得最大的好處來自於搞清楚我們如何能夠更安全地共享更多的數據。

結束，信息風險急劇增加，這是很難預測和量化。因此，最好是假定所有數據是潛在的可識別的和潛在的敏感。為了降低信息風險，同時做研究，研究人員可以創建並遵循一個數據保護計劃。此外，信息風險並不能阻止研究人員與其他科學家共享數據。