6.6.2 Skilningur og stjórna upplýsinga áhættu

Upplýsingar áhætta er algengasta hættan á félagslegri rannsóknum; það hefur aukist verulega; og það er erfiðasta hætta að skilja.

Annað siðferðileg viðfangsefni félagslega aldri stafræna rannsókna er upplýsinga áhætta, möguleiki fyrir skaða af miðlun upplýsinga (Council 2014) . Upplýsinga skaðar frá birtingu persónulegra upplýsinga gæti verið efnahagslega (td missa vinnu), félagsleg (td vandræði), sálfræðileg (td þunglyndi), eða jafnvel glæpsamlegt (td handtöku fyrir ólöglega hegðun). Því miður, the stafrænn aldri eykst um áhættu verulega, það er bara svo miklu meira upplýsingar um hegðun okkar. Og upplýsinga áhætta hefur reynst mjög erfitt að skilja og stjórna miðað við áhættu sem voru áhyggjur í hliðstæðum aldri félagslega rannsóknir, ss líkamlega áhættu. Til að sjá hvernig stafræna aldri eykst upplýsinga áhættu, íhuga umskipti frá pappír að rafrænum sjúkraskrám. Báðar tegundir af skrám búa áhættu, en rafræn gögn búa til miklu meiri áhættu vegna þess að í miklum mæli þeir geta verið send til óviðkomandi aðila eða sameinað öðrum gögnum. Félagsleg vísindamenn í stafrænni öld hafa þegar keyrt í vandræðum með upplýsinga áhættu, að hluta til vegna þess að þeir hafi ekki að fullu skilja hvernig á að mæla og stjórna henni. Svo ég ætla að bjóða upp á mikið leið til að hugsa um upplýsinga áhættu, og þá ætla ég að gefa þér nokkur ráð um hvernig á að stjórna upplýsingagildi áhættu rannsóknum og í gefa út gögn til annarra rannsakenda.

Ein leið til að félagsleg vísindamenn minnka upplýsingagildi áhættu er "anonymization" gagna. "Anonymization" felst í því að fjarlægja augljós persónuauðkenni svo sem nafn, heimilisfang og símanúmer úr gögnum. Þó þessi aðferð er miklu minni árangri en margir gera sér grein fyrir, og það er, í raun, djúpt og grundvallaratriðum takmörkuð. Af þeirri ástæðu, þegar ég lýsa "anonymization," Ég ætla að nota gæsalappir til að minna þig á að þetta ferli skapar útliti nafnleynd en ekki satt nafnleynd.

Skýrt dæmi um bilun "anonymization" kemur frá seint 1990 í Massachusetts (Sweeney 2002) . The Group Insurance Commission (GIC) var ríkisstofnun ábyrgur fyrir að kaupa sjúkratryggingar fyrir alla ríkisstarfsmanna. Með þessu starfi, GIC safnað nákvæmar sjúkraskrár um þúsundir starfsmanna ríkisins. Í viðleitni til að örva rannsóknir um leiðir til að bæta heilsu, GIC ákveðið að gefa út þessar skrár vísindamönnum. Hins vegar gerðu þeir ekki deila öll gögn þeirra; frekar, þeir "nafnlausir" það með því að fjarlægja upplýsingar svo sem nafn og heimilisfang. Hins vegar þeir vinstri aðrar upplýsingar sem þeir í hug að vera gagnlegt fyrir vísindamenn, svo sem lýðfræðilegar upplýsingar (póstnúmerum, fæðingardag, þjóðerni, kyni og) og læknisfræðilegar upplýsingar (heimsókn gögnum, greiningu, meðferð) (mynd 6.4) (Ohm 2010) . Því miður, þetta "anonymization" var ekki nóg til að vernda gögnin.

Mynd 6.4: anonymization er ferli að fjarlægja augljóslega að finna upplýsingar. Til dæmis, þegar sleppa sjúkratryggingu skrár starfsmanna ríkisins Massachusetts Group Insurance Commission (GIC) eytt nafn og heimilisfang af skrá. Ég nota tilvitnanir í kringum orðinu anonymization því ferli veitir útliti nafnleynd, en ekki raunverulegt nafnleynd.

Mynd 6.4: "anonymization" felst í því að fjarlægja augljóslega að finna upplýsingar. Til dæmis, þegar sleppa sjúkratryggingu skrár starfsmanna ríkisins Massachusetts Group Insurance Commission (GIC) eytt nafn og heimilisfang af skrá. Ég nota gæsalappa orðinu "anonymization" vegna þess að ferlið veitir útliti nafnleynd, en ekki raunverulegt nafnleynd.

Til að varpa ljósi á vankanta á Gic "anonymization", Latanya Sweeney-þá í framhaldsnámi í MIT-greiddur $ 20 til að öðlast atkvæðisrétt færslur frá borginni Cambridge, heimabæ Massachusetts landstjóra William Weld. Þessar atkvæðabækur með upplýsingar svo sem nafn, heimilisfang, póstnúmer, fæðingardag og kyn. Sú staðreynd að læknisfræði gögn skrá og kjósandi skrá deilt sviðum-póstnúmer, fæðingardag og kyn-þýddi að Sweeney gæti tengja þá. Sweeney vissi að afmæli suà var 31. júlí, 1945, og atkvæðagreiðslu færslur með aðeins sex manns í Cambridge með því afmæli. Ennfremur af þeim sex manns, aðeins þrjú voru karlkyns. Og af þeim þremur mönnum, aðeins einn hluti Weld er zip kóða. Þannig atkvæðisréttar gögn sýndu að einhver í læknisfræði gögn með blöndu Weld átti fæðingardag, kyn, og zip kóða var William Weld. Í raun, þessir þrír stykki af upplýsingum sem einstaka fingrafar honum í gögnum. Using this staðreynd, Sweeney var fær til finna sjúkraskrám suÃ, og til að upplýsa hann um feat hennar, sent hún honum afrit af skrám sínum (Ohm 2010) .

Mynd 6.5: Re-idenification nafnlausir gögn. Latanya Sweeney sameina nafnlaus sjúkraskrár með færslur atkvæðagreiðslu til að finna sjúkraskrár seðlabankastjóra William Weld (Sweeney 2002).

Mynd 6.5: Re-idenification af "nafnlausir" gögn. Latanya Sweeney sameina "nafnlaus" sjúkraskrár með færslur atkvæðagreiðslu til að finna sjúkraskrár seðlabankastjóra William Weld (Sweeney 2002) .

Verk Sweeney er sýnir undirstöðu uppbyggingu de-anonymization árásir -til samþykkja hugtakið frá öryggi tölva samfélag. Í þessum árásum, tveir gagnagrunnar, hvorki sem út af fyrir sig kemur í ljós viðkvæmar upplýsingar eru tengd, og í gegnum þessa tengingu, viðkvæmar upplýsingar er óvarinn. Að sumu leyti þetta ferli er svipað hátt sem bakstur gos og edik, tvö efni sem eru sjálfir öruggt, er hægt að sameina til að framleiða viðbjóðslegur niðurstöðu.

Til að bregðast við vinnu Sweeney er, og öðrum tengdum vinnu, vísindamenn nú almennt fjarlægja miklu meiri upplýsingar-allt svokallað "persónugreinanlegar upplýsingar" (PII) (Narayanan and Shmatikov 2010) -during ferli "anonymization." Ennfremur margir vísindamenn nú átta sig á að ákveðin gögn-ss sjúkraskrám, fjárhagslegur hljómplata, svör við könnun spurningum um ólöglega hegðun-er líklega of viðkvæm til að losa jafnvel eftir "anonymization." En fleiri nýleg dæmi að ég lýsa hér benda til þess félagsleg vísindamenn þurfa að breyta hugsun þeirra. Sem fyrsta skref, er ​​það ráðlegt að gera ráð fyrir að öll gögn er hugsanlega auðkennd og að öll gögn er hugsanlega viðkvæm. Með öðrum orðum, fremur en hugsa að upplýsingagildi áhættu gildir litlu hlutmengi af verkefnum, ættum við að gera ráð fyrir að það eigi-að einhverju leyti til allra verkefna.

Bæði þættir þessarar endurskoðunar orientation eru sýnd með Netflix verðlaunin. Eins og lýst er í 5. kafla, Netflix út 100 milljón bíómynd einkunnir veitt af tæplega 500.000 meðlimum, og hafði opið símtal þar sem fólk frá öllum heimshornum lagt fram reiknirit sem gæti bætt getu Netflix að mæla bíó. Áður en þú sleppir gögn, Netflix fjarlægt nein augljóslega persónugreinanlegar upplýsingar, svo sem nöfn. Netflix fór einnig auka skref og kynnt lítilsháttar perturbations í sumum skrám (td breyttum nokkrar einkunnir úr 4 stjörnur til 3 stjörnur). Netflix fljótlega uppgötvað, þó að þrátt fyrir viðleitni þeirra, gögn voru langt frá því að nafnlaus.

Bara tvær vikur eftir þeim gögnum voru út Narayanan and Shmatikov (2008) sýndi að það var hægt að læra um óskir bíómynd ákveðinna fólks. The bragð til að tilvísun til-auðkenniskóða árás þeirra var svipuð Sweeney er: renna saman tvær upplýsingaveitur, einn með hugsanlega viðkvæmar upplýsingar og engin augljóslega finna upplýsingar og einn sem inniheldur sjálfsmynd fólks. Hver af þessum aðilum gögn geta verið fyrir sig öruggt, en þegar þeir eru saman hið sameinaða gagnapakkann getur búið upplýsinga áhættu. Í tilviki Netflix gagna, hér er hvernig það gæti gerst. Ímyndaðu þér að ég valið að deila hugsunum mínum um aðgerðir og Gamanmyndir með samstarfsmönnum mínum, en ég vil ekki að deila minni skoðun um trúarlegum og pólitískum kvikmyndum. Mín vinnufélaga gæti notað þær upplýsingar sem ég hef deilt með þeim að finna skrár mínum í Netflix gögnum; þær upplýsingar sem ég deili gæti verið einstakt fingrafar eins dags William Weld er fæðingu, póstnúmeri og kyni. Þá, ef þeir finna einstakt fingrafar mitt í gögnum, gætu þeir lært einkunnir mínar um alla kvikmyndir, þar á meðal kvikmyndir sem ég kýs ekki að deila. Í viðbót við þessa tegund af markvissa árás áherslu á einn mann, Narayanan and Shmatikov (2008) sýndu einnig að það væri hægt að gera víðtæka árás -Einn felur mörgum-by sameina Netflix gögn með persónulegum og bíómynd einkunn gögn sem sumir fólk hefur kosið að senda á Internet Movie Database (IMDb). Allar upplýsingar sem er einstakt fingrafar á tiltekinn einstakling-jafnvel setja þeirra bíómynd gesta-er hægt að nota til að bera kennsl á þau.

Jafnvel þótt Netflix gögn geta vera með tilvísun til-greind í annaðhvort miða eða breiðum árás, enn það gæti virst vera lítil áhætta. Eftir allt saman, gera bíómynd einkunnir virðast ekki mjög viðkvæm. Þó að það gæti verið satt almennt, fyrir sumir af the 500.000 manns í gagnasafni, bíómynd einkunnir gæti verið alveg viðkvæm. Í raun, að bregðast við de-anonymization closeted lesbía kona gengið í tegund-aðgerð föt gegn Netflix. Hér er hvernig vandamálið var sett í málsókn þeirra (Singel 2009) :

"[M] ovie og einkunnagjöf gögn inniheldur upplýsingar um fleiri mjög persónulegt og viðkvæmar [sic]. Gögnin bíómynd aðildarfélögum afhjúpar persónulegan áhuga Netflix félaga og / eða baráttu við ýmsa mjög persónuleg málefni, þar á meðal kynhneigð, geðsjúkdóma, bata frá alkóhólisma, og þolendur frá sifjaspell, líkamlegt ofbeldi, heimilisofbeldi, framhjáhald og nauðgun. "

The de-anonymization á Netflix Norðurlandaráðs gögnum sýnir bæði að öll gögn er mögulega auðkennd og að öll gögn er hugsanlega viðkvæm. Á þessum tímapunkti, þú might hugsa að þetta á aðeins við gögn sem það felur að vera um fólk. Furðu, það er ekki raunin. Til að bregðast við frelsi upplýsinga laga beiðni, New York City Government út skrár um hvert leigubíl í New York árið 2013, þar á meðal pallbíll og sleppa burt sinnum, staðsetningar og fargjald upphæðir (muna frá 2. kafla sem Farber (2015) notað þessi gögn til að prófa mikilvæg kenningar í hagfræði vinnuafl). Þó að þessi gögn um leigubíl ferðir gæti virst góðkynja vegna þess að það virðist ekki vera upplýsingar um fólk, Anthony Tockar ljóst að þetta leigubíl gagnapakka raun innihélt fullt af hugsanlega viðkvæmar upplýsingar um fólk. Til að sýna, leit hann á öllum ferðum byrja á Hustler Club-stór nektarstað í New York-milli miðnættis og 6am og þá fann drop-off þeirra stöðum. Þessi leit ljós í kjarna-lista yfir heimilisföng sumra manna sem tíður Hustler Club (Tockar 2014) . Það er erfitt að ímynda sér að borgarstjórnin hafði þetta í huga þegar það út gögn. Í raun er þetta sama tækni væri hægt að nota til að finna heimilisföng fólks sem heimsækja hvaða stað í borg-læknastofu, ríkisstjórn byggingu, eða trúarlega stofnun.

Þessi tvö mál-um Netflix verðlaun og New York City leigubíl gögn-sýna að tiltölulega hæft fólk mistókst að rétt mat á upplýsingagildi áhættu í gögnum sem þeir út, og þessi tilfelli eru alls ekki einstakt (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Ennfremur, í mörgum af þessum tilvikum vandkvæðum gögn er enn fáanleg á netinu, sem gefur til kynna að erfitt er að nokkru því að losa gögn út. Sameiginlega þessi dæmi-og sömuleiðis rannsóknir í tölvunarfræði um friðhelgi-leiðir til mikilvægan niðurstöðu. Vísindamenn má ráð fyrir að öll gögn er hugsanlega auðkennd og að öll gögn er hugsanlega viðkvæm.

Því miður, það er engin einföld lausn til þess að öll gögn er hugsanlega að bera kennsl og öll gögn er hugsanlega viðkvæm. Hins vegar ein leið til að draga úr Upplýsingar hættu á meðan þú ert að vinna með gögn er að búa til og fylgja gagnavernd áætlun. Þessi áætlun mun minnkar líkurnar á því að gögn munu leka og mun lækka skaða ef leki kemur einhvern veginn. The sérstakur af gagnavernd áætlanir, svo sem hvaða form af dulkóðun til að nota, mun breytast með tímanum, en UK Data Services helpfully skipuleggur þætti verndun gagna áætlun í 5 flokka sem þeir kalla 5 öryggishólf Viðvörun verkefni, örugg fólk , öruggar stillingar, öruggar gögn, og öruggar framleiðsla (Tafla 6.2) (Desai, Ritchie, and Welpton 2016) . Ekkert af fimm öryggishólf veita fyrir sig fullkomið vernd. En, saman mynda þeir öflugt mengi þáttum sem geta dregið upplýsinga áhættu.

Tafla 6.2: 5 öryggishólf eru meginreglur um hönnun og framkvæmd á gagnavernd áætlun (Desai, Ritchie, and Welpton 2016) .
Safe aðgerð
Öryggisskápur verkefni takmarkar verkefni með gögn til þeirra sem eru siðferðilega
Öryggisskápur fólk aðgangur er takmarkaður við fólk sem hægt er að treysta með gögn (td hafa menn gengið siðferðileg þjálfun)
Öryggisskápur gögn gögn de-greind og lagðar saman eftir því sem unnt
Öryggisskápur stillingar Gögnin eru geymd í tölvum með viðeigandi eðlisfræðilegum (td læst herbergi) og hugbúnaður (td lykilorð verndar dulkóðuð) vernd
Safe framleiðsla rannsóknir framleiðsla er endurskoðuð að koma í veg fyrir slysni næði brot

Auk þess að vernda gögnin þín á meðan þú ert að nota það, eitt skref í rannsóknum ferli þar upplýsinga Hættan er sérstaklega mikilvæg gögn hlutdeild með öðrum rannsakendum. Miðlun gagna á meðal vísindamanna er algerlega gildi vísinda viðleitni, og það mjög aðstaða framfarir þekkingar. Hér er hvernig Bretlandi House of Commons lýsti mikilvægi miðlun gagna:

"Aðgengi að gögnum er grundvallaratriði ef vísindamenn eru að endurskapa, staðfesta og byggja á niðurstöðum sem eru tilkynnt í bókmenntum. Ályktunin verður að vera að, nema það er mikil ástæða annars, gögn skal að fullu upplýst og gerðar aðgengilegar almenningi. Í samræmi við þessa meginreglu, þar sem unnt er, gögn sem tengjast öllum opinberlega styrkt rannsóknir skal gert víða og fáanleg. " (Molloy 2011)

Enn með því að deila gögnum með öðrum vísindamaður, þú gætir verið að aukast upplýsingagildi hætta við þátttakendur þínum. Þannig getur það virðist sem vísindamenn sem vilja til að deila sínum gögnum, eða eru skyldugir til að deila sinni gögn-stöndum frammi grundvallar spennu. Annars vegar þeir hafa siðferðilega skyldu til að deila gögnum með öðrum vísindamönnum, sérstaklega ef upprunalega rannsóknir opinberlega styrkt. Samt, á sama tíma, vísindamenn hafa siðferðilega skyldu til að lágmarka, eins mikið og mögulegt er, upplýsingar áhættu þátttakendur þeirra.

Sem betur fer, þetta vandamál er ekki eins alvarlegt og það virðist. Það er mikilvægt að hugsa um miðlun gagna ásamt samfellu af engum gagnamiðlunlosa og gleyma, þar sem gögn er "nafnlausir" og staða fyrir alla að fá aðgang (Mynd 6.6). Báðar þessar einstöku stöðum hafa áhættu og ávinning. Það er, það er ekki sjálfkrafa mest siðferðileg hlutur að ekki deila gögnum ykkar; slík nálgun útilokar mörgum mögulegum ávinningi til samfélagsins. Reglulegur Taste, Ties, og Time, dæmi rætt fyrr í kaflanum, rök gegn gögn út sem einblína eingöngu á hugsanlegum skaða og að hunsa hugsanlegar bætur eru of einhliða; Ég lýsa vandamál með þessa einhliða, óhóflega hlífðar nálgun nánar hér fyrir neðan, þegar ég bjóða upp á ráðgjöf um ákvarðanir í ljósi óvissu (kafli 6.6.4).

Mynd 6.6: Gögn losun aðferðir geta fallið meðfram samfellu. Þar sem þú ættir að vera með þetta samfellu fer eftir sérstökum upplýsingum um gögnunum. Í þessu tilviki, þriðja aðila endurskoðun getur hjálpað þér að ákveða viðeigandi jafnvægi á áhættu og ávinning í þínu tilviki.

Mynd 6.6: Gögn losun aðferðir geta fallið meðfram samfellu. Þar sem þú ættir að vera með þetta samfellu fer eftir sérstökum upplýsingum um gögnunum. Í þessu tilviki, þriðja aðila endurskoðun getur hjálpað þér að ákveða viðeigandi jafnvægi á áhættu og ávinning í þínu tilviki.

Ennfremur á milli þessara tveggja sumum tilfellum er það sem ég ætla kallaði Walled garði nálgun þar sem gögn er samnýtt með fólki sem uppfylla ákveðin skilyrði og sem samþykkja að vera bundinn af ákveðnum reglum (td eftirlit frá innri matsaðferðar og a gagnavernd áætlanir) . Þetta Walled garðinum nálgun veitir marga kosti losunar og gleyma með minni áhættu. Auðvitað, Walled garðinum aðferð skapar margar spurningar-sem ætti að hafa aðgang, við hvaða aðstæður, hversu lengi, sem ætti að borga til að viðhalda og lögreglan Walled garðinum osfrv-en þetta eru ekki óyfirstíganleg. Í raun, það eru nú þegar að vinna Walled görðum í stað sem vísindamenn geta notað núna, svo sem gögn skjalasafn Inter-háskóla Consortium for Political og félagsmálanefndar Research við háskólann í Michigan.

Svo, hvar ætti gögn frá námi þínu að vera á samfellu engin hlutdeild, Walled garðinum, og gefa út og gleyma? Það fer eftir upplýsingum um gögnin þín; Rannsakendur verða að jafnvægi virðingu fyrir einstaklingum, beneficence, réttlæti og virðingu fyrir lögum og almannahagsmunum. Þegar meta viðeigandi jafnvægi fyrir aðrar ákvarðanir vísindamenn leita ráða og samþykki IRBs, og gögn út getur verið bara annar hluti af því ferli. Með öðrum orðum, þótt sumir fólk hugsa af gögnum út sem vonlaust siðferðileg morass, höfum við nú þegar kerfi í stað til að hjálpa vísindamenn jafnvægi þessa tegund af siðfræðileg álitamál.

Ein Endanleg leiðin til að hugsa um gagnamiðlun er á hliðstæðan hátt. Á hverju ári bílar eru ábyrgir fyrir þúsundir dáið, en við reynum ekki að banna akstur. Í staðreynd, svo kalla að banna akstur væri fáránlegt því akstur gerir marga frábæra hluti. Frekar, samfélag leggur hömlur á sem getur dregið (td þarf að vera á ákveðnum aldri, þarf að hafa staðist ákveðin próf) og hvernig þeir geta aka (td undir hámarkshraða). Samfélagið hefur einnig fólk falið að framfylgja þessum reglum (td lögreglu), og við refsa fólki sem eru gripin brjóta gegn þeim. Þessi sams konar jafnvægi hugsun að samfélagið eigi að stjórna akstur er einnig hægt að beita til gagnamiðlun. Það er, frekar en að gera Absolutist rök fyrir eða gegn miðlun gagna, held ég stærsta ávinning mun koma frá vangaveltur út hvernig við getum deilt fleiri gögn á öruggari hátt.

Að lokum, upplýsinga hættan hefur aukist verulega, og það er mjög erfitt að spá og mæla. Því er best að gera ráð fyrir að öll gögn er hugsanlega að bera kennsl og hugsanlega viðkvæm. Til að draga upplýsingagildi hættuna á meðan að gera rannsóknir, vísindamenn geta búið og fylgja gagnavernd áætlun. Ennfremur upplýsinga áhætta kemur ekki í veg vísindamenn deila gögnum með öðrum vísindamönnum.