6.6.2 Fêmkirin û serî rîska lêgerok

Rîskêşiya rîsk di rêjeya lêkolînê de herî rîsk e. ev dramatîk zêde bûye; û ev rîsk e ku fêm bikin.

Pirsgirêka etîkî ya ji bo lêkolîna dîjîtal-temenê rîskek agahdar e , potansiyona ji ber belavkirina agahdariya (National Research Council 2014) . Zehmetiyên agahdariya ji ber agahdariya agahdariya kesane dibe aborî (wek mînak, karê wenda), civakî (wek mînak, şermezar), psîkolojîk (wek mînak, depression), an jî heta sûcdar (wek mînak, ji bo riya negligî). Mixabin, temenê dîjîtal rîska rîska agahdariyê bi dramatîk zêde dike-hêj agahdariya derbarê behsa me de bêtir e. Risk û agahdariya zehmet zehmet e ku hûn fam bikin û bi rîskên bi rîskên birêvebirin ku fikarên di lêkolînek civakî yên civakî de, wekî rîska fîzîkî.

One bi awayekî ku lêkolînerên civakî kêm rîska lêgerok "anonymization" yên welat e. "Anonymization" pêvajoya rakirin identifiers şexsî zelal yên wek nav, navnîşan û hejmara telefona ji welat e. Lê belê, ev nêzîkatiya gelek kêm bi bandor ji gelek kesên nizanî e, û ev e, di rastiyê de, ji kûr ve û di bingeha xwe de bi sînor. Ji ber vê yekê, dema ku ez terîf "anonymization," ez ê deşîfre bi kar bînim bîra we ku vê pêvajoyê dîtinê yên bêy ku lê ne nenasiya rast diafirîne.

Mînakek nerazîbûna ku "anonymous" tête ji salên 1990-ê di Massachusetts (Sweeney 2002) . Komîsyona Sîgorteya Giştî (GIC) bû ku berpirsiyariya sîgorteyê ji bo karmendên dewletê yên berpirsyariyê berpirsiyariyek hikûmetê bû. Di vê xebatê de, GIC di derbarê hezaran karmendên dewletê de raportên tenduristî dane berhev kirin. Di hewldana lêkolînê de, GIC biryar da ku ev raportên bi lêkolînvanan azad bikin. Lêbelê, wan daneyên wan danûstandin; Ji ber vê yekê, ew "danûstandin" ev agahdarî bi agahdariya navên navnîşan û navnîşan. Lêbelê, ew agahiyên din ên ku fikirîn ji bo lêkolînerên demografîk (zip, zengîbûnê, nijadî, û cinsî) û agahdariya doktor (serdema danûstendinê, pêvajoyê, pêvajoya dakêşandinê), (6.6 nifşê) (Ohm 2010) ji bo lêkolîner dikarin bikêr bibin. Mixabin, ev "nenaskirin" tengahî ne ku ji bo parastina daneyên xwe.

Pirtûka 6.4: Anonymous ku pêvajoya hilweşandina agahdariya zelal eşkere ye. Ji bo nimûne, dema ku raporên sîgorteyê yên karmendên dewletê yên, Komîsyona Sîgorteya Girtîgeha Massachusetts (GIC) navên veguhestin û pelan ji navnîşan veguhestin. Ez di çarçoveya nenaskirinê de navnîşên nirxandina nameyan bikar bînin, çimkî pêvajoyek neyînî ya nenasiyê dide lê ne navê rastîn.

Pirtûka 6.4: "Anonymouskirin" ev pêvajoya veguhestina agahdariya nasnameyê ye. Ji bo nimûne, dema ku raporên sîgorteyê yên karmendên dewletê yên, Komîsyona Sîgorteya Girtîgeha Massachusetts (GIC) navên veguhestin û pelan ji navnîşan veguhestin. Ez li ser derveyî peyvên "anonymouskirinê" bişkojk bikar tîne ji ber ku ev pêvajoya navekî neyînî ye lê ne navê nasnameyê.

Ji bo ku kêmbûna kêmbûna GIC "anonymous", xwendekarek lîberanya Sweeney-ê li MIT-20 salî kir ku ji belgeyên dengdanê ji bajarê City of Cambridge, bajarê bajarê Massachusettsê William Weld destnîşan kir. Di navnîşên dengdana van dengan de agahdarî, wekî navnîşan, navnîşan, zip, zayendbûnê, û zayend hene. Di rastiyê de ku dokumenta doktor û pelê doktorê qadên zip-zip, roja, zayendî û zayendî re hevpar kiribû ku Sweeney dikare wan pêwendî bikin. Sweeneyê dizanin ku salbûna Weld di 31ê Tîrmeha 1945ê de bû û di navnîşan de dengên dengdanê tenê şeş ​​kes li Cambridge di wê salê de hebûn. Ji bilî wan ji şeş kesan, tenê sê sê mêr bûn. Û ji van sê mêr, tenê yek yek ji kodê Weld-yê. Ji ber vê yekê, daneyên dengdana dengdanê nîşanî ku kesek di daneyên doktorî yên Weldê de, roja jidayikbûnê, cinsî û kodê zip, William Weld bû. Di nimûne, ev sê parçeyên agahdariyê li ser daneyên xwe yên firotanê ya yekgirtî pêşkêş kir. Bikaranîna vê rastiyê, Sweeney bi karûbarên dermanên Weld peyda dike, û, ji wî re agahdariya xwe agahdar bike, ew jê re kopiyên wî (Ohm 2010) .

Figure 6.5: Re-idenification of data anonymized. Latanya Sweeney di navnîşên tenduristiyê de navnîşên tenduristî yên bi dengê dengdana dengdanê re hevdîtin da ku ji bo rapora dokumentên doktorê William William Weld di nav Sweeney (2002) de, ji hêla dîtina dermanan ve tête girtin.

Pirtûka 6.5: Danûstandinê ya "anonymized" re. Latanya Sweeney di raportên tenduristiyê de "anonymized" re hevdîtin bi danûstendina dengdana hilbijartinê ji bo dîtina belgeyên wîlayetê William William Weld ji Sweeney (2002) , 1.

Karê Sweeneyê karûbarên bingehîn ên êrîşên re-nasnameyê nîşan dide - -Wê ji civakê ewlekariya komputerê bigire. Di van êrîşan de, dane du dane, ne ji aliyê xwe ve agahdariyên hestyarî nîşan dide, girêdayî ye, û bi vê pêwendî re, pêwendî agahdariya hesas e.

Di bersivê de karên Sweeney, û karên din ên têkildarî, lêkolîneran bi gelemperî gelemperî zêdetir agahdarî (Narayanan and Shmatikov 2010) -her tişt bi navê "kesayetiyê naskirina agahdariyê" (PII) (Narayanan and Shmatikov 2010) pêvajoya "anonymouskirinê". Her weha, gelek lêkolînerên Niha em dizanin ku daneyên hin-hûrguman, qeydên derman, bersiva pirsên li ser riya neqanûnî bersiv dikin. - Heke ji hêla "anonymous" vebibe. guhertina xwe. Wekî gava yekem yekem, ev e ku hişyar e ku hemî agahiyên potansiyonê nasnameyek in û hemî agahiyên potansiyonek gumanbar e . Di heman demê de, ji bilî rîska rîska riya agahdariyê bi piçûkek projeyên piçûk kêm dibe, divê em dipejirînin ku ew e-hinek dersan-hemî projeyên din.

Her du alozên vê reorientation ji aliyê Netflix ve têne diyar kirin. Wekî ku di beşa 5ê de tê de got, Netflix ji sedî 500,000 endamên damezirandin, ji 100 milyon fîlmên serbixwe derxistin, û bangek vekirî bû ku mirov ji tevahiya cîhanê algorîtmên radest kirin ku dikare ji bo fîlmên pêşniyar bikin Netflix-hêza çêtir bikin. Berî berî daneyên danûstandin, Netflix agahdariyên kesane bi kesayetiyê nasnameyek jê veşartî, wekî navên. Ew jî pêngavek zêde bû û di hin hûrgulên hûrgelan de (nimûne, ji çend stêrên ji 4 stêr û 3 stêr veguherandin) guhertin. Wan zû zehf dîtin, lêbelê, tevî hewldanên wan, daneyên hê jî ne bi navê nenas bûn.

Heta du hefteyan piştî daneyên serbest hat berdan, Arvind Narayanan û Vitaly Shmatikov (2008) diyar kir ku ew gengaz e ku ji bo pêşbaziyên fîlmên taybet ên fêr bibin fêr bibe. Di encama êrîşa xwe ya re-nasnameyê de wekhevî wek Sweeney bû: bi hevdu du agahdarî agahdariyê hevgirtin, yek ji agahdariyên hestî bi zûtir û agahdariya nasnameyê û yek e ku di nav nasnameyên mirov de. Her yek ji çavkaniyên van danûstendin dikarin bi awayek ewle ewle bin, lê gava ku ew hevbeş têne, dataset mergal dikare rîska agahdariyê çêbikin. Di rewşê de daneyên Netflix, li vir çawa dibe. Bawer bikim ku ez ji bo fikrên çalakiyê û fîlmên bi hevalên xwe re bi hevalên xwe re bifikirim, lê ez ji xwe hez nabe ku fîlmên fîlm û olî yên fîlmên xwe bifikirim. Hevkarên min Min dikarin agahdariya ku ez bi wan re parve kirine bikar bînin ku ji bo daneyên xwe di Netflix de bibînin; Agahiyên ku ez parve dikim dikarim dikarim rojnameyê ya yekem be, wek roja, zip û zayendî, wekî William Weld. Hingê, heger ew ew di tîpa xwe ya yekem de dît, ew dikarin li ser hemî fîlmên rêjeyên xwe fêr bibin, tevlî fîlmên ku ez ne hilbijartin. Ji bilî êrîşê vî rengî li ser yek yek kesek berbiçav kir, Narayanan û Shmatikov jî diyar kir ku ew êrişek berfirehtir çêbû, ku bi gelek kesan ve girêdayî ye-bi daneyên Netflix bi daneyên daneyên şexsî û filmê ku hin kesan bijartin pêk anîn. Dîteya Derhênerê Înternetê (IMDb) bişînin. Tiştek hêsan, her agahdariyek ku fingerek yekem e ku kesek taybetî ye-her weha her seta fîlmên danûstandinan-dikare bikaribin wan nas bikin.

Tevî ku Daneyên Netflix dikare di nav êrîşek hedef û anfireh de bêne naskirin, ew jî hîn dibe ku rîsk kêm be. Piştî ku, fîlmên rêjeya gelekî hesas nakin. Dibe ku ev dibe ku di gelemperî de 500,000 kesan di dataset de, dibe ku fîlmên dane dikarin pir hesas bibin. Di rastiyê de, bi bersiva re-nasnameyê, jineke nêzîkkirî ya jinên ku li dijî Netflix-klîk-çalakiyek tevlî bûne. Va ye ku di pirsgirêka wan de di pirsgirêka wan de hate diyarkirin (Singel 2009) :

"[M] ovie û rêjeya danûstandinê agahdariyên pisporî ye ... xwezayî ya kesane û hestiyar. Daneyên fîlmanê endamê Netflix ji berjewendiya şexsî dike û / yan pirsgirêkên cinsî, nexweşiya derûnî, ji alkolê veguhastin, û qurbaniyê, şîdeta fîzîkî, tundûtûjiya navxweyî, zilamê û tecrûbeyê têkoşîna têkoşînê dike. "

Dîsa re-nasnameya Netflix Xelata duyan eşkere dike ku hemî agahiyên potansiyonê bi derheqê nasnameyê ye û hemî agahiyên potansiyonek gumanbar e. Di vê yekê de, hûn dikarin bifikirin ku ev tenê di daneyên danûstendinê de tête kirin ku li ser mirovên xwe veguherînin. Pirrjimar, ew ne rewşê ye. Di bersiva ku ji bo Azadiya Zagona Agahiyê ya Agahdariyê daxuyaniyek, Hikûmetê ya New York-raporta ku di 2013'an de li New York di her yekî taxi de, serbixwîne û demên dorpêç, cihan û dravan derxistin (ji 2'emîn beşa Farber (2015) daneyên heman rengî bikar anîn ku ji hêla aboriyên girîng ve di warê ekonomîk de). Ev daneyên der barê rêwîtiyên taxi dibe ku ji wan re nabînin, ji ber ku hûn agahdariya mirov pêşkêş dikin, lê Anthony Tockar fêm kir ku ev dataset ev teknat rastî rastî agahdariyên hestiyarî li gel mirov. Ji bo ku nîşan didin, ew li seranserê ku di dema Hustler-Clubê de li New York-li şevê û şevê şeş ​​û 6 mîlyonek mezin bû, ew li ser hemû rêwiyan dîtin. Ev lêgerîna eşkere-eşkere-lîsteya navnîşên hinek kesan ku di klûbê Hustler (Tockar 2014) . Ew zehmet e ku bifikirin ku hikûmetê ev di hişê xwe de dema ku ew daneyên serbest berdan. Di rastiyê de, ev teknîkî jî bikar anîn ku ji bo navnîşanên malê yên ku li her bajar-klînîkek derman, avahiyek hikûmetê, an sazgeheke olî ne.

Ev du bûyerên Xelata Netflix û daktorên taxa New Yorkê nîşan dide ku mirovên ku bi rêjeya pispor di rastiyê de rast nirxandina nirxandina agahdariya ku di berdêla wan de serbixwe nirxandin-û ev rewş ne bi awayekî bêkêmasî (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Wekî din, di gelek rewşan de, daneyên pirsgirêkên pirsgirêk hê jî serbixwe online, ew nîşan dide ku her tengahiyê her tim ji nû ve veguhestina daneyên danûstandinan. Bi tevahî, ev nimûneyên-û herweha lêkolînek di zanistiya computerê de serîberiya taybetmendiyê-encama girîng a girîng. Lêkolîner divê bifikirin ku hemî agahiyên potansiyonê bi destnîşankirinê têne naskirin û hemî agahdarên potansiyonek zehf e.

Mixabin, ji bo rastiyên çareseriyê ne hêsan e ku ew hemî agahdar bi potansiyonek nasnav e û hemî daneyên ku bi awayekî guman re guman e. Lê belê, yek awayî ku hûn digel danûstendinê kar dikin dema rîska agahdariyê kêm bikin ku planek parastina danûstandinan biafirîne û bişopînin. Ev plana wê derfetê kêm bike ku danûstendina we diqewime û wê heger dibe ku heqek lexek tiştek pêk tê. Nîşandana taybetmendiyên danûstandinên danûstendina daneyên parastinê, wekî ku forma şîfrekirinê bikar bîne, wê di demekê de guhertin, lê Xizmetên Daneyên Dewleta Yekbûyî bi destûra bingehîn ya plana parastina daneyên pênc kategoriyan pêk tê dike ku ew pênc safes dibêjin : projeyên ewle , pergalên ewle, daneyên ewleh, û hilberên ewle (table 6) (Desai, Ritchie, and Welpton 2016) . Yek ji pênc safesan yekane parastina bêkêmasî pêşkêş dikin. Lê belê hevpeymanên wan hêzek xurt hêzek mezin dibe ku dikare rîska agahdariyê kêm bikin.

Table 6.2: "Paqijên Paqijan" Pîvanên Paqijkirin û Pîlana Parastina Parastina Dane (Desai, Ritchie, and Welpton 2016)
Emîn Çalakî
Projeyên ewle hene Bi projeyên rêjeyên bi daneyên wan ên ku ethîkî ne
Mirovên ewle Access ji bo mirovên ku dikarin bi danûstendiyên bi ewlehiyê ve girêdayî ye (nimûne, mirovên ku perwerdehiya etnîkî veguherînin)
Daneyên ewlehiyê Agahdariyê heta ku heta heqê mimkun bi zûtirîn naskirî ye
Pergalên ewle Daneyên di komputerên ku bi fîzîkî rewa (wek mînak, odeya girtîgehê) û nivîsbariyê (mînak, parastina şîfreya şîfre, şîfreyek) parastin têne tomar kirin
Hilberîna ewle Derheqê lêkolînê tête kirin ku ji bo pêşniyarên nepenî yên nepenî ve têne kirin

Ji bilî parastina daneyên we dema ku hûn bi wan re tê bikaranîn, di pêngavê de di pêvajoya lêkolînê de, ku rîskek agahdariyê bi taybetmendî vekirî ye, digel danûstandinên din bi lêkolînerên din. Daneyên danûstendinê di nav zanistên zanistî de nirxek bingehîn e ku hewldana zanistî ye, û ev pêşveçûna pêşveçûna zanistî hêsan dike. Li vir e ku meriv çawa House House-yê girîng girîngiya danûstandina danûstandinê (Molloy 2011) :

"Daneyên danûstandinê bingehîn e ku heger lêkolîner in ku veguhestin, piştrastkirin û çêkirina encamên ku di nav wêjeyê de hatine ragihandin. Divê guman divê be, eger sedema sedemek bihêzî ye, dane divê bişkojk vekirî û bi gelemperî vekirî be. "

Lêbelê, bi danûstendina we bi lêkolînek din yê din ve dibe, dibe ku hûn dikarin beşdarên agahdariya rîsk zêde bikin. Ji ber vê yekê, dibe ku dibe ku dabeşkirina danûstendinê di navbera tawanbariya bingehîn de agahdariya din ên din zanist û berpirsiyariya ku ji bo beşdarên agahdariya agahdariyê kêmtirîn kêm bike. Bi kêfxweşiyê, vê dijwar wekî ku ew xuya ye dijwar e. Bêguman, ew e ku ji bo danûstandina danûstendinê de di derbarê berdewamkirina belavkirina danûstendinê de baştirîn e, bi her awayî vê berdewamî berdewamkirina tevlîheviya cûda ji bo civakê û rîsk ji bo beşdaran (6.6).

Li yek yekem, hûn nikarin daneyên xwe bi kesek neynin, ku rîsk ji bo beşdarên rêjîmê kêm dike lê belê jî destkeftên ji bo civakê kêm bike. Di navgîniya din de, hûn dikarin azad bikin û bîr bikin , ku derê daneyên "anonymous" têne û ji bo her kesî barkirin. Têkilî ji bo belavkirina danûstandinan, berdevan û bîr nekin herdu sûdên civakê û rîska bilindtir ji beşdaran. Di nav rewşên du tundî deverek hûrgel hene, lê ez çi bikim ku ez ê nêzîkî nêzîkî baxçê baxçê re dibêjim. Di vê helwestê de, daneyên ku bi hin pîvanan re hevdîtin pêk têne û danûstandinên ku ji hêla hinek qanûnan ve girêdayî ye (daketin, çavdêriya ji IRB û planek parastina datemayê) tête dan. Bêguman baxçeyê gelek gelek fonksiyona azadiyê pêşkêş dikin û bi rîsk kêmtir bîr dikin. Bê guman, ev nêzikatiyek pir pirsan dike-kî ku gihîşt, rewşên ku di kîjan mercan de, û ji bo demek dirêj ve, divê ji bo parastina û baxçeyê baxçeyê berbiçav. Di rastiyê de, berî li baxçeyên dîwarî hene ku li ku niha lêkolîner dikarin bikaribin bikar bînin, wek danûstandinên Inter-University Consortium ji bo lêkolînê ya Siyasî û Civakî ya Zanîngeha Michigan.

6.6 Dîtin: Stratejiyên danûstandinan bi hev re berdewam dibin. Li ku hûn li ser vê berdewam bibin, li ser daneyên taybet ên girêdayî agahdariyê girêdayî ye, û nirxandina sêyemîn-ê dibe ku hûn di rewşê te de bisekinîna rîskek maqûl û qezenc bikin. Çeraveka rastîn ya vî rengî li ser taybetmendiyên daneyên û armancên lêkolînê (2015ê Goroff) girêdayî ye.

6.6 Dîtin: Stratejiyên danûstandinan bi hev re berdewam dibin. Li ku hûn li ser vê berdewam bibin, li ser daneyên taybet ên girêdayî agahdariyê girêdayî ye, û nirxandina sêyemîn-ê dibe ku hûn di rewşê te de bisekinîna rîskek maqûl û qezenc bikin. Çeraveka rastîn ya vî rengî li ser taybetmendiyên daneyên û armancên lêkolînê (Goroff 2015) .

Ji ber vê yekê, ku divê dane ji lêkolînê ji we re berdewam dike, ne parvekirin, parçe baxçeyê, û azad bike û bîr bike? Ev agahdarî li ser daneyên xwe yên danûstendinê ye: Lêkolînerên Divê Ji bo Kesên Berbiçav, Berbiçav, Dadwerî, û Hiqûqî ji bo Qanûna Bingehî û Gelek Berbi Qedî. Ji vê perspektîfê ve tê dîtin, daneyên danûstandinê ne pisekek etîkî ye; Ew tenê yek ji çend beşên lêkolînê yên ku lêkolînvanan divê hevsengiya rastînek rastîn bibînin.

Hin rexnegiran bi gelemperî berfirehkirina danûstandinên gelemperî têne kirin, ji ber ku ez di ramanê de, ew li ser rîskên xwe li ser rûbirûyan têne nîqaş kirin- yên ku bêbawer eşkere-û nebaweriyên wê nebînin. Ji ber vê yekê, da ku ji bo rîsk û qezencan li ser bala xweşwît bike, ez dixwazim dixwazim analogek pêşkêşî. Her sal, wesayîtan ji bo hezaran mirinan berpirsiyar in, lê em hewl nekin ku rêvebirinê qedexe bikin. Di rastiyê de, bangek bikişandina qedexe dê bêbawer be, lewra rêwîtiyên gelek tiştên ecêb dike. Belê, civakê li ser sînorên cîhanê li ser kîjan rêve dibe (mînak, hewceyê ku temenek hinek hebe û hewceyê hin ceribandin derbas kirin) û çawa ew dikarin dakêşin (mînak, di bin sînoriyê de). Civak jî xwedî kiryarên van rêbazan (mînak, polês) bi kar bîne, û em mirovên ku ji wan re binpê kirin. Bi vî awayî fikirîna hûrgelan ku civaka ku di ajotinê de rêbazkirina rêbazê dikare tê bikaranîn dikare dikare bi danûstandina daneyên danûstandinê were bikaranîn Ji ber vê yekê, ji bila arajên absolutîst ji bo danûstandina daneyên danûstandinê, ez difikirim ku em ê pêşveçûna herî mezin bi xurt dike ku em çawa rîsk kêm bikin û ji ber daneyên danûstandinan zêde bike.

Ji bo encamê, rîska agahdariyê dramatîk zêde bûye, û ew pir tengahî dike ku pêşniyar û pêşniyar bikin. Ji ber vê yekê, baştirîn e ku em gavê hemî danûstandinên potansiyel û bi potansiyonek hestek zehf in. Ji bo rîska agahdariyê di dema lêkolînê de kêm bike, lêkolîner dikarin planek parastina daneyên dakêşin û peyda bikin. Wekî din, rîska agahdariyê ne ji lêkolînerên ji daneyên danûstendên din ên din zanistî nebe.