2.3.2.2 Óaðgengileg

Gögn í eigu fyrirtækja og ríkisstjórna erfitt fyrir vísindamenn til að fá aðgang.

Í maí 2014, the US National Security Dagskrá opnaði gagna í dreifbýli Utah sem hefur óþægilega nafn, Intelligence Community Alhliða National cybersecurity Initiative Data Center. Hins vegar er þetta gagna, sem hefur komið til að vera þekktur sem Utah Data Center, er sagður hafa ótrúlega getu. Ein skýrsla kennir að Utah Data Center er fær um að geyma og vinna allar gerðir samskipta meðal "The Complete innihaldi einkaaðila tölvupósti, klefi símtöl og Google leit, auk alls konar persónuupplýsingum ferlar-bílastæði kvittunum, ferðast ferðaáætlun , bókabúð kaup, og aðrar stafrænar `vasa rusl" (Bamford 2012) . Í viðbót við uppeldi áhyggjur af viðkvæm mikið af upplýsingum tekin í stórum gögnum, sem verður lýst meira hér að neðan, Utah Data Center er sérstakt dæmi um ríkur gögn uppspretta sem er óaðgengilegur vísindamönnum. Almennt, margir uppsprettur stór gögn sem væri gagnlegt að vísindamenn eru stjórnað og takmarkaður af stjórnvöldum (td skatta gögnum og fræðslu gögn) og fyrirtækja (td fyrirspurnir til að leita vél og símtal meta-gögn). Því þessi gögn munu ekki vera til taks til að vísindamenn í háskólum, og flestir vilja ekki einu sinni að vera laus við vísindamenn í ríkisstjórnum eða fyrirtæki.

Í minn reynsla, margir vísindamenn byggt í háskólum misskilja kóða þessarar inaccessibility. Þessi gögn eru ekki náðist vegna þess að fólk á fyrirtækja og ríkisstjórna eru heimskir, latur, eða uncaring. Frekar, það eru alvarleg lagaleg, tækni, viðskipti og siðferðileg hindranir sem koma í veg gögn aðgangur. Til dæmis, sumir terms-of-service samningar fyrir vefsíður leyfa aðeins gögn til að nota við starfsmenn eða til að bæta þjónustuna. Svo ákveðnar tegundir gagnamiðlun gæti fletta ofan fyrirtækjum lögmætra málsókn frá viðskiptavinum. Það eru einnig verulegar hættur viðskiptum til fyrirtækja sem taka þátt í að deila gögnum. Reyndu að ímynda sér hvernig almenningur myndi bregðast ef persónulegar leita gögn óvart lekið út úr Google sem hluta af háskóla rannsóknarverkefni. Slík gögn brot, ef öfgafullt, gæti jafnvel verið existensíalískur áhætta fyrir félagið. Svo Google-og flest stór fyrirtæki-eru mjög áhættu-averse að deila gögnum með vísindamönnum.

Í raun, nánast allir sem er í stöðu til að veita aðgang að miklu magni af gögnum veit söguna af Abdur Chowdhury. Árið 2006, þegar hann var yfirmaður AOL rannsókna, gaf hann viljandi það sem hann hélt voru nafnlausir leitarfyrirspurnir 650.000 AOL notendur til vísindasamfélaginu. Eins langt og ég get sagt, Chowdhury og vísindamenn á AOL hafði góðan ásetning og þeir héldu að þeir hefðu nafnlausir gögn. En, þeir voru rangt. Það var fljótlega uppgötvað að gögn voru ekki eins nafnlaus eins og vísindamenn hugsun, og fréttamenn frá New York Times gátu til að auðkenna fólk í gagnapakkanum með vellíðan (Barbaro and Zeller Jr 2006) . Þegar þessi vandamál fundust, Chowdhury fjarlægt gögn úr vef AOL, en það var of seint. Gögnin höfðu verið endurbirt á öðrum vefsíðum, og það mun sennilega enn vera til staðar þegar þú ert að lesa þessa bók. Vegna tilraun hans til að miðla gögnum með vísindasamfélagsins, Chowdhury var rekinn, og höfðingi AOL tækni liðsforingi af störfum (Hafner 2006) . Þar sem þetta dæmi sýnir, að ávinningurinn fyrir tilteknum einstaklingum innan fyrirtækja til að auðvelda gögn aðgangur er ansi lítið og versta falli er hræðileg.

Rannsóknir geta þó fengið aðgang að gögnum sem er óaðgengilegur almenningi. Stjórnvöld hafa aðferðir sem vísindamenn geta fylgst með til að sækja um aðgang, og eins dæmin síðar í þessum kafla sýna, vísindamenn geta stundum fengið aðgang að sameiginlegur gögn. Til dæmis, Einav et al. (2015) í samstarfi við rannsóknir á eBay til að rannsaka stafræna leifar frá netinu uppboð. Ég tala meira um rannsóknir sem kom frá þessu samstarfi síðar í kaflanum (kafla 2.4.3.2), en ég nefni það nú vegna þess að það hafði allar fjórar af efni sem ég sé í vel samstarf: Sérfræðingur áhuga, fræðimaður getu, fyrirtæki áhuga, og fyrirtæki hæfileiki. Með öðrum orðum, Einav og samstarfsmenn höfðu áhuga á og fær um að læra á netinu uppboð. Og eBay var. Hins vegar hef ég séð marga mögulegt samstarf mistakast vegna þess annaðhvort rannsakandinn eða fyrirtæki skorti eitt af þessum innihaldsefnum.

Jafnvel ef þú ert fær um að þróa samstarf við fyrirtæki, þó, there ert sumir downsides fyrir þig. First, spurningar sem þú getur spurt með gögnin með líklega takmörkuð; fyrirtæki eru ekki líklegar til að leyfa rannsóknir sem hægt er að gera þá líta illa. Í öðru lagi, þú verður líklega ekki vera fær um að deila gögnum með öðrum fræðimönnum, sem þýðir að aðrir vísindamenn vilja ekki vera fær til að staðfesta og lengja niðurstöður. Ennfremur þessar samstarf getur búið amk Útlit hagsmunaárekstur, þar sem fólk gæti haldið að niðurstöðurnar voru undir áhrifum frá samstarfi þínum. Öll þessi downsides má beint, en það er mikilvægt að vera ljóst að vinna með gögn sem er ekki aðgengileg öllum haft bæði upsides og downsides.

Í stuttu máli, hellingur af stór gögn er óaðgengilegur vísindamönnum. Það eru alvarleg löglegur, tækni, viðskipti og siðferðileg hindranir sem koma í veg fyrir gögn aðgangur, og þessar hindranir mun ekki fara í burtu. Ríkisstjórnir yfirleitt hefur sett verklagsreglur um kleift gögn aðgangur, en ferlið getur verið tilfallandi á ríki og sveitarfélögum. Einnig, í sumum tilvikum, vísindamenn geta í samstarfi við fyrirtæki til að fá gögn aðgangur, en þetta getur skapað ýmis vandamál fyrir vísindamenn.