2.3.2.2 Inaccessible

Data wat deur besighede en regerings is moeilik vir navorsers om toegang te verkry.

In Mei 2014, die Amerikaanse Nasionale Veiligheidsraad Agenda geopen en 'n data-sentrum in landelike Utah dat 'n ongemaklike naam, die intelligensie gemeenskap omvattende nasionale cyber Initiative Data Center. Tog is hierdie data sentrum, wat gekom het bekend staan ​​as die Utah Data Center aan, na berig verstommende vermoëns het. Een verslag beweer dat die Utah Data Center in staat is om op te slaan en te verwerk alle vorme van kommunikasie, insluitend "die volledige inhoud van private e-pos, selfoon oproepe en Google-soektogte, sowel as alle vorme van persoonlike data paaie-parkering kwitansies, reis roetes , boekwinkel aankope, en ander digitale `sak rommel" (Bamford 2012) . Benewens die verhoging van kommer oor die sensitiewe aard van baie van die inligting vasgevang word in groot data, wat meer hieronder sal beskryf word, die Utah Data Center is 'n uiterste voorbeeld van 'n ryk data bron wat ontoeganklik vir navorsers. Meer in die algemeen, baie bronne van groot data wat nuttig sou wees om navorsers beheer en beperk deur regerings (bv, belasting data en opvoedkundige data) en maatskappye (bv navrae aan enjins en telefoonoproep meta-data soek). Daarom sal hierdie inligting nie onmiddellik beskikbaar vir navorsers aan universiteite te wees, en die meeste sal nie eens beskikbaar vir navorsers in die regerings of maatskappye.

In my ervaring, baie navorsers gebaseer op universiteite misverstaan ​​die bron van hierdie ontoeganklikheid. Hierdie data is nie ontoeganklik omdat mense by maatskappye en regerings is dom, lui, of ongevoelig. Inteendeel, daar is ernstige wetlike, tegniese, besigheid, en etiese hindernisse wat toegang tot die inligting te voorkom. Byvoorbeeld, sommige terme van die diens ooreenkomste vir webwerwe toelaat net data wat gebruik word deur werknemers of om die diens te verbeter. So sekere vorme van data deel kan maatskappye bloot te stel aan wettige regsgedinge van kliënte. Daar is ook beduidende sake- risiko's vir maatskappye wat betrokke is in die deel van data. Probeer om te dink hoe die publiek sou reageer as persoonlike soek data per ongeluk uitgelek van Google as deel van 'n universiteit navorsingsprojek. So 'n data oortreding, as uiterste, kan selfs 'n eksistensiële risiko vir die maatskappy wees. So Google-en die meeste groot maatskappye-is baie risiko-sku oor die deel van data met navorsers.

Trouens, byna almal wat in 'n posisie om toegang tot groot bedrae voorsien van data ken die verhaal van Abdur Chowdhury. In 2006, toe hy die hoof van AOL navorsing was, het hy doelbewus vrygestel wat hy gedink het anoniem navrae van 650,000 AOL gebruikers op die navorsing gemeenskap. Sover ek kan sê, Chowdhury en die navorsers by AOL het goeie bedoelings en hulle gedink het dat hulle die data het anoniem. Maar, was hulle verkeerd. Dit is vinnig ontdek dat die data was nie so anoniem as die navorsers gedink, en verslaggewers van die New York Times in staat was om mense te identifiseer in die datastel met gemak (Barbaro and Zeller Jr 2006) . Sodra hierdie probleme ontdek, Chowdhury verwyder die data van webwerf AOL se nie, maar dit was te laat. Die data is gepos op ander webwerwe, en dit sal waarskynlik nog beskikbaar wees wanneer jy lees van hierdie boek. As gevolg van sy poging om data met die navorsing gemeenskap deel, is Chowdhury afgevuur, en AOL se hoof-tegnologie beampte bedank (Hafner 2006) . Soos hierdie voorbeeld toon, die voordele vir spesifieke individue binnekant van maatskappye om toegang tot die inligting te fasiliteer is redelik klein en die ergste scenario is verskriklik.

Navorsing kan egter verkry toegang tot data wat ontoeganklik vir die algemene publiek. Regerings het prosedures wat navorsers kan volg om aansoek te doen vir toegang, en as die voorbeelde later in hierdie hoofstuk show, kan navorsers soms toegang tot korporatiewe data te verkry. Byvoorbeeld, Einav et al. (2015) 'n vennootskap met 'n navorser by eBay om die digitale spore studeer van aanlyn-veiling. Ek sal meer oor die navorsing wat uit hierdie samewerking later in die hoofstuk (Afdeling 2.4.3.2) kom praat, maar ek noem dit nou, want dit het al vier die bestanddele wat ek sien in suksesvolle vennootskappe: navorser belang, navorser vermoë, maatskappy belang, en vermoë maatskappy. Met ander woorde, Einav en kollegas was geïnteresseerd in en in staat is om die bestudering van aanlyn-veiling. En eBay was ook. Maar ek het gesien baie moontlike samewerking misluk omdat óf die navorser of maatskappy het 'n tekort een van hierdie bestanddele.

Selfs as jy in staat is om 'n vennootskap te ontwikkel met 'n besigheid, maar is, is daar 'n paar nadele vir jou. Eerstens, die vrae wat jy kan vra met die data met waarskynlik beperk word; maatskappye is onwaarskynlik dat navorsing wat kon wawyd slegte toelaat. Tweedens, sal jy waarskynlik nie in staat wees om jou data te deel met ander navorsers, wat beteken dat ander navorsers nie in staat sal wees om te verifieer en uit te brei jou resultate. Verder kan hierdie vennootskappe ten minste die voorkoms van 'n botsing van belange, waar mense dink dat jou resultate is beïnvloed deur jou vennootskappe te skep. Al hierdie nadele aangespreek kan word, maar dit is belangrik om duidelik te wees dat die werk met data wat nie vir almal toeganklik moes beide upsides en nadele.

Om op te som, baie groot data is ontoeganklik vir navorsers. Daar is ernstige wetlike, tegniese, besigheid, en etiese hindernisse wat toegang tot die inligting te voorkom, en hierdie hindernisse sal nie weggaan nie. Nasionale regerings oor die algemeen prosedures vir die aanstuur van toegang data gestig, maar die proses kan wees meer ad hoc by die staats-en plaaslike vlakke. Ook, in sommige gevalle, navorsers kan saam met maatskappye om toegang tot die inligting te bekom, maar dit kan 'n verskeidenheid van probleme vir navorsers te skep.