2.3.2.2 otillgängliga

Data som innehas av företag och myndigheter är svårt för forskare att få tillgång till.

I maj 2014 öppnade amerikanska National Security Agenda ett datacenter på landsbygden Utah som har en besvärlig namn, underrättelsetjänsten omfattande nationella cybersäkerhet Initiative Data Center. Emellertid är detta datacenter, som har kommit att kallas Utah Data Center, rapporteras ha häpnadsväckande kapacitet. En rapport hävdar att Utah Data Center kan lagra och bearbeta alla former av kommunikation, inklusive "hela innehållet i privata e-post, mobiltelefon samtal, och Google-sökningar, liksom alla typer av personuppgifter spår-parkeringskvitton, resplaner , bokhandel inköp och andra digitala `ficka kull" " (Bamford 2012) . Förutom de höja oro den känsliga naturen hos en stor del av den information som fångas i stora uppgifter, som kommer att beskrivas närmare nedan, är Utah Data Center ett extremt exempel på en rik datakälla som är oåtkomlig för forskare. Mer allmänt många källor till stora uppgifter som skulle vara till nytta för forskare styrs och begränsas av regeringar (t.ex. uppgifter skatte och utbildningsdata) och företag (t.ex. förfrågningar till sökmotorer och telefonsamtal meta-data). Därför kommer dessa uppgifter inte vara omedelbart tillgängliga för forskare vid universitet, och de flesta kommer inte ens vara tillgängliga för forskare inom regeringar eller företag.

Enligt min erfarenhet, många forskare vid universitet missförstår källan till denna otillgänglighet. Dessa uppgifter är inte otillgängliga på grund av personer på företag och regeringar är dumma, lata, eller likgiltig. Snarare finns det allvarliga juridiska, tekniska, kommersiella och etiska hinder som hindrar dataåtkomst. Till exempel, vissa villkor från tjänsten avtal för webbplatser kan endast data som ska användas av de anställda eller för att förbättra servicen. Så vissa former av datadelning kan utsätta företag för legitima stämningar från kunder. Det finns också stora affärsrisker för företag som sysslar med att dela data. Försök att föreställa sig hur allmänheten skulle reagera om person sökdata misstag läckt ut från Google som en del av ett universitet forskningsprojekt. Sådan dataintrång, om extrem, kan även vara en existentiell risk för bolaget. Så Google och de flesta stora företag-är mycket riskobenägna om att dela data med forskare.

I själva verket, att nästan alla som är i stånd att ge tillgång till stora mängder data känner historien om Abdur Chowdhury. År 2006, när han var chef för AOL forskning, han avsiktligt släppt vad han trodde var anonyma sökfrågor från 650.000 AOL-användare till forskarsamhället. Såvitt jag kan berätta, Chowdhury och forskare vid AOL hade goda avsikter och de trodde att de hade anonyma data. Men de var fel. Det var snabbt upptäckte att uppgifterna inte var så anonym som forskarna trott, och reportrar från New York Times kunde identifiera personer i datamängden med lätthet (Barbaro and Zeller Jr 2006) . När dessa problem upptäcktes, Chowdhury bort data från AOL: s webbplats, men det var för sent. Uppgifterna hade reposted på andra webbplatser, och det kommer förmodligen fortfarande att vara tillgängliga när du läser den här boken. På grund av hans försök att dela data med forskarsamhället, var Chowdhury sparken, och AOL: s teknikchef avgick (Hafner 2006) . Som detta exempel visar fördelarna för enskilda individer i företag för att underlätta tillgång till data är ganska små och det värsta scenariot är fruktansvärt.

Forskning kan dock få tillgång till data som är otillgängliga för allmänheten. Regeringarna har rutiner som forskarna kan följa för att ansöka om tillgång, och som exemplen senare i detta kapitel visar, kan forskarna ibland få tillgång till företagsdata. Exempelvis Einav et al. (2015) samarbetar med forskare vid eBay för att studera de digitala spår från online-auktioner. Jag ska prata mer om den forskning som kom från detta samarbete senare i kapitlet (avsnitt 2.4.3.2), men jag nämner det nu eftersom det hade alla fyra av de ingredienser som jag ser i framgångsrika partnerskap: forskare intresse, forskare kapacitet, företaget intresse, och företagets förmåga. Med andra ord, Einav och kollegor var intresserade av och i stånd att studera online-auktioner. Och, eBay var också. Men jag har sett många möjliga samarbete misslyckas eftersom antingen forskaren eller företaget saknade en av dessa ingredienser.

Även om du har möjlighet att utveckla ett partnerskap med ett företag, men det finns vissa nackdelar för dig. Först, de frågor som du kan be med data med sannolikt begränsas; företag är osannolikt att tillåta forskning som kan få dem att se dåliga. För det andra, kommer du antagligen inte att kunna dela data med andra forskare, vilket innebär att andra forskare inte kommer att kunna kontrollera och förlänga dina resultat. Vidare kan dessa partnerskap skapa åtminstone intryck av en intressekonflikt, där folk kanske tror att resultaten påverkades av dina partnerskap. Alla dessa nackdelar kan lösas, men det är viktigt att vara tydlig att arbeta med data som inte är tillgänglig för alla hade både upsides och nackdelar.

Sammanfattningsvis är oåtkomlig för forskare massor av stora datamängder. Det finns allvarliga juridiska, tekniska, kommersiella och etiska hinder som hindrar dataåtkomst, och dessa hinder kommer inte att försvinna. Nationella regeringar i allmänhet har etablerat rutiner för att möjliggöra tillgång till data, men processen kan vara mer ad hoc på delstatlig och lokal nivå. I vissa fall, forskare kan samarbeta med företag för att få tillgång till data, men detta kan skapa en mängd problem för forskare.