2.3.1 Stor

Stora datamängder är ett medel till ett slut; de är inte ett mål i sig.

Den mest diskuterade egenskapen hos stora datakällor är att de är stora. Många papper börjar till exempel genom att diskutera och ibland skryta om hur mycket data de analyserade. Ett papper som publicerades i vetenskapliga studier av användningsutveckling i Google Books corpus inkluderade till exempel följande (Michel et al. 2011) :

"Vårt corpus innehåller över 500 miljarder ord, på engelska (361 miljarder), franska (45 miljarder), spanska (45 miljarder), tyska (37 miljarder), kinesiska (13 miljarder), ryska (35 miljarder) och hebreiska (2 miljarder). De äldsta verken publicerades på 1500-talet. De tidiga årtiondena representeras av endast några böcker per år och omfattar flera hundra tusen ord. Vid 1800 växer corpus till 98 miljoner ord per år; vid 1900, 1,8 miljarder; och vid år 2000, 11 miljarder. Korpuset kan inte läsas av en människa. Om du försökte läsa endast engelspråkiga poster från år 2000 ensam, med rimlig takt på 200 ord / min, utan avbrott för mat eller sömn, skulle det ta 80 år. Bokstäverna är 1000 gånger längre än det mänskliga genomet: Om du skrev ut det i en rak linje skulle den nå till månen och tillbaka 10 gånger över. "

Skalan av dessa data är otvivelaktigt imponerande, och vi är alla turna att Google Boks-laget har släppt dessa data till allmänheten (faktiskt använder vissa av aktiviteterna i slutet av detta kapitel användningen av denna data). Men när du ser något så här borde du fråga: är det att alla data verkligen gör någonting? Kunde de ha gjort samma forskning om data kunde nå till månen och tillbaka bara en gång? Vad händer om uppgifterna bara kan nå toppen av Mount Everest eller toppen av Eiffeltornet?

I det här fallet har deras forskning faktiskt några fynd som kräver en stor korpus av ord under en lång period. En sak de utforskar är exempelvis utvecklingen av grammatik, särskilt förändringar i graden av oregelbunden verbkonjugering. Eftersom vissa oregelbundna verb är ganska sällsynta måste en stor mängd data upptäcka förändringar över tiden. Alltför ofta verkar forskare kunna behandla storleken på den stora datakällan som ett slut - "se hur mycket data jag kan krossa" -rather än ett medel till något viktigare vetenskapligt mål.

Enligt min erfarenhet är studien av sällsynta händelser en av de tre specifika vetenskapliga ändamål som stora dataset tenderar att möjliggöra. Den andra är studien av heterogenitet, vilket kan illustreras av en studie av Raj Chetty och kollegor (2014) om social rörlighet i USA. Tidigare har många forskare studerat social rörlighet genom att jämföra livsresultaten från föräldrar och barn. Ett konsekvent resultat från denna litteratur är att fördelade föräldrar tenderar att ha förmånliga barn, men styrkan i detta förhållande varierar över tid och över länder (Hout and DiPrete 2006) . Mer nyligen har dock Chetty och kollegor använt skatteposterna från 40 miljoner människor för att uppskatta heterogeniteten i generationer mellan generationer i regioner i USA (figur 2.1). De fann till exempel att sannolikheten för att ett barn når den högsta kvintilen av den nationella inkomstfördelningen från en familj i bottenkvintilen är ca 13% i San Jose, Kalifornien, men endast ca 4% i Charlotte, North Carolina. Om du tittar på figur 2.1 för en stund kanske du börjar undra varför rörlighet mellan generationerna är högre på vissa ställen än andra. Chetty och kollegor hade exakt samma fråga, och de fann att de rörliga områdena har mindre bostads segregering, mindre inkomstinkomst, bättre grundskolor, större social kapital och större familjestabilitet. Naturligtvis visar dessa korrelationer inte ens att dessa faktorer medför högre rörlighet, men de föreslår möjliga mekanismer som kan undersökas i ytterligare arbete, vilket är precis vad Chetty och kollegor har gjort i efterföljande arbete. Lägg märke till hur storleksanpassningen av data var väldigt viktig i detta projekt. Om Chetty och kollegor hade använt skattposter på 40 000 personer i stället för 40 miljoner skulle de inte ha kunnat uppskatta regional heterogenitet och de skulle aldrig ha kunnat göra efterföljande forskning för att försöka identifiera mekanismerna som skapar denna variation.

Figur 2.1: Uppskattningar av ett barns chanser att nå de högsta 20% av inkomstfördelningen som ges föräldrar i botten 20% (Chetty et al., 2014). De regionala uppskattningarna, som visar heterogenitet, leder naturligtvis till intressanta och viktiga frågor som inte uppstår från en enda nationell nivåberäkning. Dessa uppskattningar på regional nivå möjliggjordes delvis på grund av att forskarna använde en stor stor datakälla: skattemyndigheterna på 40 miljoner människor. Skapat från data tillgängliga på http://www.equality-of-opportunity.org/.

Figur 2.1: Uppskattningar av ett barns chanser att nå de högsta 20% av inkomstfördelningen som ges föräldrar i botten 20% (Chetty et al. 2014) . De regionala uppskattningarna, som visar heterogenitet, leder naturligtvis till intressanta och viktiga frågor som inte uppstår från en enda nationell nivåberäkning. Dessa uppskattningar på regional nivå möjliggjordes delvis på grund av att forskarna använde en stor stor datakälla: skattemyndigheterna på 40 miljoner människor. Skapat från data tillgängliga på http://www.equality-of-opportunity.org/.

Slutligen, förutom att studera sällsynta händelser och studera heterogenitet, möjliggör stora dataset forskare att upptäcka små skillnader. Faktum är att mycket av fokus på stora data inom industrin handlar om dessa små skillnader: Tillförlitligt att upptäcka skillnaden mellan 1% och 1,1% klickfrekvensen på en annons kan omvandlas till miljoner dollar i extraintäkter. I vissa vetenskapliga miljöer kan dock sådana små skillnader inte vara särskilt viktiga, även om de är statistiskt signifikanta (Prentice and Miller 1992) . Men i vissa policyinställningar kan de bli viktiga när de ses i aggregat. Till exempel, om det finns två offentliga hälsointerventioner och en är något effektivare än den andra, då plockning av effektivare ingripande kan hamna spara tusentals ytterligare liv.

Även om bigness i allmänhet är en bra egenskap när den används korrekt, har jag märkt att det ibland kan leda till ett konceptuellt fel. Av någon anledning verkar bigness leda forskare att ignorera hur deras data genererades. Medan bigness minskar behovet att oroa sig för slumpmässigt fel ökar det faktiskt behovet av att oroa sig för systematiska fel, vilka typer av fel som jag beskriver nedan som härrör från förskjutningar i hur data skapas. Till exempel, i ett projekt som jag beskriver senare i detta kapitel, använde forskare meddelanden som genererades den 11 september 2001 för att producera en emotionell tidslinje med hög upplösning av reaktionen mot terrorattacken (Back, Küfner, and Egloff 2010) . Eftersom forskarna hade ett stort antal meddelanden, behövde de egentligen inte oroa sig för huruvida de mönster som de observerade - ökande ilska under dagen - kan förklaras av slumpmässig variation. Det fanns så mycket data och mönstret var så klart att alla statistiska statistiska tester föreslog att detta var ett riktigt mönster. Men dessa statistiska tester var okunniga om hur data skapades. Det visade sig faktiskt att många av mönstren var hänförliga till en enda bot som genererade mer och mer meningslösa meddelanden under hela dagen. Att ta bort den här boten förstörde helt några av de viktigaste resultaten i papperet (Pury 2011; Back, Küfner, and Egloff 2011) . Enkelt sett kan forskare som inte tycker om systematiskt fel utsätta sig för risken att använda sina stora dataset för att få en exakt uppskattning av en obetydlig mängd, såsom det emotionella innehållet i meningslösa meddelanden som produceras av en automatiserad bot.

Sammanfattningsvis är stora dataset inte ett mål i sig, men de kan möjliggöra vissa typer av forskning, inklusive studier av sällsynta händelser, uppskattning av heterogenitet och upptäckt av små skillnader. Stora dataset verkar också leda till att vissa forskare ignorerar hur deras data skapades, vilket kan leda till att de får en exakt uppskattning av en obetydlig mängd.