2.3.1 Stór

Stórir eru leið til enda; þeir eru ekki markmið í sjálfu sér.

Mest rætt lögun stórra gagnaheimilda er að þau eru stór. Margir pappírar, til dæmis, byrja að ræða um og stundum skrifa um hversu mikið gögn þeir greindar. Til dæmis fylgir pappír sem birtist í vísindarannsóknum í notkun orðabóka í Google Bækur corpus eftirfarandi (Michel et al. 2011) :

"[Corpus okkar] inniheldur meira en 500 milljarða orð, á ensku (361 milljarðar), frönsku (45 milljarðar), spænsku (45 milljarðar), þýsku (37 milljarðar), kínversku (2 milljarðar). Elstu verkin voru birt á 1500s. Snemma áratugi eru aðeins fáeinir bækur á ári og samanstanda af nokkur hundruð þúsund orð. Um 1800, corpus vex til 98 milljón orð á ári; árið 1900, 1,8 milljarðar króna; og árið 2000, 11 milljarðar króna. Líkið er ekki hægt að lesa af mönnum. Ef þú reyndi að lesa aðeins ensku færslur frá árinu 2000 einum, á hæfilegan hraða 200 orð / mín. Án truflana fyrir mat eða svefn, myndi það taka 80 ár. Röðin af bókstöfum er 1000 sinnum lengri en genamengi mannsins: Ef þú skrifaðir það út í beinni línu myndi það ná til tunglsins og aftur 10 sinnum yfir. "

Umfang þessara gagna er án efa áhrifamikill og við erum öll svo lánsöm að Google Bækur liðið hefur gefið út þessar upplýsingar til almennings. (Reyndar eru sumar þessara aðgerða í þessum kafla notuð). En þegar þú sérð eitthvað eins og þetta ættirðu að spyrja: Er það allt sem gögnin gera í raun og veru? Gæti þeir gert sömu rannsóknir ef gögnin gætu náð til tunglsins og aftur aðeins einu sinni? Hvað ef gögnin gætu aðeins náð í topp Everest-fjallsins eða efst á Eiffelturninum?

Í þessu tilfelli, rannsóknir þeirra, hafa í raun einhverjar niðurstöður sem krefjast mikils corpus af orðum um langan tíma. Til dæmis, eitt sem þeir kanna er þróun málfræði, einkum breytingar á tíðni óreglulegra sagnatenginga. Þar sem nokkrar óreglulegar sagnir eru mjög sjaldgæfar, þarf mikið magn af gögnum að greina breytingar með tímanum. Of oft virðist vísindamenn hins vegar að meðhöndla stærð stórra gagnasafna sem endir - "líta á hversu mikið gögn mega mylja" - en ekki leið til nokkurra mikilvægra vísindalegra markmiða.

Í minni reynslu er rannsóknin á sjaldgæfum tilvikum ein af þremur sérstökum vísindalegum endum sem stórar gagnasöfn hafa tilhneigingu til að gera. Annað er rannsóknin á ólíkleika, eins og hægt er að sýna með rannsókn Raj Chetty og samstarfsmanna (2014) um félagslega hreyfanleika í Bandaríkjunum. Í framhaldi af því hafa margir vísindamenn rannsakað félagslegan hreyfanleika með því að bera saman niðurstöður lífs foreldra og barna. Samræmd niðurstaða frá þessum bókmenntum er sú að fróðlegir foreldrar hafa tilhneigingu til að hafa góð börn, en styrkur þessarar tengsl breytilegt með tímanum og yfir löndunum (Hout and DiPrete 2006) . Meira nýlega var Chetty og samstarfsmenn hins vegar fær um að nota skattskýrslur frá 40 milljónum manna til að meta ólíkleika í hreyfanleika fjölmenningar milli landa í Bandaríkjunum (mynd 2.1). Þeir fundu td að líkurnar á því að barn nái hámarki af tekjuskiptingu frá fjölskyldunni í botnskálanum er um 13% í San Jose í Kaliforníu en aðeins um 4% í Charlotte, Norður-Karólínu. Ef þú horfir á mynd 2.1 um stund, gætir þú byrjað að furða hvers vegna hreyfanleika hreyfanleika er hærra á sumum stöðum en öðrum. Chetty og samstarfsmenn höfðu nákvæmlega sömu spurningu og þeir komust að því að þessi svæði með hreyfanlegan hreyfanleika hafa minni íbúðarþátttöku, minni ójöfnuður, betri grunnskólar, meiri félagslegt höfuðborg og meiri fjölskyldustöðugleiki. Að sjálfsögðu sýna þessar fylgni ekki einu sinni að þessi þættir valda meiri hreyfanleika en þeir benda til hugsanlegra aðferða sem hægt er að kanna í frekari vinnu, það er nákvæmlega það sem Chetty og samstarfsmenn hafa gert í síðari starfi. Takið eftir því hvernig stærð gagna var mjög mikilvægt í þessu verkefni. Ef Chetty og samstarfsmenn höfðu notað skattaskrár um 40 þúsund manns frekar en 40 milljónir, hefðu þeir ekki getað metið svæðisbundið ólíkleiki og þeir hefðu aldrei getað gert síðari rannsóknir til að reyna að bera kennsl á þau kerfi sem skapa þessa breytingu.

Mynd 2.1: Áætlanir um möguleika barns á að ná efstu 20% af tekjutreifingu foreldra í botni 20% (Chetty o.fl., 2014). Áætlanir svæðisbundinna áætlana, sem sýna ólíkleika, leiða náttúrulega til áhugaverðar og mikilvægra spurninga sem ekki koma fram í einni áætlun á landsvísu. Þessar áætlanir á landsvísu voru gerðar að hluta til vegna þess að vísindamenn voru að nota stóra stóra gagnaheimild: Skattskrár um 40 milljónir manna. Búið til úr gögnum í boði á http://www.equality-of-opportunity.org/.

Mynd 2.1: Áætlanir um möguleika barns á að ná efstu 20% af tekjutreifingu foreldra í botni 20% (Chetty et al. 2014) . Áætlanir svæðisbundinna áætlana, sem sýna ólíkleika, leiða náttúrulega til áhugaverðar og mikilvægra spurninga sem ekki koma fram í einni áætlun á landsvísu. Þessar áætlanir á landsvísu voru gerðar að hluta til vegna þess að vísindamenn voru að nota stóra stóra gagnaheimild: Skattskrár um 40 milljónir manna. Búið til úr gögnum í boði á http://www.equality-of-opportunity.org/.

Að lokum, til viðbótar við að læra sjaldgæf viðburði og læra ólíkleika, gera stór gagnasöfn einnig vísindamenn kleift að greina litla muninn. Reyndar er mikið af áherslum á stórum gögnum í iðnaði um þessi litla munur: áreiðanlegur að greina muninn á milli 1% og 1,1% smellihlutfall á auglýsingu getur þýtt í milljónir dollara í auka tekjum. Í sumum vísindalegum aðstæðum gæti slík lítill munur þó ekki verið sérstaklega mikilvægt, jafnvel þótt þær séu tölfræðilega marktækir (Prentice and Miller 1992) . En í sumum stefnumótum geta þau orðið mikilvægar þegar þær eru skoðaðar samanlagt. Til dæmis, ef það eru tveir almannaheilbrigðisþættir og einn er örlítið skilvirkari en hinn, þá getur valið skilvirkari íhlutun endað að bjarga þúsundum viðbótarlífs.

Þó að bigness sé almennt góð eign þegar hún er notuð rétt, hef ég tekið eftir því að það getur stundum leitt til hugmyndafræðinnar. Af einhverjum ástæðum virðist bigness leiða vísindamenn til að hunsa hvernig gögnin þeirra voru búin til. Þó að bigness dregur úr þörfinni á að hafa áhyggjur af handahófi villa, eykur það í raun þörfina á að hafa áhyggjur af kerfisbundnum villum, hvers konar villur sem ég lýsi hér að neðan sem stafar af hlutdrægni í því hvernig gögn eru búnar til. Til dæmis, í verkefnum sem ég lýsi seinna í þessum kafla, notuðu vísindamenn skilaboð sem gerðar voru 11. september 2001 til að búa til tilfinningalega tímalínu viðbrögð við hryðjuverkaárásinni (Back, Küfner, and Egloff 2010) . Vegna þess að fræðimennirnir höfðu mikinn fjölda skilaboða, þurftu þeir ekki að hafa áhyggjur af því hvort mynstrin sem þeir sáust, aukin reiði yfir daginn - gæti verið skýrist af handahófi afbrigði. Það var svo mikið af gögnum og mynstur var svo ljóst að allar tölfræðilegar tölfræðilegar prófanir sögðu að þetta væri raunverulegt mynstur. En þessar tölfræðilegar prófanir voru ókunnugt um hvernig gögnin voru búin til. Reyndar kom í ljós að mörg mynstur myndu stafa af einum láni sem myndaði fleiri og fleiri tilgangslaust skilaboð um daginn. Að fjarlægja þessa einbeitingu eyðilagði alveg lykilatriði í blaðinu (Pury 2011; Back, Küfner, and Egloff 2011) . Vissulega geta vísindamenn, sem ekki hugsa um kerfisbundna villu, litið á hættuna á að nota stóra gagnasöfn til að fá nákvæma mat á óverulegu magni, svo sem tilfinningalegt innihald merkingarlausra skilaboða sem eru framleiddar með sjálfvirkum láni.

Að lokum eru stórar gagnasöfn ekki endir í sjálfu sér, en þeir geta virkjað ákveðnar tegundir rannsókna, þar á meðal rannsókn á sjaldgæfum tilvikum, mat á ólíkleika og greiningu á litlum munum. Stórt gagnasett virðist einnig leiða nokkrar vísindamenn til að hunsa hvernig gögnin þeirra voru búin til, sem getur leitt þau til að fá nákvæma mat á óumflýjanlegu magni.