2.3.1 liels

Lielas datu kopas ir līdzeklis mērķa sasniegšanai; tie nav pašmērķis.

Plašāk apspriestais lielo datu avotu elements ir tāds, ka tie ir BIG. Piemēram, daudzi raksti sākas, apspriežot un dažreiz brīnoties par to, cik daudz datu viņi analizēja. Piemēram, grāmatā, kas publicēts Zinātnē, pētot vārdnīcu tendences Google grāmatu korpusā, tika iekļauts sekojošais (Michel et al. 2011) :

"[Mūsu] korpusā ir vairāk nekā 500 miljardi vārdu angļu valodā (361 miljards), franču (45 miljardi), spāņu (45 miljardi), vācu (37 miljardi), ķīnieši (13 miljardi), krievu (35 miljardi) un ebreji (2 miljardi). Vecākie darbi tika publicēti 1500. gados. Pirmajās desmitgadēs ir tikai dažas grāmatas gadā, kas sastāv no vairākiem simtiem tūkstošu vārdu. Līdz 1800. gadam korpuss pieaug līdz 98 miljoniem vārdu gadā; līdz 1900, 1,8 miljardi; un līdz 2000. gadam - 11 miljardi. Korpuss cilvēks nevar nolasīt. Ja jūs mēģināt lasīt tikai angļu valodas ierakstus no 2000. gada tikai saprātīgā ātrumā 200 vārdi / min, nepārtraucot ēdienus vai gulēt, tas prasīs 80 gadus. Burtu secība ir 1000 reizes garāka nekā cilvēka genoms: ja jūs to uzrakstītu taisnā līnijā, tā sasniegs Mēnesi un 10 reizes vairāk. "

Šo datu apjoms, bez šaubām, ir iespaidīgs, un mums visiem ir paveicies, ka Google grāmatu komanda ir publiskojusi šos datus sabiedrībai (patiesībā dažas no darbībām šīs nodaļas beigās izmanto šos datus). Bet, kad jūs redzat kaut ko līdzīgu, jums vajadzētu uzdot jautājumu: vai visi šie dati tiešām kaut ko dara? Vai viņi varēja izdarīt tādu pašu pētījumu, ja dati varētu sasniegt Mēnesi un atpakaļ tikai vienu reizi? Ko darīt, ja dati varētu sasniegt tikai Everestā vai Eifeļa torņa augšā?

Šajā gadījumā viņu pētījumos patiesībā ir daži atklājumi, kas prasa lielu vārdu kopumu ilgā laika periodā. Piemēram, viena lieta, ko viņi izskata, ir gramatikas attīstība, it īpaši izmaiņas neregulārā darbības vārda konjugācijas ātrumā. Tā kā daži neregulārie darbības vārdi ir diezgan reti sastopami, laika gaitā ir jāatklāj daudz datu. Tomēr, šķiet, pārāk bieži pētnieki uzskata, ka liela datu avota lielums ir gala vērtība - "izskatīt, cik daudz datu es varu sasprindzināt" - nevis kā līdzeklis, lai sasniegtu dažus svarīgākus zinātniskus mērķus.

Pēc manas pieredzes reti sastopamu notikumu izpēte ir viens no trim specifiskajiem zinātniskiem mērķiem, ko liela mēroga datu kopas ļauj. Otrais ir pētījums par neviendabīgumu, ko var ilustrēt Raj Chetty un kolēģu pētījums par sociālo mobilitāti Amerikas Savienotajās Valstīs (2014) . Agrāk daudzi pētnieki ir pētījuši sociālo mobilitāti, salīdzinot vecāku un bērnu dzīves rezultātus. No šīs literatūras konsekventa atziņa ir tāda, ka izdevīgākiem vecākiem parasti ir bērni, kuriem ir izdevīgi apstākļi, bet šo attiecību spēks laika gaitā un dažādās valstīs mainās (Hout and DiPrete 2006) . Tomēr nesen Chetty un viņa kolēģi varēja izmantot nodokļu ierakstus no 40 miljoniem cilvēku, lai novērtētu daudzveidīgas mobilitātes nevienmērīgumu Amerikas Savienoto Valstu reăionos (2.1. Attēls). Viņi, piemēram, atrada, ka varbūtība, ka bērns sasniegs augstāko kvintili no nacionālā ienākuma sadales, sākot no ģimenes apakšējā kvintilē, ir aptuveni 13% Sanhosē, Kalifornijā, bet tikai apmēram 4% Šarlotē, Ziemeļkarolīnā. Ja uz brīdi skatāties uz 2. attēlu, jūs varētu sākt domāt, kāpēc dažās vietās paaudžu mobilitāte ir augstāka nekā citām. Chetty un kolēģiem bija tieši tāds pats jautājums, un viņi atklāja, ka šajās augstas mobilitātes teritorijās ir mazāka segregācija, mazāk ienākumu nevienlīdzības, labākas pamatskolas, lielāks sociālais kapitāls un lielāka ģimenes stabilitāte. Protams, šīs korelācijas tikai parāda, ka šie faktori rada lielāku mobilitāti, bet tie iesaka iespējamos mehānismus, kurus var izpētīt turpmākajā darbā, un tieši to Chetty un kolēģi ir paveikuši turpmākajā darbā. Ievērojiet, cik liela nozīme šajā projektā bija datu apjomam. Ja Chetty un kolēģi būtu izmantojuši nodokļa reģistrus 40 tūkstošiem cilvēku, nevis 40 miljonus, viņi nebūtu varējuši novērtēt reģionālo neviendabīgumu un viņi nekad nebūtu varējuši veikt turpmāko pētījumu, lai mēģinātu noteikt mehānismus, kas rada šo atšķirību.

2.1. Attēls: aplēses par bērna izredzēm sasniegt 20% ienākumu sadalījuma, ņemot vērā vecākus 20% apmērā (Chetty uc, 2014). Reģionālā līmeņa aplēses, kas liecina par neviendabīgumu, dabiski rada interesantus un svarīgus jautājumus, kas nav saistīti ar vienotu valsts līmeņa novērtējumu. Šādi reģionālā līmeņa aprēķini bija iespējami daļēji tāpēc, ka pētnieki izmantoja lielu datu avotu: 40 miljonu iedzīvotāju nodokļu ieraksti. Izveidots no datiem, kas pieejami vietnē http://www.equality-of-opportunity.org/.

2.1. Attēls: aplēses par bērna izredzēm sasniegt 20% ienākumu sadalījuma, ņemot vērā vecākus 20% apmērā (Chetty et al. 2014) . Reģionālā līmeņa aplēses, kas liecina par neviendabīgumu, dabiski rada interesantus un svarīgus jautājumus, kas nav saistīti ar vienotu valsts līmeņa novērtējumu. Šādi reģionālā līmeņa aprēķini bija iespējami daļēji tāpēc, ka pētnieki izmantoja lielu datu avotu: 40 miljonu iedzīvotāju nodokļu ieraksti. Izveidots no datiem, kas pieejami vietnē http://www.equality-of-opportunity.org/.

Visbeidzot, papildus pētījumiem par retiem notikumiem un neviendabīguma izpēti, lielas datu kopas arī ļauj pētniekiem atklāt nelielas atšķirības. Faktiski liela uzmanība lielu uzmanību pievēršot lieliem datiem rūpniecībā ir par šīm nelielajām atšķirībām: ticami konstatējot starpību starp 1% un 1,1% klikšķu skaitu, reklāma var pārvērst miljonos dolāru par papildu ieņēmumiem. Tomēr dažos zinātniskos apstākļos šādas nelielas atšķirības var nebūt īpaši svarīgas, pat ja tās ir statistiski nozīmīgas (Prentice and Miller 1992) . Bet dažos politikas iestatījumos tie var kļūt svarīgi, tos kopumā aplūkojot. Piemēram, ja ir divas sabiedrības veselības aizsardzības intervences un viena no tām ir nedaudz efektīvāka nekā otra, tad efektīvākas iejaukšanās izvēle var ietaupīt tūkstošiem papildu dzīves.

Kaut arī, ja pareizi tiek izmantots lielums, tas parasti ir labs īpašums, esmu pamanījis, ka dažreiz tas var radīt konceptuālu kļūdu. Daži iemesli, šķiet, liekas, ka pētnieki ignorē to datu ģenerēšanu. Kaut arī lielums samazina nepieciešamību uztraukties par nejaušām kļūdām, tas patiesībā palielina vajadzību uztraukties par sistemātiskām kļūdām, to kļūdas, kuras es šeit raksturošu zemāk, kuras rodas no neobjektivitātes datu veidošanā. Piemēram, šajā projektā, ko es vēl aprakstīšu šajā nodaļā, pētnieki izmantoja 2001. gada 11. septembrī radītos ziņojumus, lai radītu reakcijas uz teroristu uzbrukumu (Back, Küfner, and Egloff 2010) augstas izšķirtspējas emocionālo grafiku. Tā kā pētniekiem bija daudz ziņojumu, viņiem patiešām nebija jāuztraucas par to, vai viņu novērotie modeļi, kas izraisīja dusmas dienas gaitā, var tikt izskaidroti ar nejaušām svārstībām. Bija tik daudz datu, un modelis bija tik skaidrs, ka visi statistikas statistikas testi liecina, ka tas bija reāls modelis. Bet šie statistikas testi nezināja, kā dati tika izveidoti. Patiesībā izrādījās, ka daudzi modeļi bija saistīti ar vienu robotu, kas visu dienu radīja arvien vairāk bezjēdzīgu vēstījumu. Noņemot šo vienu bot pilnībā izpostīja dažus galvenos dokumenta secinājumus (Pury 2011; Back, Küfner, and Egloff 2011) . Vienkārši, pētnieki, kuri nedomā par sistemātiskas kļūdas, saskaras ar risku izmantot savas lielās datu kopas, lai iegūtu precīzu nenozīmīgā daudzuma novērtējumu, piemēram, automatizēta botā radīto bezjēdzīgo ziņojumu emocionālo saturu.

Noslēgumā lielās datu kopas pašas par sevi nav beigas, bet tās var nodrošināt noteiktus pētījumu veidus, tostarp retu notikumu izpēti, neviendabīguma novērtējumu un nelielu atšķirību noteikšanu. Šķiet, ka lielu datu kopu rezultātā daži pētnieki ignorē to, kā tika izveidoti viņu dati, un tādējādi viņiem var iegūt precīzu aptuvenu daudzumu.