2.2 Grandaj datumoj

Big datiĝas estas kreitaj kaj kolektita de registaroj por celoj aliaj ol esploro. Uzante tiun datumon por esplorado, do postulas repurposing.

An idealigita vido de socia esploro imagas sciencisto havi ideon kaj tiam kolekti datumojn por provi tiun ideon. Tiu stilo de esplorado gvidas al streĉa tauxgas inter esploro demando kaj datumoj, sed estas limigitaj pro individua esploristo ofte ne havas la rimedojn necesaj por kolekti la datumojn ili bezonas, kiel granda, riĉa kaj nacie-reprezentanto datumoj. Sekve, multan socian esploron en la pasinteco uzis grandskalan socian enketoj, kiel ekzemple la Ĝenerala Socia Enketo (GSS), la Amerika Nacia Elekto Studo (Anes) kaj Panelo Studo de Enspezoj Dinamiko (PSID). Tiuj grandskalaj enketo ĝenerale kuras de teamo de esploristoj kaj ili estas dizajnitaj por krei datumojn kiuj povas esti uzata de multaj esploristoj. Pro la celoj de tiuj grandskalaj enketoj, granda prizorgo estas metita en desegnanta la datenkolektado kaj preparante la rezultanta datumo por uzo de esploristoj. Ĉi tiuj datumoj estas de esploristoj kaj por esploristoj.

Plej socia esploro uzante cifereca erao fontoj, tamen, estas fundamente malsamaj. Anstataŭ uzante datumoj kolektitaj de esploristoj kaj por esploristoj, ĝi uzas datumojn fontoj kiuj estis kreitaj kaj kolektita de entreprenoj kaj registaroj por siaj propraj celoj kiel fari profiton, disponigante servon, aŭ administri leĝon. Tiuj negoco kaj registaro datumoj fontoj venis al nomi grandajn datumojn. Farante esploro kun granda datumoj estas malsamaj ol faranta esploron kun datumoj kiuj estis origine kreita por esploro. Komparu, ekzemple, socia amaskomunikilaro retejo, kiel ekzemple Twitter, kun tradicia publika opinio enketo kiel la Ĝenerala Socia Enketo (GSS). Twitter ĉefaj celoj estas provizi servon al liaj uzantoj kaj fari profiton. En la procezo de atingado de tiuj celoj, Twitter kreas datumoj kiuj povas esti utila por studi iujn aspektojn de publika opinio. Sed, malkiel la Ĝenerala Socia Enketo (GSS), Twitter ne unuavice centris en socia esplorado.

La termino granda data frustratingly malpreciza, kaj kolektas kune multajn malsamajn aferojn. Por la celoj de socia esploro, Mi pensas ĝin estas helpema por distingi inter du specoj de grandaj datumoj fontoj: registaro administraj rekordoj kaj negoco administraj registroj. Registaro administraj registroj estas datumoj kiuj estas kreitaj de registaroj kiel parto de ilia rutino aktivecoj. Tiuj specoj de rekordoj estis uzitaj de esploristoj en la pasinteco -kiel demografiistoj studanta naskiĝo, geedziĝo kaj morto rekordojn-sed registaroj ĉiam kolektado kaj liberiganta detalajn registrojn en analizables formoj. Ekzemple, la Novjorko registaro instalita diĝita metrojn ene de ĉiu taksio en la urbon. Tiuj metroj gravuri ĉiajn datumoj pri ĉiu taksio promenado inkludante la ŝoforo, la komenco tempo kaj loko, la halto tempo kaj loko, kaj la vojagxo. En studo kiu mi diros poste en tiu ĉapitro, Henry Farber (2015) repurposed tiuj datumoj alparoli fundamenta debato en Labormerkato pri la rilato inter hourly salajro kaj la nombro de horoj laboritaj.

La dua ĉefa tipo de grandaj datumoj por sociaj esploroj estas negoco administraj registroj. Tiuj estas datumoj kiuj negoco krei kaj kolekti kiel parto de ilia rutino aktivecoj. Tiuj negoco administraj registroj estas ofte nomita ciferecan spuron, kaj inkludas aĵojn kiel serĉilon serĉvorto ŝtipoj, sociaj rimedoj afiŝojn alvokos vidaĵoj el poŝtelefonoj. Kritike, tiuj negocoj administraj registroj ne nur pri enreta konduto. Ekzemple, tendencas kiuj uzas check-out skaniloj kreas realtempan mezuroj de laboristo produktivo. En studo kiu Mi diros al vi pri posta en tiu ĉapitro, Alexandre Mas kaj Enrico Moretti (2009) repurposed tiu superbazaro check-out datumoj studi kiel laborista productividad efikita de la productividad de liaj paroj.

Kiel ambaŭ de tiuj ekzemploj ilustras, la ideo de repurposing estas fundamenta por la lernado de granda datumo. En mia sperto, sociaj sciencistoj kaj datumoj sciencistoj alproksimigi al ĉi repurposing tre malsame. Sociaj sciencistoj, kiuj kutimas labori kun datumoj desegnitaj por esplorado, estas rapida atentigi la problemoj kun repurposed datumoj ignorante liaj fortoj. Aliflanke, datumo sciencistoj estas rapida atentigi la profitoj de repurposed datumoj ignorante liaj debilidades. Nature, la plej bona alproksimiĝo estus híbrido. Te, esploristoj devas kompreni la karakterizaĵojn de ĉi tiuj novaj fontoj de datumoj inter bono kaj malbonhumora kaj tiam eltrovi kiel lerni de ili. Kaj, kiu estas la plano por la cetero de tiu ĉi ĉapitro. Sekva, mi priskribos dek komunajn trajtojn de negoco kaj registaro administraj datumoj. Post tio, mi priskribos tri esploro aliroj kiuj povas esti uzitaj kun tiuj datumoj, aliroj kiuj bone taŭgas por la karakterizaĵoj de ĉi tiu datumo.