2.3.2.1 Nepilnīga

Šis tulkojums tika izveidota ar datoru. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

2.3.2.1 Nepilnīga

Nav svarīgi, cik "lieli" jūsu "lielie dati" tas, iespējams, nav informāciju, ko vēlaties.

Lielākā daļa lielo datu avoti ir nepilnīgi, tādā nozīmē, ka viņiem nav informācijas, ka jūs vēlaties, lai jūsu pētniecībā. Šī ir kopīga iezīme datu, kas tika izveidotas, kas nav pētniecības nolūkos. Daudzi sociālie zinātnieki jau ir bijusi pieredze darbā ar nepilnībām, piemēram, esošo aptauju, kas nav uzdot jautājumu jūs vēlējāties. Diemžēl problēmas nepilnībām mēdz būt ekstrēms lielās datiem. Pēc manas pieredzes, lielie dati mēdz būt trūkst trīs veidu informāciju noderīgas sociālo pētījumu: demogrāfija, uzvedību uz citām platformām, un datus par operatīvu teorētiskās konstrukcijas.

Visi trīs no šiem nepilnīgumu formas ir ilustrētas ar pētījumu, ko Gueorgi Kossinets un Duncan Watts (2006) par attīstību sociālo tīklu universitātē. Kossinets un Watts sāka ar e-pasta baļķiem no universitātes, kas bija precīza informācija par to, kas nosūtīta e-pastus uz kuriem cikos (pētnieki nebija piekļūt saturam no e-pastiem). Šīs e-pasta ieraksti skaņu kā pārsteidzošs datu kopā, bet, tie ir, neskatoties uz to lielumu un detalizācijas-būtiski nepilnīga. Piemēram, e-pasta žurnālos nav iekļauti dati par demogrāfiskajām pazīmēm studentiem, piemēram, dzimuma un vecuma. Turklāt e-pasta logs neietver informāciju par komunikāciju ar citiem medijiem, piemēram, tālruņa zvanus, īsziņas vai sejas-pret-aci sarunas. Visbeidzot, e-pasta logs nav tieši iekļauta informācija par attiecībām, teorētiskās konstrukcijas daudzos esošajos teorijām. Vēlāk nodaļā, kad es runāt par pētniecības stratēģiju, jūs redzēsiet, cik Kossinets un Watts atrisināt šīs problēmas.

Trīs veidu nepilnības, problēma nepilnīgu datu operatīvu teorētiskas konstrukcijas ir visgrūtāk atrisināt, un mana pieredze, tas bieži vien nejauši aizmirst ar datu zinātnieki. Aptuveni teorētiskās konstrukcijas ir abstraktas idejas, ka sociālie zinātnieki pēta, bet, diemžēl, šīs konstrukcijas ne vienmēr var viennozīmīgi definēti un izmērīt. Piemēram, pieņemsim iedomāties mēģina empīriski pārbaudītu acīmredzot vienkāršu apgalvojumu, ka cilvēki, kas ir vairāk viedo nopelnīt vairāk naudas. Lai pārbaudītu šo apgalvojumu, jums būtu nepieciešams, lai novērtētu "inteliģenci." Bet, kas ir intelekts? Piemēram, Gardner (2011) apgalvoja, ka pastāv faktiski astoņi dažādu veidu inteliģenci. Un, vai ir procedūras, kas varētu precīzi izmērīt jebkuru no šiem intelekta veidiem? Neskatoties milzīgi darbu ar psihologu, šie jautājumi joprojām nav viennozīmīgi atbildes. Tādējādi, pat salīdzinoši vienkāršs pretenzijas-cilvēki, kas ir vairāk viedo nopelnīt vairāk naudas, var būt grūti novērtēt empīriski, jo tas var būt grūti operatīvu teorētiskās konstrukcijas datos. Citi piemēri teorētisko konstrukcijas, kas ir svarīgi, bet grūti operatīvu ietver "normas", "sociālo kapitālu" un "demokrātija". Sociālās zinātnieki sauc spēli starp teorētisko konstrukcijas un datu būvēt derīgumu (Cronbach and Meehl 1955) . Un, jo šis saraksts konstrukcijas liecina, būvēt derīgums ir problēma, ka sociālie zinātnieki ir cīnījušies ar ļoti ilgu laiku, pat tad, kad viņi strādā ar datiem, kas tika savākti, lai pētniecību. Strādājot ar savākti izņemot pētniecības nolūkos datus, problēmas būvēt derīguma ir vēl grūtāks (Lazer 2015) .

Kad lasāt pētniecības papīra, viens ātrs un noderīgs veids, kā novērtēt bažas par būvēt derīgumu ir veikt galveno prasību papīra, kas parasti tiek izteikts konstrukcijas, un atkārtoti izteikt to ziņā izmantotajiem datiem. Piemēram, uzskata divas hipotētiskas pētījumi, kas apgalvo, lai pierādītu, ka vairāk inteliģenti cilvēki nopelnīt vairāk naudas:

1. pētījums: cilvēki, kas gūs vārtus arī uz Raven Progressive matricām Test-labi pētīta tests analītisko intelektu (Carpenter, Just, and Shell 1990) -jānodrošina augstāka ziņojuši ienākumus par viņu nodokļu deklarācijas
Pētījums 2: cilvēki par čivināt, kas izmantoti garāki vārdi biežāk pieminēt luksusa zīmoliem

Abos gadījumos, pētnieki varētu apgalvot, ka viņi ir parādījuši, ka vairāk inteliģenti cilvēki nopelnīt vairāk naudas. Bet, pirmā pētījuma teorētiskās konstrukcijas ir labi operacionāls ar datiem, un otrajā tie nav. Turklāt, tā kā šis piemērs parāda, vairāk datu netiek automātiski atrisināt problēmas ar būvēt derīgumu. Jums vajadzētu apšaubīt Studiju 2 rezultātus, vai tas iesaistīts miljons tweets, a miljards tweets vai triljonu tweets. Pētniekiem nav pazīstami ar ideju būvēt derīguma, 2.2 tabulā ir daži piemēri pētījumiem, kas ir operacionāls teorētiskās konstrukcijas, izmantojot digitālo izsekot datus.

2.2 tabula: Piemēri digitālo pēdas, kas tiek izmantoti kā pasākumu vairāk abstraktu teorētisko koncepciju. Sociālie zinātnieki sauc šo spēli *būvēt derīgumu,* un tas ir liels izaicinājums ar izmantojot lielas datu avotus sociālo pētījumu (Lazer 2015) .
Digital izsekot	teorētiskā būvēt	citēšana
e-pasta logs no universitātē (tikai meta-dati)	sociālās attiecības	Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
sociālo mediju ziņojumi par Weibo	Civic iesaistīšana	Zhang (2016)
e-pasta logs no firmas (meta-datu un pilnīga teksta)	Kultūras fit organizācijā	Goldberg et al. (2015)

Lai gan problēma nepilnīgu datu operationalizing teorētiskiem konstrukcijas ir diezgan grūti atrisināt, ir trīs kopīgi risināt problēmas nepilnīgu demogrāfisko informāciju un nepilnīgu informāciju par uzvedību uz citām platformām. Pirmais ir faktiski vākt datus, jums ir nepieciešams; Es jums pastāstīt par piemēru, ka 3. nodaļā, kad es jums pastāstīt par aptaujām. Diemžēl šāda veida datu vākšanas ne vienmēr ir iespējams. Otrs galvenais risinājums ir darīt to, ko datu zinātnieki sauc lietotājam atribūts secinājumu un kādi sociālie zinātnieki sauc aprēķināšanu. Izmantojot šo pieeju, pētnieki izmanto informāciju, kas viņiem ir par dažiem cilvēkiem, lai secinātu atribūtus citiem cilvēkiem. Trešais iespējamais risinājums, viens pa Kossinets un izmanto Watts, bija apvienot vairākus datu avotus. Šo procesu dažreiz sauc apvienojot vai ierakstu saikne. Tika ierosināts Mani mīļākie metafora šajā procesā ļoti pirmajā daļā pašu pirmo papīra kādreiz rakstīts uz ierakstu saikni (Dunn 1946) :

"Katrs cilvēks pasaulē rada Book of Life. Šī grāmata sākas ar dzimšanu un beidzas ar nāvi. Tās lapas veido uzskaites principa notikumiem dzīvē. Record saistība ir nosaukums, kas dots procesam montāžas lapas šīs grāmatas tilpumā. "

Šis fragments tika uzrakstīts 1946. gadā, un tajā laikā, cilvēki domāja, ka dzīvības grāmatā varētu ietvert galvenos dzīves notikumiem, piemēram, dzimšanas, laulības, šķiršanās un nāve. Tomēr tagad, kad tiek reģistrēta tik daudz informācijas par cilvēkiem, dzīvības grāmatā varētu būt neticami detalizēti portrets, ja šie dažādie lapas (ti, mūsu digitālās pēdas), var saistīt kopā. Šī grāmata Dzīvības varētu būt lielisks resurss pētniekiem. Bet, Book of Life varētu saukt arī par datu bāzi pazudināt (Ohm 2010) , ko varētu izmantot visiem neētisku nolūkos veidu, kā aprakstīts vēl tālāk, kad es runāt par jutīgu raksturu informācijas lielo datu avotiem zemāk savākto un 6. nodaļā (ētikas).