2.3.2.1 Incomplete

Sama hversu "stór" þín "stór gögn" það sennilega ekki hafa þær upplýsingar sem þú vilt.

Flestir stór gögn heimildum eru ófullnægjandi, í þeim skilningi að þeir hafa ekki þær upplýsingar sem þú vilja vilja fyrir rannsóknum þínum ekki. Þetta er sameiginlegt gagna sem voru búin til annarra nota en rannsóknir tilgangi. Margir félagsleg vísindamenn hafa þegar haft reynslu af að takast á við ófullkomnar, ss núverandi könnun sem ekki spyrja spurningu sem þú vildir. Því miður, vandamál ófullkomnar tilhneigingu til að vera meira frelsi í stórum gögnum. Í minn reynsla, stór gögn tilhneigingu til að vera vantar þrjár tegundir af upplýsingum gagnlegar fyrir félagslega rannsókn: lýðfræði, hegðun á öðrum vettvangi, og gögn til operationalize fræðileg býr.

Allir þrír af þessum tegundum ófullkomnar eru sýnd í rannsókn Gueorgi Kossinets og Duncan Watts (2006) um þróun á félagslegur net við háskóla. Kossinets og Watts byrjaði með tölvupósti logs frá University, sem hafði nákvæmar upplýsingar um hver sendi tölvupóst til þeirra á hvaða tíma (vísindamenn hafi ekki haft aðgang að innihaldi tölvupósti). Þessar email skrár hljóma ótrúlega gagnasafni, en þeir eru-þrátt fyrir stærð sína og granularity-grundvallaratriðum ófullnægjandi. Til dæmis, gera email logs eru ekki gögn um lýðfræðileg einkenni nemenda, ss kyni og aldri. Ennfremur gera email logs eru ekki upplýsingar um samskipti í gegnum aðra miðla, ss símtöl, textaskilaboð, eða augliti til auglitis samtöl. Loks email logs ekki beint að geyma upplýsingar um sambönd, fræðilega býr í mörgum núverandi kenningar. Síðar í kaflanum, þegar ég tala um aðferðir rannsóknir, munt þú sjá hversu Kossinets og Watts leysa þessi vandamál.

Af þremur konar ófullkomnar, vandamálið ófullnægjandi gögnum til operationalize fræðilegar býr er erfiðast að leysa, og í minni reynslu, það er oft tilviljun gleymast eftir gögnum vísindamanna. Um það bil, eru fræðilegar smíðar óhlutbundin hugmyndir sem félagsleg vísindamenn rannsaka, en því miður, þessi býr ekki alltaf hægt skilgreindar með ótvíræðum hætti og mæld. Til dæmis, við skulum ímynda reyna að reynslan prófa virðist einföld kröfu að fólk sem er meira greindur græða meiri peninga. Til þess að prófa þessa fullyrðingu sem þú þyrfti að mæla "upplýsingaöflun." En, hvað er upplýsingaöflun? Til dæmis, Gardner (2011) hélt því fram að það eru í raun átta mismunandi gerðir af upplýsingaöflun. Og, það eru aðferðir sem gætu nákvæmlega mæla eitthvað af þessum tegundum upplýsingaöflun? Þrátt gríðarlegt magn af vinnu sálfræðinga, þessar spurningar enn hafa ekki ótvíræð svör. Svona, jafnvel tiltölulega einföld krafa-menn sem eru meira greindur græða meiri peninga-getur verið erfitt að meta reynslan af því að það getur verið erfitt að operationalize fræðilegar býr í gögnum. Önnur dæmi um fræðileg býr sem eru mikilvæg en erfitt að operationalize fela "viðmið", "félagsauð" og "lýðræði". Félagsleg vísindamenn kalla inná milli fræðilegra býr og gögn reisa réttmæti (Cronbach and Meehl 1955) . Og, eins og þessi listi af býr til kynna, smíða gildi er vandamál sem félagsleg vísindamenn hafa glímt við í mjög langan tíma, jafnvel þegar þeir voru að vinna með gögn sem var safnað í þeim tilgangi að rannsóknum. Þegar unnið er með gögn sem safnað er til annars en rannsóknir tilgangi, vandamál reisa réttmæti eru jafnvel meira krefjandi (Lazer 2015) .

Þegar þú ert að lesa rannsóknarritgerð, einn fljótur og gagnleg leið til að meta áhyggjur reisa gildi er að taka helstu kröfu í blaðinu, sem er venjulega gefið í skilmálar af býr, og með tilvísun til-að tjá það í skilmálar af gögnum sem notuð eru. Til dæmis, íhuga tvær ímyndaður rannsóknir sem segjast sýna að fleiri greindur fólk græða meiri peninga:

  • Rannsókn 1: fólk sem skora vel á Raven Progressive fylkjum Test-vel rannsökuð próf greinandi upplýsingaöflun (Carpenter, Just, and Shell 1990) -nota hærra tilkynntar tekjur á skattframtali þeirra
  • Rannsókn 2: fólk á Twitter sem notuð lengri orð eru líklegri til að nefna munaðarvörur

Í báðum tilvikum, vísindamenn gátu fullyrða að þeir hafa sýnt að fleiri greindur fólk græða meiri peninga. En í fyrri rannsókninni fræðileg byggð eru vel operationalized af gögnum, og í öðru lagi eru þeir ekki. Frekari, eins og þetta dæmi sýnir fleiri gögn ekki sjálfkrafa leysa vandamál með reisa gildi. Þú ættir að efast um niðurstöður rannsókn 2 hvort það fól milljón kvak, milljarð kvak, eða trilljón kvak. Fyrir vísindamenn ekki kannast við þá hugmynd að reisa gildistíma, töflu 2.2 er nokkur dæmi úr rannsóknum sem hafa operationalized fræðileg býr með stafrænum gögnum rekja.

Tafla 2.2: Dæmi um stafræna ummerki sem eru notuð sem mælikvarða á fleiri óhlutbundin fræðilegum hugtökum. Félagsleg vísindamenn kalla þetta passa reisa gildi og það er mikil áskorun með því að nota stór gögn heimildir fyrir félagslega rannsókna (Lazer 2015) .
Digital rekja fræðileg reisa Citation
email logs frá háskóla (meta-gögn aðeins) félagsleg tengsl Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
samfélagsfærslur á Weibo Civic þátttöku Zhang (2016)
email logs frá fyrirtæki (meta-gögn og heill texti) Cultural passa í stofnun Goldberg et al. (2015)

Þótt vandamál af ófullnægjandi gagna um operationalizing fræðilegum býr er mjög erfitt að leysa, þá eru þrjár algengar lausnir á því vandamáli ófullnægjandi lýðfræðilegar upplýsingar og ófullnægjandi upplýsinga um hegðun á öðrum vettvangi. Í fyrsta lagi er í raun safna gögnum sem þú þarft; Ég skal segja þér um dæmi um að í 3. kafla þegar ég segi þér um kannanir. Því miður, svona gagnasöfnun er ekki alltaf hægt. Annað helsta lausnin er að gera það gögn vísindamenn kalla notandi-eigindi ályktanir og hvaða félagsleg vísindamenn kalla áætla stærðir. Í þessari nálgun, vísindamenn nota þær upplýsingar sem þeir hafa á sumum fólk til að álykta eiginleika öðru fólki. Þriðja lausnin-the notuð af Kossinets og Watts-var að sameina mörg gögn heimildir. Þetta ferli er stundum kölluð sameina eða taka tengsl. Uppáhalds samlíking mín fyrir þessu ferli var lagt í fyrstu málsgrein fyrsta blaðinu alltaf skrifað á skrá tengingu (Dunn 1946) :

"Hver maður í heimi skapar lífsins bók. Þetta Book byrjar með fæðingu og endar með dauða. síður þess eru gerðar upp af skrám meginreglunnar atburðum í lífinu. Upptaka tengsl er nafn gefið til the aðferð af samsetningu á síðum þessarar bókar í bindi. "

Þessi leið var skrifað árið 1946, og á þeim tíma, fólk var að hugsa um að Book of Life gætu helstu viðburði lífið eins fæðing, hjónaband, skilnað og dauða. Hins vegar, nú þegar svo mikið af upplýsingum um fólk er skráð, bók lífsins gæti verið ótrúlega nákvæmar mynd, ef þær mismunandi síður (þ.e. stafræn ummerki okkar), má bundið saman. Þessi bók lífsins gæti verið mikill úrræði fyrir vísindamenn. En, Book of Life gæti einnig verið kallað gagnagrunn á glötun (Ohm 2010) , sem hægt væri að nota fyrir allar tegundir af siðlaus tilgangi, eins og lýst er meira hér þegar ég tala um viðkvæm upplýsinga sem safnað er af stórum aðilum gögn neðan og í kafla 6 (Ethics).