2.3.4 Anghyflawn

Ni waeth pa mor fawr yw eich data mawr, mae'n debyg nad oes ganddo'r wybodaeth rydych ei eisiau.

Mae'r rhan fwyaf o ffynonellau data mawr yn anghyflawn , yn yr ystyr nad oes ganddynt y wybodaeth y byddwch am ei gael ar gyfer eich ymchwil. Mae hwn yn nodwedd gyffredin o ddata a grëwyd at ddibenion heblaw ymchwil. Mae llawer o wyddonwyr cymdeithasol eisoes wedi cael profiad o ddelio ag anghyflawnrwydd, megis arolwg presennol nad oedd yn gofyn y cwestiwn yr oedd ei angen. Yn anffodus, mae problemau anghyflawnedd yn tueddu i fod yn fwy eithafol mewn data mawr. Yn fy mhrofiad i, mae data mawr yn dueddol o fod yn colli tri math o wybodaeth sy'n ddefnyddiol ar gyfer ymchwil gymdeithasol: gwybodaeth ddemograffig am gyfranogwyr, ymddygiad ar lwyfannau eraill, a data i weithredeg ffurfiau damcaniaethol.

O'r tri math o anghyflawnrwydd, y broblem o ddata anghyflawn i weithredeg ffurfiau damcaniaethol yw'r anoddaf i'w datrys. Ac yn fy mhrofiad i, mae'n aml yn cael ei anwybyddu yn ddamweiniol. Yn fras, yn adeiladu damcaniaethol yn syniadau haniaethol sy'n gwyddonwyr cymdeithasol astudio a operationalizing lluniad damcaniaethol yn golygu cynnig rhyw ffordd i ddal y adeiladu â data gweladwy. Yn anffodus, mae'r broses syml hon yn aml yn ymddangos yn eithaf anodd. Er enghraifft, gadewch i ni ddychmygu ceisio rhoi prawf empirig ar yr hawliad syml y mae pobl sy'n fwy deallus yn ennill mwy o arian. Er mwyn profi'r hawliad hwn, byddai angen i chi fesur "gwybodaeth". Ond beth yw cudd-wybodaeth? Dadleuodd Gardner (2011) fod wyth ffurf wahanol o wybodaeth mewn gwirionedd. A oes gweithdrefnau a allai fesur yn gywir unrhyw un o'r mathau hyn o wybodaeth? Er gwaethaf llawer iawn o waith gan seicolegwyr, nid yw'r cwestiynau hyn yn dal i gael atebion diamwys.

Felly, hyd yn oed hawliad cymharol syml-gall pobl sy'n fwy deallus ennill mwy o arian-gall fod yn anodd eu hasesu'n empirig oherwydd gall fod yn anodd i weithrediadau dehongli damcaniaethol mewn data. Mae enghreifftiau eraill o ddeunyddiau damcaniaethol sy'n bwysig ond yn anodd eu hymgorffori yn cynnwys "normau," "cyfalaf cymdeithasol," a "democratiaeth." Mae gwyddonwyr cymdeithasol yn galw'r gêm rhwng cyfansoddiadau damcaniaethol a dilysrwydd adeiladu data (Cronbach and Meehl 1955) . Gan fod y rhestr fer hon o awgrymiadau yn awgrymu, mae dilysrwydd adeiladu yn broblem y mae gwyddonwyr cymdeithasol wedi ei chael yn ei chael hi'n anodd am amser maith. Ond yn fy mhrofiad i, mae'r problemau o ddilysrwydd adeiladu hyd yn oed yn fwy wrth weithio gyda data na chafodd ei greu at ddibenion ymchwil (Lazer 2015) .

Pan fyddwch chi'n asesu canlyniad ymchwil, un ffordd gyflym a defnyddiol o asesu dilysrwydd adeiladu yw cymryd y canlyniad, a fynegir fel arfer yn nhermau adeiladu, a'i ail-fynegi o ran y data a ddefnyddir. Er enghraifft, ystyriwch ddwy astudiaeth ddamcaniaethol sy'n honni eu bod yn dangos bod pobl sy'n fwy deallus yn ennill mwy o arian. Yn yr astudiaeth gyntaf, canfu'r ymchwilydd fod pobl sy'n sgorio'n dda ar Brawf Matrics Cynyddol Raven - prawf o wybodaeth ddadansoddol a astudiwyd yn dda (Carpenter, Just, and Shell 1990) - yn cynnwys incwm uwch ar eu ffurflenni treth. Yn yr ail astudiaeth, canfu'r ymchwilydd fod pobl ar Twitter sy'n defnyddio geiriau hirach yn fwy tebygol o sôn am frandiau moethus. Yn y ddau achos, gallai'r ymchwilwyr hyn honni eu bod wedi dangos bod pobl sy'n fwy deallus yn ennill mwy o arian. Fodd bynnag, yn yr astudiaeth gyntaf, mae'r dehongliadau damcaniaethol wedi'u gweithredu'n dda gan y data, tra yn yr ail nid ydynt. Ymhellach, wrth i'r enghraifft hon ddangos, nid yw mwy o ddata yn datrys problemau yn awtomatig wrth adeiladu dilysrwydd. Dylech chi amheuaeth am ganlyniadau'r ail astudiaeth a oedd yn cynnwys miliwn o dweets, biliwn tweets, neu driwsiwn trwp. Ar gyfer ymchwilwyr nad ydynt yn gyfarwydd â'r syniad o adeiladu dilysrwydd, mae tabl 2.2 yn darparu rhai enghreifftiau o astudiaethau sydd wedi gweithredu dehongliadau damcaniaethol gan ddefnyddio data olrhain digidol.

Tabl 2.2: Enghreifftiau o olion digidol a gafodd eu defnyddio i Weithredu Adeiladau Damcaniaethol
Ffynhonnell data Adeilad damcaniaethol Cyfeiriadau
Logiau e-bost o brifysgol (meta-ddata yn unig) Perthnasau cymdeithasol Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Swyddi cyfryngau cymdeithasol ar Weibo Ymgysylltiad dinesig Zhang (2016)
Logiau e-bost o gwmni (meta-ddata a thestun cyflawn) Addasiad diwylliannol mewn sefydliad Srivastava et al. (2017)

Er bod y broblem o ddata anghyflawn ar gyfer casglu dehongliadau damcaniaethol yn eithaf anodd i'w datrys, ceir atebion cyffredin i'r mathau cyffredin o anghyflawnrwydd eraill: gwybodaeth ddemograffig anghyflawn a gwybodaeth anghyflawn ar ymddygiad ar lwyfannau eraill. Yr ateb cyntaf yw casglu'r data rydych ei angen arnoch; Byddaf yn dweud wrthych am hynny ym mhennod 3 pan ddywedaf wrthych am arolygon. Yr ail brif ateb yw gwneud pa wyddonwyr data sy'n galw tynnu sylw at briodoldeb defnyddwyr ac mae gwyddonwyr cymdeithasol yn galw amhariad . Yn yr ymagwedd hon, mae ymchwilwyr yn defnyddio'r wybodaeth sydd ganddynt ar rai pobl i ganfod nodweddion pobl eraill. Trydydd ateb posibl yw cyfuno nifer o ffynonellau data. Weithiau, gelwir y broses hon yn gyswllt cofnod . Ysgrifennodd Dunn (1946) fy hoff drosfflwm ar gyfer y broses hon ym mharagraff cyntaf y papur cyntaf cyntaf erioed a ysgrifennwyd ar gyswllt record:

"Mae pob person yn y byd yn creu Llyfr Bywyd. Mae'r Llyfr hwn yn dechrau gyda'i enedigaeth ac yn dod i ben gyda marwolaeth. Mae ei thudalennau yn cynnwys cofnodion o'r prif ddigwyddiadau mewn bywyd. Cysylltiad cofnod yw'r enw a roddir i'r broses o gydosod tudalennau'r llyfr hwn yn gyfrol. "

Pan ysgrifennodd Dunn y darn hwnnw roedd yn dychmygu y gallai'r Llyfr Bywyd gynnwys digwyddiadau bywyd mawr fel geni, priodas, ysgariad a marwolaeth. Fodd bynnag, erbyn hyn bod cymaint o wybodaeth am bobl yn cael ei chofnodi, gallai'r Llyfr Bywyd fod yn bortread eithriadol o fanwl, os gellir rhwymo'r tudalennau gwahanol hynny (hy, ein olion digidol) at ei gilydd. Gallai'r Llyfr Bywyd hwn fod yn adnodd gwych i ymchwilwyr. Ond, gellid ei alw hefyd yn gronfa ddata o ddifetha (Ohm 2010) , y gellid ei ddefnyddio ar gyfer pob math o ddibenion anfoesegol, fel y disgrifiaf ym mhennod 6 (Moeseg).