2.3.2.1 mhux kompluta

Ma jimpurtax kif "big" "tad-data big" tiegħek hija probabbilment ma jkollhiex l-informazzjoni li trid.

Ħafna sorsi ta 'data kbar huma inkompleti, fis-sens li dawn ma jkollhomx l-informazzjoni li inti se tkun trid għar-riċerka tiegħek. Din hija karatteristika komuni ta 'data li ġew maħluqa għal skopijiet oħra minbarra r-riċerka. xjentisti soċjali ħafna diġà kellhom l-esperjenza li jittrattaw ma 'l-inkompletezza, bħal stħarriġ eżistenti li ma titlob il-kwistjoni li riedu. Sfortunatament, il-problemi ta 'nuqqas ta' kompletezza tendenza li jkunu aktar estremi fid-data kbar. Fl-esperjenza tiegħi, id-data kbar tendenza li jkunu neqsin tliet tipi ta 'informazzjoni utli għal riċerka soċjali: id-demografija, l-imġiba fuq pjattaformi oħra, u d-data li tħaddem constructs teoretiċi.

It-tlieta ta 'dawn il-forom ta' nuqqas ta 'kompletezza huma illustrati fi studju minn Gueorgi Kossinets u Duncan Watts (2006) dwar l-evoluzzjoni tan-netwerk soċjali f'università. Kossinets u Watts bdiet mal-email zkuk mill-università, li kellhom informazzjoni preċiża dwar min bagħat emails li lilhom f'liema ħin (-riċerkaturi ma kellhomx aċċess għall-kontenut tal-emails). Dawn ir-rekords email ħoss bħal ta 'CCD aqwa, iżda, dawn huma' minkejja d-daqs tagħhom u inkompleta granularità-fundamentalment. Per eżempju, il-email zkuk ma jinkludux dejta dwar il-karatteristiċi demografiċi tal-istudenti, bħas-sess u l-età. Barra minn hekk, il-email zkuk ma jinkludux informazzjoni dwar il-komunikazzjoni permezz ta 'mezzi oħra, bħal telefonati, SMS, jew konversazzjonijiet wiċċ imb'wiċċ. Fl-aħħarnett, il-email zkuk ma jinkludux direttament informazzjoni dwar ir-relazzjonijiet, il constructs teoretiċi fil teoriji eżistenti f'ħafna. Aktar tard fil-kapitolu, meta I jitkellmu dwar strateġiji ta 'riċerka, tkun taf tara kif Kossinets u Watts solvuti dawn il-problemi.

Ta 'tliet tipi ta' inkompletezza, il-problema ta 'data mhux kompluta li tħaddem constructs teoretiċi huwa l-aktar diffiċli biex isolvu, u fl-esperjenza tiegħi, huwa spiss aċċidentalment injorat mill xjentisti data. Bejn wieħed u ieħor, constructs teoretiċi huma ideat astratti li jistudjaw x-xjentisti soċjali, iżda, sfortunatament, dawn constructs ma jistgħux dejjem jiġu definiti u mkejla b'mod mhux ambigwu. Per eżempju, ejja jimmaġina jippruvaw b'mod empiriku jittestjaw il-pretensjoni apparentement sempliċi li n-nies li huma aktar intelliġenti jaqilgħu aktar flus. Sabiex jiġu ttestjati din il-pretensjoni li għandek bżonn biex ikejlu "intelliġenza." Imma, dak li huwa intelliġenza? Per eżempju, Gardner (2011) argumenta li hemm attwalment tmien forom differenti ta 'intelliġenza. U, hemm proċeduri li jistgħu jkejlu b'mod preċiż xi waħda minn dawn il-forom ta 'intelliġenza? Minkejja ammonti enormi ta 'xogħol minn psikologi, dawn il-mistoqsijiet għad m'għandhomx tweġibiet mhux ambigwi. B'hekk, anki relattivament sempliċi talba fuq il-persuni li huma aktar intelliġenti jaqilgħu aktar flus jista 'jkun diffiċli biex jevalwaw b'mod empiriku minħabba li jista' jkun diffiċli li tħaddem constructs teoretiċi fid-data. Eżempji oħra ta 'constructs teoretiċi li huma importanti iżda diffiċli li tħaddem jinkludu "normi," "kapital soċjali," u "demokrazija." Xjenzjati soċjali jsejħu l-logħba bejn constructs teoretiċi u validità tibni data (Cronbach and Meehl 1955) . U, kif din il-lista ta 'constructs jissuġġerixxi, jibnu validità hija problema li xjentisti soċjali rsistew ma' għal żmien twil ħafna, anke meta kienu qed jaħdmu ma 'data li tkun inġabret għall-iskop ta' riċerka. Meta taħdem ma 'data miġbura għal għanijiet oħra minbarra r, il-problemi ta' validità kostruzzjoni huma saħansitra aktar ta 'sfida (Lazer 2015) .

Meta inti qari karta ta 'riċerka, mod wieħed ta' malajr u utli li tiġi evalwata tħassib dwar validità jinbena huwa li jieħu l-pretensjoni prinċipali fil-karta, li hija normalment espressa f'termini ta 'constructs, u terġa' jesprimuha f'termini ta 'l-informazzjoni użata. Per eżempju, jikkunsidraw żewġ studji ipotetiċi li jsostnu li juru li n-nies aktar intelliġenti jaqilgħu aktar flus:

  • Studju 1: in-nies li jmorru tajjeb fuq il Testijiet ta 'matriċi Raven Progressiva test studjat ukoll ta' intelliġenza analitiċi (Carpenter, Just, and Shell 1990) -have dħul ogħla rrappurtati dwar il-prospetti tat-taxxa tagħhom
  • Studju 2: nies fuq Twitter li użaw kliem itwal huma aktar probabbli li jsemmu marki ta 'lussu

Fiż-żewġ każijiet, ir-riċerkaturi jista 'jiddikjara li huma wrew li n-nies aktar intelliġenti jaqilgħu aktar flus. Iżda, fl-ewwel studju constructs teoretiċi huma ukoll titħaddem mit-dejta, u fit-tieni mhumiex. Barra minn hekk, kif dan l-eżempju juri, iktar data ma awtomatikament issolvi l-problemi b'validità jibnu. Għandek dubju r-riżultati ta 'Studju 2 jekk involuta miljun tweets, biljun tweets, jew triljun tweets. Għar-riċerkaturi mhux familjari ma 'l-idea ta' validità tibni, Tabella 2.2 tipprovdi xi eżempji ta 'studji li operazzjonalizzati constructs teoretiċi li jużaw id-data ta' traċċa diġitali.

Tabella 2.2: Eżempji ta 'traċċi diġitali li jintużaw bħala miżuri ta' kunċetti teoretiċi aktar astratti. Xjentisti soċjali sejħa dan validità logħba tibni u hija sfida maġġuri li jużaw sorsi ta 'data kbar għar-riċerka soċjali (Lazer 2015) .
traċċa diġitali jibnu teoretiku Ċitazzjoni
email zkuk minn università (meta-data biss) relazzjonijiet soċjali Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
postijiet media soċjali fuq Weibo involviment ċiviku Zhang (2016)
email zkuk minn ditta (meta-data u test komplut) tajbin kulturali fl-organizzazzjoni Goldberg et al. (2015)

Għalkemm il-problema tad-dejta mhux kompleta għall constructs teoretiċi operationalizing huwa pjuttost diffiċli biex isolvu, hemm tliet soluzzjonijiet komuni għall-problema tal-informazzjoni demografika mhux kompluta u l-informazzjoni mhux kompleta fuq l-imġiba fuq pjattaformi oħra. L-ewwel huwa li attwalment jiġbru l-informazzjoni li għandek bżonn; I ser jgħidlek dwar eżempju ta 'dak fil-Kapitolu 3 meta I jgħidlek dwar stħarriġ. Sfortunatament, dan it-tip ta 'ġbir ta' dejta mhux dejjem ikun possibbli. It-tieni soluzzjoni prinċipali huwa li tagħmel dak xjenzati data sejħa inferenza-attribut utent u dak xjentisti soċjali sejħa imputazzjoni. F'din l-istrateġija, ir-riċerkaturi jużaw l-informazzjoni li huma għandhom fuq xi nies li wieħed jiddeduċi attributi ta 'nies oħra. It-tielet possibbli soluzzjoni dik użata mill Kossinets u watts-kien li jgħaqqdu sorsi ta 'dejta multipli. Dan il-proċess huwa xi kultant imsejjaħ qed jingħaqdu jew rabta rekord. Metafora favorit tiegħi għal dan il-proċess kien propost fl-ewwel paragrafu ta 'l-ewwel karta qatt bil-miktub dwar ir-rabta rekord (Dunn 1946) :

"Kull persuna fid-dinja toħloq Ktieb tal-Ħajja. Dan il-Ktieb jibda bil twelid u tispiċċa bil-mewt. paġni tagħha huma magħmula minn reġistri tal-avvenimenti prinċipju fil-ħajja. rabta rekord huwa l-isem mogħti lill-proċess ta 'assemblaġġ-paġni ta' dan il-ktieb f'volum. "

Din is-silta kienet miktuba fl-1946, u dak iż-żmien, in-nies kienu qed jaħsbu li l-Ktieb tal-Ħajja jista 'jinkludi avvenimenti tal-ħajja kbar bħall-twelid, żwieġ, divorzju, u mewt. Madankollu, issa li l-informazzjoni tant dwar in-nies hija rreġistrata, il-Ktieb tal-Ħajja jista 'jkun ritratt oerhört dettaljata, jekk dawk il-paġni differenti (jiġifieri, traċċi diġitali tagħna), tistax tkun marbuta flimkien. Dan il-ktieb tal-Ħajja jista 'jkun riżorsa kbira għar-riċerkaturi. Iżda, il-Ktieb tal-Ħajja jista 'jissejjaħ wkoll database ta' rovina (Ohm 2010) , li jistgħu jintużaw għal kull tip ta 'skop mhux etiċi, kif deskritti aktar hawn taħt meta I jitkellmu dwar in-natura sensittiva tal-informazzjoni miġbura minn sorsi ta' dejta kbar hawn taħt u fil-Kapitolu 6 (Etika).