2.3.2.1 Taratas

Perkara teu kumaha "data gedé" "big" Anjeun nya meureun teu boga informasi Anjeun hoyong.

Kalolobaan sumber data gedé nu lengkep, dina rasa nu teu boga informasi nu bakal hoyong pikeun panalungtikan Anjeun. Ieu ciri umum data nu dijieun pikeun tujuan lian ti panalungtikan. Loba ilmuwan sosial geus kungsi pangalaman kaayaan incompleteness, saperti hiji survey aya nu teu nanya Patarosan anjeun hayang. Hanjakalna, masalah incompleteness condong leuwih ekstrim dina data gedé. Dina pangalaman mah, data gedé nuju jadi leungit tilu rupa informasi mangpaat pikeun panalungtikan sosial: demografi, paripolah dina platform séjénna, sarta data ka operationalize constructs teoritis.

Katiluna bentuk ieu incompleteness nu gambar dina ulikan ku Gueorgi Kossinets jeung Duncan Watts (2006) ngeunaan évolusi jaringan sosial di universitas. Kossinets jeung Watts dimimitian jeung log email ti universitas, nu miboga informasi tepat ngeunaan anu dikirim surelek ka saha di naon waktu (panalungtik teu miboga aksés ka eusi surelek). catetan email ieu disada kawas hiji dataset endah pisan, tapi sipatna-sanajan ukuran maranéhanana jeung granularity-fundamentally lengkep. Contona, log email teu kaasup data ngeunaan ciri demografi siswa, saperti gender jeung umur. Salajengna, nu log email teu kaasup informasi ngeunaan komunikasi ngaliwatan media sejenna, saperti Telepon, talatah teks atawa paguneman beungeut-to-beungeut. Ahirna, dina log email teu langsung di antarana informasi ngeunaan hubungan, nu constructs teoritis loba téori geus aya. Saterusna dina bab, basa kuring ngobrol ngeunaan strategi panalungtikan, Anjeun bakal ningali kumaha Kossinets jeung Watts direngsekeun masalah ieu.

Tilu rupa incompleteness, masalah data lengkep ka operationalize constructs teoritis nyaéta hardest pikeun ngajawab, sarta dina pangalaman mah, eta mindeng ngahaja overlooked ku élmuwan data. Kasarna, constructs teoritis nu gagasan abstrak nu diajar élmuwan sosial, tapi, hanjakalna, constructs ieu teu bisa sok jadi unambiguously dihartikeun jeung diukur. Contona, hayu urang dibayangkeun nyoba émpiris nguji ngaku tétéla basajan nu urang anu leuwih calakan earn leuwih duit. Dina raraga nguji ngaku ieu anjeun bakal kudu ngukur "kecerdasan." Tapi, naon kecerdasan? Contona, Gardner (2011) pamadegan nu aya sabenerna dalapan bentuk nu beda-beda kecerdasan. Jeung, aya prosedur nu akurat bisa ngukur salah sahiji bentuk ieu kecerdasan? Najan jumlahna loba pisan karya ku psikolog, patarosan ieu masih teu boga jawaban unambiguous. Ku kituna, komo kawilang basajan ngaku-jelema anu leuwih calakan earn leuwih duit-bisa hésé assess émpiris sabab bisa hésé operationalize constructs teoritis di data. Conto sejenna constructs teoritis nu penting tapi hésé operationalize antarana "norma," "ibukota sosial," jeung "demokrasi". Élmuwan Sosial nelepon pertandingan antara constructs teoritis jeung validitas data nyusunna (Cronbach and Meehl 1955) . Jeung, salaku daptar ieu constructs nunjukkeun, nyusunna validitas masalah anu élmuwan sosial geus Cut Nyak Dien jeung keur waktu anu pohara lila, komo lamun maranéhanana gawé bareng data nu dikumpulkeun pikeun tujuan panalungtikan. Lamun gawé bareng data dikumpulkeun pikeun tujuan lian ti panalungtikan, masalah validitas nyusunna aya malah leuwih nangtang (Lazer 2015) .

Sawaktos Anjeun keur maca hiji tulisan panalungtikan, salah sahiji cara gancang jeung mangpaat pikeun assess kasalempang validitas nyusunna pikeun nyokot ngaku utama dina kertas, nu biasana ditembongkeun dina watesan constructs, jeung ulang nganyatakeun dina watesan data digunakeun. Contona, anggap dua studi hypothetical nu ngaku pikeun mintonkeun yen urang leuwih calakan earn leuwih duit:

  • Study 1: jelema anu skor oge dina Gagak kutang Matrices Test-test oge diajarkeun ti kecerdasan analytic (Carpenter, Just, and Shell 1990) -have incomes dilaporkeun luhur dina mulih pajeg maranéhanana
  • Study 2: jelema on Twitter anu dipaké kecap deui nu leuwih gampang nyebut merek méwah

Dina boh kasus, panalungtik bisa ngeceskeun yen maranehna geus nembongkeun yen urang leuwih calakan earn leuwih duit. Tapi, dina ulikan kahiji constructs teoritis nu oge operationalized ku data, sarta dina kadua maranehna teu. Salajengna, salaku conto ieu illustrates, leuwih data teu otomatis ngajawab masalah jeung validitas nyusunna. Anjeun kudu ragu hasil Study 2 naha aub sajuta tweets, hiji milyar tweets, atawa triliun tweets. Pikeun panalungtik teu wawuh jeung pamanggih validitas nyusunna, Table 2.2 nyadiakeun sababaraha conto studi nu geus operationalized constructs teoritis ngagunakeun renik data digital.

Table 2.2: Conto ngambah digital nu dipaké salaku ukuran tina konsep teoritis leuwih abstrak. Élmuwan Sosial nelepon ieu validitas cocog nyusunna jeung mangrupa tangtangan utama jeung ngagunakeun sumber data gedé pikeun panalungtikan sosial (Lazer 2015) .
renik digital nyusunna Téori nyalukan
email log ti universitas (meta-data wungkul) hubungan sosial Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
tulisan média sosial dina Weibo Dursasana Civic Zhang (2016)
log email ti sungut hiji (meta-data jeung téks lengkep) Budaya fit dina organisasi Goldberg et al. (2015)

Sanajan masalah data lengkep pikeun constructs teoritis operationalizing geulis teuas pikeun ngajawab, aya tilu leyuran ilahar masalah informasi demografi lengkep sareng inpo lengkep dina paripolah dina platform séjén. Nu kahiji nya éta sabenerna ngumpulkeun data Anjeun kudu; Abdi gé ngabejaan ka maneh ngeunaan conto dina Bab 3 basa kuring ngabejaan Anjeun tentang survey. Hanjakalna, jenis ieu kumpulan data téh henteu salawasna mungkin. Leyuran utama kadua nyaéta pikeun ngalakukeun naon élmuwan data nelepon pamaké-atribut inference jeung naon élmuwan sosial nelepon imputation. Dina pendekatan ieu, panalungtik ngagunakeun informasi yén maranéhanana geus dina sababaraha urang infer atribut jalma séjén. katilu mungkin leyuran-hiji nu dipaké ku Kossinets jeung Watts-ieu ngagabung sababaraha sumber data. Prosés ieu kadangkala disebut merging atawa catetan beungkeut. Métafora paporit mah keur proses ieu diusulkeun dina ayat pisan kahiji kertas pisan kahiji kungsi ditulis dina catetan beungkeut (Dunn 1946) :

"Unggal jalma di dunya nyieun Book of Life. Book ieu dimimitian ku lahir jeung ends jeung pati. Kaca anak nu diwangun ku catetan kajadian prinsip dina kahirupan. Catetan beungkeut nyaéta ngaran anu dibikeun ka prosés assembling kaca buku ieu kana volume hiji. "

petikan ieu ditulis dina 1946, sarta dina waktu éta, urang mikir yén Book of Life bisa di antarana kajadian kahirupan utama kawas lahir, nikah, cerai, sarta maot. Tapi, ayeuna jadi loba informasi ngeunaan jalma nu kacatet, Kitab Kahirupan bisa jadi potret incredibly lengkep, lamun maranéhanana kaca beda (ie, ngambah digital urang), bisa kabeungkeut babarengan. Book ieu Kahirupan bisa jadi sumberdaya gede pikeun panalungtik. Tapi, Kitab Kahirupan bisa ogé disebut database of uing (Ohm 2010) , nu bisa dipaké pikeun sagala rupa kaperluan unethical, sakumaha dijelaskeun leuwih handap basa kuring ngobrol ngeunaan alam sensitip informasi nu dikumpulkeun ku sumber data gedé di handap jeung in Chapter 6 (Etika).