katrangan luwih

Bagean iki dirancang kanggo digunakake minangka referensi, tinimbang kanggo maca minangka narasi.

  • Pambuka (Section 2.1)

Jenis ngisi sing ora klebu ing bab iki ethnography. Kanggo liyane ethnography ing spasi digital ndeleng Boellstorff et al. (2012) , lan kanggo liyane ing ethnography ing spasi digital lan fisik mixed ndeleng Lane (2016) .

  • Data Big (Section 2.2)

Nalika lagi repurposing data, ana rong trik mental sing bisa ngerti masalah bisa sing bisa ditemoni. First, sampeyan bisa nyoba kanggo mbayangno perlengkapan data becik kanggo masalah lan mbandhingaké sing kanggo ing perlengkapan data sing nggunakake. Carane wong padha lan carane wong beda? Yen sampeyan ora ngumpulake data dhewe, ana kamungkinan kanggo dadi prabédan antarane apa sing arep lan apa sing kudu. Nanging, sampeyan kudu netepake yen beda iku suntingan utawa utama.

Kapindho, elinga wong digawe lan diklumpukake data kanggo sawetara alesan. Sampeyan kudu nyoba kanggo ngerti pertimbangan. Iki jenis mbalikke-engineering bisa mbantu ngenali masalah bisa lan biases ing data repurposed.

Ana definisi Kesepakatan siji saka "data amba", nanging akeh ukara koyone fokus ing 3 Vs: (contone, volume, macem-macem, lan kecepatan Japec et al. (2015) ). Luwih saka ngarahke ing karakteristik data ing, definisi sandi fokus liyane ing apa data iki digawe.

Gawan saka data administratif pamaréntahan nang kategori data amba punika dicokot saèstu. Liyane sing wis digawe ngono, kalebu Legewie (2015) , Connelly et al. (2016) , lan Einav and Levin (2014) . Kanggo luwih bab nilai saka data administratif pamaréntahan kanggo riset, ndeleng Card et al. (2010) , Taskforce (2012) , lan Grusky, Smeeding, and Snipp (2015) .

Kanggo ndeleng riset administratif saka njero sistem statistik pemerintah, utamané Biro Sensus AS, ndeleng Jarmin and O'Hara (2016) . Kanggo perawatan dawa kitab riset cathetan administratif ing Statistik Swedia, ndeleng Wallgren and Wallgren (2007) .

Ing bab, aku sedhela dibandhingake survey tradisional kayata Survey Umum Social (GSS) kanggo sumber data media sosial kayata Twitter. Kanggo comparison pepek lan ati-ati antarane survey tradisional lan data media sosial, ndeleng Schober et al. (2016) .

  • Ciri umum data amba (Section 2.3)

Iki 10 karakteristik data amba wis diterangake ing macem-macem cara dening macem-macem penulis beda. Nulis sing dipengaruhi pikiran ing masalah iki kalebu: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , lan Goldstone and Lupyan (2016) .

Saindhenging bab iki, aku wis digunakake ing ngambah digital term, kang aku punika relatif Neutral. Liyane istilah populer kanggo ngambah digital ara leluhurku digital (Golder and Macy 2014) , nanging minangka Hal Abelson, Ken Ledeen, lan Harry Lewis (2008) nggawa metu, istilah luwih cocok mbokmenawa jari digital. Nalika nggawe ara leluhurku, sampeyan weruh apa wis kedados lan ara leluhurku Panjenengan bisa ora umum dilacak kowe wong. Padha ora bener kanggo ngambah digital. Ing kasunyatan, sampeyan ninggalake ngambah kabeh wektu bab sing duwe kawruh banget sethitik. Lan, sanajan ngambah iki ora duwe jeneng ing wong, padha bisa asring disambung maneh. Ing tembung liyane, padha luwih kaya jari: siro lan wong Ngenali.

Big

Kanggo luwih ing apa sekumpulan data gedhe, nerjemahake tes statistik masalah, ndeleng Lin, Lucas, and Shmueli (2013) lan McFarland and McFarland (2015) . masalah iki kudu mimpin riset fokus ing pinunjul praktis tinimbang pinunjul statistik.

Tansah ing

Nalika ngelingi tansah ing data, iku penting kanggo nimbang apa sing mbandingaken wong pas padha liwat wektu utawa apa sing mbandingaken sawetara klompok ganti wong; ndeleng contone, Diaz et al. (2016) .

Non-reaktif

A buku klasik ing ngukur non-reaktif punika Webb et al. (1966) . Conto ing buku wis tanggal umur digital, nanging lagi isih damel padhang. Kanggo conto wong ganti prilaku amarga saka ngarsane kang ndjogo massa, ndeleng Penney (2016) lan Brayne (2014) .

pepak

Kanggo ing laporan ubungan, ndeleng Dunn (1946) lan Fellegi and Sunter (1969) (sajarah) lan Larsen and Winkler (2014) (modern). Nyedhaki padha uga wis dikembangaké ing èlmu komputer miturut jeneng kayata deduplication data, identifikasi Kayata, jeneng cocog, duplikat deteksi, lan duplikat rekaman deteksi (Elmagarmid, Ipeirotis, and Verykios 2007) . Ana uga privasi dijogo cedhak kanggo ngrekam ubungan kang ora mbutuhake transmisi wong Ngenali informasi (Schnell 2013) . Facebook uga wis dikembangaké nerusake kanggo pranala cathetan prilaku swara; iki rampung kanggo ngira-ngira eksprimen aku pitutur marang kowe bab ing Bab 4 (Bond et al. 2012; Jones et al. 2013) .

Kanggo luwih ing sah nbangun, ndeleng Shadish, Cook, and Campbell (2001) , Pasal 3.

diaksès

Kanggo luwih ing AOL search log debacle, ndeleng Ohm (2010) . Aku nasihat babagan partnering karo perusahaan lan pemerintah ing Bab 4 nalika aku njlèntrèhaké nyobi. A sawetara panulis wis ditulis uneg-uneg babagan riset sing gumantung ing data ora bisa diliwati, ndeleng Huberman (2012) lan boyd and Crawford (2012) .

Salah siji cara sing apik kanggo peneliti universitas kanggo ndarbeni akses data iku bisa ing perusahaan minangka Intern utawa ngunjungi peneliti. Saliyane mbisakake akses data, proses iki uga bakal bantuan peneliti ing lengkap babagan data iki digawe, kang penting kanggo analisis.

Non-wakil

Non-representativeness masalah utama kanggo riset lan pemerintah sing pengin nggawe statements babagan populasi kabeh. Iki kurang saka badhan kanggo perusahaan sing biasane fokus ing kedhaftar. Kanggo luwih akeh babagan carane Statistik Belanda nganggep Jeksa Agung bisa ngetokake saka non-representativeness data amba bisnis, ndeleng Buelens et al. (2014) .

Ing Bab 3, aku bakal njlèntrèhaké sampling lan ngira ing akeh luwih rinci. Malah yen data sing non-wakil, ing kahanan tartamtu, padha bisa kanggo bobot gawé prakiraan apik.

kentir

Sistem mabur banget hard kanggo ndeleng saka njaba. Nanging, ing project MovieLens (rembugan luwih ing Bab 4) wis mbukak kanggo luwih saka 15 taun dening kelompok riset akademik. Mulane, padha nyathet lan sambungan informasi bab cara sing sistem wis ngalami évolusi saka wektu lan carane iki bisa impact analisis (Harper and Konstan 2015) .

A sawetara sarjana wis fokus ing mabur ing Twitter: Liu, Kliman-Silver, and Mislove (2014) lan Tufekci (2014) .

algorithmically kawirangan

Aku pisanan krungu istilah "algorithmically kawirangan" digunakake dening Jon Kleinberg ing Dhiskusi. Idea utama konco performativity iku kathah teori ilmu sosial "mesin ora kamera" (Mackenzie 2008) . Sing, lagi bener wangun donya tinimbang mung dijupuk.

reged

Agensi statistik pemerintah nelpon data reresik, editing data statistik. De Waal, Puts, and Daas (2014) njelasaken Techniques editing data statistik dikembangaké kanggo data survey lan nliti kanggo kang ombone lagi ditrapake kanggo sumber data amba, lan Puts, Daas, and Waal (2015) presents sawetara gagasan padha kanggo para rawuh luwih umum.

Kanggo sawetara conto pasinaon fokus ing spam ing Twitter, Clark et al. (2016) lan Chu et al. (2012) . Akhire, Subrahmanian et al. (2016) nggambaraken asil saka DARPA Twitter Bot Challenge.

Sensitive

Ohm (2015) Kuala riset sadurungé ing idea saka informasi sensitif lan nawakake test multi-faktor. Papat faktor kang ngusulake sing: kemungkinan gawe piala; kemungkinan gawe piala; ngarsane hubungan rahasia; lan apa resiko nggambarake uneg-uneg majoritarian.

  • Ngetang iku (Section 2.4.1)

Sinau Farber kang taksi ing New York iki adhedhasar sinau sadurungé dening Camerer et al. (1997) sing digunakake telung conto penak beda formulir kertas trip sheets-kertas digunakake dening pembalap kanggo ngrekam trip wektu wiwitan, wektu pungkasan, lan beya. sinau sadurungé iki ketemu sing pembalap ketoke dadi target earners: padha makarya kurang ing dina ngendi pituwase sing padha luwih.

Kossinets and Watts (2009) , iki fokus ing asli saka homophily ing jaringan sosial. Waca Wimmer and Lewis (2010) kanggo pendekatan beda kanggo masalah padha kang migunakake data saka Facebook.

Ing karya sakteruse, King lan kolega wis luwih nelik censorship online in China (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Kanggo pendekatan related kanggo ngukur censorship online ing China, ndeleng Bamman, O'Connor, and Smith (2012) . Kanggo luwih ing statistik cara kaya kang digunakake ing King, Pan, and Roberts (2013) kanggo ngira sentimen saka 11 yuta posting, ndeleng Hopkins and King (2010) . Kanggo luwih ing learning ngawasi, ndeleng James et al. (2013) (kurang technical) lan Hastie, Tibshirani, and Friedman (2009) (more technical).

  • Prakiraan (Section 2.4.2)

Prakiraan minangka bagean amba saka industri ilmu data (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Siji jinis prakiraan sing umume rampung dening peneliti sosial prakiraan demografi, contone Raftery et al. (2012) .

Google Flu Trends ora proyèk pisanan nggunakake data search kanggo nowcast lazim influenza. Ing kasunyatan, peneliti ing Amerika Serikat (Polgreen et al. 2008; Ginsberg et al. 2009) lan Swedia (Hulth, Rydevik, and Linde 2009) wis ketemu sing digoleki tartamtu (contone, "flu") mbadek ndjogo kesehatan masyarakat nasional data sadurunge iku dirilis. Salajengipun akeh, akeh proyèk liya wis nyoba kanggo nggunakake tilak data digital kanggo deteksi ndjogo penyakit, ndeleng Althouse et al. (2015) kanggo review.

Kejawi tilak data digital kanggo mrédhiksi kasil kesehatan, ana uga wis jumlah ageng karya nggunakake data Twitter kanggo mrédhiksi kasil Pemilu; kanggo review ndeleng Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), lan Huberty (2015) .

Nggunakake data search kanggo ngiro lazim influenza lan nggunakake data Twitter kanggo mrédhiksi pemilihan ana loro conto saka nggunakake sawetara jenis tilak digital kanggo mrédhiksi sawetara jenis acara ing donya. Ana nomer gedhe tenan saka studi sing duwe struktur umum iki. Tabel 2.5 kalebu sawetara conto liyane.

Tabel 2.5: dhaftar Partial pasinaon nggunakake sawetara tilak digital kanggo mrédhiksi sawetara acara.
tilak digital kasil citation
Twitter revenue kantor Box film ing AS Asur and Huberman (2010)
search log Dodolan film, musik, buku, lan video game ing AS Goel et al. (2010)
Twitter Dow Jones Industrial Average (pasar Simpenan US) Bollen, Mao, and Zeng (2011)
  • Nyobi approximating (Section 2.4.3)

Jurnal PS Ilmu Politik wis simposium ing data amba, kesimpulan Indonésia, lan teori formal, lan Clark and Golder (2015) ngringkes saben kontribusi. Tindakan Jurnal saka National Academy of Sciences ing Amérika Sarékat wis simposium kesimpulan nyebabake lan data amba, lan Shiffrin (2016) ngringkes saben kontribusi.

Ing istilah nyobi alam, Dunning (2012) Nyedhiyani perawatan dawa buku banget. Kanggo luwih ing nggunakake Vietnam konsep lotre minangka eksprimen alam, ndeleng Berinsky and Chatfield (2015) . Kanggo cedhak machine learning sing nyoba kanggo otomatis nemokake nyobi alam nang sumber data amba, ndeleng Jensen et al. (2008) lan Sharma, Hofman, and Watts (2015) .

Ing istilah cocog, kanggo review optimistis, ndeleng Stuart (2010) , lan kanggo review pesimis ndeleng Sekhon (2009) . Kanggo luwih ing cocog minangka jenis pruning, ndeleng Ho et al. (2007) . Kanggo buku sing nyedhiyani pangobatan banget cocog, ndeleng Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , lan Imbens and Rubin (2015) .