Pli lwen Book

Seksyon sa-a fèt yo dwe itilize kòm yon referans, olye ke ou dwe li kòm yon naratif.

  • Entwodiksyon (Seksyon 2.1)

Yon sèl kalite obsève ki pa enkli nan chapit sa a se ètnografi. Pou plis enfòmasyon sou ètnografi yo nan espas dijital wè Boellstorff et al. (2012) , ak pou plis enfòmasyon sou ètnografi yo nan espas melanje dijital ak fizik wè Lane (2016) .

  • Done Big (Seksyon 2.2)

Lè w ap Reoryantasyon done, ki te gen de ke trik nouvèl mantal ki ka ede w konprann pwoblèm sa yo posib ke ou ta ka rankontre. Premyèman, ou ka eseye imajine dataze an ideyal pou pwoblèm ou epi konpare ke yo dataze la ke ou ap itilize. Ki jan yo se yo menm jan an ak ki jan yo ye diferan? Si ou pa t kolekte done ou tèt ou, gen chans yo dwe diferans ki genyen ant sa ou vle ak sa ou genyen. Men, ou gen deside si diferans sa yo, se minè oswa pi gwo.

Dezyèmman, sonje ke yon moun kreye ak kolekte done ou pou kèk rezon. Ou ta dwe eseye konprann rezònman yo. Sa a jan de ranvèse-jeni ka ede w idantifye pwoblèm posib epi prejije nan done repurposed ou yo.

Pa gen okenn sèl definisyon konsansis nan "done gwo", men anpil definisyon sanble yo konsantre sou vs 3: (egzanp, volim, varyete, ak vitès Japec et al. (2015) ). Olye ke konsantre sou karakteristik sa yo nan done yo, definisyon mwen konsantre plis sou poukisa done yo te kreye.

enklizyon mwen nan gouvènman done administratif andedan kategori a nan done gwo se yon ti jan trè. Gen lòt ki ki te fè ka sa a, gen ladan yo Legewie (2015) , Connelly et al. (2016) , ak Einav and Levin (2014) . Pou plis enfòmasyon sou valè a nan gouvènman done administratif pou rechèch, wè Card et al. (2010) , Taskforce (2012) , ak Grusky, Smeeding, and Snipp (2015) .

Pou yon gade nan rechèch administratif soti nan anndan gouvènman sistèm lan estatistik, patikilyèman US Census Bureau la, gade Jarmin and O'Hara (2016) . Pou yon tretman longè liv nan rechèch la dosye administratif nan Estatistik Syèd, wè Wallgren and Wallgren (2007) .

Nan chapit la, mwen yon ti tan konpare yon sondaj tradisyonèl tankou Sondaj sou Jeneral Sosyal (GSS) nan yon medya sous done sosyal tankou Twitter. Pou yon konparezon bon jan ak atansyon ant sondaj tradisyonèl ak done medya sosyal, wè Schober et al. (2016) .

  • Karakteristik komen pou done gwo (Seksyon 2.3)

Karakteristik sa yo 10 nan done gwo yo te dekri nan yon varyete de diferan fason pa yon varyete de otè diferan. Ekri ki enfliyanse panse m 'sou pwoblèm sa yo gen ladan yo: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , ak Goldstone and Lupyan (2016) .

Pandan tout chapit sa a, mwen te itilize tèm tras yo dijital, ki mwen panse ke se relativman net. Yon lòt tèm popilè pou tras dijital se mak pye dijital (Golder and Macy 2014) , men kòm Hal Abelson, Ken Ledeen, ak Harry Lewis (2008) pwen soti, yon tèm pi apwopriye se pwobableman anprent dwèt dijital. Lè ou kreye mak pye, ou se okouran de sa k ap pase ak mak pye ou a pa ka jeneralman ka remonte nan ou pèsonèlman. Menm bagay la tou se pa vre pou tras dijital ou. An reyalite, ou ap kite tras tout tan tout tan an sou kote ou gen konesans anpil. Epi, byenke tras sa yo pa gen non ou sou yo, yo ka souvan dwe lye tounen ba ou. Nan lòt mo, yo gen plis tankou anprent dwèt: envizib ak moun pèsonèlman idantifye.

Big

Pou plis enfòmasyon sou poukisa ansanbl gwo, rann tès estatistik pwoblèm, wè Lin, Lucas, and Shmueli (2013) ak McFarland and McFarland (2015) . Pwoblèm sa yo ta dwe mennen chèchè yo konsantre sou siyifikasyon pratik olye ke siyifikasyon estatistik.

Toujou-sou

Lè ou ap konsidere toujou-sou done, li enpòtan yo konsidere si w ap konpare egzak moun yo menm sou tan oswa si w ap konpare kèk gwoup chanje nan moun; wè pou egzanp, Diaz et al. (2016) .

Ki pa Peye-reyaktif

Yon liv klasik sou mezi ki pa reyaktif se Webb et al. (1966) . Egzanp yo nan liv pre-dat nan laj dijital la, men yo toujou limine. Pou egzanp sou moun ki chanje konpòtman yo paske yo te nan prezans nan siveyans mas, gade Penney (2016) ak Brayne (2014) .

enkonplè

Pou plis enfòmasyon sou dosye koneksyon, gade Dunn (1946) ak Fellegi and Sunter (1969) (istorik) ak Larsen and Winkler (2014) (modèn). Menm jan an pwoche bò te tou te devlope nan syans òdinatè anba non yo tankou kòm done deduplikasyon, idantifikasyon egzanp, non matche, kopi deteksyon, ak kopi deteksyon dosye (Elmagarmid, Ipeirotis, and Verykios 2007) . Genyen tou sou vi prive prezève apwòch nan dosye koneksyon ki pa mande pou transmisyon maladi a nan pèsonèlman enfòmasyon ki idantifye (Schnell 2013) . Facebook tou te devlope yon kontinye fè rapò ant dosye yo ak konpòtman pou vote; sa a te fè yo evalye yon eksperyans ke mwen pral di ou sou sa nan chapit 4 (Bond et al. 2012; Jones et al. 2013) .

Pou plis enfòmasyon sou konstwi validite, gade Shadish, Cook, and Campbell (2001) , Chapit 3.

aksesib

Pou plis enfòmasyon sou AOL rechèch boutèy demi lit fyasko nan, gade Ohm (2010) . Mwen ofri konsèy sou patenarya ak konpayi yo e gouvènman an Chapit 4 lè m 'dekri eksperyans. Yon nimewo de otè eksprime enkyetid yo osijè rechèch ki depann sou done aksesib, gade Huberman (2012) ak boyd and Crawford (2012) .

Yon bon fason pou chèchè inivèsite a jwenn done aksè se nan travay nan yon konpayi kòm yon estajyè oubyen vizite chèchè. Anplis de sa nan pèmèt done aksè, pwosesis sa a pral tou pou ede chèchè a aprann plis sou ki jan done a te kreye, ki se enpòtan pou analiz.

Ki pa Peye-reprezantan

Ki pa Peye-reprezantativite se yon pwoblèm pi gwo pou chèchè ak gouvènman ki vle fè deklarasyon sou yon popilasyon tout antye. Sa a se mwens ki konsène yo pou konpayi yo ki yo, se tipikman konsantre sou itilizatè yo. Pou plis enfòmasyon sou ki jan Statistiques Netherlands konsidere pwoblèm lan nan ki pa reprezantativite-nan done biznis gwo, wè Buelens et al. (2014) .

Nan chapit 3 a, mwen pral dekri pran echantiyon ak estimasyon nan anpil plis detay. Menm si done yo ki pa reprezantan, selon sèten kondisyon, yo ka filaplon yo pwodwi estimasyon bon.

drifting

flote Sistèm se yon bagay ki difisil yo wè deyò an. Sepandan, gen pwojè a MovieLens (diskite plis nan chapit 4) te kouri pou plis pase 15 ane pa yon gwoup rechèch akademik yo. Se poutèt sa, yo te dokimante ak pataje enfòmasyon sou wout la ki te sistèm nan evolye sou tan ak ki jan sa analiz ta ka gen enpak sou (Harper and Konstan 2015) .

Yon nimewo de entelektyèl konsantre sou flote nan Twitter: Liu, Kliman-Silver, and Mislove (2014) ak Tufekci (2014) .

algorithmically wont

M 'premye tande tèm "algorithmically wont" itilize pa Jon Kleinberg nan yon pale. Lide prensipal dèyè performativity se ke kèk teyori syans sosyal yo se "motè pa kamera" (Mackenzie 2008) . Ki se, se yo aktyèlman fòm mond lan olye ke sèlman pran l '.

sal

Gouvènmantal ajans estatistik rele done netwaye, estatistik koreksyon done. De Waal, Puts, and Daas (2014) dekri estatistik teknik done koreksyon devlope pou done sondaj ak egzaminen yo ki limit yo aplikab a sous done gwo, ak Puts, Daas, and Waal (2015) prezante kèk nan lide yo menm pou yon odyans plis jeneral.

Pou kèk egzanp nan syans konsantre sou Spam nan Twitter, Clark et al. (2016) ak Chu et al. (2012) . Finalman, Subrahmanian et al. (2016) dekri rezilta yo nan DARPA Twitter Bot Challenge la.

sansibl

Ohm (2015) revize pi bonè rechèch sou lide a nan enfòmasyon sansib epi li ofri yon tès milti-faktè. kat faktè yo li pwopoze yo se: pwobabilite ki genyen pou mal; pwobabilite a mal; prezans nan yon relasyon konfidansyèl; epi si risk pou reflete enkyetid majoritèr.

  • Konte bagay (Seksyon 2.4.1)

Etid Farber a nan taksi nan New York te baze sou yon etid pi bonè pa Camerer et al. (1997) ki te konn twa echantiyon konvenyans diferan nan vwayaj papye fòm fèy papye-papye itilize pa chofè nan dosye vwayaj tan kòmanse, tan fen, ak pri tikè. Etid sa a pi bonè te jwenn ke chofè te sanble yo dwe ouvriyè sib: yo te travay mwens sou jou kote salè yo te pi wo.

Kossinets and Watts (2009) te konsantre sou orijin yo nan homophily nan rezo sosyal. Wè Wimmer and Lewis (2010) pou yon apwòch diferan nan pwoblèm nan menm ki itilize done ki sòti nan Facebook.

Nan travay ki vin apre, wa ak kòlèg te plis eksplore sou entènèt sansi nan peyi Lachin (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Pou yon apwòch ki gen rapò ak mezire sou entènèt sansi nan peyi Lachin, wè Bamman, O'Connor, and Smith (2012) . Pou plis enfòmasyon sou metòd estatistik tankou yonn nan yo itilize nan King, Pan, and Roberts (2013) yo estime santiman nan nan 11 milyon dola poto yo, gade Hopkins and King (2010) . Pou plis enfòmasyon sou aprantisaj sipèvize, gade James et al. (2013) (mwens teknik) ak Hastie, Tibshirani, and Friedman (2009) (plis teknik).

  • Forecasting (Seksyon 2.4.2)

Forecasting se yon gwo pati nan done endistriyèl syans (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Youn di ki kalite prévisions ki yo souvan fè pa chèchè sosyal yo demografik prévisions, pou egzanp Raftery et al. (2012) .

Google Grip Tandans pa t 'pwojè a premye yo sèvi ak done rechèch nan nowcast prévalence grip la. An reyalite, chèchè nan Etazini yo (Polgreen et al. 2008; Ginsberg et al. 2009) ak Syèd (Hulth, Rydevik, and Linde 2009) yo te jwenn ke tèm rechèch sèten (egzanp, "grip") prevwa nasyonal siveyans sante piblik done anvan li te lage. Imedyatman anpil, anpil lòt pwojè te eseye sèvi ak done tras dijital pou deteksyon siveyans maladi, wè Althouse et al. (2015) pou yon revizyon.

Anplis de sa nan lè l sèvi avèk done tras dijital nou ka prevwa rezilta sante, te tou yo te yon kantite lajan gwo nan travay lè l sèvi avèk Twitter done nou ka prevwa rezilta eleksyon; pou revize wè Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), ak Huberty (2015) .

Lè l sèvi avèk done rechèch nan predi ke prévalence grip ak lè l sèvi avèk Twitter done nou ka prevwa eleksyon, yo toulède yo egzanp lè l sèvi avèk kèk kalite dijital tras nou ka prevwa kèk kalite evènman nan mond lan. Gen yon gwo kantite etid ki gen sa a estrikti jeneral. Table 2.5 gen ladan yon kèk lòt egzanp.

Table 2.5: lis Pasyèl nan syans sèvi ak kèk tras dijital nou ka prevwa kèk evènman.
Digital tras rezilta Citation
Twitter Box biwo revni nan sinema nan peyi Etazini an Asur and Huberman (2010)
Search mòso bwa Komèsyal nan sinema, mizik, liv, ak jwèt videyo nan peyi Etazini an Goel et al. (2010)
Twitter Dow Jones Endistriyèl Mwayèn (US mache dechanj) Bollen, Mao, and Zeng (2011)
  • Eksperyans apwoksimativman (Seksyon 2.4.3)

Jounal la PS Syans Politik te gen yon senpozyòm sou gwo done, kozatif enferans, ak teyori fòmèl, ak Clark and Golder (2015) rezime chak kontribisyon an. Pwosedi yo jounal nan Akademi Nasyonal la nan Syans nan peyi Etazini nan Amerik te gen yon senpozyòm sou enferans kozatif ak done gwo, ak Shiffrin (2016) rezime chak kontribisyon an.

An tèm de eksperyans natirèl, Dunning (2012) bay yon bon tretman longè liv. Pou plis enfòmasyon sou lè l sèvi avèk bouyon lotri a Vyetnam kòm yon eksperyans natirèl, wè Berinsky and Chatfield (2015) . Pou apwòch aprantisaj machin ki eseye otomatikman dekouvri eksperyans natirèl andedan nan sous done gwo, wè Jensen et al. (2008) ak Sharma, Hofman, and Watts (2015) .

An tèm de matche, pou yon revizyon optimis, wè Stuart (2010) , ak pou yon revizyon pesimism wè Sekhon (2009) . Pou plis enfòmasyon sou matche kòm yon kalite koupe, wè Ho et al. (2007) . Pou liv ki bay tretman ekselan nan matche, wè Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , ak Imbens and Rubin (2015) .