Nas fhaide air aithris

Tha an earrann seo air a dhealbh gus a bhith air a chleachdadh mar iomradh, seach a bhith a 'leughadh mar narrative.

  • Ro-ràdh (Earrann 2.1)

Aon seòrsa de ag amharc nach eil a 'gabhail a-steach anns a' chaibideil seo tha ethnography. Airson tuilleadh air ethnography didseatach ann an àiteachan fhaicinn Boellstorff et al. (2012) , agus airson tuilleadh air ethnography ann measgaichte didseatach agus corporra àiteachan fhaicinn Lane (2016) .

  • Big dàta (Earrann 2.2)

Nuair a tha thu repurposing dàta, tha dà inntinn cleasan a chuidicheas sibh a 'tuigsinn na duilgheadasan comasach gum faodadh tu a' tighinn tarsainn. A 'chiad, faodaidh tu feuchainn ri dealbh a dhèanamh air leth freagarrach airson sean duilgheadas agad agus coimeas a dhèanamh eadar sin gus an sean gu bheil thu a' cleachdadh. Ciamar a tha iad coltach agus mar a tha iad eadar-dhealaichte? Ma tha thu nach robh a 'tional dàta agad fhèin, tha buailteach a bhith eadar-dhealachadh eadar dè tha thu ag iarraidh agus dè a tha agad. Ach, feumaidh tu co-dhùnadh ma tha sin eadar-dhealachaidhean beaga no mòra.

Dàrna, cuimhnich gun robh cuideigin a chruthachadh agus a chruinneachadh dàta agad airson adhbhar air choireigin. Bu chòir dhut feuchainn ri tuigsinn an reusanachadh. Tha an seòrsa cùl-innleadaireachd dh'fhaodas do chuideachadh aithneachadh ghabhas duilgheadasan agus biases ann do repurposed dàta.

Chan eil aon co-aontachd mìneachadh "mòr dàta", ach tha mòran mìneachaidhean a rèir coltais a 'cur cudrom air na 3 Vs: tomhas-lìonaidh, caochladh, agus velocity (me, Japec et al. (2015) ). Seach a bhith ag amas air feartan de an dàta, mo definition a 'cur cudrom tuilleadh air carson a tha an dàta a chruthachadh.

My gabhail a-steach an riaghaltais rianachd dàta taobh a-staigh na roinn-seòrsa mòr dàta a tha car neo-àbhaisteach. Tha feadhainn eile a rinn a 'chùis seo, a-steach Legewie (2015) , Connelly et al. (2016) , agus Einav and Levin (2014) . Airson tuilleadh fiosrachaidh mu luach riaghaltas rianachd dàta airson rannsachadh, faic Card et al. (2010) , Taskforce (2012) , agus Grusky, Smeeding, and Snipp (2015) .

Airson sealladh de rianachd rannsachaidh bhon taobh a-staigh an riaghaltais staitistigeil siostam, gu h-àraidh an Cunntas-sluaigh nan Stàitean Aonaichte Biùro, fhaicinn Jarmin and O'Hara (2016) . Airson leabhar dh'fhaid leigheas de na clàran rianachd rannsachaidh aig Staitistig an t-Suain, fhaicinn Wallgren and Wallgren (2007) .

Anns a 'chaibideil, mi greiseag bheag an coimeas traidiseanta suirbhidh leithid Choitcheann Sòisealta Survey (GSS) gu na meadhanan sòisealta tobar dàta leithid Twitter. Airson mionaideach agus cùramach coimeas eadar traidiseanta suirbhidhean agus na meadhanan sòisealta dàta, fhaicinn Schober et al. (2016) .

  • Common feartan mòr dàta (Earrann 2.3)

10 Tha iad sin feartan mòr dàta a bhith air a mhìneachadh ann an diofar dhòighean le diofar ùghdaran. Sgrìobhaidh sin buaidh air mo smaoineachadh air na ceistean seo gabhail a-steach: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , agus Goldstone and Lupyan (2016) .

Tron chaibideil seo, tha mi a 'cleachdadh an teirm didseatach comharran, a tha mise a' smaoineachadh a tha an ìre mhath neo-phàirteach. Coiteanta eile teirm airson didseatach comharran tha didseatach lorgan (Golder and Macy 2014) , ach mar Hal Abelson, Ken Ledeen, agus Harry Leòdhais (2008) a 'comharrachadh a-mach, nas iomchaidh teirm S dòcha gur e didseatach lorgan-meòir. Nuair a chruthaicheas tu lorgan-coise, a tha thu mothachail air dè tha a 'tachairt agus do lorgan nach urrainn a bhith air a lorg thu gu pearsanta. An t-aon nach eil fìor airson digiteach agad comharran. Gu dearbh, tha thu a 'fàgail a h-uile coltas an àm mu bheil sibh a bhith glè bheag eòlais. Agus, ged a tha na comharran nach eil d 'ainm orra, faodaidh iad a bhith ceangailte gu tric air ais thugad. Ann am briathran eile, tha iad tuilleadh mar lorgan-meòir: neo-fhaicsinneach agus pearsanta a chomharrachadh.

Big

Airson tuilleadh air carson mòr toradh, render staitistigeil deuchainnean trioblaideach, fhaicinn Lin, Lucas, and Shmueli (2013) agus McFarland and McFarland (2015) . Bu chòir na cùisean sin a stiùireadh luchd-rannsachaidh a 'cur cudrom air practaigeach cudromach seach cudromachd staitistigeach.

Daonnan-air

Nuair a thathar a 'beachdachadh air an-còmhnaidh-dàta, tha e cudromach beachdachadh co dhiubh a tha thu a' dèanamh coimeas eadar an dearbh-aon daoine thar ùine no co-dhiù a tha thu a 'dèanamh coimeas eadar cuid ag atharrachadh buidheann de dhaoine; faic mar eisimpleir, Diaz et al. (2016) .

Neo-mheasaichte

A classic leabhar air neo-mheasaichte ceumannan a tha Webb et al. (1966) . Tha eisimpleirean ann an leabhar ro-cheann-là an àm dhidseatach, ach tha iad fhathast a 'dealbhachadh. Airson eisimpleirean ann de dhaoine ag atharrachadh an cuid giùlain air sgàth an làthair mòr-faire, fhaicinn Penney (2016) agus Brayne (2014) .

Neo-chrìochnaichte

Airson tuilleadh air a 'chlàr ceangal, fhaicinn Dunn (1946) agus Fellegi and Sunter (1969) (eachdraidh) agus Larsen and Winkler (2014) (latha an-diugh). Cluicheadairean ruigear e cuideachd air a bhith a leasachadh ann an saidheans coimpiutaireachd fo na h-ainmean leithid dàta deduplication, mar eisimpleir aithneachaidh, ainm a fhreagras air mac-samhail a lorg, agus mac-samhail 'chlàr-lorgaidh (Elmagarmid, Ipeirotis, and Verykios 2007) . Tha cuideachd prìobhaideachd gleidheadh dòighean-obrach a chlàradh ceangal nach eil feum air an sgaoileadh gu pearsanta comharrachadh fiosrachadh (Schnell 2013) . Facebook cuideachd air leasachadh a dhol air adhart gus a 'ceangal na clàran aca gu bhòtaidh giùlan; Chaidh seo a dhèanamh gus measadh a dhèanamh air an deuchainn sin innsidh mi dhut mu dheidhinn ann an Caibideil 4 (Bond et al. 2012; Jones et al. 2013) .

Airson tuilleadh air dligheachas a thogail, fhaicinn Shadish, Cook, and Campbell (2001) , Caibideil 3.

Inaccessible

Airson tuilleadh air an rannsachadh AOL log ùpraid, fhaicinn Ohm (2010) . Tha mi a 'tairgsinn comhairle mu' com- pàirteachadh le companaidhean agus riaghaltasan ann an Caibideil 4 nuair a bhios mi a 'mìneachadh nan deuchainnean. Tha grunn de na h-ùghdaran air cur an cèill draghan mu rannsachadh a tha an crochadh air dàta a tha doirbh faighinn thuca, fhaicinn Huberman (2012) agus boyd and Crawford (2012) .

Aon dòigh mhath airson oilthigh luchd-rannsachaidh a thogail dàta cothrom a bhith ag obair aig a 'chompanaidh mar rannsaiche Eadar-nàis no a' tadhal. A thuilleadh air a bhith a 'comasachadh ruigsinneachd dàta, Bidh am pròiseas seo cuideachd a' cuideachadh an neach-rannsachaidh tuilleadh ionnsachadh mu mar a tha an dàta a chaidh a chruthachadh, a tha cudromach airson mion-sgrùdadh.

Neo-riochdaire

Neo-riochdachadh tha na dhuilgheadas mòr airson luchd-rannsachaidh agus riaghaltasan a tha ag iarraidh a dhèanamh aithrisean mu dheidhinn an sluagh gu lèir. 'S e seo nas lugha de dhragh do chompanaidhean a tha mar as trice a' cuimseachadh air an luchd-cleachdaidh. Airson tuilleadh air mar a Staitistig Òlaind a 'beachdachadh air a' chùis neo-riochdachadh gnìomhachas mòr dàta, fhaicinn Buelens et al. (2014) .

Ann an Caibideil 3, mi innse samplachadh agus mheas ann am mòran nas mionaidiche. Fiù 's ma tha dàta neo-riochdaire, cumhachan sònraichte, faodaidh iad a bhith air a cumail sìos gus deagh tuairmsean.

Drifting

System drift e doirbh fhaicinn bhon taobh a-muigh. Ach, MovieLens pròiseact (dheasbad barrachd ann an Caibideil 4) air a bhith a 'ruith airson còrr is 15 bliadhna le buidheann rannsachaidh acadaimigeach. Uime sin, tha iad air an clàradh agus co-roinn fiosrachadh mu dheidhinn na dòigh anns a bheil an t-siostam air fàs thar ùine agus mar a dh'fhaodadh seo buaidh a thoirt anailis (Harper and Konstan 2015) .

Tha an àireamh de sgoilearan a tha ag amas air an drift ann Twitter: Liu, Kliman-Silver, and Mislove (2014) agus Tufekci (2014) .

Algorithmically confounded

Chuala mi an toiseach an teirm "algorithmically confounded" a chleachdadh le Jon Kleinberg ann an òraid. Tha am prìomh smuain air cùl performativity gu bheil cuid saidheans sòisealta teòiridhean a tha "einnseanan nach thrafaig" (Mackenzie 2008) . Is e sin, tha iad dha-rìribh a chumadh an t-saoghail seach a bhith dìreach a ghlacadh e.

Dirty

Riaghaltasach staitistigeil bhuidhnean fòn dàta glanadh, dàta àireamhail deasachadh. De Waal, Puts, and Daas (2014) a' mìneachadh dàta àireamhail deasachadh dòighean a leasachadh airson dàta suirbhidh agus sgrùdadh gu bheil ìre a tha iad iomchaidh do mhòr tobraichean dàta, agus Puts, Daas, and Waal (2015) a 'toirt cuid de na h-aon bheachdan airson luchd-èisteachd nas fharsainge.

Airson eisimpleirean de rannsachaidhean ag amas air spama ann Twitter, Clark et al. (2016) agus Chu et al. (2012) . Mu dheireadh, Subrahmanian et al. (2016) ag innse mu na toraidhean a 'DARPA Twitter Bot Challenge.

Sensitive

Ohm (2015) ath-bhreithneachadh air an rannsachadh na bu tràithe air a 'bheachd a dh'fheumas faiceall agus a' tabhann fiosrachadh ioma-factor deuchainn. Tha na ceithir nithean a tha e a 'moladh: an coltachd a chron; coltachd bho chron; làthaireachd dìomhair dàimh; agus co-dhiù tha an cunnart a 'nochdadh draghan majoritarian.

  • Cunntaidh rudan (Earrann 2.4.1)

Farber an rannsachadh tagsaidhean ann an New York a bha stèidhichte air an sgrùdadh nas tràithe le Camerer et al. (1997) a tha a 'cleachdadh trì diofar goireasachd sampaill de phàipear turas duilleagan-pàipeir a chleachdadh le dràibhearan a chlàradh turas air àm tòiseachaidh, deireadh ùine, agus fharadh. Sgrùdadh nas tràithe seo a lorg coltas gu bheil dràibhearan a bhith targaid Chosnaichean: bha iad ag obair nas lugha air làithean far am pàigheadh ​​na b 'àirde.

Kossinets and Watts (2009) bha a 'cuimseachadh air na tùsan homophily ann an lìonraidhean sòisealta. Faic Wimmer and Lewis (2010) airson an dòigh eadar-dhealaichte ris an aon trioblaid a tha a 'cleachdadh dàta bho Facebook.

Ann an obair an dèidh làimhe, Rìgh agus co-oibrichean air tuilleadh sgrùdaidh a dhèanamh air-loidhne caisgireachd ann an Sìona (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Airson co-cheangailte ris an dòigh-obrach gus tomhas air-loidhne caisgireachd ann an Sìona, fhaicinn Bamman, O'Connor, and Smith (2012) . Airson tuilleadh air staitistigeil dòighean coltach ris an fhear a chleachdadh ann an King, Pan, and Roberts (2013) gus tuairmse a dhèanamh air faireachdainn de na 11 millean dreuchdan, fhaicinn Hopkins and King (2010) . Airson tuilleadh stiùireadh air ionnsachadh, faic James et al. (2013) (nas lugha teicnigeach) agus Hastie, Tibshirani, and Friedman (2009) (tuilleadh teicnigeach).

  • Sìde (Earrann 2.4.2)

Sìde S e pàirt mòr den dàta gnìomhachais saidheans (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Aon seòrsa sìde a tha gu cumanta a dhèanamh le luchd-rannsachaidh sòisealta a tha deamografach sìde, mar eisimpleir Raftery et al. (2012) .

Tha Google a 'chnatain mhòir Pàtrain Cha robh a' chiad phròiseact a 'cleachdadh dàta airson rannsachadh nowcast chnatan mhòr cho pailt. Gu dearbh, luchd-rannsachaidh anns na Stàitean Aonaichte (Polgreen et al. 2008; Ginsberg et al. 2009) agus an t-Suain (Hulth, Rydevik, and Linde 2009) air lorg gu bheil cuid de na faclan-luirg (me, "muc") dùil nàiseanta slàinte a 'phobaill faireil dàta mus deach a leigeil mu sgaoil. Mar thoradh air mòran, mòran pròiseactan eile air feuchainn ri cleachdadh didseatach sgeul dàta airson tinneas faireil lorg, faic Althouse et al. (2015) airson ath-bhreithneachadh.

A thuilleadh air a bhith a 'cleachdadh didseatach sgeul dàta gus ro-innse a thaobh builean slàinte, a tha cuideachd air a bhith tòrr mòr obair a' cleachdadh Twitter dàta a ràdh le cinnt taghadh bhuilean; airson lèirmheasan fhaicinn Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (caib. 7), agus Huberty (2015) .

A 'cleachdadh dàta airson rannsachadh fiosachd chnatan mhòr cho pailt agus a' cleachdadh Twitter dàta a ràdh le cinnt taghaidhean a tha an dà chuid eisimpleirean a bhith a 'cleachdadh seòrsa de didseatach sgeul gu ro-innse air choireigin tachartas san t-saoghal. Cha mhòr àireamh de sgrùdaidhean a tha seo coitcheann structar. Clàr 2.5 A 'gabhail a-steach beagan eisimpleirean eile.

Clàr 2.5: Pàirt liosta de sgrùdaidhean a 'cleachdadh cuid de didseatach sgeul a ràdh le cinnt cuid tachartas.
Digital sgeul Buil Luaidh
Twitter Box oifis teachd a-steach de movies anns na Stàitean Aonaichte Asur and Huberman (2010)
Lorg logaichean Reic de movies, ceòl, leabhraichean, agus bhidio geamannan anns na Stàitean Aonaichte Goel et al. (2010)
Twitter Dow Jones Industrial Cuibheasach (US stoc margaidh) Bollen, Mao, and Zeng (2011)
  • Approximating deuchainnean (Earrann 2.4.3)

Tha an iris PS poileataigeach Saidheans Bha co-labhairt mòr air dàta, adhbharach inference, agus teòiridh foirmeil, agus Clark and Golder (2015) geàrr-chunntas air gach tabhartas. Tha an iris Proceedings of the National Acadamaidh Saidheansan an United States of America Bha co-labhairt air a 'adhbharaich inference agus mòr dàta, agus Shiffrin (2016) geàrr-chunntas air gach tabhartas.

A thaobh nàdair deuchainnean, Dunning (2012) a 'toirt deagh leabhar a dh'fhaid leigheas. Airson tuilleadh air a bhith a 'cleachdadh a' Bhietnam dreachd crannchuir mar nàdarra deuchainn, fhaicinn Berinsky and Chatfield (2015) . Airson inneal ionnsachaidh dòighean a tha a 'feuchainn ri faighinn a-mach gu fèin-obrachail nàdarra deuchainnean taobh a-staigh mòr tobraichean dàta, fhaicinn Jensen et al. (2008) agus Sharma, Hofman, and Watts (2015) .

A thaobh a fhreagras air, dòchasach airson an ath-bhreithneachadh, fhaicinn Stuart (2010) , agus airson tuairisgeul dubhach air ìre ath-bhreithneachadh fhaicinn Sekhon (2009) . Airson tuilleadh a fhreagras air mar sheòrsa de pruning, fhaicinn Ho et al. (2007) . Airson leabhraichean a tha a 'toirt seachad sàr-mhath de leigheasan a fhreagras air, fhaicinn Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , agus Imbens and Rubin (2015) .