koa fanehoan-kevitra

Ity fizarana ity dia natao ho ampiasaina ho toy ny boky, fa tsy mba hovakina toy ny fitantarana.

  • Fampidirana (Fizarana 2.1)

Karazana fandinihana iray izay tsy tafiditra ao amin'ity toko ity dia ethnography. Bebe kokoa momba ethnography amin'ny sehatra nomerika mahita Boellstorff et al. (2012) , ary bebe kokoa amin'ny ethnography in mifangaro nomerika sy ara-batana toerana mahita Lane (2016) .

  • Big tahirin-kevitra (Fizarana 2.2)

Rehefa repurposing tahirin-kevitra, dia misy roa tetika ara-tsaina izay afaka manampy anao hahatakatra ny mety ho olana izay mety tojo. Voalohany, dia afaka miezaka ny sary an-tsaina ny tsara indrindra dataset noho ny olana sy ny mampitaha fa ny dataset izay ampiasainao. Ahoana no toy izany koa izy ireo ary ahoana no samy hafa ireo? Raha toa ka tsy ny tenanao fanangonana ny angon-drakitra, misy mety ho samy hafa ny zavatra tianao sy izay anananao. Kanefa, tsy maintsy manapa-kevitra raha toa ka ireo fahasamihafana ireo kely na lehibe.

Faharoa, tadidio fa nisy olona namorona ka nanangona ny tahirin-kevitra noho ny antony. Tokony hiezaka ny hahatakatra ny Fandresen-dahatra. Io karazana mifanohitra-injeniera afaka manampy anao hamantatra ny olana mety sy mifanavakavaka amin'ny repurposed angona.

Tsy misy marimaritra iraisana tokana famaritana ny "angona lehibe", fa famaritana maro toa hifantoka amin'ny 3 Vs: boky, isan-karazany, ary ny velocity (ohatra, Japec et al. (2015) ). Tsy mifantoka amin'ny toetra ny angon-drakitra, ny famaritana dia mifantoka bebe kokoa ny antony ny antontan-kevitra noforonina.

Ny fampidirana ny governemanta panjakana ao anatin'ny tahirin-kevitra lehibe ny sokajy ny tahirin-kevitra dia kely loatra. Ny hafa izay nanao raharaha ity, ahitana Legewie (2015) , Connelly et al. (2016) , sy Einav and Levin (2014) . Raha mila fanazavana momba ny hasarobidin'ny governemanta panjakana angon-drakitra ho an'ny fikarohana, jereo Card et al. (2010) , Taskforce (2012) , sy Grusky, Smeeding, and Snipp (2015) .

Fa ny fomba fijery ny fikarohana panjakana avy ao amin'ny governemanta antontan'isa rafitra, indrindra fa ny Birao Fanisam-bahoaka Amerikana, dia jereo Jarmin and O'Hara (2016) . Fa ny boky lava ny fitsaboana ny rakitsoratra panjakana fikarohana amin'ny Statistics Soeda, jereo ny Wallgren and Wallgren (2007) .

Ao amin'ny toko, I fohifohy nampitaha ny fanadihadiana nentim-paharazana toy ny General Social Survey (GSS) ny haino aman-jery sosialy tahiry loharanom toy ny Twitter. Fa ny tsara sy ny tsara nentim-paharazana fanadihadiana fampitahana ireo haino aman-jery sosialy sy ny tahirin-kevitra, dia jereo Schober et al. (2016) .

  • Common toetra ny tahirin-kevitra lehibe (Fizarana 2.3)

Ireo 10 toetra ny tahirin-kevitra lehibe no voalaza ao isan-karazany amin'ny alalan'ny fomba isan-karazany ny mpanoratra samy hafa. Soratra izay vokany ny fomba fisainany mikasika ireny olana ireny dia ahitana: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , sy Goldstone and Lupyan (2016) .

Nandritra amin'ity toko ity, dia efa nampiasa ny teny hoe dizitaly soritra, izay heveriko fa somary tsy nety nanao miaramila. Teny malaza hafa ho an'ny nomerika soritra dia nomerika dian-tongotra (Golder and Macy 2014) , fa toy Hal Abelson, Ken Ledeen, sy Harry Lewis (2008) manamarika, mety kokoa angamba teny dizitaly ny dian-tanana. Rehefa mamorona dian-tongotra, ianao mahalala ny zava-mitranga sy ny dian-tongotra tsy azo zohina amin'ny ankapobeny ho anareo manokana. Toy izany koa dia tsy marina noho ny nomerika soritra. Raha ny marina, dia namela soritra ianao ny fotoana rehetra momba izay manana fahalalana kely indrindra. Ary, na ireo tsy manana soritra ny anaranao taminy izy, dia afaka ampifandraisina matetika miverina atỳ aminao. Amin'ny teny hafa, dia bebe kokoa tahaka ny dian-tanana: tsy hita maso, ary mamantatra manokana.

Big

Bebe kokoa ny antony lehibe datasets, hanome antontan'isa fitsapana olana, jereo ny Lin, Lucas, and Shmueli (2013) sy McFarland and McFarland (2015) . Ireo adihevitra dia tokony hitarika ny mpikaroka mba hifantoka amin'ny fampiharana dikany fa tsy antontan'isa dikany.

Foana-on

Rehefa eo foana-on tahirin-kevitra, dia zava-dehibe ny mandinika, raha Hianao no mampitaha ny marina ny olona toy izany koa ny fotoana, na, raha Hianao no mampitaha ny fanovana ny sasany vondron'olona; jereo ohatra, Diaz et al. (2016) .

Non-reactive

Ny boky mahazatra amin'ny tsy reactive fepetra no Webb et al. (1966) . Ny ohatra ao amin'ny boky mialoha ny daty taona nomerika, fa mbola manazava. Fa ohatra ny olona manova ny fitondran-tena noho ny fisian'ny fanaraha-maso faobe, jereo ny Penney (2016) sy Brayne (2014) .

tsy feno

Bebe kokoa ny rakitsoratra linkage, jereo ny Dunn (1946) sy Fellegi and Sunter (1969) (ara-tantara) sy Larsen and Winkler (2014) (ankehitriny). Toy izany koa nanatona ihany koa novolavolaina amin'ny solosaina ny siansa ambanin'ny anarana toy ny angona deduplication, ohatra famantarana, anarana mifandraika, haka tahaka tratra, ka haka tahaka firaketana tratra (Elmagarmid, Ipeirotis, and Verykios 2007) . Misy ihany koa ny fomba fiarovana ny fiainana manokana mba hanoratra linkage izay tsy mitaky ny fampitana ny vaovao famantarana manokana (Schnell 2013) . Facebook ihany koa ny efa lasa ny miroso amin 'ny firaketana rohy ny fandrotsaham-bato fitondran-tena; no nanaovana izany hanombanana ny fanandramana izay aho hitantara aminareo ny momba tao amin'ny Toko 4 (Bond et al. 2012; Jones et al. 2013) .

Fa manan-kery bebe kokoa ny fanamboarana, jereo ny Shadish, Cook, and Campbell (2001) , Chapter 3.

tsy azo nidirana

Bebe kokoa momba ny vatan-kazo fikarohana AOL debacle, jereo ny Ohm (2010) . I manolotra toro-hevitra mikasika ny miara-miasa amin'ny orinasa sy ny fanjakana tao amin'ny Toko 4 rehefa mamaritra fanandramana. Maro ny mpanoratra no naneho ny ahiahiny momba ny fikarohana izay miantehitra amin'ny tsy afaka nidirana angon-drakitra, jereo ny Huberman (2012) sy boyd and Crawford (2012) .

Fomba tsara iray ho an'ny oniversite mpikaroka mba hahazoana antontan-kevitra ny fidirana dia ny miasa amin'ny orinasa toy ny Intern na nitsidika mpikaroka. Ankoatra ny manampy ny fidirana angon-drakitra, ity dingana ity dia manampy ihany koa ny mpikaroka hianatra bebe kokoa momba ny fomba ny antontan-kevitra noforonina, izay no zava-dehibe ho an'ny fanadihadiana.

Non-solontenan'ny

Non-representativeness no olana lehibe ho an'ny mpikaroka sy ny governemanta izay maniry ny hanao fanambarana momba ny mponina iray manontolo. Izany no tsy ny fiahiana ny orinasa izay matetika mifantoka amin'ny ny mpampiasa. Bebe kokoa ny fomba Holandy antontan'isa dia mihevitra ny raharaha momba ny tsy representativeness ny raharaham-barotra lehibe tahirin-kevitra, dia jereo Buelens et al. (2014) .

Tao amin'ny Toko faha 3, aho mamaritra santionany sy ny tombany dia be aza ny tsipiriany kokoa. Na dia tahirin-kevitra dia tsy solontenan'ny, eo ambanin'ny toe-javatra sasany, dia azo mavesa hamokatra tsara vinavina.

manomboka manalavitra ny fahamarinana

System mandresy dia tena sarotra ny mahita avy any ivelany. Na izany aza, ny tetikasa MovieLens (resahina bebe kokoa tao amin'ny Toko 4) efa nihazakazaka ho an'ny mihoatra ny 15 taona iray fikarohana vondrona akademika. Noho izany, dia efa voarakitra sy nizara vaovao momba ny fomba izay ny rafitra efa nivoatra ny fotoana sy ny fomba mety hisy fiantraikany izany fanadihadiana (Harper and Konstan 2015) .

Maro ny manam-pahaizana no mifantoka amin'ny mandresy amin'ny Twitter: Liu, Kliman-Silver, and Mislove (2014) sy Tufekci (2014) .

Algorithmically mangaihay

Aho nandre voalohany ny teny hoe "algorithmically mangaihay" ampiasain'ny Jon Kleinberg tao amin'ny lahateny. Ny tena hevitra ambadiky performativity dia ny siansa ara-tsosialy sasany teorian'ny dia "tsy fitaovana fakan-tsary" (Mackenzie 2008) . Izany hoe, izy ireo tena mamolavola ny izao tontolo izao, fa tsy nahafaka azy fotsiny.

Dirty

Fitondram-panjakana antontan'isa sampan-draharaha miantso angona fanadiovana, antontan'isa angona fanovana. De Waal, Puts, and Daas (2014) mamaritra antontan'isa angona fanovana teknika mandroso ny fanadihadiana tahirin-kevitra sy handinika izay hatraiza izy ireo dia hampiharina amin'ny lehibe angon-drakitra loharanom-baovao, ary Puts, Daas, and Waal (2015) dia mampiseho ny sasany amin'ireo mitovy hevitra ho an'ny mpihaino ankapobeny kokoa.

Ho an'ny sasany ohatra ny fianarana mifantoka amin'ny amin'ny spam amin'ny Twitter, Clark et al. (2016) sy Chu et al. (2012) . Farany, Subrahmanian et al. (2016) dia manoritsoritra ny vokatry ny DARPA Bot Twitter Challenge.

mora

Ohm (2015) mandinika aloha fikarohana momba ny hevitra ny vaovao saro-pady ary manome ny multi-lafin-javatra fitsapana. Ny lafin-javatra efatra no manolotra dia: ny mety ho ratsy; mety ho ratsy; fisian'ny tsiambaratelo fifandraisana; ary na ny mety taratry majoritarian mampanahy.

  • Manisa zavatra (Fizarana 2.4.1)

Farber ny fianarana ny taxi ao New York dia mifototra amin'ny fanadihadiana nataon'ny teo aloha Camerer et al. (1997) izay nampiasaina telo samy hafa tsy hanahirana santionany amin'ny taratasy lavitra fanitso-taratasy teny ampiasain'ny mpamily mba hanoratra dalana nanomboka ny fotoana, ny fotoana farany, ary ny saran-dàlana. Ity fanadihadiana teo aloha hita fa mpamily toa nokendrena earners: dia niasa kely tamin'ny andro izay ny karamany dia ambony kokoa.

Kossinets and Watts (2009) dia mifantoka amin'ny am-boalohany ny homophily amin'ny tambajotra sosialy. Jereo ny Wimmer and Lewis (2010) ho an'ny hafa ihany manatona ny olana, izay mampiasa ny tahirin-kevitra avy amin'ny Facebook.

Amin'ny asa tatỳ aoriana, Mpanjaka sy ny mpiara-miasa no koa nisafo ny sivana amin'ny aterineto any Shina (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Fa ny mifandray fomba fandrefesana ny sivana amin'ny aterineto any Shina, jereo ny Bamman, O'Connor, and Smith (2012) . Bebe kokoa amin'ny antontan'isa fomba toy ilay ampiasaina amin'ny King, Pan, and Roberts (2013) mba Tombanan'ny ny fihetseham-po ny 11 tapitrisa Lahatsoratra, jereo ny Hopkins and King (2010) . Nanara-maso bebe kokoa ny fianarana, dia jereo James et al. (2013) (tsy ara-teknika) sy Hastie, Tibshirani, and Friedman (2009) (kokoa ara-teknika).

  • Forecasting (Fizarana 2.4.2)

Forecasting dia anisan'ny orinasa lehibe angona siansa (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Iray karazana forecasting izay matetika nataon'ny mpikaroka ara-tsosialy dia isan'ny mponina forecasting, ohatra Raftery et al. (2012) .

Google Trends gripa tsy ny voalohany hampiasa tetikasa fikarohana tahirin-kevitra mba nowcast gripa tahan'ny. Raha ny marina, mpikaroka ao amin'ny United States (Polgreen et al. 2008; Ginsberg et al. 2009) ary Soeda (Hulth, Rydevik, and Linde 2009) dia nahita fa ny sasany fikarohana teny (ohatra, "gripa") nilaza mialoha pirenena fahasalamam-bahoaka fanaraha-maso tahirin-kevitra eo anoloany navoaka. Maro taty aoriana, tetikasa maro hafa no niezaka ny hampiasa nomerika soritry antontan-kevitra ho an'ny fanaraha-maso ny aretina tratra, jereo ny Althouse et al. (2015) fa ny famerenana.

Ankoatra ny fampiasana nomerika soritry angon-drakitra mba mialoha vokatra ara-pahasalamana, dia misy ihany koa ny asa goavana be ny fampiasana Twitter angon-drakitra mba mialoha ny fifidianana vokatra; ny hevitra jereo Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), ary Huberty (2015) .

Mampiasa fikarohana tahirin-kevitra mba mialoha gripa tahan'ny sy ny fampiasana Twitter angon-drakitra mba mialoha ny fifidianana dia samy ohatra amin'ny fampiasana karazana nomerika soritry ny mialoha karazana hetsika eto amin'izao tontolo izao. Misy goavana maro ny fampianarana izay manana io rafitra ankapobeny. 2.5 latabatra dia ahitana ohatra hafa vitsivitsy.

Table 2.5: Mizaha Tavan'olona mampiasa lisitra ny fampianarana nomerika ny sasany mialoha ny sasany soritry ny zava-nitranga.
Hafanàm-po an soritry vokatra Citation
Twitter Box biraon'ny fidiram-bola ny sarimihetsika any Etazonia Asur and Huberman (2010)
Search hazo Sales ny sarimihetsika, mozika, boky, ary ny lalao video ao amin'ny US Goel et al. (2010)
Twitter Dow Jones Industrial Average (US tahiry tsena) Bollen, Mao, and Zeng (2011)
  • Approximating fanandramana (Fizarana 2.4.3)

Ny gazety Sal siansa politika nisy fitohitohizan-dahateny tamin'ny angon-drakitra lehibe, causal inference, sy ara teoria, sy Clark and Golder (2015) mamintina fanomezana tsirairay. Ny diary zava-niseho tao National Academy ny Siansa ao Etazonia ny Amerika Nisy fitohitohizan-dahateny tamin'ny causal inference sy ny tahirin-kevitra lehibe, ary Shiffrin (2016) mamintina fanomezana tsirairay.

Eo amin'ny lafiny voajanahary andrana, Dunning (2012) dia manome ny fitsaboana tsara indrindra halavan'ny boky. Bebe kokoa ny fampiasana ny Vietnamiana volavolan loteria ho toy ny voajanahary fanandramana, jereo ny Berinsky and Chatfield (2015) . Fa milina fianarana fomba izay miezaka hatrany hahita fanandramana voajanahary ao anatiny ny angon-drakitra lehibe loharanom-baovao, jereo ny Jensen et al. (2008) sy Sharma, Hofman, and Watts (2015) .

Eo amin'ny mifandraika, ho be fanantenana famerenana, jereo ny Stuart (2010) , ary ny lafy ratsin-javatra famerenana jereo Sekhon (2009) . Bebe kokoa ny mitovy ho toy ny fandrantsanana, jereo Ho et al. (2007) . Fa ny boky izay manome ny fitsaboana tsara ny mifandraika, jereo ny Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , sy Imbens and Rubin (2015) .