attivitajiet

  • grad ta 'diffikultà: faċli faċli , medju medju , iebsa iebsa , tqila ħafna tqila ħafna
  • teħtieġ matematika ( teħtieġ matematika )
  • teħtieġ kodifikazzjoni ( jeħtieġ kodifikazzjoni )
  • ġbir ta 'data ( ġbir ta 'data )
  • Favourites tiegħi ( Il-favorit tieghi )
  1. [ medju , Il-favorit tieghi ] Konfużjoni algoritmika kienet problema bil-Google Flu Trends. Aqra l-karta minn Lazer et al. (2014) , u ikteb email qasir u ċar lil inġinier fuq Google li jispjega l-problema u joffri idea ta 'kif tiffissah.

  2. [ medju ] Bollen, Mao, and Zeng (2011) isostnu li d-dejta minn Twitter tista 'tintuża biex tbassar is-suq tal-ishma. Din il-konstatazzjoni wasslet għall-ħolqien ta 'hedge fund-Derwent Capital Markets-biex tinvesti fil-borża bbażata fuq data miġbura minn Twitter (Jordan 2010) . Liema evidenza trid tara qabel ma tpoġġi l-flus tiegħek f'dak il-fond?

  3. [ faċli ] Filwaqt li xi avukati tas-saħħa pubblika jikkunsidraw is-sigaretti elettroniċi għajnuna effettiva għall-waqfien mit-tipjip, oħrajn iwissu dwar ir-riskji potenzjali, bħal livelli għoljin ta 'nikotina. Immaġina li riċerkatur jiddeċiedi li jistudja l-opinjoni pubblika lejn e-sigaretti billi jiġbor postazzjonijiet ta 'Twitter relatati ma' sigaretti elettroniċi u jwettaq analiżi ta 'sentiment.

    1. X'inhuma t-tliet preġudizzji possibbli li intom l-aktar inkwetati f'dan l-istudju?
    2. Clark et al. (2016) dam biss studju bħal dan. L-ewwel, huma ġabru 850,000 tweet li użaw keywords relatati mas-sigaretti elettroniċi minn Jannar 2012 sa Diċembru 2014. Wara spezzjoni aktar mill-qrib, indunaw li ħafna minn dawn it-tweets kienu awtomatizzati (jiġifieri, mhux prodotti minn bnedmin) u ħafna minn dawn it-tweets awtomatizzati kienu essenzjalment riklami. Huma żviluppaw algoritmu ta 'skoperta tal-bniedem biex jissepara tweets awtomatizzati minn tweets organiċi. Bl-użu ta 'dan l-algoritmu li jidentifika l-bniedem sabu li 80% tat-tweets kienu awtomatizzati. Din is-sejba tbiddel it-tweġiba tiegħek għall-parti (a)?
    3. Meta qabblu l-sentiment fi tweets organiċi u awtomatizzati, sabu li tweets awtomatizzati kienu aktar pożittivi minn tweets organiċi (6.17 kontra 5.84). Din is-sejba tbiddel it-tweġiba tiegħek għal (b)?
  4. [ faċli ] F'Novembru 2009, Twitter biddlet il-mistoqsija fil-kaxxa tweet minn "What are you doing?" Għal "What's happening?" (Https://blog.twitter.com/2009/whats-happening).

    1. Kif taħseb li l-bidla ta 'tweġibiet se taffettwa lil min tweets u / jew dak li tweet?
    2. Iddikjara proġett wieħed ta 'riċerka li għalih tippreferi l-pront "X'qed tagħmel?" Spjega għaliex.
    3. Iddikjara proġett wieħed ta 'riċerka li għalih tippreferi l-pront "X'qed jiġri?" Spjega għaliex.
  5. [ faċli ] "Retweets" spiss jintużaw biex ikejlu l-influwenza u t-tixrid tal-influwenza fuq Twitter. Inizjalment, l-utenti kellhom jikkupjaw u pejst it-tweet li xtaqu, immarka l-awtur oriġinali bil-manku tiegħu / tagħha, u manwalment ittajpja "RT" qabel it-tweet biex tindika li kienet retweet. Imbagħad, fl-2009, Twitter żied buttuna "retweet". F'Ġunju 2016, Twitter għamilha possibbli għall-utenti li jirtiraw it-tweets tagħhom stess (https://twitter.com/twitter/status/742749353689780224). Taħseb li dawn il-bidliet għandhom jaffettwaw kif tuża "retweets" fir-riċerka tiegħek? Għaliex jew għaliex le?

  6. [ tqila ħafna , ġbir ta 'data , jeħtieġ kodifikazzjoni , Il-favorit tieghi ] F'diskussjoni diskussa ħafna, Michel u l-kollegi (2011) analizzaw il-kontenut ta 'aktar minn ħames miljun ktieb iddiġitizzat f'attentat biex jiġu identifikati tendenzi kulturali fit-tul. Id-dejta li użaw issa ġiet rilaxxata bħala s-sett tad-dejta tal-Google NGrams, u għalhekk nistgħu nużaw id-dejta biex tirreplika u testendi xi xogħolhom.

    F'waħda mill-bosta riżultati fil-karta, Michel u l-kollegi argumentaw li aħna ninsew aktar malajr u aktar malajr. Għal sena partikolari, jiġifieri "1883," huma kkalkulaw il-proporzjon ta '1 gramma ppubblikati f'kull sena bejn l-1875 u l-1975 li kienu "1883". Huma rraġunaw li dan il-proporzjon huwa miżura tal-interess f'avvenimenti li seħħew f'dik is-sena. Fil-figura 3a, huma ddettaw it-trajettorji tal-użu għal tliet snin: 1883, 1910, u 1950. Dawn it-tliet snin għandhom mudell komuni: ftit użu qabel dik is-sena, imbagħad spike, imbagħad decay. Imbagħad, biex tikkwantifika r-rata ta 'tħassir għal kull sena, Michel u l-kollegi kkalkulaw il- "half-life" ta' kull sena għas-snin kollha bejn 1875 u 1975. Fil-figura 3a (inset), urew li l-half-life ta 'kull sena qed tonqos, u argumentaw li dan ifisser li aħna ninsew il-passat b'ħeffa u aktar malajr. Huma użaw il-Verżjoni 1 tal-corpus tal-lingwa Ingliża, iżda sussegwentement Google ħarġet it-tieni verżjoni tal-corpus. Jekk jogħġbok aqra l-partijiet kollha tal-mistoqsija qabel tibda kodifikazzjoni.

    Din l-attività tgħinek tipprattika l-kodiċi li tista 'terġa' tintuża, l-interpretazzjoni tar-riżultati u t-tqassim tad-data (bħal xogħol b'fajls skomdi u l-immaniġġjar ta 'dejta nieqsa). Din l-attività tgħinek ukoll tibda taħdem b'konnessjoni rikka u interessanti.

    1. Akkwista d-data mhux ipproċessata mill-websajt tal-Google Books NGram Viewer. B'mod partikolari, għandek tuża l-verżjoni 2 tal-corpus tal-lingwa Ingliża, li ġiet rilaxxata fl-1 ta 'Lulju 2012. Mhux kompressata, dan il-fajl huwa 1.4GB.

    2. Irrepeti l-parti prinċipali tal-figura 3a ta ' Michel et al. (2011) . Biex terġa 'toħloq din iċ-ċifra, ser ikollok bżonn żewġ fajls: dak li niżżilt fil-parti (a) u l-fajl "għadd totali", li tista' tuża biex taqleb l-għadd mhux maħdum fi proporzjonijiet. Innota li l-fajl tal-għadd totali għandu struttura li tista 'tagħmilha daqsxejn diffiċli biex tinqara. Il-verżjoni 2 tad-dejta NGram tipproduċi riżultati simili għal dawk ippreżentati f'Michael Michel et al. (2011) , li huma bbażati fuq data tal-verżjoni 1?

    3. Issa iċċekkja l-graff tiegħek mal-graff maħluq mill-NGram Viewer.

    4. Irrikkrea l-figura 3a (figura ewlenija), imma ibdel l- \(y\) - jiġifieri l-għadd ta 'referenza prima (mhux ir-rata ta' referenza).

    5. Id-differenza bejn (b) u (d) iwasslu biex tirrevedi kwalunkwe riżultat tar-riżultati ta 'Michel et al. (2011). Għaliex jew għaliex le?

    6. Issa, billi tuża l-proporzjon ta 'indikazzjonijiet, irreplika l-inset tal-figura 3a. Jiġifieri, għal kull sena bejn l-1875 u l-1975, ikkalkula l-half-life ta 'dik is-sena. Il-half-life hija definita bħala n-numru ta 'snin li jgħaddu qabel ma l-proporzjon tas-sejbiet jilħaq nofs il-valur massimu tiegħu. Innota li Michel et al. (2011) tagħmel xi ħaġa aktar ikkumplikata biex tistma l-half-life ara sezzjoni III.6 tat-Tagħrif Online ta 'Appoġġ - iżda jsostnu li ż-żewġ approċċi jipproduċu riżultati simili. Il-verżjoni 2 tad-dejta NGram tipproduċi riżultati simili għal dawk ippreżentati f'Michael Michel et al. (2011) , li huma bbażati fuq data tal-verżjoni 1? (Ħjiel: Ma jkun sorpriż jekk ma jagħmilx dan.)

    7. Kien hemm xi snin li kienu validi bħas-snin li kienu minsija partikolarment malajr jew partikolarment bil-mod? Spjega fil-qosor dwar raġunijiet possibbli għal dak il-mudell u spjega kif identifikajt l-outliers.

    8. Issa tirreplika dan ir-riżultat għall-verżjoni 2 tad-dejta ta 'NGrams fi Ċiniż, Franċiż, Ġermaniż, Ebrajk, Taljan, Russu u Spanjol.

    9. Tqabbil fil-lingwi kollha, kien hemm xi snin li kienu outliers, bħal snin li kienu minsija partikolarment malajr jew partikolarment bil-mod? Spjega fil-qosor dwar ir-raġunijiet possibbli għal dak il-mudell.

  7. [ tqila ħafna , ġbir ta 'data , jeħtieġ kodifikazzjoni , Il-favorit tieghi ] Penney (2016) esplorat jekk il-pubbliċità mifruxa dwar is-sorveljanza NSA / PRISM (jiġifieri r-rivelazzjonijiet ta 'Snowden) f'Ġunju 2013 kienet assoċjata ma' tnaqqis qawwi u f'daqqa fit-traffiku għal artikli tal-Wikipedija fuq suġġetti li jqajmu tħassib dwar il-privatezza. Jekk iva, din il-bidla fl-imġiba tkun konsistenti ma 'effett ta' tkessiħ li jirriżulta minn sorveljanza tal-massa. L-approċċ ta ' Penney (2016) kultant jissejjaħ disinn ta' serje ta 'ħin interrott , u huwa relatat mal-approċċi deskritti fit-taqsima 2.4.3.

    Biex tagħżel il-kliem prinċipali tas-suġġett, Penney irreferiet għal-lista użata mid-Dipartiment tas-Sigurtà Interna ta 'l-Istati Uniti biex tissorvelja u timmonitorja l-midja soċjali. Il-lista tad-DHS tikkategorizza ċerti termini ta 'tfittxija f'firxa ta' kwistjonijiet, jiġifieri, "Tħassib dwar is-Saħħa", "Sigurtà tal-Infrastruttura" u "Terroriżmu." Għall-grupp ta 'studju, Penney użat 48 kelma prinċipali relatati ma' "Terroriżmu" ). Huwa mbagħad aggregat il-fehma ta 'l-artiklu tal-Wikipedija jgħodd kull xahar għall-korrispondenti 48 artiklu tal-Wikipedija fuq perjodu ta' 32 xahar, mill-bidu ta 'Jannar 2012 sa tmiem Awissu 2014. Biex isaħħaħ l-argument tiegħu, ħoloq ukoll diversi gruppi ta' fehmiet ta 'l-artiklu dwar suġġetti oħra.

    Issa, ser tirreplika u testendi l- Penney (2016) . Id-data mhux ipproċessata kollha li ser ikollok bżonn għal din l-attività hija disponibbli mill-Wikipedija. Jew tista 'tiksbu mill-pakkett R-wikipediatrend (Meissner and R Core Team 2016) . Meta tikteb it-tweġibiet tiegħek, jekk jogħġbok innota liema sors tad-dejta int użajt. (Innota li din l-istess attività tidher ukoll fil-kapitolu 6.) Din l-attività tghidlek il-prattika fit-tqassim tad-data u l-hsieb ta 'esperimenti naturali f'sorsi ta' data kbar. Se jkollok ukoll taħdem b'sors ta 'dejta potenzjalment interessanti għal proġetti futuri.

    1. Aqra Penney (2016) u tirreplika l-figura 2 tagħha li turi l-fehmiet tal-paġna għal paġni relatati mat-Terroriżmu qabel u wara r-rivelazzjonijiet ta 'Snowden. Interpreta s-sejbiet.
    2. Sussegwentement, irreplika ċifra 4A, li tqabbel il-grupp ta 'studju (artikoli relatati mat-Terroriżmu) ma' grupp ta 'paragun li juża keywords ikklassifikati taħt "DHS u Aġenziji Oħra" mil-lista tad-DHS (ara l-appendiċi tabella 10 u nota f'qiegħ il-paġna 139). Interpreta s-sejbiet.
    3. Fil-parti (b) inti qabbel il-grupp ta 'studju ma' grupp ta 'tqabbil wieħed. Penney qabblet ukoll ma 'żewġ gruppi oħra ta' tqabbil: l-artikoli relatati mal-'Infrastruttura tas-Sigurtà '(appendix tabella 11) u l-paġni popolari tal-Wikipedija (appendiċi tabella 12). Iġġib flimkien ma 'grupp alternattiv ta' tqabbil, u ttestja jekk is-sejbiet mill-parti (b) humiex sensittivi għall-għażla tiegħek tal-grupp ta 'paragun. Liema għażla tagħmel ħafna sens? Għaliex?
    4. Penney iddikjarat li l-kliem prinċipali relatati ma '"Terroriżmu" intużaw biex jagħżlu l-artikli tal-Wikipedija minħabba li l-gvern tal-Istati Uniti ċċita t-terroriżmu bħala ġustifikazzjoni ewlenija għall-prattiċi tas-sorveljanza onlajn tiegħu. Bħala ċċekkjar ta 'dawn it-48 kelma prinċipali relatati mat-Terroriżmu, Penney (2016) wettqet ukoll stħarriġ dwar MTurk, u staqsew lil dawk li wieġbu biex jirratifikaw kull waħda mill-kliem ewlieni tal-Gvern f'termini ta' Problemi tal-Gvern, Sensittivi għal Privatezza, u Evitar (appendiċi tabelli 7 u 8 ). Irreplika l-istħarriġ fuq MTurk u qabbel ir-riżultati tiegħek.
    5. Fuq il-bażi tar-riżultati f'parti (d) u ​​l-qari tiegħek tal-artiklu, taqbel mal-għażla ta 'keywords ta' Penney fil-grupp ta 'studju? Għaliex jew għaliex le? Jekk le, x'tiendek minflok?
  8. [ faċli ] Efrati (2016) irrapporta, ibbażat fuq informazzjoni kunfidenzjali, li "qsim totali" fuq Facebook naqas b'madwar 5.5% sena wara sena filwaqt li "l-iskambju oriġinali tax-xandir" naqas b'21% sena wara sena. Dan it-tnaqqis kien partikolarment akut ma 'utenti ta' Facebook taħt it-30 sena. Ir-rapport attribwixxa t-tnaqqis għal żewġ fatturi. Wieħed huwa t-tkabbir fin-numru ta 'nies "ħbieb" li għandhom fuq Facebook. L-ieħor huwa li xi attività ta 'qsim inbidlet għal messaġġi u għal kompetituri bħal Snapchat. Ir-rapport żvela wkoll id-diversi tattiċi Facebook ipprova jtejjeb il-qsim, inkluż tweġibiet tal-algoritmi Feed News li jagħmlu l-postijiet oriġinali aktar prominenti, kif ukoll tfakkiriet perjodiċi tal-postijiet oriġinali bil-karatteristika "Fuq din il-ġurnata". Liema implikazzjonijiet, jekk ikun hemm, jagħmlu dawn is-sejbiet għal riċerkaturi li jixtiequ jużaw Facebook bħala sors tad-dejta?

  9. [ medju ] X'inhi d-differenza bejn soċjologu u storiku? Skond Goldthorpe (1991) , id-differenza ewlenija hija l-kontroll fuq il-ġbir tad-dejta. L-istoriċi huma mġiegħla jużaw fdalijiet, filwaqt li s-soċjologi jistgħu jfasslu l-ġbir tad-dejta tagħhom għal skopijiet speċifiċi. Aqra Goldthorpe (1991) . Kif hija d-differenza bejn is-soċjoloġija u l-istorja relatata mal-idea ta 'kustillji u lesti?

  10. [ iebsa ] Dan jibni fuq il-kwesiton ta 'qabel. Goldthorpe (1991) ġibdet numru ta 'tweġibiet kritiċi, inkluż wieħed minn Nicky Hart (1994) li kkontestaw id-devozzjoni ta' Goldthorpe għal data magħmula apposta. Biex tiċċara l-limitazzjonijiet potenzjali ta 'data mfassla apposta, Hart iddeskriviet il-Proġett tal-Ħaddiema Affluwenti, stħarriġ kbir biex titkejjel ir-relazzjoni bejn il-klassi soċjali u l-votazzjoni li tmexxiet minn Goldthorpe u kollegi f'nofs is-sittinijiet. Kif wieħed jista 'jistenna minn studjuż li ffavorixxa dejta ddisinjata fuq data misjuba, il-Proġett Ħaddiema Affluwenti ġabar dejta li kienet imfassla biex tindirizza teorija proposta reċentement dwar il-futur tal-klassi soċjali f'era ta' livelli ta 'għixien dejjem jiżdiedu. Iżda, Goldthorpe u l-kollegi b'xi "nesa" biex jiġbru informazzjoni dwar l-imġiba tal-votazzjoni tan-nisa. Ara kif Nicky Hart (1994) qassar l-episodju kollu:

    "[...] huwa diffiċli li tiġi evitata l-konklużjoni li n-nisa tħallew barra minħabba li dan is-sett tad-dejta" magħmul apposta "kien limitat minn loġika paradigmatika li eskludiet l-esperjenza femminili. Immexxija minn viżjoni teoretika tal-kuxjenza u l-azzjoni tal-klassi bħala preokkupazzjonijiet maskili ..., Goldthorpe u l-kollegi tiegħu bnew sett ta 'provi empiriċi li taw u nrawmu s-suppożizzjonijiet teoretiċi tagħhom stess minflok jesponuhom għal test validu ta' adegwatezza. "

    Hart kompla:

    "Is-sejbiet empiriċi tal-Proġett tal-Ħaddiema Affluenti jgħidulna aktar dwar il-valuri maskinisti tas-soċjoloġija ta 'nofs is-seklu milli jinfurmaw il-proċessi tal-istratifikazzjoni, il-politika u l-ħajja materjali."

    Tista 'taħseb eżempji oħra fejn il-ġbir tad-dejta mfassal apposta għandu l-preġudizzju tal-kollettur tad-dejta mibni fih? Kif tqabbel dan ma 'konfużjoni algoritmika? Liema implikazzjonijiet jista 'jkollhom għal meta r-riċerkaturi għandhom jużaw readymades u meta għandhom jużaw kustassi?

  11. [ medju ] F'dan il-kapitolu, kkuntestajt id-dejta miġbura minn riċerkaturi għal riċerkaturi b'reġistri amministrattivi maħluqa minn kumpaniji u gvernijiet. Xi nies jitolbu lil dawn ir-rekords amministrattivi "data misjuba", li huma kuntrast ma '"data mfassla." Huwa veru li r-reġistri amministrattivi jinstabu minn riċerkaturi, iżda huma wkoll iddisinjati ħafna. Pereżempju, il-kumpaniji moderni ta 'teknoloġija jaħdmu ferm diffiċli biex jiġbru u jikkonservaw id-dejta tagħhom. Għalhekk, dawn ir-rekords amministrattivi huma t-tnejn misjuba u ddisinjati, tiddependi biss fuq il-perspettiva tiegħek (figura 2.12).

    Figura 2.12: L-istampa hija kemm papra u fenek; dak li tara jiddependi fuq il-perspettiva tiegħek. Sorsi kbar ta 'data huma t-tnejn misjuba u ddisinjati; għal darb'oħra, dak li tara jiddependi fuq il-perspettiva tiegħek. Pereżempju, ir-rekords tad-dejta tas-sejħiet miġbura minn kumpanija tat-telefon ċellulari jinstabu data mill-perspettiva ta 'riċerkatur. Iżda, dawn l-istess rekords eżatti huma mfassla data mill-perspettiva ta 'xi ħadd li jaħdem fid-dipartiment tal-kontijiet tal-kumpanija tat-telefon. Sors: Xjenza Popolari Xahar (1899) / Wikimedia Commons.

    Figura 2.12: L-istampa hija kemm papra u fenek; dak li tara jiddependi fuq il-perspettiva tiegħek. Sorsi kbar ta 'data huma t-tnejn misjuba u ddisinjati; għal darb'oħra, dak li tara jiddependi fuq il-perspettiva tiegħek. Pereżempju, ir-rekords tad-dejta tas-sejħiet miġbura minn kumpanija tat-telefon ċellulari jinstabu data mill-perspettiva ta 'riċerkatur. Iżda, dawn l-istess rekords eżatti huma mfassla data mill-perspettiva ta 'xi ħadd li jaħdem fid-dipartiment tal-kontijiet tal-kumpanija tat-telefon. Sors: Xjenza Popolari Xahar (1899) / Wikimedia Commons .

    Agħti eżempju ta 'sors tad-dejta meta jarah kemm kif misjub kif ukoll iddisinjat huwa utli meta jintuża dak is-sors tad-dejta għar-riċerka.

  12. [ faċli ] Fi studju maħsub, Christian Sandvig u Eszter Hargittai (2015) qassmu riċerka diġitali f'żewġ kategoriji wiesgħa skont jekk is-sistema diġitali hix "strument" jew "oġġett ta 'studju." Eżempju tal-ewwel tip - fejn is-sistema hija strument - hija r-riċerka minn Bengtsson u l-kollegi (2011) dwar l-użu ta 'data tat-telefon ċellulari biex tissorvelja l-migrazzjoni wara t-terremot f'Ħaiti fl-2010. Eżempju tat-tieni tip - fejn is-sistema hija oġġett ta' studju- hija riċerka minn Jensen (2007) dwar kif l-introduzzjoni tal-mowbajls madwar Kerala, l-Indja kellha impatt fuq il-funzjonament tas-suq tal-ħut. Jiena nsib din id-distinzjoni utli għax tiċċara li studji li jużaw sorsi ta 'data diġitali jistgħu jkollhom għanijiet pjuttost differenti anki jekk qed jużaw l-istess tip ta' sors ta 'dejta. Sabiex tiċċara aktar din id-distinzjoni, iddeskrivi erba 'studji li rajt: tnejn li jużaw sistema diġitali bħala strument u tnejn li jużaw sistema diġitali bħala oġġett ta' studju. Tista 'tuża eżempji minn dan il-kapitlu jekk trid.