Activités

  • gradu di difficultatu: faciule faciule , mediu medium , duro dura , assai duru assai duru
  • precisa matemáticas ( precisa matematica )
  • precisa codificazione ( precisa codificazione )
  • a recullariariali ( ricerca di dati )
  • i mo piace ( u mo piacevule )
  1. [ medium , u mo piacevule ] A cunfusioni algorìttimica era un prublema cù Google Trunia di Flu. Leghje u paper da Lazer et al. (2014) , è scrivite un email cortu è chjaru à un ingegneru in Google chì spiega u prublema è per offre una idea di a manera di riscuprire.

  2. [ medium ] Bollen, Mao, and Zeng (2011) dichjara chì e dati di Twitter pò esse utilizati per prontiche à u borsu. Stu logu hà purtatu à a creazione di un fundiu di spiaggia-Derwent Capital Markets-per inviste in u sughjettu nantu à a data recopilata da Twitter (Jordan 2010) . Chì evidenza volsi vede prima di purtà i vostri soldi in quellu fundale?

  3. [ faciule ] Mentre chì certi difendenti di a salute pubblicu cunzidenu e-cigarettes un aiutu efficace à u cesamentu di u fumu, l'altri avvenenu di i risichi potenzjali, cum'è l'altitudini di a nicotina. Imagine chì un investigatore decide di studià l'opinione publica versu e-cigarettes per coglie e-cigarettes-related posts Twitter è realizazione di sentiment analysis.

    1. Chì sò i trè prezzi possible chì site più preoccupatu in stu studiu?
    2. Clark et al. (2016) curria solu stu studiu. Prima, cullitanu 850.000 tweets chì utilizanu e chiarelle per cigarette da ghjennaghju 2012 à dicembre di u 2014. Cundu una inspezione più cercana, realizonu chì assai di sti tweets eranu automatizati (ie, micca produzzione da l'omu) è parechji di sti tortu automatizatu era essenze publichi. Svilupparu un algoritmu di scrittura umana per separà tweets automatizati da tweets ecològichi. Usannu stu algoritmusu di dette umanu truvonu chì u 80% di i tweets era automatizatu. Questa trovi cambia a vostra risposta à a parte (a)?
    3. Quandu palesanu u sentimentu in tweets organi è automatizzati, truvaru chì i tweets automatizati eranu più pusitivi di i tweets organici (6.17 versus 5.84). Questa trovi cambia a vostra risposta à (b)?
  4. [ faciule ] Nuvembre di u 2009, Twitter cambia a question in u tweet box da "Quale site?" Per "Quì chì succede?" (Https://blog.twitter.com/2009/whats-happening).

    1. Cumu pensate chì u cambiamentu di i prublemi averà chì e tweets è / o ciò chì tweete?
    2. Fate un prughjettu di ricerca per quale avete preferite a promptità "Ciò chì site?" Spiega per quessa.
    3. Fate un prughjettu di ricerca per quale avete preferite a promptità "Ciò chì hè succidutu?" Spiega per quessa.
  5. [ faciule ] "Retweets" sò spessu usati per meditar influenza è diffusioni di influenza in Twitter. In iniziale, l'utilizatori avianu a copre è appiccicate u tweetu chì l 'avianu piace, tag l'autoru originale cù u so manicu, è scrivite «RT» manualmente prima di u tuitettu per indicà chì era un retweet. Dopu, in u 2009, Twitter agghiunciu un "retweet". In u giugnu di u 2016, Twitter hà pussibile bisognu di i reticurati à i vostri tweets (https://twitter.com/twitter/status/742749353689780224). Pensate chì queste cambiassi anu influenatu cumu si usa "retweets" in a vostra ricerca? Perchè o perchè micca?

  6. [ assai duru , ricerca di dati , precisa codificazione , u mo piacevule ] In un discutu largamente discussatu, Michel è i culleghji (2011) analizà u cuntenutu di più di cinque miliuna di libri di digitalizati in un tentativu per identifiere tendenzi culturali longu. I dati chì anu utilizatu hè statu liberatu com'è u dataset di Google NGrams, è cusì ponu utilizà a dati per rimpriverà è allargate parechji di u so travagliu.

    In unu di i parechji risultati in u documentu, Michel è i culleghji argumentanu chì avemu scurdatu più veloce è più veloci. Per un annu particular, dite "1883", calculanu a proporzioni di 1 gramma publicati in ogni annu entre u 1875 è u 1975 chì eranu "1883". E ragiunonu chì sta preghjunu hè una misura di l'interesse in i manifistazioni chì succidia quellu annu. In a so figura 3a, tramindui i trajectorii d'utilizazione per trè anni: 1883, 1910 è 1950. Queste trè anni facianu un patronu cumuni: pocu usu prima di quellu annu, da un pezzu, in a decadenza. Appena, per quantificà a freccia di decadenza per ogni annu, Michel è i culleghji calculate a "half-life" di ogni annu per tutti l'anni 1875 è 1975. In a so figura 3a (inset), amparanu chì a half-vita di ogni annu hè di diminuenti, è argüenu chì questu significa chì avemu scurdatu u passatu veloce è più veloce. Usà a Versione 1 di u corpusu di lingua inglesa, ma dopu Google hà liberatu una seconda versione di u corpus. Sceglite tutti i partiti di a quistione prima di cumincià u codificazione.

    Questa attività vi darà prutezzione scrivintendu u codice reutilizante, interprete e risultati è dati à rivolve (per esempiu di travaglià cù schedari strammi è manipule i manca dati). Questa attività dinò l'aiuta ancu nantu à aduprà cù un richtu di datu interessanti.

    1. Aghjunghjite l'elementi prima di u web di Google Books NGram Viewer. In particulari, avete aduprà a versione 2 di u corpusu di lingua inglesa, chì hè stata liberata l'1 di lugliu di u 2012. Uncompressed, stu schedariu hè 1.4GB.

    2. Recreate a parte principale di a figura 3a di Michel et al. (2011) . Per fà riprochisce sta figura, avete bisognu di duie file: quellu chì scaricava in parte (a) è u "schedariu tutali", chì pudete utilizate per cunvertisce u cuntestu crudu in pruporzioni. Innota chì u schedariu tutale di cuntenuti hè una struttura chì pò fà un pocu di sicuru per leghje. Queda a versione 2 di a data NGram pruducighu risultati simili à quelli presentati in Michel et al. (2011) , chì sò basati nantu à a versione 1?

    3. Verificate u vostru gràficu contru u graficu creatu da u NGram Viewer.

    4. Recreate figura 3a (figura principale), ma cambia a \(y\) -axis per esse u cuntestu di cita prima (micca u ritmu di menzione).

    5. A diffarenza entre (b) è (d) vi porta à reevaluà qualche di i risultati di Michel et al. (2011). Perchè o perchè micca?

    6. Avà, utilizendu a proporzione di ricerche, riplicate l'insetu di a figura 3a. Eccu, per ogni annu entre u 1875 è u 1975, calculate a semi-vita di quellu annu. A semi-vita hè definita per esse u numicu d'anni chì passanu prima chì a proporzione di ricerche alcuni a mità di u puntu più altu. Note chì Michel et al. (2011) fate quarchi più cumplessu per calculà a migità di a vita; vede a seczione III.6 di l'infurmazione in ligna, ma chì sustinendu chì i avviamenti pruducini risultati simili. A versione 2 di a data NGram pruduce risultati simili à i presentati in Michel et al. (2011) , chì sò basati nantu à a versione 1? (Hint: Ùn vi maravigliate se micca.)

    7. Anu erani chì parechji anni sò stati alculitarii, cum'è anni chì eranu eseguitu piccu rapidamente o particularmente lenta? Speculate briefly about possible motivi di quellu patronu è spiegà cumu identificanu l'outliers.

    8. Avete riplicatu stu risultatu per a versione 2 di a basa di NGrammi in Cinese, Francese, Alimanu, Ebreu, Italiano, Russo è Spagnolu.

    9. Comparare nantu à tutte l'lingue, avianu alcuni anni chì sò stati alculitari, cum'è anni chì eranu eseguitu picchi rapidamente o particularmente lenta? Speculate briefly about possible motivi di quellu patronu.

  7. [ assai duru , ricerca di dati , precisa codificazione , u mo piacevule ] Penney (2016) sbulicatu o micca a publicità generale nantu à a vigilazione NSA / PRISM in a ghjugna di u 2013 hè assuciatu cù una sguità è sutt'ella in u trafficu di l'articuli di Wikipedia nantu à temà chì elevanu a prublema di privacy. Se sia cusì, sta cambiamentu in i cumpurtamenti seranu coherente cù un effettu chilling fruttu da a vigilazione di massa. L'approcciu di Penney (2016) veni à spessu qualificatu un disegnu di serie di tempu interu , è hè in relazione cù l'approczii scritte in a seccion 2.4.3.

    Puderete sceglie u prublemu chjave, Penney faciule a lista utilizada da u Dipartimentu di a Patria di u Patronu di i Stati Uniti per u seguimentu è seguimentu di e media. A lista di u DHS categorizeghja certi termini di ricerca in una varietà di prublemi, per esempiu "Cumprimentu à a Salute", "Infrastruttura di Securità" è "Terrorismu". Per u gruppu studiu, Penney hà utilizatu l'48 parole chjamati cù "Terrorismu" (vede appendix table 8 ). Dopu aggiunta l'articulu di l'articulu hè cuntadore nantu à una basa mensuale per quelle 48 articuli di Wikipedia cù un periodu di 32 mesi, da u principiu di ghjennaghju di u 2012 à a fini di l'aostu di u 2014. Per rinfurzà a so argumentu, hà ancu criatu parechji gruppi di comparatori tracciau visioni articuli nantu à altri temi.

    Avà, site per riplicate è extende Penney (2016) . Tutti i dati virali chì avete bisognu di sta attività hè disponibile da Wikipedia. O pudete acquistà da u R-package wikipediatrend (Meissner and R Core Team 2016) . Quandu puderete scrive u vostri risposte, avete nutitu l'infurmazioni di u fonti chì avete usatu. (Nota chì sta stessa attività hè ancu in u capitulu 6.) Questu attivazione vi darà a pratica in dati di cunferenze è di pensà à i esperimenti naturali in grandi fonti di dati. Hè ancu avà ghjustificatu cù un spaziu di dati interessanti per i prughjetti in future.

    1. Pigliate Penney (2016) è réplika a so figura 2 chì mostra a pàgina vede per i pezzi di "Terrorismu" quelli annantu prima è dopu à i Descrizzione di Snowden. Interpretate i scuperti.
    2. Aghjunghje, réplika a figura 4A, chì compara u gruppu di studiu (articuli relazionati da "terrurisimu") cun un gruppu di paraguni chì utilizanu e chjavi categurizzati in "DHS & Other Agencies" da a lista di u DHS (vede appendix table 10 è nota 139). Interpretate i scuperti.
    3. In parte (b) hà cumparatu u gruppu studiu cù un gruppu paragunariu. Penney hà ancu paragunatu cù dui altri gruppi di comparatorii: l'articuli «Infrastruttura di Securità» (appendix table 11) è e popular pages di Wikipedia (appendix table 12). Avete cun un gruppu paragunatore alternativu, è pruvata s'elli i risultati di parti (b) sò sensittivi à u vostru scelta di gruppu di paraguni. Quale scelta di u sensu più sensu? Perchè?
    4. Penney hà dichjaratu chì i chjave per u "Terrorismu" anu usatu per selezziunà l'articuli in l'articuli in l'articuli in l'articuli in l'articuli in l'articuli in l'articuli in l'articuli in l'articuli in l'articuli in l'articuli in l'articuli in l'articuli in l'articuli in l'articuli in u Wikizziunariu Comu cuntrollu di queste 48 "Terrurismu", chjarale in particulare, Penney (2016) ancu realizatu un insegnamentu per MTurk è dumandendu à i rispondenu per tariffà tutti i chjave di ricerca in termi di Troublee Gubernate, Privacidad Sensitiva è Avoidance (appendix table 7 and 8 ). Replicate l'istima di MTurk è compara risultati.
    5. Basatu nantu à i risultati in parte (d) è a vostra lettura di l'articulu, accunsenu cù l'elezzioni di Penney per i topic in u gruppu studiu? Perchè o perchè micca? Se no, chì vulete suggerisce micca?
  8. [ faciule ] Efrati (2016) informatu, basatu annantu à l'infurmazione confidenti, chì "a spargugliu tutali" in Facebook s'hè diminuitu nantu à circa un 5,5% annu annata quandu "sharing broadcast broadcast" era 21% annu annata annata. Questa diminuite hè particularmente agutu cù l'utilizatori di Facebook sottu 30 anni di età. U rapportu attribuía u decadente à duie fatturi. Unu hè u cretu in u numaru di "amichi" di e persone anu in Facebook. L'altru hè chì qualchissia parte sparte d'attivazione hà trasfigurata à messageria è à i competitors com Snapchat. L'annunziu anu revelatu ancu e quarchi tacticità Facebook avia pruvatu à sparà u sparte, cumpresa di l'algoritmo di News Feed, chì cambia a publicazioni originali più prominenti, è di ricordi pericinali di i publicazioni origginali cù a funzione "On This Day". Chì significati, se qualchissia, fà questi loghazioni per i circhanti chì vulianu usà Facebook cum'è fonte di dati?

  9. [ medium ] Cosa hè a diferenza per un sociologu è un stòricu? Sicondu Goldthorpe (1991) , a principalità hè u cuntrollu di a ricerca di dati. L'historiatrici sò obligati di utilizà relidicamenti, mentri i sociologue si poni à apprezzà a so ricerca di dati à sviluppi specifiche. Lee Goldthorpe (1991) . Cumu hè a differenza trà i sociologie è a storia ligata à l'idea di custommades e readymades?

  10. [ dura ] Questa custruisce nantu à u quesiton anticu. Goldthorpe (1991) hà fattu un sensu di risposti crìtichi, cumpresa unu di Nicky Hart (1994) chì sfidau a devozione di Goldthorpe à l'articuli fugliale. Per essecimentate e limitazione potenzale di data fatta, Hart hà descrizatu u Prughjettu di u travagliu affluente, una stonda larga per misurà a rilazioni trà a classa suciale è u votu chì era guidatu da Goldthorpe è i culleghi in a mezzo di l'anni 1960. Comu pò esse espertu di un studiente chì favurizatu e dati chì hà datu cunfirmati, u travagliu affluente di u travagliu hàbbenu datu chì sò stati disciplinati per affruntà una teoria propositu di u futuru di a classi suciali in una era di standards di vita di creazioni. Ma, Goldthorpe è i culleghi d'alcuni "scurdati" di cullittà infurmazioni nantu à u cumpurtamentu di u votu di e donne. Eccu Cumu Nicky Hart (1994) resume l'episodiu sanu:

    "... hè [hè] difficiule per evitarà a cunvinzione chì e donne fanu omessi per chì questa fattura di« fatta fatta fatta »hè stata cunfinata da una lòggica paradigmata chì escludisci l'esperma femminile. Impulsatu da una visione teorica di a cuscenza di a classi è l'accontu cumu preoccupations maschile ..., Goldthorpe è i so culleghi sò stati prupziunzii empirichi chì alimentonu è coseu i so propunsioni tiurici propii invece di esse l'esposta à una prova valida d'adattazione ".

    Hart cuntava:

    "I travagliu empiricu di u Prughjettu di u travagliu affluente dici di più nantu à i valori masculinisti di a sociologija di u seculu versione ch'elli anu infurmatu i prucessi di stratificazione, a pulitica è a vita materiale.

    Pudete pensate di altri esempi, chì a recopilazione di sguardi fugliale anu u preghjudiziu di u cullettore di dati cumprati? Cumu cumpunisce cusì cun nahista algorìmichi? E quali implicazione puderanu questu questu per quandu i ricoditeri avissiru aduprà readymades è quandu elli si tenenu custommades?

  11. [ medium ] In questu capitulu, aghju cuntrastatu e dati recullati da i circhificanti per i circhieri cù registri amministrativi creati da i impresi è i guverni. Certi città chjamanu sti registri amministrativi "dati truvati", quale anu cuntrastatu cù "dati disinniati". Hè veru chì i registri amministrativi sò truvati da i ricerca, ma sò dinò assai ricunnisciuti. Per esempiu, e tecnulugii tecnulugia muderni travaglianu assai di ricumpinsalli è curate i so dati. Cusì, sti registri amministrativi sò tutti dui è truvatu, hè ghjustu da a vostra perspettiva (figura 2.12).

    Figura 2.12: U ritrattu hè tutte un ànecu è un cunellu; ciò chì vede depenu da a vostra perspettiva. Ogni fonti di dati sò stati trovanu è designati; novu, ciò chì vede depenu da a vostra perspettiva. Per esempiu, u registru di data di cunnessione recullata da una cumpagnia telefunica telefunina sò data fatti da a perspettiva di un investigatore. Ma, queste esattamente stessi disegni sò idei di dati da a perspettiva di qualcunu chì travagliendu in u dipartimentu di fattura di l'anzianu di u telefuni. Fonte: Science Monthly (1899) / Wikimedia Commons.

    Figura 2.12: U ritrattu hè tutte un ànecu è un cunellu; ciò chì vede depenu da a vostra perspettiva. Ogni fonti di dati sò stati trovanu è designati; novu, ciò chì vede depenu da a vostra perspettiva. Per esempiu, u registru di data di cunnessione recullata da una cumpagnia telefunica telefunina sò data fatti da a perspettiva di un investigatore. Ma, queste esattamente stessi disegni sò idei di dati da a perspettiva di qualcunu chì travagliendu in u dipartimentu di fattura di l'anzianu di u telefuni. Fonte: Science Monthly (1899) / Wikimedia Commons .

    Fornite un esempiu di l'oraghja di dati chì vede cum'è truvatu è stampatu hè utili when using that data source for research.

  12. [ faciule ] In un prucessu pensativu, Christian Sandvig è Eszter Hargittai (2015) split research digitale in dui largheghini categuriendu si u sistema di l'digitale hè un "instrumentu" o "unicu studiu di studiu". Un esempiu di u primu tipu induve u sistema hè un strumentu - hè a ricerca di Bengtsson è i culleghji (2011) nantu à l'utilizazione di dati telefonii di telefunali per seguità a migrazione dopu à u terrimotu in Haiti in u 2010. Un esempiu di u sicondu tipu induve u sistema hè un ughjettu di studiu-hè ricerca di Jensen (2007) nantu à a manera chì l'introduzione di i telefuni mubilii in Kerala, l'India hà impussibule u funziunamentu di u mercatu di u pesciu. Truvaru questa distinazioni aiutera perchè elabura chì i studii cù l'infurmazioni digitale puderanu esse ghjustifiche ancu à l'uggettu di u fondu di dati. Per esse di clarificà sta distinzione, detti quattru studii chì avete vistu: dui chì usanu un sistema digitale com'è un strumentu è dui chì usanu un sistema digitale com'è un ughjettu di studiu. Pudete utilizà esempii di stu capitulu se vulete.