Aktivitéiten

  • Schwieregkeetsgrad: einfach einfach ass , mëttelfristeg mëttlerer , houfreg schwéier , ganz schwéier ganz schwéier
  • Mataarbechter braucht ( Mathematik erfëllt ) Fir
  • Veruerdnung ( erfuerdert Kodéierung ) Fir
  • Datenerfassung ( Datensammlung ) Fir
  • mengen Favoritten ( mäin Favorit ) Fir
  1. [ mëttlerer , An mäin Favorit ] Algorithmesch Verständnis war e Problem mat Google Flu Trends. Liest de Pabeier vum Lazer et al. (2014) , a schreift e kuerze klore Email un engem Ingenieur bei Google, deen de Problem erkläert a proposéiert eng Iddi fir wéi et se ze fixéieren.

  2. [ mëttlerer ] Bollen, Mao, and Zeng (2011) behaapt datt Daten vun Twitter benotzt kënne fir de Börsenprêt virunzekommen. Dëst Resultat huet zu der Schafung vun engem Hedge Fund-Derwent Capital Markets investéiert - an der Bourse ze investéieren op Basis vun Donnéeën aus Twitter (Jordan 2010) . Wat fir e Beweis hätt Dir gesitt ier Dir Äert Geld an deem Fonds géift setzen?

  3. [ einfach ass ] Während e puer ëffentlech Zougangsgesetzer e-Zigaretten considéréiert eng effektiv Hëllef fir Fëmmen opzehalen, anerer wësse iwwer d'potenziell Risiken, wéi d'High Level vun Nikotin. Stellt Iech vir, datt e Fuerscher decidéiert d'ëffentlech Meenung op e E-Zigaretten ze studéieren, andeems e e-Zigaretten bezuelt Twitter postsäits sammelt an d'Sensibiliséierung analyséiert.

    1. Wat sinn d'dräi méiglechst Biessen déi Dir am meeschten iwwert dës Studie gefillt hutt?
    2. Clark et al. (2016) lafe just esou e Studium. Fir d'éischt hunn si 850.000 Tweets zënter dem Dezember 2014 gesammelt E-Zigarettenbezeechen. Schlussendlech hu se festgestallt datt vill vun dësen Tweets automatiséiert waren (dh net vu Mënsch produzéiert) a vill vun dësen automateschen Tweets waren am Wesentlechen Publizitéiten. Si hunn e menschlechen Erkennungsalgorithmus entwéckelt fir automatesch Tweets vu organeschen Tweets ze trennen. Dës Benotzungs Algorithmus hun se fonnt datt 80% vun Tweets automatiséiert waren. Fannt dës Gefill d'Äntwert op Deel (a)?
    3. Wann se d'Stëmmung an ökologeschen an automateschen Tweets vergläicht, hunn se festgestallt, datt d'automatiséiert Tweets méi positiv sinn wéi organesch Tweets (6,17 Versus 5,84). Gitt dës Fuerderung Äert Äntwert op (b)?
  4. [ einfach ass ] Am November 2009 huet d'Twitter d'Fro an der Tweetsbox geännert vun "Wat maacht Dir?" Op "Wat ass geschitt?" (Https://blog.twitter.com/2009/whats-happening).

    1. Wéi mengt Dir datt d'Verännerung vun der Prompts werkei wa se Tweets a / oder wat se tweet maachen?
    2. Nëmme e Projet, fir deen Dir den Offrëtt am léifste géif virstellen "Wat maacht Dir?" Erklärt firwat.
    3. Nëmme fir ee Fuerschungsprojet fir deen Dir den Offrëtt wëllt leeschten "Wat ass geschitt?" Erkläerung firwat.
  5. [ einfach ass ] "Retweets" ginn dacks benotzt fir Moossnahmen an Afloss op Afloss op Twitter ze mellen. Eigentlech hunn d'Benotzer d'Tweet, déi se gär hätt, ze kopéieren an paste paken, markéieren den ursprénglechen Auteur mat sengem / hirem Grousspapp, a manuell "RT" manuell vir den Tweet fir ze weisen datt et e Retweet ass. Dann, am Joer 2009, huet de Twitter eng "retweet" -Knapp. Am Juni 2016 huet Twitter et méiglech gemaach fir hir eegen Tweets (https://twitter.com/twitter/status/742749353689780224) ze retweetéieren. Gitt Dir datt dës Ännerungen géift bedeelegen, wéi Dir "refuséiert" an Ärer Fuerschung benotzt? Firwat oder firwat net?

  6. [ ganz schwéier , An Datensammlung , An erfuerdert Kodéierung , An mäin Favorit ] Bei engem iwwerprobéiert Pabeier analyséiert Michel a Kollegen (2011) den Inhalt vu méi wéi 5 Milliounen digitaliséierter Bicher an engem Versuch, laangfristeg kulturell Trends ze identifizéieren. D'Donnéeën, déi se benotzt hunn, sinn elo als den Google NGrams-Dataset verëffentlecht ginn an dofir kënne mir d'Daten benotzen fir e puer vun der Aarbecht ze replicéieren an ze verlängeren.

    An ee vun de vill Resultater am Pabeier, Michel a Kollegen hunn argumentéiert datt mir eis méi séier a schneller vergiesst. Fir e bestëmmten Joer, "1883", si berechtegten den Undeel vun 1 Gramm vun all Joer tëscht 1875 an 1975, déi "1883" waren. Si hunn geduecht, datt dësen Undeel e Mooss vum Interessi bei Evenementer ass, déi an dësem Joer geschitt ass. An hirer Figur 3a hunn d'Trajetärsstécker dräi Joer gebaut: 1883, 1910, an 1950. Dës dräi Joer hunn e gemeinsame Muster deelgeholl: wéineg benotze virun deem Joer, dann e Spann, duerno Verfall. Niewt de Quantitéit vu Pech fir all Joer ze quantifizéieren, goufe Michel a Kollegen d'Hallefzäit vun all Joer berechtegt fir all Joeren tëscht 1875 an 1975. An hir Figur 3a (Inset) weisen si dem Hallef vun all D'Joer ass ofgeholl ginn, a si hunn argumentéiert datt dat heescht datt mir d'Vergaangenheet séier a schneller vergiesst. Si hunn d'Versioun 1 vum englesche Sproochkorpus benotzt, awer duerno huet Google eng zweet Versioun vum Corpus publizéiert. Bitte liesen all d'Wierker vun der Fro un, ier Dir mat der Kodéierung beginn.

    Dës Aktivitéit erlaabt Dir Dir Praxisreegele Code ze maachen, Interpretatiounsresultater an Datenquellung (z. B. mat schaarf Dateien an Handling vu fehlend Daten) ze schreiwen. Dës Aktivitéit hëlleft Iech och opzehuelen a lafen mat engem räich a interessante Dataset.

    1. Kuckt d'raw Daten vun der Websäit vum Google Books NGram Viewer. Besonnesch sollt Dir d'Versioun 2 vum englesche Sproochkorpus benotzen, dat am 1. Juli 2012 erauskomm ass. Unkompriméiert ass dës Datei 1,4GB.

    2. Recreate de groussen Deel vun 3a vum Michel et al. (2011) . Fir dës Figur opzestellen, brauch Dir zwee Fichieren: Déi Dir hutt deelweis erofgelueden (a) an der "total Zuel" -Fichier, déi Dir benotzt fir de richtege Zousatz an Proportiounen z'änneren. Gitt datt d'total Zuel Dateie eng Struktur huet, déi et kéint e bësschen schwéier se ze liesen hunn. Versioun 2 vun den NGram Daten produzéieren ähnlech Resultater wéi déi a Michel et al. (2011) , baséiert op Version 1 Daten?

    3. Kuckt Ären Diagramm virun der Grafik vum NGram Viewer.

    4. Figur 3a (Haaptfigur \(y\) opmaachen, awer den Numm \(y\) -axis fir de roude Betrag zähmen (net d'Geschwindegkeet vun der Erwäermung).

    5. Gitt den Ënnerscheed tëscht (b) an (d) Iech Dir Iech vun de Resultater vu Michel et al reevaluéiert. (2011). Firwat oder firwat net?

    6. Elo, mat dem Undeel vun den Erklärungen, replizéieren de Spillplang vun 3a. Dat heescht, fir all Joer tëscht 1875 an 1975, berechnen d'Hallefzäit vum Joer. D'Hallefzäit ass definéiert d'Nummer vu Joer ze ginn, déi virdrun de Proportion vun der Erwägung hallewt säi Peakwert halen. Bedenkt datt Michel et al. (2011) maachen eppes komplizéiert fir d'Hallefzäit ze schätzen - kuck Abschnitt III.6 vun der ënnerstëtzend Online-Informatioun - awer se behaapten datt zwou Approche ähnlech Resultater produzéieren. Versäit Versioun 2 vun den NGram Daten produzéieren ähnlech Resultater wéi déi a Michel et al. (2011) , baséiert op Version 1 Daten? (Tipp: Gitt net iwwerrascht wann et net geet.)

    7. Ginn et irgendwelch Joer, déi Ausreißer waren wéi Joer, déi besonnesch besonnesch séier oder ganz lues vergiess hunn? Kuckt spekuléieren iwwer méiglech Moossnamen fir dës Muster an erklären wéi Dir d'Ausreiwer identifizéiert hutt.

    8. Eroplueden dëst Resultat fir Versioun 2 vun den NGrams Daten op Chinesesch, Franséisch, Däitsch, Hebräesch, Italienesch, Russesch a Spuenesch.

    9. Vergläicht iwwer all Sproochen, war et irgendwelch Joer, déi Ausreiwer waren, wéi zB Joer, déi besonnesch schnell oder besonnesch lues vergiess hunn? Kuckt spekuléieren iwwer méiglech Moossnamen fir dës Muster.

  7. [ ganz schwéier , An Datensammlung , An erfuerdert Kodéierung , An mäin Favorit ] Penney (2016) entdeckt ob déi breet Publizitéit iwwer d'NSA / PRISM Iwwerwaachung (dh d'Snowden Offenbarungen) am Juni 2013 ass mat enger scharfen a plattverhaangener Verkéiersstatioun op Wikipedia Artikelen op Themen déi d'Privatsphär betreffen. Wann dat ass, wier dës Verännerung am Verhalenshandel konsequent mat enger vun der Iwwerwaachung vu Mass iwwerwaachte Chill effect. D'Approche vu Penney (2016) heescht heiansdo en interruptéierten Zäitrees ze designéieren, an et bezitt sech op déi Approche déi am Abschnitt 2.4.3 beschriwwe sinn.

    Fir de Schlësselwielen ze wielen, huet Penney d'Lëscht vum US Department of Homeland Security bezeechent fir Suen an Iwwerwaachungsservicer vun de Sozial Medien ze benotzen. D'DHS Lëscht kategoriséieren verschidde Sichen Begrëffer an eng Rei vun Themen, dh "Gesondheetskonzern", "Infrastruktur Sécherheet" an "Terrorismus". Fir d'Studiegrupp benotzt Penney déi 48 Schlësselwieder am Zesummenhang mat "Terrorismus" (s. Appendix Tabelle 8 ). Hien huet aggregéiert Wikipedia Artikelvisualitéit zielt op eng moereg Basis fir déi 48 Wikipedia Artikel iwwer eng 32-Méint-Period, vun Ufank vum Januar 2012 bis Enn August 2014. Fir säin Argument ze stäerken, huet hien och verschidde Vergréisserengruppen ënnerstëtzt, andeems Artikelen iwwer aner Themen.

    Elo ginn Dir Penney (2016) ze replicéieren an ze verlängeren. All déi roude Donnéeën déi Dir braucht fir dës Aktivitéit ass vu Wikipedia disponibel. Oder Dir kënnt et vum R-Paket wikipediatrend kréien (Meissner and R Core Team 2016) . Wann Dir Är Äntwerte schreift, gitt weg datt déi Datenquelle Dir benotzt. (Schau just datt d'selwescht Aktivitéit och am Kapitel 6 ersat gëtt.) Dës Aktivitéit leet Iech Praxis an Daten verwierklecht an denkt iwwer natiirlech Experimenter an grouss Datenquellen. Et wäert Iech och mat enger potenziell interessant Datenquelle fir zukünfteg Projete weidergoen.

    1. Liest Penney (2016) a replizéiert seng Figur 2, déi d'Säit kuckt fir "Terrorismus" -verwandlere Säiten virum a no der Snowden Revelatiounen. Interpret de Resultater.
    2. Niewt de Réplicat 4A, déi d'Studiegruppe ("Terrorismus" mat Verëffentlechten Artikelen) vergläicht mat enger Vergleichergruppe mat Stëmmen, déi ënnert "DHS & Aner Agencies" aus der DHS Lëscht kategoriséiert gëtt (kuckt Appendix Tabelle 10 a Footnote 139). Interpret de Resultater.
    3. En Deel (b) hutt Dir d'Studie Gruppe mat enger Komparator Grupp verglach. Penney huet och mat zwee aner Komparatorgruppen verglach: "Infrastruktur Sécherheet" related articles (Appendix Dësch 11) a populär Wikipedia-Säiten (Appendix Dësch 12). Kuckt mat enger alternativer Komparatrounengruppe an testen ob d'Erkenntnisse vum Deel (b) fir Äre Choix vu Komparatorgrupp sinn. Wéi eng Entscheedung de gréissten Sënn mécht? Firwat?
    4. Penney huet festgestallt, datt Schlësselwierder zu "Terrorismus" benotzt ginn fir d'Artikelen aus der Wikipedia ze wielen, well d'US Regierung d'Terrorismus als Schlësselrecht fir seng Online Iwwerwaachungspraktiken huet. Als Scheck vun dësen 48 "Terrorismus" -verännerleche Stëchwierder huet Penney (2016) och en Ëmfro iwwert MTurk gemaach an d'Enseignanten gefuerdert fir jiddereen vun de Keyworden am Sënn vun der Regierung Trouble, Privacy-Sensitive an Avoidance (Appendix Tabelle 7 an 8 ). Setzt d'Ëmfro op MTurk a vergläicht Är Resultater.
    5. Opgrond vun den Resultater an Deel (d) an Ärer Lieszäit vum Artikel, sidd Dir averstanen mat der Penney senger Auswiel vu Schlësselwahlen an der Studiengrupp? Firwat oder firwat net? Wann net, wat wäerte Dir Iech virschloen?
  8. [ einfach ass ] Efrati (2016) bericht, baséiert op vertraulech Informatiounen, datt "totalen Deel" op Facebook wéinst ongeféier 5,5% Joer am Joer zréckgefall war, während "Original Broadcast Sharing" war 21% Joer iwwer Joer. Dëse Réckgang war besonnesch mat Facebook Benotzer ënner 30 Joer. De Rapport zielt de Réckgang zu zwee Faktoren. Een ass d'Wuesstem an d'Zuel vun "Frënn" Leit hunn op Facebook. Déi aner ass datt verschidden Aktiviteiten Aktivitéiten op Messagen verschéckt ginn an op Konkurrenten wéi Snapchat. De Bericht huet och erkläert, datt déi verschidde Taktiken Facebook versicht hunn d'Erhéijung vun der Erhéijung ze verbesseren, och d'News Feed Algorithmus Tweaks, déi originell Poste méi prominent ginn, wéi och periodesch Erënnerungen vun den ursprénglechen Poste mat der Funktioun "On This Day". Wéi eng Konsequenzen, wann et néideg sinn, dës Erkenntnisser fir Fuerscher déi Facebook mat enger Datenquelle benotzen wëllen?

  9. [ mëttlerer ] Wat ass den Ënnerscheed tëscht engem Soziolog a engem Historiker? Laut Goldthorpe (1991) ass den Haaptunterschied d'Kontroll iwwer d'Datensammlung. D'Historiker si gezwongen, Reliquien ze benotzen, an de Sociologen kënnen hir Datebank erfaassen op spezifesch Zwecker. Liest Goldthorpe (1991) . Wéi ass den Ënnerscheed tëscht Soziologie a Geschicht mat der Iddi vu Custommaden a Readymeng?

  10. [ schwéier ] Dëst baut op der fréierer Quesiton. Goldthorpe (1991) zitt eng Rei kritesch Responsoën, ​​dorënner ee vum Nicky Hart (1994) deen d'Goldthorpe d'Hellegkeet fir déi ugefrotene Donnéeën erausgefuerdert huet. Fir d'potentielle Beschränkung vun den individuellen Donnéeën ze klären, Hart beschreift de beléifende Worker Project, eng grouss Ëmfro, fir d'Relatioun tëscht Sozialklassen a Stëmmung ze mellen, déi vu Goldthorpe a Kollegen an der Mëttel 1960er Joren gemaach goufen. Wéi ee sollt vun engem Geléiert erwaarden, deen entwéckelt Daten iwwer fonnt fonnt huet, sammelen d'Afflux Worker Project Daten, déi opgeschafft ginn fir eng kuerz Regressioun iwwer d'Zukunft vun der sozialer Klass an eng Ära vun méi erhéigen Liewensstandard ze bewäerten. Mee, Goldthorpe a Kollegen hunn irgendwei "vergiess" Informatiounen iwwer de Wahleverhalen vu Fraen ze sammelen. Hei ass wéi d'Nicky Hart (1994) de ganze Episode zesummegefaasst huet:

    "... et ass schwéier ze vermeiden datt d'Frae gelooss gi war, well dës" Schneider "gemaach huet, dat duerch eng paradigmatesch Logik beschränkt gouf, déi weiblech Erfahrung ausgeschloss huet. Gedeelt vun enger theoretescher Visioun vum Klassenbewosst- an Action als männlech Besuergnunge ..., Goldthorpe a senge Kollegen hunn eng Rei empiresche Beweisen entwéckelt, déi hir eegeneoretescht Annahmen hunn gefüttert a nouturéiert hunn, anstatt datt se e gülteg Test adequacy exposéieren. "

    Hart huet weidergespillt:

    "D'empiresch Erkenntnisser vum lëtzeburger Aarbechterprojet erkläre eis méi iwwer d'masculinistesch Wäerter vun der Mëttelmierch vu Mëttelmierde méi wéi si d'Prozeduren vun der Stratifikatioun, der Politik an dem materiellen Liewen informéieren."

    Kënnt Dir Iech iwwer aner Beispiller denken, datt d'Datebank ofgeschnidden ass, déi d'Biasis vum Datensammler erstallt huet? Wéi vergläicht dësen an algorithmesch verwiesselen? Wat fir Auswierkunge kéint dat hunn, wann d'Fuerscher mat Readymafia benotzen an wann se d'Kaffisdoum benotzen?

  11. [ mëttlerer ] An dësem Kapitel hunn ech Contraire vun Daten gesammelt, déi d'Fuerscher fir Wëssenschaftler mat administrativem Rekord vun Entreprisen an Regierungen gesammelt hunn. E puer Leit nennen dës Administratiounsuewercher "Daten fonnt", déi si mat "entwéckelte Donnéeën" vertrieden. Et ass richteg, datt d'Administratiounsgeschichten vun de Fuerscher fonnt ginn, awer si sinn och héich entworf. Zum Beispill benotzen modern Tech-Firmen ganz schwéier fir hir Donnéeën ze sammelen an ze kroen. Dofir sinn dës Administratorevill souwuel a fonnt ginn, et hängt vun Ärer Perspektiv (2.12).

    2.12: D'Bild ass eng Enten an e Kanéngchen; wat Dir gesitt hänkt vun Ärer Perspektiv. Grouss Datenquellen sinn fonnt a konzipéiert; Neischt, wat Dir gesitt hänkt vun Ärer Perspektiv. Zum Beispill sinn déi Rufdaten vun engem Handy-Handy gesammelt Daten aus der Perspektiv vun engem Fuerscher. Awer dës exakt selwecht Datebank sinn entwéckelt Daten aus der Perspektive vun engem deen an der Rechnung vun der Telephoniefirma funktionnéiert. Source: Popular Science Monthly (1899) / Wikimedia Commons.

    2.12: D'Bild ass eng Enten an e Kanéngchen; wat Dir gesitt hänkt vun Ärer Perspektiv. Grouss Datenquellen sinn fonnt a konzipéiert; Neischt, wat Dir gesitt hänkt vun Ärer Perspektiv. Zum Beispill sinn déi Rufdaten vun engem Handy-Handy gesammelt Daten aus der Perspektiv vun engem Fuerscher. Awer dës exakt selwecht Datebank sinn entwéckelt Daten aus der Perspektive vun engem deen an der Rechnung vun der Telephoniefirma funktionnéiert. Source: Popular Science Monthly (1899) / Wikimedia Commons .

    Gitt e Beispill vun der Datenquelle, wou se gesinn a wéi et fonnt ginn ass, hëlleft wann ech dës Informatiounsquell fir d'Fuerschung benotzen.

  12. [ einfach ass ] In enger iwwerdenkt Essay, Christian Sandvig a Eszter Hargittai (2015) spalten digitale Fuerschung an zwee grousse Kategorië jee no, ob den digitale System en "Instrumenter" oder "Objekt vun der Studie" ass. Ee Beispill vun der éischt Art - wou de System en Instrument - ass d'Recherche vu Bengtsson a Kollegen (2011) iwwer d'Mobiltelefon-Daten fir d'Migratioun no der Äerdbiewen an Haiti 2010 ze verfolgen. Een Beispill vun der zweeter Art - wou d'System e Objekt vun der Studie ass - gëtt d'Recherche vun Jensen (2007) wéi d'Einféierung vun Mobiltelefonen iwwer Kerala, Indien, beeinträchtegt d'Funktioun vum Maart fir Fësch. Ech fannen dës Ënnerscheeder nëtzlech, well et klärt datt d'Studien mat digitalen Datenquellen e ganz aner Ziler hunn, och wann se déi selwecht Art vu Datenquelle benotzen. Fir dës Ënnerscheed weider ze klären, beschreiwe vier Etüde wéi Dir gesitt: zwee déi e digitalen System als Instrument benotzen an zwee déi d'digitale System als Objekt vun der Studie benotzen. Dir kënnt Beispiller aus dësem Kapitel benotzen wann Dir wëllt.