actividades

Key:

  • Grado de dificultade: fácil fácil , medio medio , difícil difícil , moi duro moi duro
  • require matemáticas ( require matemáticas )
  • require codificación ( require codificación )
  • recollida de datos ( recollida de datos )
  • favoritos ( Meu favorito )
  1. [ medio , Meu favorito ] Confusión Algorithmic foi un problema con Google Flu Trends. Lea o artigo de Lazer et al. (2014) , e escribir un correo electrónico curto, claro para un enxeñeiro de Google explicando o problema e ofrecer unha idea de como resolver o problema.

  2. [ medio ] Bollen, Mao, and Zeng (2011) afirma que os datos de Twitter pode ser usado para prever o mercado de accións. Este descubrimento levou á creación dun hedge fund-Derwent Capital Markets a investir no mercado de accións con base en datos recollidos a partir de Twitter (Jordan 2010) . Que probas quere ver antes de poñer o seu diñeiro nese fondo?

  3. [ fácil ] Aínda que algúns defensores da saúde pública granizo e-tabaco como unha axuda eficaz para deixar de fumar, outros alertan sobre os riscos potenciais, tales como os altos niveis de nicotina. Imaxina que un investigador decide estudar a opinión pública para os correos tabaco a través da recollida de artigos en Twitter relacionadas co e-tabaco e realización de análise de sentimento.

    1. Cales son as tres posibles vieses que está máis preocupado neste estudo?
    2. Clark et al. (2016) foi só como un estudo. En primeiro lugar, eles recadaron 850.000 tweets que usadas palabras clave de e-cigarro relacionados de xaneiro de 2012 a decembro de 2014. Tras unha inspección máis próxima, eles viron que moitas das eses tweets foron automatizados (é dicir, non producido por seres humanos) e moitos de estes tweets automatizados foron esencialmente comerciais. Desenvolveron un algoritmo de detección humana para separar os tweets automatizados desde tweets orgánicos. Usando Detectar Algorithm Este humana, descubriron que o 80% de tweets foron automatizados. Será que esta conclusión cambiar a súa resposta ao ítem (a)?
    3. Cando compararon a sensación en os tweets orgánicos e automatizados, descubriron que os tweets automatizados son máis positivos que os tweets orgánicos (6,17 fronte 5,84). Será que esta conclusión cambie a resposta (b)?
  4. [ fácil ] En novembro de 2009, Twitter cambiou a pregunta no cadro de tweet desde "O que está facendo?" Para "O que está pasando?" (Https://blog.twitter.com/2009/whats-happening).

    1. Como pensas que o cambio de prompts afectará que tweeta e / ou o que Tweet?
    2. Cite un proxecto de investigación para o que prefire o prompt "O que está facendo?" Explique por que.
    3. Cite un proxecto de investigación para o que prefire o prompt "O que está pasando?" Explique por que.
  5. [ medio ] Kwak et al. (2010) analizou 41,7 millóns de perfís de usuario, 1,47 millóns de relacións sociais, 4262 trending topics, e 106 millóns de tweets entre 06 de xuño e 31 de xuño de 2009. Con base nesta análise, eles concluíron que Twitter serve máis como un novo medio de intercambio de información que un rede social.

    1. Considerando-se o descubrimento Kwak et al, que tipo de investigación que faría cos datos de Twitter? Que tipo de investigación non vai facer cos datos de Twitter? Por que?
    2. En 2010, o Twitter engadiu a Who To Follow servizo facendo suxestións a medida para os usuarios. Tres recomendacións móstranse cada vez máis na páxina de inicio. Recomendacións son moitas veces retiradas dunha de "amigos-de-amigos", e contactos mutuos tamén aparecen na recomendación. Os usuarios poden actualizar a ver un novo conxunto de recomendacións ou visitar unha páxina cunha longa lista de recomendacións. Pensas que este novo recurso ía cambiar a súa resposta a parte a)? Por que ou por que non?
    3. Su, Sharma, and Goel (2016) avaliaron o efecto de quen seguir servizo e descubriron que, mentres que os usuarios de todo o espectro popularidade beneficiou das recomendacións, os usuarios máis populares lucraram substancialmente máis que a media. Será que esta conclusión cambiar a súa resposta ao ítem b)? Por que ou por que non?
  6. [ fácil ] "Retweets" son moitas veces utilizados para medir a influencia e propagación de influencia en Twitter. Inicialmente, os usuarios tiñan que copiar e pegar o tweet lles gustou, marque o autor orixinal co seu / súa correa e escriba a man "RT" antes do tweet para indicar que é un retweet. Entón, en 2009 Twitter engadiu un botón "retuitar". En xuño de 2016, Twitter fixo posible para os usuarios a retuitar seus propios tweets (https://twitter.com/twitter/status/742749353689780224). Pensas que estas modificacións deben afectar a forma como usa "retweets" na súa procura? Por que ou por que non?

  7. [ medio , recollida de datos , require codificación ] Michel et al. (2011) elaborou un corpo emerxente de esforzo de Google para dixitalizar libros. Usando a primeira versión do corpus, que se publicou en 2009 e contiña máis de 5 millóns de libros dixitalizados, os autores analizaron a frecuencia do uso da palabra para investigar cambios lingüísticas e tendencias culturais. Logo o Books Corpus Google converteuse nunha fonte de datos popular para os investigadores, e unha segunda versión da base de datos foi lanzado en 2012.

    Con todo, Pechenick, Danforth, and Dodds (2015) advertiu de que os investigadores teñen caracterizar completamente o proceso de mostraxe do corpus antes de usalo para deseñar conclusións xerais. A cuestión principal é que o corpus é unha biblioteca semellante, que contén un de cada libro. Como resultado, un individuo, prolífico autor é capaz de inserir visiblemente novas frases no léxico de Google Libros. Ademais, textos científicos constitúen unha parte cada vez máis substanciais do corpus ao longo dos anos 1900. Ademais, comparando dúas versións dos conxuntos de datos científica inglés, Pechenick et al. evidencia atopada que o filtrado insuficiente foi usada na produción da primeira versión. Todos os datos necesarios para a actividade está dispoñible aquí: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. No artigo orixinal de Michel et al. (2011) , utilizaban a 1ª versión do conxunto de datos inglés, Plot a frecuencia de uso dos anos "1880", "1912" e "1973", e concluíu que "estamos esquecer o noso pasado máis rápido con cada ano que pasa "(Fig. 3A, Michel et al.). Replicar a mesma trama usando 1) primeira versión do corpus, Inglés conxunto de datos (o mesmo que Fig. 3A, Michel et al.)
    2. Agora replicar o mesmo argumento coa primeira versión, Inglés ficción conxunto de datos.
    3. Agora replicar o mesmo argumento coa segunda versión do corpus, Inglés conxunto de datos.
    4. Finalmente, replicar o mesmo argumento coa segunda versión Inglés ficción conxunto de datos.
    5. Describir as diferenzas e semellanzas entre estes catro parcelas. Vostede concorda coa de Michel et al. Interpretación orixinal da tendencia observada? (Consello: c) e d) debe ser o mesmo que a Figura 16 en Pechenick et ai).
    6. Agora que xa replicado este achado usando diferentes Google Libros corpus, escolla outro cambio lingüística ou fenómenos culturais presentados en papel orixinal de Michel et al .. Vostede concorda coa súa interpretación á luz das limitacións presentadas na Pechenick et al.? Para facer o seu argumento máis forte, proba replicar o mesmo gráfico empregando distintas versións do conxunto de datos como antes.
  8. [ moi duro , recollida de datos , require codificación , Meu favorito ] Penney (2016) explora a ampla publicidade sobre NSA vixilancia / Prism (é dicir, as revelacións Snowden) en xuño de 2013 está asociada a unha diminución acentuada e repentina no tráfico para os artigos da Wikipedia sobre temas que suscitan problemas coa privacidade. Se é así, este cambio de comportamento sería consistente con un efecto de arrefriamento no ámbito da vixilancia masiva. O enfoque da Penney (2016) é chamado ás veces un proxecto de serie temporal interrompida e está relacionado coas formulacións no capítulo sobre a aproximación experimentos a partir de datos observacionais (Sección 2.4.3).

    Para seleccionar as palabras clave tema, Penney se refire á lista usada polo Departamento de Seguridade Interna dos Estados Unidos para seguimento e seguimento de medios de comunicación social. A lista DHS categoriza certos termos de busca nunha serie de cuestións, ou sexa, "problema de saúde", "Seguridade Infraestrutura" e "terrorismo". Para o grupo de estudo, Penney utilizadas as corenta e oito palabras clave relacionadas con "terrorismo" (ver Táboa 8 apéndice). El entón agregadas Wikipedia artigo contas de visualizacións nunha base mensual para os correspondentes corenta e oito artigos da Wikipedia nun período de 32 meses, a partir do inicio de xaneiro de 2012 para o final de agosto de 2014. Para reforzar o seu argumento, el tamén creou varias comparación grupos de seguimento de visualizacións sobre outros temas.

    Agora, está indo para replicar e ampliar Penney (2016) . Todos os datos en bruto que vai ter para esta actividade está dispoñible a partir Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Ou pode obterse a partir do wikipediatrend paquete R (Meissner and Team 2016) . Cando escribe emerxentes súas respostas, observe que fonte de datos que usou. (Nota: Esta mesma actividade tamén aparece no capítulo 6)

    1. Ler Penney (2016) e replicar Figura 2, que mostra as visualizacións de páxina para o "terrorismo" páxinas relacionados coa antes e despois da revelación Snowden. Interpretar os resultados.
    2. Logo replicar Fig 4A, que compara o grupo de estudo (o "terrorismo" artigos relacionados con) cun grupo de comparación utilizando palabras clave clasificadas en "DHS e outras axencias" na lista DHS (ver Apéndice Táboa 10). Interpretar os resultados.
    3. En parte b) comparou o grupo de estudo para un grupo comparador. Penney tamén en comparación con outros dous grupos de comparación: "Infraestrutura de seguridade" artigos relacionados con (Apéndice Táboa 11) e páxinas da Wikipedia populares (Apéndice Táboa 12). Cómese con un grupo de comparación alternativo e probar os resultados de parte b) distingue a elección do grupo de comparación. Que escolla do grupo de comparación fai máis sentido? Por que?
    4. O autor sinalou que as palabras clave relacionadas coa "terrorismo" foron usadas para seleccionar os artigos da Wikipedia, xa que o goberno de Estados Unidos citou o terrorismo como xustificación clave para as súas prácticas de vixilancia en liña. Como unha comprobación destes 48 "terrorismo" palabras clave relacionados coa, Penney (2016) tamén realizou unha investigación sobre MTurk pedir aos entrevistados para avaliar cada unha das palabras clave en termos de problema Goberno, Privacy-sensitive e Prevención (Cadro Anexo 7 e 8). Replicar a investigación sobre MTurk e comparar os seus resultados.
    5. Con base nos resultados, en parte, d) e súa lectura do artigo, de acordo coa elección do autor de palabras clave tema no grupo de estudo? Por que ou por que non? Se non, o que suxeriría no seu canto?
  9. [ fácil ] Efrati (2016) informes, en base a información confidencial, que "compartir total", en Facebook había declinado por ano preto de 5,5% sobre o ano mentres que o "compartir de transmisión orixinal" caeu 21% ano sobre ano. Este descenso foi particularmente agudo cos usuarios de Facebook con menos de 30 anos de idade. O informe atribuíu a caída a dous factores. Un deles é o crecemento do número de "amigos" que as persoas teñen en Facebook. A outra é que algunha actividade compartir trasladouse mensaxes e para competidores como Snapchat. O informe tamén revela as varias tácticas Facebook intentara aumentar o reparto, incluíndo axustes de algoritmo do Fonte de noticias que fan as mensaxes orixinais máis destacado, así como recordatorios periódicos dos usuarios mensaxes orixinais "Neste día" hai varios anos. Que implicacións, en todo, que estas descubertas teñen para os investigadores que queiran utilizar o Facebook como fonte de datos?

  10. [ medio ] Tumasjan et al. (2010) informaron de que proporción de tweets que citan un partido político combinaba coa proporción de votos que o partido recibiu na elección parlamentaria alemán en 2009 (Figura 2.9). Noutras palabras, parecía que podería usar Twitter para prever a elección. No momento que este estudo foi publicado foi considerado moi excitante, porque parecía suxerir un uso valioso para unha fonte común de datos grandes.

    Dadas as características malas de big data, con todo, ten que ser inmediatamente escéptico en relación a este resultado. Alemáns en Twitter en 2009 foron un grupo bastante non representativa e simpatizantes dun partido pode tweet sobre política con máis frecuencia. Así, parece sorprendente que todas as posibles vieses que poida imaxinar, de algunha maneira anular. De feito, os resultados en Tumasjan et al. (2010) resultou ser bo de máis para ser verdade. No seu artigo, Tumasjan et al. (2010) considerou seis partidos políticos: democristiáns (CDU), socialdemócratas cristiáns (CSU), SPD, liberais (FDP), A Esquerda (Die Linke), e do Partido Verde (Grüne). Con todo, o partido político alemán máis citada en Twitter naquel momento era o Partido Pirata (Piraten), un partido que loita contra os regulación gobernamental de internet. Cando o Partido Pirata foi incluído na análise, Twitter menciona tórnase un preditor terrible dos resultados das eleccións (Figura 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Figura 2.9: Twitter menciona parecen prever os resultados da elección alemá de 2009 (Tumasjan et al 2010)., Pero este resultado acaba por depender algunhas opcións arbitrarias e inxustificadas (Jungherr, Jurgens e Schoen 2012).

    Figura 2.9: Twitter menciona parecen prever os resultados da elección alemá 2,009 (Tumasjan et al. 2010) , Pero este resultado acaba por depender algunhas opcións arbitrarias e inxustificadas (Jungherr, Jürgens, and Schoen 2012) .

    Posteriormente, outros investigadores de todo o mundo teñen usado métodos, tales extravagantes como o uso de análise de sentimento de distinguir entre positivo e negativo menciona das partes a fin de mellorar a capacidade de datos de Twitter para prever unha variedade de diferentes tipos de eleccións (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Vexa como Huberty (2015) resumiu os resultados desas tentativas de prever eleccións:

    "Todos os métodos de predición coñecidos baseados en medios sociais fallaron cando sometidos ás esixencias da verdadeira previsión electoral volta para o futuro. Estes fallos parecen ser debido ás propiedades fundamentais dos medios de comunicación social, e non a dificultades metodolóxicas ou algorítmicos. En suma, os medios sociais non, e probablemente nunca será, ofrecen unha imaxe estable, imparcial, representante do electorado; e mostras de barrio de medios sociais carecen de datos suficientes para resolver estes problemas post hoc ".

    Ler algunhas das investigacións que levan Huberty (2015) a esa conclusión, e escribir un memorando de unha páxina para un candidato político que describe e como Twitter debe ser usado para prever eleccións.

  11. [ medio ] Cal é a diferenza entre un sociólogo e historiador? Segundo Goldthorpe (1991) , a principal diferenza entre un sociólogo e historiador é o control sobre a obtención de datos. Os historiadores son forzados a usar reliquias mentres sociólogos pode adaptar a súa recollida de datos para fins específicos. Ler Goldthorpe (1991) . Como é a diferenza entre a socioloxía e historia relacionada coa idea de Custommades e Readymades?

  12. [ difícil ] Baseado na pregunta anterior, Goldthorpe (1991) atraeu un número de respostas críticas, incluíndo un de Nicky Hart (1994) que desafiou a devoción de Goldthorpe para adecuar os datos feitos. Para aclarar as posibles limitacións dos datos a medida, Hart describiu o Proxecto Traballador Affluent, unha gran investigación para medir a relación entre clase social e de votación que foi conducido por Goldthorpe e compañeiros a mediados da década de 1960. Como se podería esperar dun estudioso que favoreceu deseñado datos sobre datos atopados, o Proxecto Traballador Affluent recollidos datos que foron adaptadas para tratar dunha proposta recentemente teoría sobre o futuro da clase social nunha era de crecente nivel de vida. Pero Goldthorpe e compañeiros de algunha maneira "esqueceu" para recoller información sobre o comportamento de voto das mulleres. Vexa como Nicky Hart (1994) resume todo o episodio:

    ". . . ela [é] difícil evitar a conclusión de que as mulleres foron omitidos por esta 'a medida' conxunto de datos foi confinado por unha lóxica paradigmática que excluía experiencia feminina. Impulsado por unha visión teórica da conciencia de clase e acción, como preocupacións do sexo masculino. . . , Goldthorpe e os seus colegas construíron unha serie de probas empíricas que alimentada seus propios presupostos teóricos máis que expo-los a unha proba válida de adecuación ".

    Hart continuou:

    "Os resultados empíricos do Proxecto Traballador Affluent nos dicir máis sobre os valores machistas da socioloxía de mediados do século que informar os procesos de estratificación, política e vida material."

    Podes pensar en outros exemplos en que a recollida de datos a medida ten os prexuízos do colector de datos construído para el? Como iso se compara a confusión algorítmica? Que implicacións que pode ter para cando os investigadores deben usar Readymades e cando eles deben usar Custommades?

  13. [ medio ] Neste capítulo, eu contrastou datos recollidos por investigadores para investigadores con rexistros administrativos creados por empresas e gobernos. Algunhas persoas chaman eses rexistros administrativos "atopou datos", que contrastan cos "datos deseñados." É certo que os rexistros administrativos se atopan por investigadores, pero eles tamén son altamente deseñados. Por exemplo, modernas empresas de tecnoloxía gastan enormes cantidades de tempo e recursos para recoller e curador dos seus datos. Así, estes rexistros administrativos atópanse ambas e deseñado, só depende da súa perspectiva (Figura 2.10).

    Figura 2.10: A imaxe é tanto un pato e un coello; o que ve depende da súa perspectiva. Gobernamentais e empresariais rexistros administrativos atópanse ambas e deseñado; o que ve depende da súa perspectiva. Por exemplo, os rexistros de datos de chamadas recollidos por unha empresa de telefonía móbil son encontrados datos dende a perspectiva dun investigador. Pero eses mesmos rexistros exactos son deseñados perspectiva de alguén que traballa no departamento de recadación da empresa de telefonía de datos. Fonte: Wikimedia Commons

    Figura 2.10: A imaxe é tanto un pato e un coello; o que ve depende da súa perspectiva. Gobernamentais e empresariais rexistros administrativos atópanse ambas e deseñado; o que ve depende da súa perspectiva. Por exemplo, os rexistros de datos de chamadas recollidos por unha empresa de telefonía móbil son encontrados datos dende a perspectiva dun investigador. Pero eses mesmos rexistros exactos son deseñados perspectiva de alguén que traballa no departamento de recadación da empresa de telefonía de datos. Fonte: Wikimedia Commons

    Proporcionar un exemplo de fonte de datos, onde velo tanto como atopar e deseñado é útil cando se utiliza esta fonte de datos para a investigación.

  14. [ fácil ] Nun ensaio pensativo, Christian Sandvig e Eszter Hargittai (2015) describen dous tipos de investigación dixital, no que o sistema dixital é "instrumento" ou "obxecto de estudo". Un exemplo do primeiro tipo de estudo é onde Bengtsson e compañeiros (2011) utilizaron datos de teléfonos móbiles para rastrexar migración tras o terremoto en Haití en 2010. Un exemplo do segundo tipo é onde Jensen (2007) estuda como a introdución de teléfonos móbiles en todo Kerala, India impactaram o funcionamento do mercado de peixe. Coido que útil porque aclara que os estudos que utilizan fontes de datos dixitais poden ter obxectivos moi diferentes, aínda que eles están usando o mesmo tipo de fonte de datos. Co fin de aclarar mellor esta distinción, describen catro estudos que xa viu: dous que usan un sistema dixital como un instrumento e dous que usan un sistema dixital como un obxecto de estudo. Podes usar exemplos deste capítulo, se queres.