Bit By Bit - 观察行为

这种翻译是由一个计算机创建。 ×

活动

难度：容易，中等，很难，很难
需要数学（ $需要数学$ ）
需要编码（）
数据采集（）
我最喜欢的（）

[ ，算法混淆是谷歌流感趋势的一个问题。阅读Lazer et al. (2014)的论文Lazer et al. (2014) ，并向Google工程师发送一封简短明了的电子邮件，解释问题并提供解决问题的方法。
[ ] Bollen, Mao, and Zeng (2011)声称来自Twitter的数据可用于预测股市。这一发现促成了对冲基金 - 德温特资本市场 - 根据从Twitter收集的数据投资股票市场(Jordan 2010) 。在将资金投入该基金之前，您希望看到什么证据？
[ 虽然一些公共卫生倡导者认为电子烟是戒烟的有效辅助手段，但其他人则警告潜在的风险，例如高水平的尼古丁。想象一下，研究人员决定通过收集与电子烟相关的Twitter帖子和进行情绪分析来研究公众对电子烟的看法。
1. 您在本研究中最担心的三种偏见是什么？
2. Clark et al. (2016)只是进行了这样的研究。首先，他们收集了从2012年1月到2014年12月使用电子烟相关关键字的850,000条推文。经过仔细检查，他们意识到这些推文中的许多是自动化的（即，不是由人类制作的），而且这些推文中的许多都是基本的商业广告。他们开发了一种人工检测算法，将自动推文与有机推文分开。使用这种人工检测算法，他们发现80％的推文都是自动化的。这一发现是否会改变您对（a）部分的回答？
3. 当他们比较有机和自动推文中的情绪时，他们发现自动推文比有机推文更积极（6.17对5.84）。这个发现是否会改变你对（b）的回答？
[ ] 2009年11月，Twitter在推文框中将问题从“你在做什么？”改为“发生了什么？”（https://blog.twitter.com/2009/whats-happening）。
1. 您认为提示的更改会如何影响推文和/或推文的内容？
2. 为一个研究项目命名，你更喜欢提示“你在做什么？”解释原因。
3. 为一个研究项目命名，你更喜欢提示“发生了什么？”解释原因。
[ ]“转推”通常用于衡量影响力对Twitter的影响和传播。最初，用户必须复制并粘贴他们喜欢的推文，用他/她的句柄标记原始作者，并在推文前手动键入“RT”以表明它是转发。然后，在2009年，Twitter添加了一个“转推”按钮。 2016年6月，Twitter使用户可以转发他们自己的推文（https://twitter.com/twitter/status/742749353689780224）。您是否认为这些变化会影响您在研究中使用“转推”的方式？为什么或者为什么不？
[ ，，， ]在一篇广泛讨论的论文中，Michel及其同事(2011)分析了超过五百万本数字化书籍的内容，试图找出长期的文化趋势。他们使用的数据现已作为Google NGrams数据集发布，因此我们可以使用这些数据来复制和扩展他们的一些工作。

在本文的众多结果中，Michel及其同事认为我们忘记了越来越快。对于特定年份，比如“1883”，他们计算出1875年至1975年间每年发布的1克的比例为“1883”。他们推断，这一比例是对当年发生的事件的兴趣的衡量标准。在他们的图3a中，他们绘制了三年的使用轨迹：1883年，1910年和1950年。这三年有一个共同的模式：在那一年之前很少使用，然后是尖峰，然后衰减。接下来，为了量化每年的腐烂率，Michel及其同事计算了1875年至1975年间所有年份的“半衰期”。在图3a（插图）中，他们显示了每个年的半衰期。一年正在减少，他们认为这意味着我们越来越快地忘记过去。他们使用英语语料库的第1版，但随后谷歌发布了第二版语料库。在开始编码之前，请阅读问题的所有部分。

此活动将帮助您练习编写可重用代码，解释结果和数据争用（例如处理笨拙的文件和处理丢失的数据）。此活动还将帮助您启动并运行丰富且有趣的数据集。
1. 从Google Books NGram Viewer网站获取原始数据。特别是，您应该使用2012年7月1日发布的英语语料库的第2版。未压缩，此文件为1.4GB。
2. 重新创建Michel et al. (2011)的图3a的主要部分Michel et al. (2011) 。要重新创建此图，您需要两个文件：您在（a）部分下载的文件和“总计数”文件，您可以使用该文件将原始计数转换为比例。请注意，总计数文件的结构可能会使其难以读入.Niram数据的版本2是否产生与Michel et al. (2011)提供的结果类似的结果Michel et al. (2011) ，它基于版本1数据？
3. 现在，根据NGram Viewer创建的图表检查图表。
4. 重新创建图3a（主图），但将$y$ axis更改为原始提及计数（不是提及率）。
5. （b）和（d）之间的区别是否会导致您重新评估Michel等人的任何结果。（2011年）。为什么或者为什么不？
6. 现在，使用提及的比例，复制图3a的插图。也就是说，对于1875年到1975年之间的每一年，计算那一年的半衰期。半衰期定义为在提及的比例达到其峰值的一半之前经过的年数。请注意， Michel et al. (2011)做一些更复杂的事情来估计半衰期 - 见支持在线信息的第III.6节 - 但他们声称这两种方法都产生了类似的结果。 NGram数据的第2版是否产生与Michel et al. (2011)提出的相似的结果Michel et al. (2011) ，它基于版本1数据？（提示：如果没有，请不要感到惊讶。）
7. 是否有任何年份，例如多年被忽略的特别快或特别慢？简要推测该模式的可能原因并解释您如何识别异常值。
8. 现在将这个结果复制到NGrams数据的第2版中，包括中文，法文，德文，希伯来文，意大利文，俄文和西班牙文。
9. 比较所有语言，是否有任何年份都是异常值，例如特别快速或特别慢的遗忘的年份？简要推测这种模式的可能原因。
[ ，，， Penney (2016)探讨了2013年6月关于NSA / PRISM监视（即斯诺登揭露）的广泛宣传是否与维基百科有关引发隐私问题的文章的流量急剧下降有关。如果是这样，这种行为改变将与大规模监视造成的寒蝉效应一致。 Penney (2016)方法有时被称为中断时间序列设计，它与2.4.3节中描述的方法有关。

为了选择主题关键词，Penney提到了美国国土安全部用于跟踪和监控社交媒体的列表。国土安全部列表将某些搜索术语分类为一系列问题，即“健康关注”，“基础设施安全”和“恐怖主义”。对于研究组，彭尼使用了与“恐怖主义”相关的48个关键词（见附录表8））。然后，他在2012年1月初至2014年8月底的32个月内，每月汇总维基百科的文章观点数量。相应的48篇维基百科文章。为了加强他的论点，他还通过跟踪创建了几个比较组文章对其他主题的看法。

现在，您将复制并扩展Penney (2016) 。您可以从维基百科获得此活动所需的所有原始数据。或者你可以从R-package wikipediatrend (Meissner and R Core Team 2016)获得它。在您撰写回复时，请注意您使用的数据源。（请注意，同样的活动也出现在第6章中。）此活动将让您练习数据争论并思考大数据源中的自然实验。它还可以帮助您启动并运行可能有趣的未来项目数据源。
1. 阅读Penney (2016)并复制他的图2，其中显示了在Snowden启示之前和之后“恐怖主义”相关页面的页面浏览量。解释调查结果。
2. 接下来，复制图4A，其将研究组（“恐怖主义”相关文章）与比较组进行比较，使用来自DHS列表的“DHS和其他机构”下分类的关键词（参见附录表10和脚注139）。解释调查结果。
3. 在（b）部分，您将研究组与一个对照组进行了比较。 Penney还与另外两个比较组进行了比较：“基础设施安全”相关文章（附录表11）和流行的维基百科页面（附录表12）。提出另一个比较组，并测试（b）部分的结果是否对您选择的比较组敏感。哪种选择最有意义？为什么？
4. Penney表示，与“恐怖主义”有关的关键词被用来选择维基百科文章，因为美国政府将恐怖主义列为其在线监控实践的关键理由。作为这48个与“恐怖主义”相关的关键词的检查， Penney (2016)还对MTurk进行了一项调查，要求受访者根据政府麻烦，隐私敏感和规避对每个关键词进行评分（附录表7和8））。在MTurk上复制调查并比较您的结果。
5. 根据（d）部分的结果和您对该文章的阅读，您是否同意Penney在研究组中选择的主题关键词？为什么或者为什么不？如果没有，你会建议什么呢？
[ 据Efrati (2016)报道，根据机密信息，Facebook上的“全部共享”同比下降了约5.5％，而“原始广播共享”同比下降了21％。对于30岁以下的Facebook用户来说，这种下降尤为严重。报告将这种下降归因于两个因素。一个是人们在Facebook上拥有的“朋友”数量的增长。另一个是，一些共享活动已转移到消息传递和Snapchat等竞争对手。该报告还揭示了Facebook曾试图推动共享的几种策略，包括使原始帖子更加突出的新闻Feed算法调整，以及使用“今日”功能定期提醒原始帖子。这些研究结果对于想要使用Facebook作为数据源的研究人员有什么影响？
[ ]社会学家和历史学家之间有什么区别？根据Goldthorpe (1991)说法，主要区别在于对数据收集的控制。历史学家被迫使用文物，而社会学家可以根据具体目的定制他们的数据收集。阅读Goldthorpe (1991) 。社会学和历史之间的差异与自定义和现成的想法有什么关系？
[ ]这是建立在前一个问题的基础上的。 Goldthorpe (1991)提出了许多批评性的回应，其中包括Nicky Hart (1994)一个回应，它挑战了Goldthorpe对定制数据的投入。为了澄清定制数据的潜在局限性，哈特描述了富裕工人项目，这是一项大型调查，用于衡量Goldthorpe及其同事在20世纪60年代中期进行的社会阶层与投票之间的关系。正如人们可能期望一位赞成设计数据优于已发现数据的学者，富裕工人项目收集的数据是为了解决最近提出的关于生活水平提高时代社会阶层未来的理论。但是，Goldthorpe及其同事以某种方式“忘记”收集有关女性投票行为的信息。以下是Nicky Hart (1994)对整集的总结：

“......很难避免女性被忽略的结论，因为这个'量身定制的'数据集被一种排除女性经验的范式逻辑所限制。在阶级意识和行动作为男性关注的理论视野的推动下，Goldthorpe和他的同事们构建了一套经验证据，这些证据充实并培养了他们自己的理论假设，而不是让他们接受有效的充分性测试。“

哈特继续说：

“富裕工人项目的实证研究结果告诉我们更多关于中世纪社会学的男性主义价值观，而不是告诉他们分层，政治和物质生活的过程。”

您能想到定制数据收集内置数据收集器的偏差的其他示例吗？这与算法混淆相比如何？当研究人员应该使用现成品以及何时应该使用自定义时，这会产生什么影响呢？
[ ]在本章中，我将研究人员收集的数据与公司和政府创建的行政记录进行对比。有些人将这些行政记录称为“发现数据”，与“设计数据”形成鲜明对比。管理人员确实发现行政记录，但它们也是高度设计的。例如，现代科技公司非常努力地收集和管理他们的数据。因此，这些管理记录都是发现和设计的，它只取决于你的观点（图2.12）。

图2.12：图片既是鸭子又是兔子;你所看到的取决于你的观点。找到并设计了大数据源;再一次，你所看到的取决于你的观点。例如，移动电话公司收集的呼叫数据记录是从研究人员的角度找到的数据。但是，这些完全相同的记录是从在电话公司的计费部门工作的人的角度设计的数据。资料来源：Popular Science Monthly（1899）/ Wikimedia Commons 。

提供一个数据源示例，在使用该数据源进行研究时，查找和设计的数据源都很有用。
[ 在一篇深思熟虑的文章中，Christian Sandvig和Eszter Hargittai (2015)将数字研究分为两大类，取决于数字系统是“工具”还是“研究对象”。第一种类型的例子 - 系统在哪里一项工具 - 是Bengtsson及其同事(2011)在2010年海地地震后使用移动电话数据跟踪移民的研究。第二种类型 - 系统是研究对象的一个例子 - 是Jensen的研究(2007)关于如何在整个印度喀拉拉邦引入移动电话影响了鱼类市场的运作。我发现这种区别很有帮助，因为它澄清了使用数字数据源的研究即使使用相同类型的数据源也可能有完全不同的目标。为了进一步阐明这种区别，请描述您所见过的四项研究：两项使用数字系统作为仪器，两项使用数字系统作为研究对象。如果需要，您可以使用本章中的示例。