дзейнасць

  • Ступень складанасці: лёгкі лёгка , сярэдні серада , жорсткі жорсткі , Вельмі цяжка вельмі цяжка
  • патрабуе матэматыкі ( патрабуе матэматыкі )
  • патрабуе кадавання ( патрабуе кадавання )
  • збор дадзеных ( збор дадзеных )
  • мае любімыя ( мой любімы )
  1. [ серада , мой любімы ] Алгарытмічныя збянтэжыць была праблема з Google Flu Trends. Прачытайце дакумент па Lazer et al. (2014) і Lazer et al. (2014) , і напісаць кароткі, выразны адрас вэба-сайт інжынера ў Google , якая тлумачыць праблему і прапануе ідэю пра тое , як гэта выправіць.

  2. [ серада ] Bollen, Mao, and Zeng (2011) сцвярджаюць , што дадзеныя Twitter можа быць выкарыстаны для прагназавання фондавага рынку. Гэта адкрыццё прывяло да стварэння хедж - фонд-Derwent Capital Markets-інвеставаць на фондавым рынку на аснове дадзеных , сабраных з Twitter (Jordan 2010) . Якія доказы вы хацелі б убачыць, перш чым пакласці свае грошы ў гэты фонд?

  3. [ лёгка ] У той час як некаторыя прыхільнікі грамадскага аховы здароўя лічаць электронныя цыгарэты эфектыўнай дапамогі для спынення курэння, іншыя папярэджваюць аб патэнцыйных рызыках, такіх як высокія ўзроўні нікаціну. Уявіце сабе, што даследчык вырашае вывучыць грамадскую думку ў адносінах да электроннай цыгарэце, збіраючы электронныя цыгарэты звязаных паведамленняў у Twitter і правядзенне аналізу настрояў.

    1. Якія тры магчымыя адхіленні, якія вы больш за ўсё турбуе ў гэтым даследаванні?
    2. Clark et al. (2016) і Clark et al. (2016) правёў толькі такое даследаванне. Па-першае, яны сабралі 850000 твіты, якія выкарыстоўвалі электроннай цыгарэты Ключавыя словы, звязаныя са студзеня 2012 па снежань 2014 г. Пры больш уважлівым разглядзе, яны зразумелі, што многія з гэтых твітаў былі аўтаматызаваны (г.зн. не вырабляюцца людзьмі), і многія з гэтых аўтаматызаваных твітаў былі істотна рэкламныя ролікі. Яны распрацавалі алгарытм выяўлення чалавека, каб аддзяліць аўтаматызаваныя твіты ад арганічных твітаў. Выкарыстоўваючы гэты чалавек выявіць алгарытм яны выявілі, што 80% твітаў былі аўтаматызаваны. Ці зменіць гэта адкрыццё адказ на часткі (а)?
    3. Калі яны параўналі настроі ў арганічных і аўтаматызаваных твіты, яны выявілі, што аўтаматызаваныя твіты былі больш пазітыўнымі, чым арганічныя твіты (6,17 супраць 5,84). Ці зменіць гэтая выснова ваш адказ на (б)?
  4. [ лёгка ] У лістападзе 2009 года, Twitter змяніў пытанне ў полі цвіркалі з «Што вы робіце?», Каб «Што адбываецца?» (Https://blog.twitter.com/2009/whats-happening).

    1. Як вы думаеце, што змяненне падказак будзе ўплываць, хто твіт і / або тое, што яны цвыркаюць?
    2. Назавіце адзін даследчы праект, для якога вы аддалі перавагу б падказку «Што вы робіце?» Растлумачце, чаму.
    3. Назавіце адзін даследчы праект, для якога вы аддалі перавагу б падказку «Што адбываецца?» Растлумачце, чаму.
  5. [ лёгка ] «Ретвиты» часта выкарыстоўваецца для вымярэння ўплыву і распаўсюджвання ўплыву на Twitter. Першапачаткова карыстальнікам даводзілася капіяваць і ўстаўляць твіт упадабаную, пазначаць арыгінальнага аўтара з яго / яе ручкай, і ўручную ўвесці «RT» да чырыканне, каб паказаць, што гэта ретвит. Тады, у 2009 годзе Twitter дадалі кнопку «Retweet». У чэрвені 2016 года, Twitter зрабіў магчымым для карыстальнікаў ретвит свае твіты (https://twitter.com/twitter/status/742749353689780224). Як вы думаеце, гэтыя змены павінны ўплываць, як вы выкарыстоўваеце «ретвиты» у сваіх даследаваннях? Чаму або чаму няма?

  6. [ вельмі цяжка , збор дадзеных , патрабуе кадавання , мой любімы ] У шырока абмяркоўваецца артыкуле, Мішэль і яго калегі (2011) прааналізавалі змест больш за пяць мільёнаў алічбаваных кніг у спробе вызначыць доўгатэрміновыя культурныя тэндэнцыі. Дадзеныя, якія яны выкарыстоўвалі ў цяперашні час выпушчана ў якасці набору дадзеных Google NGrams, і таму мы можам выкарыстоўваць дадзеныя для рэплікацыі і пашырыць некаторыя з іх работ.

    У адным са шматлікіх вынікаў у працы, Мішэль і яго калегі сцвярджалі, што мы забываемся ўсё хутчэй і хутчэй. Для канкрэтнага года, скажам, «1883 г. тэрміну» яны вылічылі долю 1-грам, апублікаваных у кожны год паміж 1875 і 1975, якія былі «1883». Яны меркавалі, што гэты паказчык з'яўляецца мерай цікавасці да падзей, якія адбыліся ў гэтым годзе. У сваёй постаці 3a, яны пабудаваны траекторыі выкарыстання на працягу трох гадоў: 1883, 1910 і 1950. Гэтыя тры гады агульны ўзор: мала карысці да гэтага года, затым колас, затым распад. Далей, для колькаснага вызначэння хуткасці распаду на кожны год, Мішэль і яго калегі вылічылі "перыяд паўраспаду» кожны год на працягу ўсіх гадоў паміж 1875 і 1975. У іх постаці 3a (устаўка), яны паказалі, што перыяд паўраспаду кожнага год змяншаецца, і яны сцвярджалі, што гэта азначае, што мы забываемся мінулае ўсё хутчэй і хутчэй. Яны выкарыстоўвалі версію 1 моўнага корпуса англійскай, але пасля Google выпусціў другую версію корпуса. Калі ласка, прачытайце ўсе часткі гэтага пытання, перш чым пачаць кадаваньне.

    Гэтая дзейнасць дасць вам практыкавацца ў напісанні паўторна выкарыстоўваецца кода, інтэрпрэтацыі вынікаў і нязгодаў дадзеных (напрыклад, праца з файламі нязручных і апрацоўка адсутнічаюць дадзеных). Гэтая дзейнасць таксама дапаможа вам атрымаць і працуе з багатым і цікавым наборам дадзеных.

    1. Атрымаць зыходныя дадзеныя з вэб-сайта Google Books Ngram Viewer. У прыватнасці, вы павінны выкарыстоўваць версію 2 мовы корпуса англійскай мовы, які быў выпушчаны на 1 ліпеня 2012 года несціснутых гэты файл 1.4GB.

    2. Аднаўленне асноўнай часткі фігуры 3а Michel et al. (2011) і Michel et al. (2011) . Для таго, каб узнавіць гэтую фігуру, вам спатрэбяцца два файла: адзін загружаны ў частцы (а) і файл «агульнага рахунку», які вы можаце выкарыстоўваць для пераўтварэння зыходных адлікаў ў прапорцыях. Звярніце ўвагу , што агульны падлік файлы маюць структуру , якая можа зрабіць яго крыху цяжка чытаць ст. Версія 2 дадзеных Ngram Выпускае Ці аналагічныя вынікі прадстаўленых у Michel et al. (2011) і Michel et al. (2011) , якія заснаваныя на версіі 1 дадзеных?

    3. Цяпер праверце ваш графік на графіку, створаную Ngram Viewer.

    4. Аднаўленне фігуры 3a (асноўны малюнак), але змяніць \(y\) восі х , каб быць сырое колькасцю згадак (не хуткасць згадак).

    5. Ці вы перагледзець любога з вынікаў Мішэля інш адрозненні паміж (б) і (г) свінцом. (2011). Чаму або чаму няма?

    6. Цяпер, выкарыстоўваючы суадносіны згадак, паўтарыць ўстаўку на малюнку 3а. Гэта значыць, за кожны год паміж 1875 і 1975 гадамі, вылічыць перыяд паўраспаду гэтага года. Перыяд паўраспаду вызначаецца як лік гадоў, якія праходзяць, перш чым доля згадак дасягае паловы свайго максімальнага значэння. Звярніце ўвагу , што Michel et al. (2011) і Michel et al. (2011) зрабіць што - то больш складанае , каб ацаніць перыяд паўраспаду, глядзіце раздзел III.6 Дапаможных Online Information, але яны сцвярджаюць , што абодва падыходу даюць аналагічныя вынікі. Ёсць Ці версіі 2 дадзеных Ngram даюць аднолькавыя вынікі, прадстаўленаму ў Michel et al. (2011) і Michel et al. (2011) , якія заснаваныя на версіі 1 дадзеных? (Падказка: Не здзіўляйцеся, калі гэта не так.)

    7. Ці былі нейкія гады, якія былі астанцы, такія як гады, якія былі забытыя асабліва хутка або павольна, асабліва? Коратка паразважаць аб магчымых прычынах гэтай мадэлі і растлумачыць, як вы вызначылі выкіды.

    8. Цяпер паўтарыць гэты вынік для версіі 2 дадзеных NGrams на кітайскім, французскай, нямецкай, іўрыце, італьянскай, рускай і іспанскай мовах.

    9. Параўнанне ўсіх моў, ці былі нейкія гады, якія былі астанцы, напрыклад, гады, якія былі забытыя асабліва хутка або павольна, асабліва? Коратка паразважаць аб магчымых прычынах гэтай мадэлі.

  7. [ вельмі цяжка , збор дадзеных , патрабуе кадавання , мой любімы ] Penney (2016) даследаваў Ці шырокае распаўсюджванне рэкламы аб NSA назіранні / PRISM (г.зн. адкрыцьця Snowden) у 2013 чэрвені года была звязана з рэзкім і раптоўным зніжэннем трафіку на артыкулы Вікіпедыі па тэмах , якія выклікаюць праблемы прыватнага жыцця. Калі так, то гэта змена ў паводзінах будзе адпавядаць з астуджальным эфектам у выніку масавага назірання. Падыход Penney (2016) часам называюць перарваны дызайн часовых шэрагаў, і гэта звязана з падыходамі , апісанымі ў раздзеле 2.4.3.

    Каб выбраць тэму ключавых слоў, Penney згадваецца ў спісе выкарыстоўваюцца Дэпартаментам ўнутранай бяспекі ЗША для адсочвання і маніторынгу сацыяльных медыя. Спіс DHS класіфікуе пэўныя ўмовы пошуку ў шэраг пытанняў, а менавіта, «Здароўе канцэрна», «Інфраструктура бяспекі» і «Тэрарызм». Для даследчай групы, Penney выкарыстала 48 ключавых слоў, звязаных з «тэрарызмам» (гл дадатак табліцы 8 ). Затым ён агрэгуецца Вікіпедыя разлічвае праглядаць артыкулы на штомесячнай аснове для адпаведных 48 артыкулаў Вікіпедыі над 32-месячным перыядам, з пачатку студзеня 2012 года да канца жніўня 2014 г. Для таго, каб узмацніць свае аргументы, ён таксама стварыў некалькі груп параўнання шляху адсочвання прагляды артыкулы на іншыя тэмы.

    Зараз, вы збіраецеся паўтарыць і пашырыць Penney (2016) . Ўсе зыходныя дадзеныя, што вам трэба для гэтай дзейнасці можна з Вікіпедыі. Ці вы можаце атрымаць яго ад R-пакета wikipediatrend (Meissner and R Core Team 2016) . Калі вы пішаце вашыя адказы, калі ласка, звярніце ўвагу, які крыніца дадзеных вы выкарыстоўвалі. (Звярніце ўвагу, што гэтая ж актыўнасць таксама з'яўляецца ў главе 6.) Гэтая дзейнасць дасць вам практыкавацца ў дадзеных спрэчцы і думаць аб натуральных эксперыментах ў вялікіх крыніцах дадзеных. Ён таксама дапаможа вам і працуюць з патэнцыйна цікавым крыніцай дадзеных для будучых праектаў.

    1. Чытайце Penney (2016) і паўтарыць яго малюнак 2 , які паказвае лік праглядаў старонак для «тэрарызм» старонкі аб звязаных да і пасьля выступу Snowden. Інтэрпрэтаваць вынікі.
    2. Затым паўтарыць малюнак 4A, які параўноўвае даследчую групу ( «Тэрарызм») артыкула аб звязаных з групай параўнання, выкарыстоўваючы ключавыя словы, класіфікаваныя ў раздзеле «ДГС і іншыя ўстановы" са спісу DHS (гл прыкладання табліцы 10 і зноска 139). Інтэрпрэтаваць вынікі.
    3. У частцы (б) вы параўналі даследчую групу з адной групай параўнання. Penney таксама ў параўнанні з двума іншымі групамі кампаратараў: «Інфраструктура бяспекі» звязаных артыкулаў (табліца 11) і дадатак папулярных старонак Вікіпедыі (дадатак табліца 12). Прыдумайце альтэрнатыўную групу параўнання, і праверыць, ці з'яўляецца высновы з часткі (б) адчувальныя да вашаму выбару групы параўнання. Які выбар робіць большасць сэнсу? Чаму?
    4. Penney заявіў, што ключавыя словы, звязаныя з «тэрарызмам» былі выкарыстаныя для выбару артыкулаў Вікіпедыі, таму што ўрад ЗША прывяло тэрарызм у якасці ключавога для апраўдання сваіх анлайн практыкі назірання. У якасці праверкі гэтых 48 «тэрарызм» ключавыя словы, аб звязаных Penney (2016) таксама быў праведзены апытанне на MTurk, рэспандэнтаў просяць ацаніць кожны з ХТ ключавых слоў з пункту гледжання ўрада Trouble, якая закранае асабістае жыццё, і пазбяганне (даданне табліцы 7 і 8 ). Рэплікацыя абследавання MTurk і параўнаць вынікі.
    5. На падставе вынікаў у частцы (D) і ваша чытанне гэтага артыкула, вы згодны з выбарам Penney аб падзеле ключавых слоў у асноўнай групе? Чаму або чаму няма? Калі няма, то вы маглі б прапанаваць наўзамен?
  8. [ лёгка ] Efrati (2016) паведамілі, на аснове канфідэнцыйнай інфармацыі, што «агульны абмен» на Facebook знізілася прыкладна на 5,5% у гадавым вылічэнні ў той час як «арыгінальны сумеснае вяшчанне» знізіўся на 21% за год. Гэта зніжэнне было асабліва востра з карыстальнікамі Facebook маладзейшыя за 30 гадоў. У дакладзе тлумачыцца зніжэнне двух фактараў. Адным з іх з'яўляецца рост ліку «сяброў» у людзей ёсць на Facebook. Іншая ў тым, што некаторы падзел актыўнасці зрушыўся на абмен паведамленнямі і канкурэнтаў, такіх як Snapchat. У дакладзе таксама выявіў некалькі тактык Facebook якія спрабавалі фарсіраваць абмен, у тым ліку News Feed алгарытму налад, якія робяць арыгінальныя пасты больш прыкметнымі, а таксама перыядычныя напамінкаў аб першапачатковых паведамленнях з «У гэты дзень» асаблівасці. Якія наступствы, калі такія маюцца, гэтыя знаходкі для даследчыкаў, якія хочуць выкарыстаць Facebook у якасці крыніцы дадзеных?

  9. [ серада ] У чым розніца паміж сацыёлягам і гісторыкам? У адпаведнасці з Голдторпа (1991) , галоўным адрозненнем з'яўляецца кантроль над зборам дадзеных. Гісторыкі вымушаныя выкарыстоўваць рэліквіі, у той час як сацыёлагі могуць адаптаваць іх збор дадзеных для канкрэтных мэтаў. Чытайце Goldthorpe (1991) . Як розніца паміж сацыялогіяй і гісторыяй звязана з ідэяй custommades і readymades?

  10. [ жорсткі ] Гэта грунтуецца на папярэднім quesiton. Goldthorpe (1991) прыцягнуў шэраг крытычных водгукаў, у тым ліку адзін з Nicky Харта (1994) , які кінуў выклік адданасці Голдторпа да схаваю зробленыя дадзеныя. Для высвятлення магчымых абмежаванняў спецыяльна распрацаваныя дадзеных, Харт апісаў шчасныя работнік праекта, вялікае даследаванне, каб вымераць ўзаемасувязь паміж сацыяльным класам і галасаваннем, якое было праведзена па Голдторпу і яго калегам у сярэдзіне 1960-х года. Як можна было б чакаць ад навукоўца, які спрыянне распрацаваны дадзеныя па знойдзеных дадзеных, квітнеючыя работнік праект быў сабраны дадзеныя, якія былі з улікам рашэння нядаўна прапанаванай тэорыі пра будучыню сацыяльнага класа ў эпосе павышэння ўзроўню жыцця. Але, Goldthorpe і яго калегі неяк «забыліся», каб сабраць інфармацыю аб паводзінах галасы жанчын. Вось як Нікі Харт (1994) абагульніў увесь эпізод:

    "... гэта [гэта] цяжка пазбегнуць зняволення, што жанчыны былі апушчаны, таму што гэта" індывідуальныя "набор дадзеных быў абмежаваны парадигматической логікай, якая выключала жаночы досвед. Вядзёнае тэарэтычнае бачаннем класавага свядомасці і дзеянняў, як мужчыны, клопаты ..., Goldthorpe і яго калегі пабудавалі мноства эмпірычных доказаў, якія кармілі і песцілі свае ўласныя тэарэтычныя здагадкі, замест таго, каб падвяргаць іх сапраўдны аналіз адэкватнасці «.

    Харт працягваў:

    «Эмпірычныя вынікі квітнеючых Worker праекту кажуць нам больш пра маскулинистских каштоўнасцях сацыялогіі сярэдзіны стагоддзя, чым яны паведамляюць працэсы стратыфікацыі, палітыка і матэрыяльная жыццё.»

    Вы можаце думаць пра іншых прыкладах, дзе збор на заказ дадзеных маюць ухілы калектара дадзеных, убудаваны ў яго? Як гэта суадносіцца з алгарытмічнай змешванню? Якія наступствы гэта можа мець для таго, калі даследчыкі павінны выкарыстоўваць readymades і калі яны павінны выкарыстоўваць custommades?

  11. [ серада ] У гэтым раздзеле я супрацьпаставіў дадзеныя, сабраныя даследнікамі для даследчыкаў з адміністрацыйнымі запісамі, створаных кампаніямі і урадамі. Некаторыя людзі называюць гэтыя адміністрацыйныя запісу «знайшлі дадзеныя», якія яны кантрастуюць з «накіраванымі дадзенымі.» Гэта праўда, што адміністрацыйныя запісу знойдзеныя даследчыкамі, але яны таксама высока распрацаваны. Напрыклад, сучасныя тэхналагічныя кампаніі працуюць вельмі цяжка сабраць і вікарый сваіх дадзеных. Такім чынам, гэтыя адміністрацыйныя запісу абодва знойдзеныя і распрацаваны, гэта залежыць толькі ад вашага пункту гледжання (мал 2,12).

    Малюнак 2.12: Карціна з'яўляецца як качка і трус; тое, што вы бачыце, залежыць ад вашага пункту гледжання. Вялікія крыніцы дадзеных абодва знойдзеныя і распрацаваны; зноў жа, што вы бачыце, залежыць ад вашага пункту гледжання. Напрыклад, запісы дадзеных аб выкліках, сабраных з дапамогай мабільных тэлефонаў кампаніі знаходзяцца дадзеныя з пункту гледжання даследчыка. Але гэтыя тыя ж самыя запісу прызначаныя дадзеныя з пункту гледжання чалавека, якія працуюць у разліковым аддзеле тэлефоннай кампаніі. Крыніца: Навукова-папулярны штомесячны (1899) / Wikimedia Commons.

    Малюнак 2.12: Карціна з'яўляецца як качка і трус; тое, што вы бачыце, залежыць ад вашага пункту гледжання. Вялікія крыніцы дадзеных абодва знойдзеныя і распрацаваны; зноў жа, што вы бачыце, залежыць ад вашага пункту гледжання. Напрыклад, запісы дадзеных аб выкліках, сабраных з дапамогай мабільных тэлефонаў кампаніі знаходзяцца дадзеныя з пункту гледжання даследчыка. Але гэтыя тыя ж самыя запісу прызначаныя дадзеныя з пункту гледжання чалавека, якія працуюць у разліковым аддзеле тэлефоннай кампаніі. Крыніца: Навукова - папулярны штомесячны (1899) / Wikimedia Commons .

    Забяспечыць прыклад крыніцы дадзеных, дзе бачыць яго і як знайшлі і прызначаны карысна пры выкарыстанні гэтай крыніцы дадзеных для даследаванняў.

  12. [ лёгка ] У задуменным эсэ, Крысціян Sandvig і Эсцтер Харджиттай (2015) падзел пальцавае даследаванне на дзве вялікія катэгорыі ў залежнасці ад лічбавай сістэмы , ці з'яўляецца «інструмент» або «аб'ект даследавання» . Прыкладам першага роду, дзе сістэма прыборабудаўнічы з'яўляецца даследаваннем Бенгтссона і яго калегамі (2011) аб выкарыстанні дадзеных мабільных тэлефонаў для адсочвання міграцыі пасля землятрусу ў Гаіці ў 2010 годзе з'яўляецца прыкладам другога роду, дзе сістэма з'яўляецца аб'ектам даследавання, з'яўляецца даследаваннем Jensen (2007) аб тым , як ўкараненне мабільных тэлефонаў па ўсёй Керале, Індыя паўплывала на функцыянаванне рынку рыбы. Я лічу, гэта адрозненне карысна, таму што ён удакладняе, што даследаванні з выкарыстаннем лічбавых крыніц дадзеных могуць мець зусім розныя мэты, нават калі яны выкарыстоўваюць адзін і той жа тып крыніцы дадзеных. У мэтах далейшага удакладнення гэтага адрознення, апісвае чатыры даследаванні, якія вы бачылі: два, якія выкарыстоўваюць лічбавую сістэму ў якасці інструмента і два, якія выкарыстоўваюць лічбавую сістэму ў якасці аб'екта даследавання. Вы можаце выкарыстоўваць прыклады з гэтай кіраўніка, калі вы хочаце.