faoliyati

  • qiyinchilik darajasi: oson oson , o'rta o'rta , qattiq qiyin , juda qiyin juda qiyin
  • matematika ( matematika talab qiladi )
  • kodlashni talab qiladi ( kodlashni talab qiladi )
  • ma'lumotlarni to'plash ( ma'lumotlar yig'ish )
  • mening sevimlilarim ( mening sevimli )
  1. [ o'rta , mening sevimli ] Algoritmik shovqin Google Flu Trends bilan bog'liq bo'lgan muammodir. Lazer et al. (2014) yozib, muammolarni tushuntirib Googlega muhandisga qisqa va aniq elektron pochtani yozing va uni qanday tuzatish kerakligi haqidagi fikrni taklif eting.

  2. [ o'rta ] Bollen, Mao, and Zeng (2011) Twitterdan olingan ma'lumotlar birja bozorini taxmin qilish uchun ishlatilishi mumkinligini da'vo qilmoqda. Ushbu topilma Twitter-dan to'plangan ma'lumotlar asosida fond bozoriga sarmoya kiritish uchun "Derwent Capital Markets" hedc fondini tashkil etishga olib keldi (Jordan 2010) . Sizning mablag'ingizni ushbu fondga qo'yishdan oldin qanday dalillarni ko'rishni xohlaysiz?

  3. [ oson ] Ba'zi jamoat sog'lig'ining himoyachilari sigaretani chekishni to'xtatish uchun samarali yordamni ko'rib chiqishsa-da, boshqalar nikotinning yuqori darajasi kabi potentsial xavflar haqida ogohlantiradilar. Tasavvur qiling-a, tadqiqotchi e-sigaretga oid elektron pochtalarni to'plab, hissiyotlarni tahlil qilish orqali jamoatchilik fikrini o'rganishga qaror qiladi.

    1. Ushbu tadqiqotda sizni tashvishlantirgan uchta ehtimollik nima?
    2. Clark et al. (2016) bunday tadqiqotni amalga oshirdi. Birinchidan, ular 2012 yil yanvaridan to 2014 yilning dekabr oyigacha elektron-sigaret bilan bog'liq kalit so'zlarni ishlatgan 850 000 ta tweet to'plashdi. Yaqinroq tekshiruvdan so'ng bu tweetlarning ko'pchiligining avtomatlashtirilganligini (ya'ni, odamlar tomonidan ishlab chiqarilmasligini) bilishdi va bu avtomatlashtirilgan tweetsning aksariyati asosan reklamalar. Ular avtomatlashtirilgan tvitlarni organik tweetlardan ajratish uchun insonni aniqlash algoritmini ishlab chiqdilar. Ushbu insonni aniqlash algoritmidan foydalangan holda, ular% 80 foizini avtomatlashtirilgan deb topdilar. Ushbu topilma javobingizni (a) qismiga o'zgartiradimi?
    3. Hisobotni organik va avtomatlashtirilgan tweets bilan solishtirganda, avtomatlashtirilgan tweetslar organik tweetlardan ko'ra ijobiy (6,11 - 5,84) bo'lganligini aniqladilar. Ushbu topilma javobingizni (b) ga o'zgartiradimi?
  4. [ oson ] 2009 yil noyabr oyida Twitter Twitterdagi savolni "Nima qilyapsiz?" Dan "Nima sodir bo'layapti?" (Https://blog.twitter.com/2009/whats-happening) dan o'zgartirgan.

    1. Qanday takliflar almashinuvi sizning tvitlaringiz va / yoki ularning tvitlariga ta'sir qiladi deb o'ylaysiz?
    2. "Nima qilyapsiz?" Iborasini tanlashni istagan bir tadqiqot loyihasining nomini keltiring. Nima uchun izohlang.
    3. "Nima sodir bo'lyapti?" Deb so'ragan bir tadqiqot loyihasini aytib bering. Nega izohlang.
  5. [ oson ] "Retweets" ko'pincha Twitter ta'siriga ta'siri va tarqalishini o'lchash uchun ishlatiladi. Dastlab, foydalanuvchilar o'zlari yoqtirgan tweetni nusxalash va joylashtirishlari kerak, asl yozuvchini o'z dastxatiga tegib, uni "retweet" ekanligini ko'rsatish uchun qo'l bilan "RT" ni yozing. Keyin, 2009-yilda Twitter "retweet" tugmasini qo'shdi. 2016-yil iyun oyida Twitter o'zining foydalanuvchilariga o'zlarining tvitlarini qayta tiklashga imkon berdi (https://twitter.com/twitter/status/742749353689780224). Sizningcha, ushbu o'zgarishlar Sizning tadqiqotingizdagi "retweets" dan qanday foydalanganingizga ta'sir qilishi kerakmi? Nima uchun yoki nima uchun bunday emas?

  6. [ juda qiyin , ma'lumotlar yig'ish , kodlashni talab qiladi , mening sevimli ] Ko'pchilik tomonidan muhokama qilingan maqolada, Mishel va uning hamkasblari (2011) uzoq muddatli madaniy tendentsiyalarni aniqlashga urinishda besh milliondan ortiq raqamli kitoblarning mazmunini tahlil qildilar. Qo'llaniladigan ma'lumotlar endi Google NGrams ma'lumotlar majmui sifatida chiqarildi va shuning uchun ba'zi ma'lumotlarni nusxalash va kengaytirish uchun ma'lumotlarni ishlatishimiz mumkin.

    Qog'ozdagi ko'plab natijalarning birida Michel va uning hamkasblari biz tezroq va tezroq unutib qo'yganimizni ta'kidlashdi. Bir yil davomida, "1883" deb aytinglar, ular 1875-1975 yillar orasida "1883" deb nomlangan har bir yilda 1 grammlik raqamni aniqladilar. Ular bu raqam o'sha yil sodir bo'lgan voqealarga qiziqish o'lchovidir deb o'ylashgan. O'zlarining 3a raqamlarida ular uch yil mobaynida qo'llanadigan traektoriyalarni: 1883, 1910 va 1950 yillarni tuzdilar. Ushbu uch yil umumiy naqshni taqsimlaydi: bu yilgacha kam ishlatish, so'ngra boshoq, so'ngra parchalanish. Keyinchalik, har yili parchalanish tezligini aniqlash uchun Michel va uning hamkasblari 1875-1975 yillar mobaynida har bir yil uchun "yarim hayot" ni hisobladilar. Ular 3a (ichki) shaklida ular har birining yarim yil qisqaradi va ular bu o'tmishimizni tezroq va tezroq unutib yuborayotganimizni anglatadi. Ular ingliz tili korpusining 1-versiyasini ishlatishgan, biroq keyinroq Google korpusning ikkinchi versiyasini chiqazdi. Iltimos, kodlashni boshlashdan avval, savolning barcha qismlarini o'qing.

    Ushbu faoliyat sizga qayta foydalanish kodini yozish, natijalarni talqin qilish va ma'lumotlarni tortish (masalan, noaniq fayllar bilan ishlash va etishmayotgan ma'lumotlarni ko'rib chiqish kabi) amaliyotini beradi. Bu faoliyat, shuningdek, boy va qiziqarli ma'lumot to'plami bilan ishlashga yordam beradi.

    1. Xom ma'lumotni Google Books NGram Viewer veb-saytidan oling. Xususan, ingliz tili korpusining 2-versiyasini 2012-yil 1-iyulda chop etilgan versiyasidan foydalaning. Sintezsiz, bu fayl 1.4 GB.

    2. Michel et al. (2011) 3a) ning asosiy qismini qayta yaratish Michel et al. (2011) . Ushbu raqamni qayta tiklash uchun sizga ikkita fayl kerak bo'ladi: qisman (a) va xom hisoblarni nisbatlarga aylantirish uchun foydalanishingiz mumkin bo'lgan "jami hisoblar" fayli. NGram ma'lumotlarining 2-nchigachasi Michel et al. (2011) tomonidan taqdim etilganlarga o'xshash natijalar beradi Michel et al. (2011) versiyalari 1-ma'lumotga asoslanganmi?

    3. Grafikni NGram Viewer tomonidan yaratilgan grafikka qarshi tekshiring.

    4. Shakl 3a (asosiy rasm) qayta ishlating, ammo \(y\) -axisni xom so'zlar soni deb hisoblang (bahsning tezligi emas).

    5. (B) va (D) orasidagi farq sizni Mishel va boshq. (2011). Nima uchun yoki nima uchun bunday emas?

    6. Endi, bahsning nisbatlarini qo'llash, 3a rasmining ichki qismini takrorlang. Ya'ni, har yili 1875-1975 yillar oralig'ida o'sha davrning yarmini hisoblang. Yarim muddat, so'zlarning nisbati uning eng yuqori qiymatining yarmigacha etib borishidan oldin o'tgan yillar soni deb ta'riflanadi. Michel et al. (2011) yarmini baholash uchun murakkabroq ishlarni amalga oshiradi - Ko'maklashuvchi onlayn axborotning III.6 bo'limini ko'ring-lekin ular har ikkala yondashuv ham shunga o'xshash natija berishini ta'kidlaydilar. NGram ma'lumotlarining 2-versiyasi Michel et al. (2011) versiyalari 1-ma'lumotga asoslanganmi? (Maslahat: Agar shunday bo'lmasa hayron bo'lmang.)

    7. Ayniqsa, tez yoki ayniqsa asta-sekin unutilgan yillar singari yillar bo'lganmi? Ushbu naqshning mumkin bo'lgan sabablari haqida qisqacha aytmoqchiman.

    8. Endi ushbu natija NGrams ma'lumotlarining 2-versiyasi uchun Xitoy, Fransuz, Nemis, Ibroniy, İtalyanca, Ruscha va Ispan tillarida nusxa ko'chiring.

    9. Barcha tillar bilan taqqoslaganda yillar, ayniqsa, tez yoki ayniqsa asta-sekin unutilgan yillar bo'lganmi? Ushbu naqshning sabablari haqida qisqacha ayt.

  7. [ juda qiyin , ma'lumotlar yig'ish , kodlashni talab qiladi , mening sevimli ] Penney (2016) 2013 yil iyun oyida NSA / PRISM nazorati (masalan, Snouden bayonoti) haqida keng tarqalgan taniqli ma'lumotlarning maxfiylik masalalarini ko'taradigan mavzulardagi Vikipediyadagi maqolalarning keskin va to'satdan pasayishi bilan bog'liqligini o'rganib chiqdi. Agar shunday bo'lsa, bu xatti-harakatlar ommaviy nazoratdan kelib chiqadigan chillashish ta'siriga mos keladi. Penney (2016) yondashuvi vaqti-vaqti bilan to'xtatilgan vaqt seriyali dizayni deb ataladi va 2.4.3-bo'limda tasvirlangan yondashuvlarga bog'liq.

    Mavzu kalit so'zlarini tanlash uchun, Penney AQShning Milliy xavfsizlik departamenti tomonidan ijtimoiy axborot vositalarini kuzatish va monitoring qilish uchun foydalanadigan ro'yxatga ishora qilmoqda. DHS ro'yxati ba'zi tergov shartlarini "Sog'liqni saqlash to'g'risida tashvish", "Infrastruktura xavfsizligi" va "Terrorizm" qatoriga kiritadi. Tadqiqot guruhi uchun Penney "Terrorizm" bilan bog'liq 48 ta kalit so'zni ishlatdi (8-ilovaga qarang). ). Keyinchalik, Vikipediya maqolasi oylik miqdori oylik miqyosda 32 oylik davrda, 2012 yil yanvar oyidan 2014 yil avgust oyining oxirigacha mos keladigan 48 ta Vikipediya maqolalari uchun hisoblangan. O'z argumentini mustahkamlash uchun, u shuningdek bir nechta taqqoslash guruhlarini kuzatib, boshqa mavzular bo'yicha maqola ko'rinishlari.

    Keling, siz Penney (2016) takrorlashni davom Penney (2016) . Bu faoliyat uchun kerakli barcha xom ma'lumotlar Vikipediyadan olish mumkin. Yoki buni R-paketidagi wikipediatrenddan olishingiz mumkin (Meissner and R Core Team 2016) . Javoblaringizni yozganingizda, qaysi ma'lumot manbasini foydalanganligingizga e'tibor bering. (Shunga o'xshash yana bir faoliyat 6-bobda ham keltirilgan.) Ushbu faoliyat sizning ma'lumotlaringizni tortib olishda va katta ma'lumot manbalarida tabiiy eksperimentlar haqida o'ylashga imkon beradi. Bundan tashqari, siz kelajakdagi loyihalar uchun potentsial qiziqarli ma'lumotlar manbai bilan ishlaydi.

    1. " Penney (2016) o'qing Penney (2016) va uning "2-rasmini" takrorlab, "Terrorizm" ga qarashli sahifalarni Snoudenning oyatlaridan oldingi va keyingi ko'rsatuvlarini ko'rsatadi. Topilmalarni izohlang.
    2. Keyinchalik DHS ro'yxatidan "DHS va boshqa agentliklar" bo'limiga kiruvchi kalit so'zlarni ishlatib, ish guruhini taqqoslash guruhi bilan taqqoslaydigan 4A rasmini takrorlang (qo'shimcha jadval 10 va izohning 139-bandiga qarang). Topilmalarni izohlang.
    3. Qisman (b) qismida ish guruhini bir taqqoslash guruhi bilan taqqosladingiz. Penney, shuningdek, "Infrastruktura xavfsizligi" nomli boshqa ikki taqqoslash guruhlari (11-ilovaning qo'shimcha jadvali) va mashhur Vikipediya sahifalari bilan taqqoslangan (qo'shimcha jadval 12). Muqobil taqqoslash guruhi bilan keling va (b) qismidagi topilmalar taqqoslash guruhini tanlashingizga sezgir bo'ladimi-yo'qligini tekshirib ko'ring. Qaysi tanlov eng mantiqqa to'g'ri keladi? Nima uchun?
    4. Penney, "Terrorizm" bilan bog'liq kalit so'zlarni Vikipediya maqolalarini tanlash uchun ishlatilganligini aytdi, chunki AQSh hukumati terrorizmni onlayn kuzatuv amaliyotlari uchun asosiy asos sifatida ko'rsatdi. Ushbu 48 ta "terrorizm" bilan bog'liq kalit so'zlarni tekshirish uchun Penney (2016) MTurk bo'yicha so'rov o'tkazdi, respondentlarga hukumatning har qanday muammolarini, "Maxfiylik sezgir" va "Avoidance" (7 va 8-ilovalar) ). MTurk bo'yicha so'rovni takrorlang va natijalaringizni taqqoslang.
    5. (D) qismidagi natijalarga va maqolani o'qishga asoslangan holda, Penneyning tadqiqot guruhidagi kalit so'zlarni tanlashiga rozi bo'lasizmi? Nima uchun yoki nima uchun bunday emas? Aks holda, nima taklif qilasiz?
  8. [ oson Efrati (2016) maxfiy ma'lumotlarga asoslanib, Facebook-da "umumiy almashinuv" yil davomida taxminan 5,5% kamayganini, "original nashrlarni tarqatish" esa yil davomida 21% past bo'lganini ma'lum qildi. Ushbu pasayish ayniqsa 30 yoshdan kichik Facebook foydalanuvchilari bilan keskinlashdi. Hisobotda ikki omilga pasayish qayd etilgan. Ularning biri "Facebook" da bo'lgan "do'stlar" sonining o'sishi. Ikkinchidan, ba'zi almashinuv faoliyati xabar almashish va Snapchat kabi raqobatchilarga o'tadi. Hisobotda shuningdek, "Facebook kuni" xususiyati bilan original postlarni muntazam eslatish bilan bir qatorda, Facebookning almashinuvni kuchaytirishga harakat qilgan bir necha taktikasi ham bor. Qanday oqibatlarga olib keladigan bo'lsak, bu topilmalarni Facebook-dan ma'lumot manbai sifatida foydalanmoqchi bo'lgan tadqiqotchilar uchunmi?

  9. [ o'rta ] Sosyolog va tarixchi o'rtasidagi farq nima? Goldthorpe (1991) ma'lumotlariga ko'ra, asosiy farq ma'lumotlar yig'ish ustidan nazorat qilishdir. Tarixchilar o'zlarining ma'lumotlarini ishlatishga majbur qilishadi, holbuki sotsollar o'zlarining ma'lumotlarini maxsus maqsadlar uchun moslashtira oladi. Goldthorpe (1991) o'qing. Sosyologiya va tarix o'rtasidagi munosabat qarindoshlar va o'qimishli g'oyalar bilan qanday bog'liq?

  10. [ qiyin ] Bu avvalgi quesitonga asoslangan. Goldthorpe (1991) Nicky Hart (1994) Goldthorpe kompaniyasining tayyorlangan ma'lumotlarga sodiqligiga e'tiroz bildirgan bir qator tanqidiy javoblarni o'z ichiga olgan. Xart shaxsiy ma'lumotlarning potentsial cheklovlarini aniqlash uchun 1960-yillarning o'rtalarida Goldthorpe va uning hamkasblari tomonidan o'tkazilgan ijtimoiy sinf va ovoz berish o'rtasidagi munosabatlarni o'lchash uchun "Affleent Worker Project" ("Affluent Worker Project") loyihasini tasvirlab berdi. Ma'lumotlarga asoslangan ma'lumotlardan foydalanishga ijobiy ta'sir ko'rsatgan olimlardan kutilganidek, "Affluent Worker Project" loyihasi ijtimoiy hayotning kelajakdagi hayoti bilan bog'liq bo'lgan yaqin kelajakda hayot standartlarini muhokama qilish uchun mo'ljallangan ma'lumotlarni to'playdi. Ammo Goldthorpe va uning hamkasblari ayollarning ovoz berish xatti-harakati to'g'risida ma'lumot to'plash uchun "unutgan". Niky Xart (1994) butun epizodni qanday qilib umumlashtirdi:

    "... bu" tayyorlangan "ma'lumotlar to'plami ayollarning tajribasidan tashqaridagi paradigmatik mantiq bilan cheklanganligi sababli, ayollarning chiqarib yuborilganligi haqida xulosa chiqarish qiyin. Sinf ongining nazariy tuyulganligi va erkaklarning mashaqqatli harakatlari bilan harakatlanadigan ... Goldthorpe va uning hamkasblari ularni o'zlariga tegishli nazariy taxminlarga ega bo'lishlari o'rniga, ularning nazariy taxminlarini oziqlantirib, rivojlantirgan bir qator ampirik dalillarni yaratdilar. "

    Xart davom etdi:

    "Affluent Worker Project" ning ampirik natijalari o'rta asr sotsializmining masculinaviy qadriyatlari haqida bizga tabaqalash, siyosat va moddiy hayot haqida xabar berishdan ko'ra ko'proq ma'lumot beradi. "

    Maxsus ma'lumotlarni to'plashda unga biriktirilgan ma'lumotlar yig'uvchisi uchun asos bo'lgan boshqa misollar haqida o'ylaysizmi? Qanday qilib algoritmik shovqin bilan solishtirilgan? Tadqiqotchilar tayyor mahsulotlardan foydalanishlari kerak bo'lgan paytda va qanday sharoitlarda foydalanishlari kerakligi bunga qanday ta'sir qilishi mumkin?

  11. [ o'rta ] Ushbu bobda men tadqiqotchilar tomonidan kompaniyalar va hukumatlar tomonidan yaratilgan ma'muriy yozuvlar bilan tadqiqotchilar uchun to'plangan ma'lumotlarga qarama qarshim bor. Ba'zi odamlar ushbu ma'muriy yozuvlarni "ma'lumotni topdi" deb atashadi, bu ular "mo'ljallangan ma'lumotlar" bilan farq qiladi. Ma'muriy yozuvlar tadqiqotchilar tomonidan topilgan, ammo ular ham juda mo'ljallangan. Misol uchun, zamonaviy texnologiya kompaniyalari o'zlarining ma'lumotlarini to'plash va nazorat qilish uchun juda ko'p ishlaydi. Shunday qilib, ushbu ma'muriy yozuvlar ham topilgan va yaratilgan bo'lib, u faqat sizning istiqbolingizga bog'liq (2.12-rasm).

    Shakl 2.12: Rasm bir o'rdak va quyondir; Ko'rib turganingizdek, sizning nuqtai nazaringiz bog'liq. Katta ma'lumot manbalari ham topilgan va yaratilgan; Yana siz ko'rib turgan narsangiz sizning nuqtai nazaringizga bog'liq. Misol uchun, mobil telefon kompaniyasi tomonidan to'plangan chaqiriq ma'lumotlarining ma'lumotlari tadqiqotchining nuqtai nazaridan topiladi. Biroq, bu xuddi shu yozuvlar telefon kompaniyasining billing bo'limida ishlaydigan kishi nuqtai nazaridan mo'ljallangan ma'lumotlar hisoblanadi. Manba: Ommaviy ilmiy oylik (1899) / Wikimedia Commons.

    Shakl 2.12: Rasm bir o'rdak va quyondir; Ko'rib turganingizdek, sizning nuqtai nazaringiz bog'liq. Katta ma'lumot manbalari ham topilgan va yaratilgan; Yana siz ko'rib turgan narsangiz sizning nuqtai nazaringizga bog'liq. Misol uchun, mobil telefon kompaniyasi tomonidan to'plangan chaqiriq ma'lumotlarining ma'lumotlari tadqiqotchining nuqtai nazaridan topiladi. Biroq, bu xuddi shu yozuvlar telefon kompaniyasining billing bo'limida ishlaydigan kishi nuqtai nazaridan mo'ljallangan ma'lumotlar hisoblanadi. Manba: Ommaviy ilmiy oylik (1899) / Wikimedia Commons .

    Ma'lumot manbasini misol qilib keltiringki, u ikkalasini ham topilgan va ko'rib chiqilgan bo'lsa, u ma'lumot manbasini tadqiq qilish uchun foydalidir.

  12. [ oson Xristian Sandvig va Eszter Hargittai (2015) raqamli tadqiqotni raqamli tizim "instrument" yoki "o'rganish ob'ekti" ga qarab ikkita toifadagi raqamlarga ajratdi. Birinchi turdagi tizim - bu sistema bir Bengtsson va hamkasblari tomonidan tadqiqot vositasi-dir (2011) 2010 yilda bir misol Gaitida zilzila so'ng ko'chishi kuzatish uchun mobil ma'lumotlarni foydalanish bo'yicha ikkinchi tur-qaerda tizimi, bir maqsad, tadqiqot Jensen tomonidan o'rganish-bo'lib (2007) Hindistonning Kerala shahrida uyali telefonlarning joriy qilinishi baliq bozorining ishlashiga qanday ta'sir ko'rsatganligi haqida ma'lumot berdi. Ushbu farqni foydali deb bilaman, chunki u raqamli ma'lumot manbalaridan foydalangan ma'lumotlarning bir xil turdagi ma'lumot manbasini ishlatayotgan bo'lsa ham juda ko'p turli maqsadlarga ega bo'lishi mumkinligini aniqlaydi. Ushbu farqni yanada yaxshiroq tushunish uchun siz ko'rgan to'rtta ishni ta'riflang: ikkita raqamli tizimni asbob sifatida ishlatish va ikkita raqamli tizimni o'rganish ob'ekti sifatida ishlatadigan ikkita ish. Istasangiz, ushbu bobdan misollardan foydalanishingiz mumkin.