Įmonės veiklos sritys

  • sunkumo laipsnis: lengva lengva , vidutinė vidutinė , sunku sunku , labai sunku labai sunku
  • reikalauja matematikos ( reikalauja matematikos )
  • reikalauja kodavimo ( reikalauja kodavimo )
  • duomenų rinkimas ( duomenų rinkimas )
  • Mano mėgstamiausi ( Mano mėgstamiausias )
  1. [ vidutinė , Mano mėgstamiausias ] Algoritminė problema buvo "Google" gripo tendencijų problema. Perskaitykite Lazer et al. (2014) Ir parašykite trumpą, aiškų el. Laišką inžinieriui "Google", kuriame paaiškinama problema ir pateikiama idėja, kaip tai išspręsti.

  2. [ vidutinė ] Bollen, Mao, and Zeng (2011) teigia, kad "Twitter" duomenys gali būti naudojami prognozuojant akcijų rinką. Ši išvada paskatino sukurti rizikos draudimo fondą - "Derwent Capital Markets" - investuoti į vertybinių popierių rinką remiantis "Twitter" surinktais duomenimis (Jordan 2010) . Kokius įrodymus norėtumėte pamatyti prieš išleisdami pinigus į šį fondą?

  3. [ lengva ] Nors kai kurie visuomenės sveikatos patarėjai mano, kad e-cigaretės yra veiksminga rūkymo nutraukimo pagalba, kiti įspėja apie galimą riziką, pvz., Nikotino koncentraciją. Įsivaizduokite, kad mokslininkas nusprendžia ištirti visuomenės nuomonę dėl e-cigarečių, rinkdamas su "e-cigaretėmis" susijusias "Twitter" įrašus ir atlikdamas jausmų analizę.

    1. Kokie yra trys galimi šališkumai, kuriuos labiausiai keliaite šiame tyrime?
    2. Clark et al. (2016) Vyko tik toks tyrimas. Pirma, jie surinko 850 000 tweets, kurie nuo 2012 m. Sausio mėn. Iki 2014 m. Gruodžio mėn. Naudojo raktinius žodžius, susijusius su e. Cigarečių. Ateityje jie suprato, kad daugelis iš šių tweets buvo automatizuoti (ty jie nebuvo pagaminti iš žmonių) ir daugelis iš šių automatinių tweets iš esmės buvo reklama. Jie sukūrė žmogaus aptikimo algoritmą atskirti automatizuotus tweets iš organinių tweets. Naudodami šį žmogaus aptikimo algoritmą jie nustatė, kad 80% tweets buvo automatizuoti. Ar ši išvada pakeičia jūsų atsakymą į a dalį?
    3. Kai jie palygino jausmus ekologiškuose ir automatizuotuose tweets, jie nustatė, kad automatizuoti tweets buvo teigiamesni nei organiniai tweets (6.17 versus 5.84). Ar ši išvada pakeičia jūsų atsakymą į (b)?
  4. [ lengva ] 2009 m. Lapkritį "Twitter" pakeitė klausimą iš "Ką darai" čivināšana laukelyje į "Kas vyksta?" (Https://blog.twitter.com/2009/whats-happening).

    1. Kaip manote, kad pakvietimų keitimas turės įtakos tai, kas tweets ir / ar ką jie čivināt?
    2. Pavadinkite vieną mokslinių tyrimų projektą, kurį norėtumėte pavadinti "Ką darai?" Paaiškinkite, kodėl.
    3. Pavadinkite vieną mokslinių tyrimų projektą, kurį norėtumėte pavadinti "Kas vyksta?" Paaiškinkite, kodėl.
  5. [ lengva ] "Retweets" dažnai naudojami įvertinti "Twitter" įtaką ir sklaidą. Iš pradžių vartotojai turėjo nukopijuoti ir įklijuoti jiems patikėtą temą, pažymėti originalų autorių savo rankena ir rankiniu būdu įrašyti "RT" prieš čivot, nurodydami, kad tai retweet. 2009 m. "Twitter" pridėjo mygtuką "retweet". 2016 m. Birželio mėn. "Twitter" leido vartotojams retweetti savo tweets (https://twitter.com/twitter/status/742749353689780224). Ar manote, kad šie pakeitimai turėtų įtakos jūsų tyrimuose naudojamiems "retweets"? Kodėl ar kodėl ne?

  6. [ labai sunku , duomenų rinkimas , reikalauja kodavimo , Mano mėgstamiausias ] Plačiai aptartame straipsnyje Michel ir jo kolegos (2011) Išanalizavo daugiau kaip penkių milijonų skaitmeninių knygų turinį, bandydami nustatyti ilgalaikes kultūrines tendencijas. Duomenys, kuriuos jie naudojo, dabar yra išleisti kaip "Google NGrams" duomenų rinkinys, todėl galime naudoti duomenis, kad pakartotų ir išplėtė dalį savo darbo.

    Viename iš daugelio popieriaus rezultatų Michel ir jo kolegos teigė, kad mes pamirštame greičiau ir greičiau. Konkrečiais metais sakydami "1883", jie apskaičiavo kiekvieno metų nuo 1875 iki 1975 m. Paskelbtų 1 gramų, kurie buvo "1883", dalis. Jie motyvavo, kad ši proporcija yra susidomėjimo tais metais įvykių įvykis. 3a paveiksle jie parašė naudojimo trajektorijas trejiems metams: 1883, 1910 ir 1950 m. Šiems trejiems metams būdingas bendras modelis: mažai naudojamas iki tų metų, tada smaigalys, tada išnykimas. Toliau, kiekybiškai įvertinant kiekvienų metų skilimo greitį, Michel ir jo kolegos apskaičiavo kiekvienų metų "pusėjimo trukmę" visus metus tarp 1875 ir 1975 metų. 3a paveiksle (įterpimas) jie parodė, kad kiekvieno pusėjimo trukmė metai mažėja, ir jie teigė, kad tai reiškia, kad mes pamiršame praeitį greičiau ir greičiau. Jie naudojosi anglų kalbos korpuso 1 versija, tačiau vėliau "Google" išleido antrąją korpuso versiją. Prašome perskaityti visas klausimo dalis prieš pradėdami koduoti.

    Ši veikla leis jums rašyti pakartotinai naudojamą kodą, interpretuoti rezultatus ir susitvarkyti duomenis (pvz., Dirbti su nepatogiais failais ir tvarkyti trūkstamus duomenis). Ši veikla taip pat padės jums įsitvirtinti ir paleisti turtingą ir įdomų duomenų rinkinį.

    1. Gaukite neapdorotus duomenis iš "Google Books" NGram Viewer svetainės. Visų pirma turėtumėte naudoti anglų kalbos korpuso 2 versiją, kuri buvo išleista 2012 m. Liepos 1 d. Nefasuotos, šis failas yra 1,4 GB.

    2. Atkurkite pagrindinę Michel et al. (2011) Pav. 3a figūrą Michel et al. (2011) . Norėdami atkurti šį skaičių, jums reikės dviejų failų: failo, kurį atsiųsite iš dalies (a) ir failo "total count", kurį galite naudoti, kad paverstų neapdorotus skaičius proporcijomis. Atkreipkite dėmesį, kad bendras failų skaičius yra struktūros, kuri gali būti šiek tiek sunku perskaityti. Ar "NGgram" 2 versija duoda panašius rezultatus, kaip ir Michel et al. (2011) , kurie yra pagrįsti 1-osios duomenų duomenimis?

    3. Dabar patikrinkite savo diagramą pagal diagramą, sukurtą NGram Viewer.

    4. Atkurkite 3a paveikslą (pagrindinis paveikslėlis), bet pakeiskite \(y\) -akisą kaip žaliavų paminėjimų skaičių (o ne paminimų skaičių).

    5. Ar skirtumas tarp (b) ir (d) leidžia jums iš naujo įvertinti bet kurį iš Michelio ir kt. Rezultatų. (2011). Kodėl ar kodėl ne?

    6. Dabar, naudodamas minėtų dalių santykį, pakartokite 3a pav. Pateiktą intarpą. Tai reiškia, kad kiekvienais metais nuo 1875 m. Iki 1975 m. Apskaičiuojamas tų metų pusperiodis. Pusinės eliminacijos periodas apibrėžiamas kaip metų skaičius, kuris praeina anksčiau, nei paminimų dalis pasiekia pusę savo didžiausios vertės. Atkreipkite dėmesį, kad Michel et al. (2011) Daro kažką sudėtingesnio, kad būtų galima įvertinti pusėjimo trukmę - žr. "Papildomos informacijos apie internetą" III.6 skyrių, tačiau jie teigia, kad abu metodai sukuria panašius rezultatus. Ar "NGram" duomenų 2 versija duoda panašius rezultatus, kaip ir Michel et al. (2011) , kurie yra pagrįsti 1-osios duomenų duomenimis? (Patarimas: nesistebėkite, jei taip nėra.)

    7. Ar buvo kokie metai, kurie buvo permainų, tokių kaip metai, kurie buvo pamiršti ypač greitai arba ypač lėtai? Trumpai spėliokite apie galimas šio modelio priežastis ir paaiškinkite, kaip identifikavote neatitikimus.

    8. Dabar atkartokite šį rezultatą 2 versijai duomenų NGrams kinų, prancūzų, vokiečių, hebrajų, italų, rusų ir ispanų kalbomis.

    9. Ar visomis kalbomis palyginus visus metus, kurie buvo išeikvoti, pavyzdžiui, metai, kurie buvo pamiršti ypač greitai arba ypač lėtai? Trumpai spėliokite apie galimas šio modelio priežastis.

  7. [ labai sunku , duomenų rinkimas , reikalauja kodavimo , Mano mėgstamiausias ] Penney (2016) Ištyrė, ar plačiai paskelbta apie NSA / PRISM stebėseną (ty "Snowden" apreiškimus) 2013 m. Birželio mėn. Buvo susijęs su staiga ir staiga sumažėjusiu srautu į Wikipedia straipsnius temomis, kurios kelia susirūpinimą dėl privatumo. Jei taip, šis elgesio pokytis atitiktų atšaldymo efektą, kurį sukelia masinė priežiūra. Penney (2016) kartais vadina nutraukta laiko eilučių konstrukcija, ir ji susijusi su metodais, aprašytais 2.4.3 skyriuje.

    Norėdami pasirinkti tematikos raktinius žodžius, Penney nurodė JAV Tarnybos departamento naudojamą sąrašą socialinės žiniasklaidos stebėjimui ir stebėsenai. DHS sąrašas suskirsto tam tikrus paieškos terminus į įvairias problemas, ty "sveikatos problema", "infrastruktūros saugumas" ir "terorizmas". Tyrimų grupei Penney naudojo 48 su terorizmu susijusius raktinius žodžius (žr. Priedėlio 8 lentelę ) Tada jis apibendrino Vikipedijos straipsnių apžvalgą kas mėnesį atitinkamoms 48 Vikipedijos straipsnių skaičiui per 32 mėnesius nuo 2012 m. Sausio mėn. Pradžios iki 2014 m. Rugpjūčio pabaigos. Siekdamas sustiprinti savo argumentus, jis taip pat sukūrė kelias palyginimo grupes stebėdamas straipsnių peržiūros kitomis temomis.

    Dabar jūs ketinate pakartoti ir išplėsti " Penney (2016) . Visi neapdoroti duomenys, kuriuos jums reikės šiai veiklai, yra prieinami Wikipedia. Arba galite jį gauti iš "R-package wikipediatrend" (Meissner and R Core Team 2016) . Parašydami savo atsakymus, atkreipkite dėmesį, kuris duomenų šaltinis naudojote. (Atkreipkite dėmesį, kad ši veikla taip pat pateikiama 6 skyriuje.) Ši veikla suteiks jums praktiką duomenų nugalėjimui ir mąstymui apie natūralius eksperimentus dideliuose duomenų šaltiniuose. Tai taip pat padės jums sukurti ir naudoti potencialiai įdomų duomenų šaltinį būsimiems projektams.

    1. Perskaitykite " Penney (2016) ir pakartokite jo 2 paveikslą, kuriame rodomi "Terorizmo" puslapių puslapiai prieš ir po "Snowden" apreiškimų. Suprasti išvadas.
    2. Toliau atkartoti 4A paveikslą, kuriame lyginama tyrimo grupė (straipsniai, susiję su "terorizmu") su lyginamuoju grupe, kuriai naudojami DHS sąraše esantys "DHS ir kitų agentūrų" raktiniai žodžiai (žr. Priedėlio 10 lentelę ir 139 išnašą). Suprasti išvadas.
    3. Iš dalies (b) jūs palyginote tyrimo grupę su viena lyginamuoju grupe. "Penney" taip pat palygino su dviem kitomis lyginamojo pobūdžio grupėmis: "Infrastruktūros sauga" susiję straipsniai (priedėlio 11 lentelė) ir populiariausi "Wikipedia" puslapiai (priedėlio 12 lentelė). Pasiimkite alternatyvią lyginamąją grupę ir patikrinkite, ar b dalies rezultatai yra jautrūs jūsų pasirinktai lyginamųjų grupei. Koks pasirinkimas yra labiausiai prasmingas? Kodėl?
    4. Penney teigė, kad raktiniai žodžiai, susiję su "terorizmu", buvo naudojami "Wikipedia" straipsnių parinkimui, nes JAV vyriausybė citavo terorizmą kaip pagrindinį savo internetinės priežiūros praktikos pagrindimą. Patikrinus šiuos 48 su "terorizmu" susijusius raktinius žodžius, Penney (2016) taip pat atliko MTurk apklausą, prašydama respondentų vertinti kiekvieną iš "ht" raktinių žodžių pagal vyriausybės nerimą, privatumo pažeidimą ir vengimą (priedo 7 ir 8 lentelės ) Pakartokite MTurk apklausą ir palyginkite savo rezultatus.
    5. Remdamiesi dalies (d) ir straipsnio skaitymo rezultatais, ar sutinkate su Penney pasirinktais tematikos raktiniais žodžiais tyrimo grupėje? Kodėl ar kodėl ne? Jei ne, ką jūs pasiūlytumėte vietoj?
  8. [ lengva ] " Efrati (2016) , Remdamasis konfidencialia informacija, pranešė, kad "bendras" "Facebook" pasidalijimas sumažėjo apie 5,5% per metus, o "originalus transliavimas" per metus nukrito 21%. Šis sumažėjimas buvo itin aktualus "Facebook" naudotojams iki 30 metų amžiaus. Ataskaitoje šis sumažėjimas buvo priskirtas prie dviejų veiksnių. Vienas iš jų yra "draugų" žmonių "Facebook" skaičiaus augimas. Kitas yra tas, kad keitimasis veikla perėjo prie pranešimų ir tokių konkurentų kaip "Snapchat". Ataskaitoje taip pat atskleidžiamos kelios taktikos, kurias "Facebook" stengėsi paskatinti dalintis, įskaitant "News Feed" algoritmo tweaks, kad originalios žinutės būtų labiau pastebimos, taip pat periodiniai priminimai apie pradines žinutes "Šią dieną". Kokias pasekmes, jei tokių yra, ar šias išvadas turi mokslininkai, kurie nori naudoti "Facebook" kaip duomenų šaltinį?

  9. [ vidutinė ] Koks skirtumas tarp sociologo ir istoriko? Pagal Goldthorpe (1991) pagrindinis skirtumas yra duomenų rinkimo kontrolė. Istorikai priversti naudotis relikvijomis, o sociologai gali pritaikyti savo duomenų rinkimą konkretiems tikslams. Skaitykite Goldthorpe (1991) . Kaip skiriasi sociologija ir istorija, susijusia su užsakomųjų ir gatavų daiktų idėja?

  10. [ sunku ] Tai grindžiama ankstesniu klausimu. Goldthorpe (1991) atkreipė dėmesį į keletą kritiškų atsakymų, įskaitant vieną iš Nicky Harto (1994) kuris ginčijo Goldthorpe's atsidavimą pritaikytiems duomenims. Siekiant išsiaiškinti galimus specialių duomenų apribojimus, Hart apibūdino "Brangusio darbuotojo" projektą - didžiulį tyrimą, kurio metu buvo išmatuoti socialinės klasės ir balsavimo santykius, kuriuos "Goldthorpe" ir jo kolegos atliko 1960 m. Viduryje. Kaip galima tikėtis iš mokslininko, kuris teikė pirmenybę suplanuotoms duomenims apie nustatytus duomenis, "Suvestinio darbuotojo" projektas surinko duomenis, kurie buvo pritaikyti neseniai pasiūlytai teorijai apie socialinės klasės ateitį gyvenimo lygio didėjimo epochoje. Tačiau Goldthorpe ir jo kolegos kažkaip "pamiršo" rinkti informaciją apie moterų balsavimo elgesį. Štai kaip Nicky Hart (1994) apibendrino visą epizodą:

    "... sunku išvengti išvados, kad moterys buvo praleidžiamos, nes šį" pritaikytą "duomenų rinkinį apsiribojo paradigmaška logika, dėl kurios buvo neįtraukta moterų patirtis. Vadovaujantis teorine sąmoningumo vizija ir veiksmu, kaip vyrų susirūpinimu ... Goldthorpe ir jo kolegos sukūrė empirinių įrodymų rinkinį, kuris padėjo ir palaikė savo teorines prielaidas, o ne parodė jiems tinkamą atitikties testą. "

    Hart tęsė:

    "Suvestinio darbuotojo projekto empirinės išvados mums daugiau pasakoja apie viduramžių sociologijos vyriškąją vertę, negu jos informuoja apie stratifikacijos procesus, politiką ir materialųjį gyvenimą".

    Ar galėtumėte pamąstyti apie kitus pavyzdžius, kuriuose specialiai pritaikytu duomenų rinkimu į jį įterptas duomenų surinkėjas? Kaip tai palyginti su algoritminiu sumaišymu? Kokių pasekmių tai gali turėti tuo atveju, kai mokslininkai turėtų naudoti readymade ir kai jie turėtų naudoti custommades?

  11. [ vidutinė ] Šiame skyriuje aš priešinosi mokslininkų surinktiems duomenims mokslo darbuotojams, kuriuos sukūrė bendrovės ir vyriausybės. Kai kurie žmonės šiuos administracinius įrašus vadina "rastais duomenimis", kuriuos jie skiria "sukurtiems duomenims". Tiesa, kad tyrinėtojai randa administracinius įrašus, bet jie taip pat yra labai suplanuoti. Pavyzdžiui, modernios technologijos įmonės labai sunkiai dirba, norėdamos rinkti ir tvarkyti savo duomenis. Taigi, šie administraciniai įrašai yra surasti ir suprojektuoti, tai priklauso tik nuo jūsų perspektyvos (2.12 pav.).

    2.12 paveikslas. Vaizdas yra ir antis, ir triušis; tai, ką matote, priklauso nuo jūsų perspektyvos. Tiek randami ir suprojektuoti dideli duomenų šaltiniai; vėl, ką matote, priklauso nuo jūsų perspektyvos. Pvz., Mobiliojo telefono kompanijos surinkti skambučių duomenų įrašai yra mokslinės perspektyvos duomenys. Tačiau tie patys įrašai yra duomenys, skirti žmonėms, dirbantiems telefono kompanijos atsiskaitymo skyriuje. Šaltinis: Mėnesio populiarumo mokslas (1899) / "Wikimedia Commons".

    2.12 paveikslas. Vaizdas yra ir antis, ir triušis; tai, ką matote, priklauso nuo jūsų perspektyvos. Tiek randami ir suprojektuoti dideli duomenų šaltiniai; vėl, ką matote, priklauso nuo jūsų perspektyvos. Pvz., Mobiliojo telefono kompanijos surinkti skambučių duomenų įrašai yra mokslinės perspektyvos duomenys. Tačiau tie patys įrašai yra duomenys, skirti žmonėms, dirbantiems telefono kompanijos atsiskaitymo skyriuje. Šaltinis: Mėnesio populiarumo mokslas (1899) / " Wikimedia Commons" .

    Pateikite duomenų šaltinio pavyzdį, kai jį pamatę, kaip rasti ir suprojektuotą, naudinga, kai naudojate tą duomenų šaltinį moksliniams tyrimams.

  12. [ lengva ] Mąstytoje eseje krikščionis Sandvigas ir Esteris Hargittai (2015) Padalijo skaitmeninius tyrimus į dvi plačias kategorijas, priklausomai nuo to, ar skaitmeninė sistema yra "priemonė" ar "tyrimo objektas". Pirmosios rūšies pavyzdys, kur sistema yra priemonė - tai Bengtssono ir jo kolegų (2011) tyrimas dėl mobiliojo telefono duomenų naudojimo stebėti migraciją po 2010 m. žemės drebėjimo Haityje. Antrojo tipo pavyzdys, kai sistema yra tyrimo objektas, yra Jenseno tyrimas (2007) apie tai, kaip mobiliųjų telefonų įdiegimas visoje Kerala, Indijoje, paveikė žuvų rinkos veikimą. Manau, kad šis skirtumas yra naudingas, nes paaiškinama, kad skaitmeninių duomenų šaltinių tyrimai gali turėti gana skirtingus tikslus, net jei jie naudoja tą patį duomenų šaltinį. Norint toliau paaiškinti šį skirtumą, apibūdinkite keturis tyrimus, kuriuos matėte: du, kurie naudoja skaitmeninę sistemą kaip priemonę, o dvi - naudojasi skaitmenine sistema kaip tyrimo objektu. Jei norite, galite naudoti šio skyriaus pavyzdžius.