иш

  • кыйынчылык даражасы: жеңил жеңил , орто орто , катуу катуу Абдан оор абдан катуу
  • математиканы талап кылат ( математиканы талап кылат )
  • код талап кылат ( талап коддоо )
  • маалыматтарды топтоо ( маалымат чогултуу )
  • Сүйүктүүлөрүмдү ( Менин Сүйүктүү )
  1. [ орто , Менин Сүйүктүү ] Algorithmic адаштырышты Google тумоосу жетишкендиктер менен бир көйгөй болгон. Менен кагаз Оку Lazer et al. (2014) , ошондой эле кыска, маселени Google боюнча түшүндүрүп инженер ачык кат жана аны чечүү үчүн кандай бир идеясын сунуш жаз.

  2. [ орто ] Bollen, Mao, and Zeng (2011) Twitter маалыматтары баалуу кагаздар рыногунун алдын ала колдонсо болот деп ырастайт. Бул ачылыш боюнча хедж-фонд-Derwent бир Капитал кагаздарын жүргүзүүнү Markets үчүн Twitter алынган маалыматтардын негизинде түзүлүшүнө алып келди (Jordan 2010) . Ошол каражаттын акча коёрдон мурун кандай далил келтире турган көргүбүз келет?

  3. [ жеңил ] Саламаттык сактоонун кээ бир мамлекеттик коргоочулар электрондук чылым чегүү токтотуу үчүн натыйжалуу жардам карап жатканда, башкалары, мисалы, никотиндин жогорку эле мүмкүн болуучу тобокелдиктер жөнүндө эскертет. изилдөөчүсү электрондук тамеки байланыштуу Twitter билдирүүлөрүн чогултуу жана маанай талдоо жүргүзүү менен электрондук тамекиге карата коомдук пикирди иликтөө максатында токтом кылат деп ойлошот.

    1. Бул изилдөө тууралуу абдан тынчсызданып үч мүмкүн болгон проблемалар кайсылар?
    2. Clark et al. (2016) сыяктуу изилдөө чуркап. Биринчиден, алар 2012-жылдын электрондук тамеки байланыштуу ачкыч 2014-жылдын декабрына чейин жакын текшерүү учурунда колдонулган 850000 Tweets чогултулган, алар бул сөзмө сөз көп (башкача айтканда, адамдар чыгарган эмес) дардын экенин түшүнүп, бул дардын сөзмө көптөгөн олуттуу болду роликтер. Алар органикалык сөзмө келген технологиялар Tweets бөлүп адам аныктоо алгоритми иштелип чыккан. Бул адам алар сөзмө 80% дардын деп тапты алгоритмин аныктоо колдонуу. Бул ачылыш бөлүгү Сиздин жообунузду дайыма өзгөртө (а) барбы?
    3. Алар органикалык жана технологиялар сөзмө сөз менен жакташкан салыштырганда, алар дардын Tweets органикалык сөзмө сөз (5.84 салыштырмалуу 6.17) караганда алда канча жакшы деп табылган. Бул ачылыш Жоопту өзгөртүү (б) барбы?
  4. [ жеңил ] 2009-жылы ноябрда, Twitter тартып Бир кутучага суроо өзгөрдү "Сен эмне кылып жатасыз?" Жана "Эмне болуп кетти?" (Https://blog.twitter.com/2009/whats-happening).

    1. Кантип сапта өзгөртүү Tweets жана / же алар бакшасын эмне ким кандай таасир берет деп ойлойсуз?
    2. Аты, атасынын аты, бир изилдөө долбоорун тез арада келет, ал үчүн: "Сиз эмне кылып жатасыз?" Эмне үчүн түшүндүргүлө.
    3. Эгер тез артык турган бир изилдөө долбоорун Ысым: "Эмне болуп кетти?" эмне үчүн түшүндүргүлө.
  5. [ жеңил ] "Retweets" көп таасирин өлчөө үчүн колдонулат жана Twitter таасир тарайт. Башында, колдонуучулар көчүрүп, алар жакты Tweet көчүрүп, ал Retweet экенин көрсөтүү үчүн жөнөтүлгөн чейин баштапкы жазуучу өзүнүн / анын сабы менен, кол менен "RT" деп терип, белгиле керек болчу. Андан кийин, 2009-жылы, Twitter бир "Retweet" баскычын кошумчалады. 2016-жылдын июнунда, Twitter колдонуучулар өз Tweets Retweet үчүн (https://twitter.com/twitter/status/742749353689780224) үчүн мүмкүнчүлүк берген. Сиз бул өзгөрүүлөрдү сиз изилдөө "retweets" колдонуу кандай таасир этиши керек деп ойлойсузбу? Эмне үчүн?

  6. [ абдан катуу , маалымат чогултуу , талап коддоо , Менин Сүйүктүү ] Бир көп талкууланган кагаз-жылы, Michel жана кесиптештери (2011) узак мөөнөттүү маданий багыттарын аныктоого аракет беш миллиондон ашуун санарипттик китептердин мазмуну талданып. Алар колдонгон маалымат азыр Google NGrams танышуусуна катары бошотулду, ошондуктан, биз ишке ашырган жана алардын ишинин кээ бир узартуу маалыматтарды колдоно аласыз.

    кагаз көп натыйжаларынын бири-жылы, Michel жана кесиптештер, биз тез унутуп жатабыз деп ырасташкан. бир жыл ичинде, "1883", алар бири-жылы 1875 жана "1883" болгон 1975 ортосунда жарыяланган 1-грамм үлүшү эсептелет деп. Алар бул үлүшү Ошол жылы болгон окуяга кызыгуу бир чара болуп саналат деп ойлодум. Алардын көрсөткүч 3a, алар үч жылдан бери колдонуу орбитасынын ойлоп: 1883, 1910, жана 1950-Бул үч жыл жалпы үлгү менен бөлүшүү: ошол жылы аз пайдалануу, андан кийин өсүш, андан ажыроо. Андан кийин, ар бир жыл үчүн ажыроо ылдамдыгы сандык баалоо үчүн, Michel жана кесиптештер бардык жылдан бери жыл сайын "жарым-өмүр" 1875 жана 1975-ортосунда өз көрсөткүч эсептелген 3a (сүрөттө), алар ар бир жарым ажыроо көрсөттү жыл, жана бул биз тез өткөндү унутуп жатат дегенди билдирет деп ырасташкан төмөндөөдө. Алар англис тили корпусунда 1 тилиндеги колдонулган, бирок кийинчерээк Google корпусунда экинчи нускасын чыгарды. Эгер код башталардан мурда Сураныч, бардык окушат.

    Бул иш-чара сизди жыйынтыктарын чечмелеп, коддун жазуу жүзүндө жана маалымат талаш-(мисалы, эпсиз делолорун жана жетишпеген маалыматтар менен иштөөгө менен иштөө сыяктуу) берет. Бул иш-Ошондой эле ордунан туруп, бай жана кызыктуу танышуусуна менен чуркап жардам берет.

    1. Google Books Ngram Viewer сайтынан чийки маалыматтарды алуу. Атап айтканда, 1-июлда, 2012-жылдын Uncompressed жарык көргөн нускасын англис тили корпусунда 2, колдонуу керек, бул билэ 1.4GB болуп саналат.

    2. Деген сан 3a негизги бөлүгүн түзүү Michel et al. (2011) . Сиз катыштарда салып чийки эсептешкиси айландыруу үчүн колдоно аласыз бөлүгүндө көчүрүп бири (а) жана "жалпы эсеби" Киллэрээри, бул көрсөткүчтү түзүү үчүн, эки документ керек. Жалпы эсеби билэ ал бир аз окуп кыйын болушу мүмкүн кылган бир түзүлүшкө ээ экенин карап көрөлү. Ngram маалыматтарды версия 2 берилген окшош натыйжа береби Michel et al. (2011) , алардын нускасы 1 маалыматтар негизделген?

    3. Азыр Ngram Viewer тарабынан түзүлгөн полёта каршы диаграммасын текшерет.

    4. Түзүү көрсөткүч 3a (негизги сүрөт), ал эми өзгөртө \(y\) чийки сөз саны (сөз курсу эмес) болушу -axis.

    5. (Б) ортосундагы айырма эмнеде жана (г) Сиз Michel ж.б. жыйынтыгы кандай таразалап алып келет. (2011-жыл). Эмне үчүн?

    6. Эми сөз үлүшү пайдаланып, көрсөткүч 3a боюнча ички көбөйүшөт. Бул 1875 жана 1975 ортосунда ар бир жыл үчүн, башкача айтканда, ошол жылы жарым өмүрүн эсептөө. жарым ажыроо сөз үлүшү жарымы анын жогорку мааниге жеткен алдында өтүп жыл саны аныкталат. Белгилей кетчү нерсе Michel et al. (2011) , дагы колдоочу Онлайн маалымат, бирок жарым-бөлүмдү карагыла III.6 аныктоо татаал бир нерсе, алар экөө тең көз караштар окшош натыйжа берет дешет. Ngram маалыматтардын нускасын 2 көрөбү берилген окшош натыйжа Michel et al. (2011) , алардын нускасы 1 маалыматтар негизделген? (Жардам: бул эмес бербей коёру турган иш.)

    7. Мындай өзгөчө тез же өзгөчө жай унутуп жыл бузар, ал эле бир жыл бар беле? Кыскача үлгүсүнө мүмкүн болгон себептеринин тууралуу божомолдорду жана эл бузар, аныкталган кантип түшүндүрүп берет.

    8. Азыр да NGrams маалыматтарды 2 чыгаруу үчүн бул натыйжаны ишке ашырган, кытай, испан, немис, Hebrew, италян, орус жана испан.

    9. Бардык тилдер боюнча салыштырмалуу, мисалы, өзгөчө тез же өзгөчө жай унутуп жыл болуп, эл бузар, болгон ар кандай жыл болду? Кыскача үлгүсүнө мүмкүн болгон себептеринин жөнүндө божомолдошот.

  7. [ абдан катуу , маалымат чогултуу , талап коддоо , Менин Сүйүктүү ] Penney (2016) NSA / призмасы көзөмөл жөнүндө кеңири таралган айкындуулук (б.а., Сноуден аяттар) 2013-жылы июнда купуялык тынчсыздандырат темалар боюнча Wikipedia макалаларга жол курч жана капыстан тёмёндёшъ менен байланыштуу болгон жокпу изилденген. Эгер ошондой болсо, жүрүм-туруму менен, бул өзгөрүү массалык байкоо натыйжасында медиага менен туура келет. Мамиле Penney (2016) , кээде Токтотулган убакыт сериясы долбоорду деп аталат, ал эми 2.4.3 бөлүмүндө баяндалган ыкмалар менен байланышкан.

    тема ачкыч тандоо үчүн, Пенни көзөмөлдөө жана коомдук массалык маалымат каражаттарын мониторинг боюнча АКШнын Улуттук коопсуздук департаменти тарабынан колдонулган тизме деп аталат. DHS тизме бир Изделүүчү терминдерди бир катар маселелер categorizes, башкача айтканда, "Ден соолук камын ойлоп," "структурасы коопсуздук" жана "терроризм. Террорчулук" (тиркеме стол көрүп 8 "изилдөө тобу үчүн Пенни байланыштуу 48 сөздөрдү колдонгон" ). Анан Wikipedia макала 48 тийиштүү ай сайын көрүүлөрү Wikipedia 32-айдан ашык макалалардын мезгил ичинде чогуу алганда, 2012-жылдын башынан тартып 2014-жылдын акырына чейин аргумент бекемдөө үчүн, ал да көз салуу менен бир нече салыштыруу топтору түзүлдү башка темалар боюнча макала көрүүлөр.

    Азыр, сен көбөйтө жана узартуу үчүн бара жаткан Penney (2016) . Эгер бул иш үчүн керектүү бүт чийки маалыматтар Wikipedia алууга болот. Же сиз R-топтом wikipediatrend аны ала алабыз (Meissner and R Core Team 2016) . Эгер жооп жазганда, сиз колдонгон турган маалымат булагы сураныч белгилешет. (Ошол эле иш-аракеттер, ошондой эле 6-бөлүмдө кездешет Белгилей кетсек) Бул иш-чара сизди чоң маалымат булактары жаратылыш эксперименттери жөнүндө талаш-ой жүгүртүү маалыматтарды иш берет. Ал ошондой эле келечектеги долбоорлорду ишке ашыруу үчүн бир кызыктуу маалымат булагы менен иштеп калат.

    1. Оку: Penney (2016) , анын саны 2 жуптала чейин "терроризм", кашарларды барактарды жана Сноуден ачыкка чыгып бет карашын көрсөтөт. чечмелешине.
    2. Кийинки сүрөттө 4а, изилдөө тобу салыштырат ( "терроризм", кашарларды макала) DHS тизмеден "DHS жана башка мамлекеттик ыйгарым укуктуу органдар" деген категориясына ачкыч сөздөрдү колдонуп Салыштырып тобу менен (тиркеме дасторкон көрүп, 10 жана 139 Шилтемени) көбөйүшөт. чечмелешине.
    3. бөлүгүндө (б) бир компаратордогу тобу менен изилдөө тобу салыштырган. Пенни ошондой эле башка эки компаратордогу топтор менен салыштырганда: "структурасы коопсуздук" менен байланышкан макалалар (тиркеме стол 11) жана популярдуу Wikipedia беттен (тиркеме стол, 12). Башка компаратордогу тобу менен келип, бир бөлүгү алынган ачылыштар (б) компаратордогу топтун тандоодо эске жүргөн-жүрбөгөнүбүздү текшерип. Кайсы ойнойт көпчүлүк мааниде тандоо? Неге?
    4. Пенни "терроризм" деп тиешелүү ачкыч сөздөр АКШ өкмөтү онлайн көзөмөл иштери үчүн негизги себеп катары терроризмге келтирилген, анткени Wikipedia макалалар тандоо үчүн колдонулат деп билдирди. Бул 48 "терроризм", кашарларды ачкыч бир текшерүү болуп, Penney (2016) , ошондой эле бюджеттик оор, Купуялык сезгич жана четтеши (тиркеме столдун 7 жана 8-жагынан HT ачкыч ар бир баа респонденттерди сурап, MTurk боюнча сурамжылоо жүргүздү ). MTurk боюнча изилдөө көбөйүшөт жана натыйжаларды салыштыруу.
    5. жарым-жартылай жыйынтыгы боюнча (г) жана макала окуп, сен изилдөө тобунун тема ачкыч Пенни тандоосуна менен макулсуз? Эмне үчүн? Эгер туура эмес болсо, анын ордуна сунуш кандай?
  8. [ жеңил ] Efrati (2016) , "түп берүү бөлүшүү" жыл ичинде түшүп 21% жыл, ал эми жыл ичинде 5,5% жыл сайын Facebook кыскарды жөнүндө "жалпы бөлүштүрүү", башкача айтканда, жашыруун маалыматка негизделген, билдирди. Бул төмөндөө Facebook колдонуучулардын 30 жашка чейинки менен өзгөчө курч болду. Кабарда эки чейин төмөндөшү таандык. Бир "досторум" эл Facebook боюнча бар санынын өсүшү болуп саналат. башка кээ бир чогуу иш кабарлашуу жана мындай Snapchat сыяктуу атаандаштары өттү деп саналат. Кабарда ошондой эле бир нече ыкмаларды Facebook оригинал кылып бирге, анын ичинде поток алгоритми Жымсалдагычтар көтөрүүгө аракет кылды эле көрүнүктүү, ошондой эле: "Бул күнү" өзгөчөлүгү менен оригинал мезгил-мезгили менен эскертүүлөрүн ачып берген. болсо, кандай тыянак, бул ачылыштар Facebook маалымат булагы катары колдонууну каалаган изилдөөчүлөр үчүн жете алабыз деп эсептейсизби?

  9. [ орто ] Коюшубуз жана тарыхчы ортосунда кандай айырма бар? Goldthorpe боюнча (1991) , негизги айырмасы маалыматтарды чогултуу контролдоо болуп саналат. Тарыхчылар кымыз конкреттүү максаттар үчүн маалыматтарды чогултуу жараша ылайыкташтырсак болот, ал эми жемпер пайдаланууга мажбур болуудабыз. Оку: Goldthorpe (1991) . custommades жана readymades идеясы .Оздору менен тарыхтын ортосундагы айырмачылык менен кандай байланышы бар?

  10. [ катуу ] Бул мурунку quesiton үстүнө куруп жатат. Goldthorpe (1991) бир катар сын, анын ичинде бир Nicky Харт тартып (1994) түзгөн маалыматтарды ылайыкташтырышы керек Goldthorpe Аюбду туудурган. арналган маалыматтардын мүмкүн болуучу чектөөлөр түшүндүрүү үчүн, Харт бай кызматкер долбоору, 1960-жылдардын ортосунда эле Goldthorpe жана кесиптештери тарабынан жүргүзүлгөн коомдук класс жана добуш ортосундагы мамилелерди ченөө үчүн чоң сурамжылоого сүрөттөлгөн. Бир табылган маалыматтардын маалымат иштелип жактырган бир окумуштуунун күтүлгөн эле, бай кызматкер долбоору жашоо стандарттарын жогорулатуу жөнүндө доордо коомдук класс келечеги тууралуу бир аз мурда сунушталган теориясын чечүү үчүн ылайык алынган маалыматтарды чогулткан. Бирок, Goldthorpe жана кесиптештери кандайдыр бир жол менен аялдардын добуш берүү жүрүм-турум тууралуу маалымат топтоо үчүн "унутуп". Бул жерде Nicky Харт кантип (1994) , бүт эпизодду кыскача:

    "... ал [болот] аялдар бул танышуусуна аялдардын тажрыйба алынып парадигмалык логика менен камакта отурган" арналган жасады ", анткени жылдырууга корутунду качуу кыйын. эркек Түйшүктүн катары ээлеген абалына жана иш-теориялык көрүнүш менен шартталган ... Goldthorpe жана анын кесиптештери тойгузуп, өздөрүнүн теоретикалык божомолдорун шайкештигинин жарактуу сыноо аларды ашкерелеп ордуна өрчүтүп, эмпирикалык далилдер бир катар курушту. "

    Харт улантып, мындай деди:

    "Бай кызматкер долбоорунун эмпирикалык табылгалары курчуду, саясатка жана материалдык жашоо жараяндарды билдирүүгө караганда бизге орто кылымдагы .Оздору masculinist баалуулуктары жөнүндө көбүрөөк айтып берчи".

    Сиз арналган маалыматтарды чогултуу ошол Таштын үстүнө курулуп маалыматтар коллекторду проблемалар бар башка да мисалдарды келтире аласызбы? Кантип бул алгоритмдик адаштырышты салыштырган? Алар custommades пайдаланууга керек болгондо изилдөөчүлөр readymades пайдаланууга керек болгондо кандай тыянак үчүн болушу мүмкүн жана эмне үчүн?

  11. [ орто ] Бул бөлүмдө, мен компаниялардын жана башкаруу органдары тарабынан түзүлгөн мамлекеттик эсепке алуу менен изилдөөчүлөр үчүн изилдөөчүлөр тарабынан чогултулган маалыматтарды карама-каршы келет. Кээ бир адамдар бул башкаруучулук эсепке алуу, алар менен карама-каршы "маалымат таап," деп атаган "арналган маалыматтар." Бул башкаруу жазуулар изилдөөчүлөр тарабынан табылган чындык, бирок алар да өтө иштелип чыккан. Мисалы, заманбап технологиялык компаниялар чогултуп, өздөрүнүн маалыматтарды тандап алуу абдан кыйын иш. Ошентип, бул башкаруу жазуулар табылган жана иштелип чыккан да бар, ал жөн гана көз карашы (Figure 2.12) көз каранды.

    Figure 2.12: Сүрөттө өрдөктү жана коён да болуп саналат; эмнени көргөнү сиздин көз каранды. Big маалымат булактары аны таап алып, кайра иштелип чыккан эки жатышат; кайрадан сенин көз карашы, силер эмнени көргөнү көз каранды. Мисалы, уюлдук байланыш компаниясы тарабынан чогултулган чакыруу маалымат кагаздарын илимий көз карашы менен маалыматтарды тапса болот. Бирок, бул бир эле иш кагаздарын тел компаниянын эсеп-кысап бөлүмүнүн иштеген кимдир бирөөнүн көз карашы боюнча маалыматтарды иштеп чыкты. Source: Popular Science ай (1899) / Wikimedia Commons.

    Figure 2.12: Сүрөттө өрдөктү жана коён да болуп саналат; эмнени көргөнү сиздин көз каранды. Big маалымат булактары аны таап алып, кайра иштелип чыккан эки жатышат; кайрадан сенин көз карашы, силер эмнени көргөнү көз каранды. Мисалы, уюлдук байланыш компаниясы тарабынан чогултулган чакыруу маалымат кагаздарын илимий көз карашы менен маалыматтарды тапса болот. Бирок, бул бир эле иш кагаздарын тел компаниянын эсеп-кысап бөлүмүнүн иштеген кимдир бирөөнүн көз карашы боюнча маалыматтарды иштеп чыкты. Source: Popular Science ай (1899) / Wikimedia Commons .

    изилдөө үчүн маалымат булагын колдонууда таап, иштеп пайдалуу да, аны көрүп, ал жерде маалымат булагынын үлгү калтырган.

  12. [ жеңил ] Ой-дил менен, Ыйсанын жолдоочусу Sandvig жана Eszter Hargittai (2015) бөлүүчү санариптик изилдөө санариптик система, же "куралы" экенин жараша эки жалпы категорияга кирген "изилдөө объектиси." Кайсы түрү биринчи мисал системасы бир Bengtsson жана кесиптештер менен изилдөө куралы болуп эсептелет (2011) уюлдук байланыш 2010-жылы Гаитидеги жер титирөөдөн кийин жер которушун көзөмөлгө маалыматтарды бир мисал экинчи түрү кайда системасы объект изилдөө Дженсен изилдөө-сырткары колдонуу боюнча (2007) Керала боюнча уюлдук киргизүү, Индия балык рыногунун иштешин таасири кандай. санариптик маалымат булактарын колдонуу менен изилдөө, алар маалымат булагынын бир түрүн колдонуп жаткан болсо да, такыр башка максаттарга туура келиши мүмкүн экенин түшүндүргөн, анткени Мен бул айырмачылык пайдалуу. мындан ары бул айырманы тактоо үчүн, Сиз көргөн төрт изилдөө сүрөттөйт: эки куралы катары санариптик системасын колдонуп, изилдөөнүн объектиси катары санариптик системасын колдонгон эки. Сиз каалаган болсо, ушул бөлүмдүн мисалдарды колдоно аласыз.