Іс-шаралар

  • қиындық дәрежесі: оңай оңай , орташа орта , қиын қиын , өте қиын өте қиын
  • математиканы қажет етеді математика қажет )
  • кодтауды талап етеді ( кодтауды талап етеді )
  • деректерді жинау ( деректерді жинау )
  • менің сүйіктідерім ( менің сүйікті )
  1. [ орта , менің сүйікті ] Алгоритмдік конфигурациялау Google Flu Trends проблемасы болды. Lazer et al. (2014) тарапынан қағазды оқыңыз Lazer et al. (2014) , сондай-ақ, Google-дің инженеріне мәселені түсіндіріп, оны қалай түзетуге болатынын түсіндіріп, қысқаша анық электрондық хат жазыңыз.

  2. [ орта ] Bollen, Mao, and Zeng (2011) Twitter-тің деректерін қор нарығын болжау үшін қолдануға болады деп мәлімдейді. Бұл қорытынды Twitter-ден жиналған деректерге (Jordan 2010) негізделген қор нарығына инвестициялау үшін Derwent Capital Markets хедж-қорын құруға әкелді. Бұл қаражатқа ақша салудан бұрын қандай дәлелдемелерді көргіңіз келеді?

  3. [ оңай ] Кейбір қоғамдық денсаулық сақтау адвокаттары темекі шегуді тоқтатуға тиімді көмек деп санайды, ал басқалары никотиннің жоғары деңгейі сияқты ықтимал қауіптер туралы ескертеді. Зерттеуші электронды темекіге қатысты қоғамдық пікірді зерттеуге шешім қабылдағанын елестетіп көріңізші.

    1. Сіз осы зерттеуде неғұрлым алаңдатып отырған үш ықтимал ұғымдар қандай?
    2. Clark et al. (2016) осындай зерттеуді жүргізді. Біріншіден, олар 2012 жылдың қаңтарынан бастап 2014 жылдың желтоқсан айына дейін электронды темекіге байланысты кілт сөздерді пайдаланатын 850 000 электрондық твит жинады. Таяу тексерулерден кейін олар осы телеарналардың көпшілігін автоматтандырылған (яғни, адамдар шығармаған) екенін түсінді, ал бұл автоматты твиттердің көбісі айтарлықтай болды жарнама. Олар органикалық tweets автоматты твиттер бөлуге арналған адам табу алгоритмі әзірледі. Осы адам табу алгоритмін пайдаланған кезде, олардың 80% -ы автоматтандырылған. Бұл нәтиже сіздің жауапыңызды (а) бөлігіне өзгертеді ме?
    3. Органикалық және автоматтандырылған твиттерге деген пікірді салыстыра отырып, олар автоматты твиттердің органикалық твитке қарағанда оңды екендігін анықтады (5.84 қарсы 6.17). Бұл нәтиже сіздің жауапыңызды (b) өзгерте ме?
  4. [ оңай ] 2009 жылдың қараша айында Twitter Twitter-дегі «Не істеп жатырсың?» Деген сценарийдегі «Не болып жатыр?» Деген сұрақты өзгертті (https://blog.twitter.com/2009/whats-happening).

    1. Сіз қалай ойлайсыз, трюктарға және / немесе олардың твиттеріне әсер ететін сұрақтардың өзгеруі болады?
    2. «Не істеп жатырсың?» Деген сұрақты таңдаған бір зерттеу жобасын атаңыз. Неліктен түсіндіріңіз.
    3. «Не болып жатыр?» Деген сұрақты таңдаған бір зерттеу жобасын атаңыз. Неліктен түсіндіріңіз.
  5. [ оңай ] «Retweets» көбінесе Twitter-ге ықпал етудің таралуын өлшеу үшін қолданылады. Бастапқыда пайдаланушылар өздерінің ұнаған твиттерін көшіруге және қоюға, түпнұсқа авторды өз қалауымен белгілеуге және оның «рет» екенін көрсету үшін твитке дейін «RT» сөзін қолмен теру керек болды. Содан кейін, 2009 жылы Twitter «ретует» батырмасын қосқан. 2016 жылдың маусым айында Twitter өзінің пайдаланушыларына өз tweets (https://twitter.com/twitter/status/742749353689780224) қайта жазуға мүмкіндік берді. Сіздің ойыңызша, бұл өзгерістер сіздің зерттеуіңізде «ретвита» ретінде қолдануға қалай әсер етуі керек деп ойлайсыз? Неге?

  6. [ өте қиын , деректерді жинау , кодтауды талап етеді , менің сүйікті ] Көпшілік талқыланған мақалада Мишель мен оның әріптестері (2011) Ұзақ мерзімді мәдени үрдістерді анықтауға тырысқан кезде бес миллионнан астам цифрланған кітаптардың мазмұнын талдады. Қолданылған деректер енді Google NGrams деректер жиынтығы ретінде шығарылды, сондықтан деректерді көбейту және олардың кейбір жұмысын кеңейту үшін пайдалануға болады.

    Мақалада көптеген нәтижелердің бірінде Мишель мен оның әріптестері тезірек және тезірек ұмытып кететінімізді айтады. Бір жылда «1883» дейтіндер 1875-1975 жылдар аралығында «1883» деп жарияланған 1 граммдық үлесті есептеді. Олар осы пропорция осы жылы болған оқиғаларға қызығушылықтың өлшемі деп пайымдады. 3а суретте олар үш жыл ішінде пайдалану траекториясын құрастырды: 1883, 1910 және 1950 жыл. Бұл үш жыл жалпыға бірдей үлгіні пайдаланады: осы жылға дейін кішкене пайдалану, сосын шыңырау, содан кейін ыдырау. Әрі қарай, жыл сайын ыдырау жылдамдығын анықтау үшін Мишель мен әріптестер 1875-1975 жылдар аралығындағы барлық жылдар бойы «жартысын» өлшеді. 3а-суретте олардың әрқайсысының жартысын жыл азаяды және олар бұл өткенді тезірек және жылдамырақ ұмытып кеткенімізді білдіреді. Олар Ағылшын тілі корпусының 1-ші нұсқасын қолданды, бірақ кейінірек Google корпустың екінші нұсқасын шығарды. Сіз кодты бастамас бұрын сұрақтың барлық бөліктерін оқып шығыңыз.

    Бұл әрекет сізге қайта пайдалану кодын жазуды, нәтижелерді түсіндіруді және деректерді сөндіруді (мысалы, ыңғайсыз файлдармен жұмыс істеу және деректерді өңдеу) қамтамасыз етеді. Бұл қызмет сізге бай және қызықты деректер жиынымен жұмыс істеуге көмектеседі.

    1. Google Books NGram Viewer веб-сайтынан шикізат деректерін алыңыз. Атап айтқанда, 2012 жылдың 1 шілдесінде шығарылған Ағылшын тілі корпусының 2 нұсқасын қолданыңыз. Қысылмаған, бұл файл 1,4 Гбайт.

    2. Michel et al. (2011) 3а суретінің негізгі бөлігін қайта жасаңыз Michel et al. (2011) . Michel et al. (2011) . Бұл суретті қайта жасау үшін сіз екі файлды қажет етеді: ішінара жүктелген (a) және шоты сандарды пропорцияларға түрлендіру үшін қолдануға болатын «жалпы санау» файл. Жалпы сандар файлында оқуға қиындық тудыратын құрылым бар екенін ескеріңіз. NGram деректерінің 2-ші нұсқасы Michel et al. (2011) ұқсас нәтижелерді береді Michel et al. (2011) , олар 1-нұсқадағы деректерге негізделген?

    3. Енді графикаңызды NGram Viewer құрған графиктен тексеріңіз.

    4. 3А суретін (негізгі сурет) қайта жасаңыз, бірақ \(y\) -axis-ді өзгертуге болмайды (айтылған тариф емес).

    5. (B) және (d) арасындағы айырмашылық сізді Michel және басқаларының нәтижелерінің кез-келгенін қайта қарастыруға әкеледі. (2011 ж.). Неге?

    6. Енді айтылған үлесті пайдаланып, 3а суретін салыңыз. Яғни, жыл сайын 1875-1975 жылдар аралығында сол жылдың жартысын есептеп шығарыңыз. Жарты өмір - бұл сандардың үлесі оның шыңының жартысына жеткенге дейін өтетін жылдардың саны. Айта кету керек, Michel et al. (2011) Жарты ғұмырты бағалау үшін күрделірек нәрсе жасайды - Ақпаратты Интернеттегі ақпараттың III.6 бөлімін қараңыз, бірақ олар екі көзқарас ұқсас нәтиже береді деп мәлімдейді. NGram деректерінің 2-ші нұсқасы Michel et al. (2011) ұсынған нәтижелерге ұқсас нәтижелер береді ме? Michel et al. (2011) , олар 1-нұсқадағы деректерге негізделген? (Кеңес: Егер олай болмаса, таң қалма.)

    7. Жылдар, әсіресе, өте жылдам немесе өте баяу ұмытып кеткен жылдар болды ма? Осы модельдің ықтимал себептері туралы қысқаша ойланыңыз және сіз анықтамаларды қалай анықтағаныңызды түсіндіріңіз.

    8. Енді NGrams деректерінің 2-ші нұсқасына қытай, француз, неміс, иврит, итальян, орыс және испан тілдеріндегі деректерді көшіріңіз.

    9. Барлық тілдер бойынша салыстыру кезінде, әсіресе, өте жылдам немесе өте баяу ұмытып кеткен жылдар сияқты жыл болды ма? Осы үлгі бойынша ықтимал себептер туралы қысқаша ойланыңыз.

  7. [ өте қиын , деректерді жинау , кодтауды талап етеді , менің сүйікті ] Penney (2016) NSA / PRISM қадағалау (яғни Сноуден айғақтары) туралы кең тараған жарияланым 2013 жылдың маусым айында құпиялылық мәселелерін көтеретін тақырыптар бойынша Уикипедия мақаласының күрт және кенеттен төмендеуімен байланысты екенін зерттеді. Егер солай болса, бұл мінез-құлықтың өзгеруі жаппай қадағалаудан туындаған үрейлі әсерге сәйкес келеді. Penney (2016) көзқарасы кейде үзілген уақыттық сериялар деп аталады, бұл 2.4.3 бөлімінде сипатталған тәсілдерге қатысты.

    Тақырыптың кілт сөздерін таңдау үшін, Пенни АҚШ-тың Ұлттық қауіпсіздік департаменті әлеуметтік желілерді бақылау және бақылау үшін қолданатын тізімге сілтеме жасайды. DHS тізімі белгілі бір іздеу шарттарын бірқатар мәселелерге бөледі, яғни «Денсаулық сақтау алаңы», «Инфрақұрылымдық қауіпсіздік» және «Терроризм». Зерттеу тобы үшін Пенни «Терроризмге» қатысты 48 негізгі сөздерді қолданды (8-кестені қараңыз). ). Содан кейін ол Wikipedia мақаласын қарауды 32 айлық уақыт аралығында 2012 жылдың қаңтардың басынан 2014 жылдың тамыз айының аяғына дейін тиісті 48 Википедия мақаласын ай сайын есепке алды. Оның дәлелін күшейту үшін ол бірнеше салыстырмалы топтарды қадағалау арқылы жасады басқа тақырыптар бойынша мақалаларды қарау.

    Енді сіз Penney (2016) көшіруге және ұзартуға Penney (2016) . Бұл қызметке қажетті барлық шикізат деректерін Википедиядан алуға болады. Немесе сіз оны R-пакетінен (Meissner and R Core Team 2016) . Жауаптарыңызды жазғанда, қандай деректер көзін пайдаланғаныңызды ескеріңіз. (Бұл іс-әрекет сондай-ақ 6-шы тарауда да бар екенін ескеріңіз). Бұл әрекет үлкен деректер көздеріндегі табиғи эксперименттер туралы деректермен күресу және ойлау туралы тәжірибе береді. Ол сондай-ақ болашақ жобалар үшін ықтимал қызықты дерек көзімен жұмыс істей бастайды.

    1. Penney (2016) оқыңыз Penney (2016) және Сноуденнің айғақтарына дейінгі және кейінгі беттерін «Терроризм» бетінің көріністерін көрсететін 2-суретін қайталаңыз. Қорытындыларды түсіндіріңіз.
    2. Содан кейін, DHS тізімінен «DHS және басқа агенттіктер» бөліміне жататын кілт сөздерді пайдалана отырып, зерттеу тобын («Терроризм» - байланысты мақалалар) салыстырмалы топпен салыстыратын 4А суретін қайталаңыз (10-кестені және 139-ескертуді қараңыз). Қорытындыларды түсіндіріңіз.
    3. Бөлімде (b) зерттеу тобын бір салыстырмалы топпен салыстырдыңыз. Пенни сондай-ақ басқа екі салыстырмалы топтармен: «Инфрақұрылымдық қауіпсіздік» мақалаларымен (11-қосымша) және танымал Википедия беттерімен салыстырды (12-қосымша). Альтернативті салыстырмалы топпен келіңіз және (b) бөлігінен алынған нәтижелер салыстырмалы топты таңдауыңызға сезімтал ма екенін тексеріңіз. Қандай таңдау жасайды? Неліктен?
    4. Пенни «Терроризмге» қатысты негізгі сөздер Уикипедия мақалаларын таңдау үшін пайдаланылғанын мәлімдеді, себебі АҚШ үкіметі терроризмді он-лайн режимінде қадағалаудың негізгі әдісі ретінде көрсетті. Осы 48 «Терроризмді» байланыстыратын түйінді сөздер ретінде Penney (2016) MTurk-та сауалнама жүргізді, респонденттерге «Үкіметтік қателіктер», «Құпиялылық-сезімтал» және «Аулақ болу» терминдері бойынша әрбір сөзді бағалауды сұрады (7 және 8-кестелер). ). MTurk-тегі зерттеуді қайталаңыз және нәтижелеріңізді салыстырыңыз.
    5. Бөлімнің (d) және мақалаңыздың нәтижелерін ескере отырып, сіз Пеннидің зерттеу тақырыбындағы негізгі тақырыпты таңдауымен келісесіз бе? Неге? Олай болмаса, оның орнына не ұсынасыз?
  8. [ оңай ] Efrati (2016) құпия ақпаратқа сүйенсек, Facebook-та «жалпы пікір алмасу» жыл ішінде шамамен 5,5% -ға азайған, ал «түпнұсқалық хабар тарату» 21% -ға төмендеген. Бұл құлдырау әсіресе 30 жасқа толмаған Facebook пайдаланушыларымен өткір болды. Баяндамада екі факторға төмендеу себеп болды. Біреуі Facebook-дегі «достар» санының өсуі. Екіншіден, кейбір бөлісу қызметі хабар алмасу және Snapchat сияқты бәсекелестерге ауысты. Баяндамада сондай-ақ «Facebook Today» функциясымен бірлесе отырып, «Facebook» -тегідей, «Бұл күні» функциясы бар түпнұсқалық хабарламалардың мерзімді ескертулерін, сондай-ақ түпнұсқалық хабарларды неғұрлым танымал ететін жаңалықтар беру алгоритмінің твиттерін қолдануға тырысты. Қандай нәтиже болса, бұл деректерді Facebook-ды деректер көзі ретінде пайдаланғысы келетін зерттеушілерге тиесілі ме?

  9. [ орта ] Әлеуметтанушы мен тарихшы арасында қандай айырмашылық бар? Goldthorpe (1991) деректері бойынша, негізгі айырмашылық деректерді жинауды бақылау болып табылады. Тарихшылар реликті қолдануға мәжбүр болады, ал әлеуметтанушылар деректерді жинауды нақты мақсаттарға бейімдей алады. Goldthorpe (1991) оқу. Социология мен тарих арасындағы айырмашылық касомадалар мен дайындық идеясына қалай қатысты?

  10. [ қиын ] Бұл алдыңғы сұранысқа негізделген. Goldthorpe (1991) (1994) , Goldthorpe компаниясының жеке деректерге деген берілгендігіне күмән келтірген бірқатар сыни жауаптарды жасады. Арнайы деректердің ықтимал шектеулерін түсіндіру үшін Харт «Affluent Worker Project» жобасын, 1960-жылдардың ортасында Goldthorpe мен әріптестері жүргізген әлеуметтік сынып пен дауыс беру арасындағы қарым-қатынастарды өлшеуге арналған үлкен сауалнаманы сипаттады. Зерттеуші деректердің үстінен жасалған деректерді қолдаған ғалымнан күткендей, «Affluent Worker Project» әлеуметтік стандарттың болашақтағы өмір сүру стандарттары туралы жақында ұсынылған теорияға қатысты деректерді жинақтады. Бірақ Goldthorpe мен әріптестері әйелдердің дауыс беру тәртібі туралы ақпаратты жинауға ұмтылды. Ники Харт (1994) бүкіл эпизодты қалай сипаттаған:

    «... бұл әйелді жоққа шығарғаны туралы қорытындыдан аулақ болу қиын, өйткені бұл» арнайы «деректер жиынтығы әйелдер тәжірибесін жоққа шығаратын парадигматикалық логикамен шектелді. Класс сана мен теориялық көзқарасқа негізделген ерлермен күресу ... Гольдтерорп және оның әріптестері өздерінің теориялық жол берулерін қамтамасыз етіп, олардың өздерінің дұрыс сәйкестігі сынағына ұшырататын эмпирикалық дәлелдер жиынтығын жасады. «

    Харт жалғастырды:

    «Affluent Worker Project» жобасының эмпирикалық қорытындылары орта ғасырлық социологияның маскулиналық құндылықтары туралы көбірек мәлімет береді, олар стратификация процестерін, саясат пен материалдық өмірді хабардар етеді.

    Арнайы деректерді жинауда деректер жинаушысының кірістері бар басқа мысалдар туралы ойлайсыз ба? Бұл алгоритмдік шатастыруға қалай қарайды? Зерттеушілер дайындықты және касмазадты пайдалану керек болған кезде бұл қандай салдары болуы мүмкін?

  11. [ орта ] Осы тарауда зерттеушілердің компаниялар мен үкіметтердің әкімшілік жазбалары бар зерттеушілер үшін жинаған деректеріне қайшы келеді. Кейбіреулер бұл әкімшілік жазбаларды «деректерді тапты» деп атайды, олар «дайындалған деректермен» айырмашылығы бар. Әкімшілік жазбаларды зерттеушілер анықтайды, бірақ олар да жоғары ойластырылған. Мысалы, заманауи технологиялық компаниялар деректерді жинау және бақылау үшін өте қиын. Осылайша, бұл әкімшілік жазбалар табылған және жобаланған, бұл сіздің перспективаға байланысты болады (2.12-сурет).

    Сурет 2.12: Сурет үйрек пен қоян болып табылады; Сіз көрген нәрселер сіздің перспективаға байланысты. Үлкен деректер көздері табылған және жобаланған; қайтадан көрінетін нәрсе сіздің перспективаларыңызға байланысты. Мысалға, ұялы телефон компаниясы жинаған шақыру деректеріне зерттеушінің көзқарасы бойынша деректер табылған. Дегенмен, дәл осы жазбалар телекомпанияның төлем бөлімінде жұмыс істейтін адамның көзқарасы бойынша деректерді жасайды. Дерек көзі: Ай сайынғы танымал ғылым (1899) / Уикипедия.

    Сурет 2.12: Сурет үйрек пен қоян болып табылады; Сіз көрген нәрселер сіздің перспективаға байланысты. Үлкен деректер көздері табылған және жобаланған; қайтадан көрінетін нәрсе сіздің перспективаларыңызға байланысты. Мысалға, ұялы телефон компаниясы жинаған шақыру деректеріне зерттеушінің көзқарасы бойынша деректер табылған. Дегенмен, дәл осы жазбалар телекомпанияның төлем бөлімінде жұмыс істейтін адамның тұрғысынан деректерді жасайды. Дерек көзі: Ай сайынғы танымал ғылым (1899) / Уикипедия .

    Деректер көзін мысал ретінде келтіріңіз, ол табылған және жобаланған, бұл деректер көзін зерттеу үшін пайдалану кезінде пайдалы.

  12. [ оңай Христиан Сандвиг пен Эзтер Харгиттай (2015) цифрлық жүйенің «құрал» немесе «зерттеу нысаны» бола отырып, сандық зерттеуді екі кең санатқа бөледі. Бірінші типтің мысалы - жүйе Егер Bengtsson және әріптестерімен ғылыми-зерттеу құралы болып табылады (2011) 2010 жылы Гаитиде жер сілкінісінен екінші заттай-жүйесі Йенсен зерттеу болып табылады зерттеу объектісі болып табылады мысал кейін көші-қон бақылау үшін ұялы телефон деректерін пайдалану туралы (2007) , Үндістанның Керала қаласындағы ұялы телефондарды қалай енгізу туралы балық нарығының жұмысына әсер етті. Мен бұл айырмашылықты пайдалы деп санаймын, өйткені ол деректердің сандық деректерін пайдаланатын болса да, олар әртүрлі мақсаттарға ие болуы мүмкін. Бұл айырмашылықты түсіндіру үшін сіз көрген төрт зерттеуді сипаттаңыз: екеуі цифрлық жүйені аспап ретінде, ал екеуі цифрлық жүйені зерттеу объектісі ретінде пайдаланады. Қаласаңыз, осы тараудың мысалдарын пайдалана аласыз.