2.4.1 Counting речі

Простий підрахунок може бути цікаво , якщо об'єднати хороший питання з хорошими даними.

Незважаючи на те, що мова йде про витончену мову, багато соціальних досліджень дійсно просто підраховують речі. У віці великих даних дослідники можуть розраховувати більше, ніж будь-коли, але це не означає, що вони повинні просто починати підрахунок випадково. Натомість дослідники повинні запитати: що варто підрахувати? Це може здатися цілком суб'єктивним, але існують певні загальні закономірності.

Часто студенти мотивують свої підрахункові дослідження, говорячи: я збираюся підрахувати те, чого ніхто раніше не зарахував. Наприклад, студент може сказати, що багато людей вивчали мігрантів, і багато хто вивчав близнюків, але ніхто не вивчав мігрантських близнюків. На мій досвід, ця стратегія, яку я називаю мотивацією за відсутності , зазвичай не призводить до хороших досліджень. Мотивація за відсутністю люблять сказати, що там є отвір, і я збираюся працювати дуже важко, щоб його заповнити. Але не кожну дірку потрібно заповнити.

Замість мотивації за відсутності, я думаю, що кращою стратегією є пошук важливих або цікавих дослідницьких питань (або в ідеалі обох). Обидва ці терміни дещо важко визначити, однак один із способів думати про важливі дослідження полягає в тому, що він має певний вимірюваний вплив чи джерело інформації важливому рішенню політиків. Наприклад, вимірювання рівня безробіття є важливим, оскільки це є показником економіки, яка керує політичними рішеннями. Взагалі, я думаю, що дослідники дуже добре розуміють, що важливо. Отже, у решті цього розділу я збираюся навести два приклади, коли я вважаю, що підрахунок є цікавим. У кожному випадку дослідники не вважали випадково; Скоріше за все, вони розраховували на дуже конкретні налаштування, які виявили важливу інформацію про загальні уявлення про те, як працюють соціальні системи. Іншими словами, багато того, що робить ці цікаві підрахункові вправи цікавими не самими даними, це випливає з цих більш загальних ідей.

Один з прикладів простої сили підрахунку походить від дослідження Генрі Фарбера (2015) про поведінку водіїв таксі в Нью-Йорку. Хоча ця група, можливо, не звучить за своєю суттю цікавою, це стратегічний дослідницький сайт для тестування двох конкуруючих теорій в економіці праці. Для цілей досліджень Фарбера є дві важливі риси щодо робочого середовища таксистів: (1) їх погодинна заробітна плата коливається з дня на день, частково залежно від факторів, таких як погода, і (2) кількість годин, які вони робота може коливатися кожен день на основі своїх рішень. Ці особливості ведуть до цікавого питання про співвідношення між погодинною заробітною платою та робочими годинами. Неокласичні моделі в економіці передбачають, що водії таксі будуть працювати більше в дні, коли вони мають більш високу погодинну заробітну плату. Альтернативно, моделі економічної поведінки передбачають саме протилежне. Якщо водії встановлюють певну цільову суму доходу - скажімо, 100 доларів на день - і працюйте до тих пір, поки ця ціль не буде досягнута, тоді водії будуть працювати менше годин у дні, коли вони заробляють більше. Наприклад, якщо ви були цільовими працівниками, ви можете працювати чотири години в добрій день (25 доларів на годину) і п'ять годин на поганому дні (20 доларів за годину). Отже, чи працюють водії більше годин на добу з більш високою погодинною заробітною платою (як передбачають неокласичні моделі) чи більше годин на дні з нижчою погодинною заробітною платою (як передбачають поведінкові економічні моделі)?

Щоб відповісти на це питання, Фарбер отримав дані про кожне таксі, зроблене кабінами Нью-Йорка в період з 2009 по 2013 рік, дані, які зараз є загальнодоступними. Ці дані, які були зібрані за допомогою електронних лічильників, що місто вимагає використання таксі, включає в себе інформацію про кожну поїздку: час початку, місце початку, час закінчення, кінцеве місце проживання, вартість проїзду та відгук (якщо плату було придбано за допомогою кредитної картки) . Використовуючи дані датчика таксі, Фарбер визнав, що більшість водіїв працюють більше за дні, коли заробітна плата вища, відповідно до неокласичної теорії.

На додаток до цього основного висновку, Фарбер зміг використати розмір даних для кращого розуміння неоднорідності та динаміки. Він з'ясував, що з часом нові водії поступово навчаються працювати більше годин на високооплачувані дні (наприклад, вони навчаються поводитися, як прогнозує неокласична модель). І нові водії, які ведуть себе як цільові працівники, швидше за все, залишать водіїв таксі. Обидва ці більш витончені висновки, які допомагають пояснити спостережувану поведінку поточних драйверів, були можливі лише завдяки розміру набору даних. У попередніх дослідженнях вони виявили неможливості виявити, що короткий проміжок використовував листи з паперу з невеликої кількості водіїв таксі (Camerer et al. 1997) .

Дослідження Фарбера було близьким до кращого випадку для дослідження з використанням великого джерела даних, оскільки дані, зібрані містом, були досить близькими до даних, які Фарбер зібрав (одна відмінність полягає в тому, що Фарбер хотів би отримати дані про загальну заробітна плата та тарифи плюс поради, але у дані міста включені лише поради, оплачені кредитною карткою). Проте самих даних було недостатньо. Ключ до дослідження Фарбера викликав цікаве запитання до даних - це питання, яке має більші наслідки, ніж ці специфічні умови.

Другий приклад підрахунку речей походить від дослідження Гари Кінга, Дженніфер Пана та Молли Робертса (2013) стосовно онлайн-цензури з боку китайського уряду. Проте у цьому випадку дослідники мали збирати власні великі дані, і вони мали справу з тим фактом, що їх дані були неповними.

Король та колеги були мотивовані тим фактом, що публікації в соціальних мережах в Китаї піддаються цензурі величезним державним апаратом, який, як вважають, включає десятки тисяч людей. Однак дослідники та громадяни не мають сенсу, як ці цензори вирішують, який вміст слід видалити. Ученим Китаю насправді є конфліктні очікування щодо того, які види публікацій, швидше за все, будуть видалені. Деякі вважають, що цензури зосереджені на посадах, які критично ставляться до держави, інші вважають, що вони зосереджені на посадах, які заохочують колективну поведінку, наприклад, протести. Визначення того, яке з цих очікувань правильне, має наслідки для того, як дослідники розуміють Китай та інші авторитарні уряди, які беруть участь у цензурі. Тому Король і колеги хотіли порівняти публікації, які були опубліковані та згодом видалені з публікацій, які були опубліковані та ніколи не видаляються.

Збір цих постів бере участь дивовижний інженерний подвиг поповзом більше 1000 китайських соціальних медіа сайтів, кожен з різними Макети сторінок-пошуку релевантних повідомлень, а потім переглядають ці повідомлення, щоб побачити, які згодом були вилучені. На додаток до звичайних інженерних проблем, пов'язаних з великомасштабним веб-повзання, цей проект мав додаткову проблему, що це потрібно було дуже швидко, тому що багато цензурованих пости зняті менш ніж за 24 годин. Іншими словами, повільний гусеничний пропустить багато постів, які були піддані цензурі. Крім того, пошукові роботи повинні були зробити все це збір даних під час ухилення від виявлення щоб веб-сайти соціальних медіа блокувати доступ або іншим чином змінити свою політику у відповідь на дослідження.

До того часу, коли ця величезна інженерна задача була завершена, Кінг і його колеги отримали близько 11 мільйонів повідомлень на 85 різних визначених тем, кожен із яких має передбачуваний рівень чутливості. Наприклад, темою високої чутливості є Ай Вейвей, художник-дисидент; темою середньої чутливості є оцінка та девальвація китайської валюти, а темою низької чутливості є Кубок світу. З цих 11 мільйонів посад, приблизно 2 мільйони були піддані цензурі. Дещо дивно, що Кінг та його колеги виявили, що публікації з високочутливих тем піддаються цензурі лише трохи частіше, ніж публікації з темами середньої та низької чутливості. Іншими словами, китайські цензори приблизно так само ймовірно цензують посаду, яка згадує Ай Вейвей як посаду, яка згадує Кубок світу. Ці висновки не підтверджують ідею, що уряд цензурує всі посади на делікатних теми.

Простий розрахунок цензури за темами може бути оманливим. Наприклад, уряд може цензурувати посади, які підтримують Ай Вейвей, але залишити посади, які критикують його. Для того, щоб більш уважно відрізняти посади, дослідникам необхідно було виміряти настрої кожного посту. На жаль, незважаючи на велику роботу, повністю автоматизовані методи розпізнавання настроїв з використанням існуючих словників все ще не дуже добре в багатьох ситуаціях (подумайте над проблемами, створивши емоційну шкалу від 11 вересня 2001 року, описану в розділі 2.3.9). Тому Король та його колеги потребували способу позначити свої 11 мільйонів публікацій соціальних мереж, як вони (1) критикують державу, (2) підтримують державу, або (3) невідповідні або фактичні повідомлення про події. Це звучить як величезна робота, але вони вирішили це, використовуючи потужний трюк, який є загальним у науці даних, але відносно рідкий у соціальній науці: контрольоване навчання ; див. малюнок 2.5.

По-перше, на етапі, який зазвичай називається попередньою обробкою , дослідники перетворювали публікації соціальних мереж у матрицю документ-термінів , де було для кожного документа та одного стовпця один рядок, який фіксував, чи містить публікація певне слово (наприклад, протест чи трафік) . Далі, група дослідників допомагала оцінити почуття вибірки посад. Тоді вони використовували ці дані, позначені рукою, щоб створити модель машинного навчання, яка могла б визначити почуття публікації на основі його характеристик. Нарешті, вони використовували цю модель для оцінки почуттів усіх 11 мільйонів посад.

Таким чином, замість того, щоб вручну читати та маркувати 11 мільйонів постів, що було б логічно неможливим, Кінг та його колеги вручну накреслили невелику кількість повідомлень, а потім використовували контрольоване навчання, щоб оцінити почуття всіх посад. Завершивши цей аналіз, вони змогли зробити висновок, що дещо дивно, що ймовірність видалення посади не має відношення до того, критикує вона державу чи підтримує державу.

Рисунок 2.5: Спрощена схема процедури, яку використовували Кінг, Пан та Робертс (2013), щоб оцінити почуття 11 мільйонів китайських публікацій у соціальній мережі. По-перше, на етапі попередньої обробки дослідники перетворили пости соціальних мереж у матрицю документ-термінів (див. Grimmer і Stewart (2013) для отримання додаткової інформації). По-друге, вони вручну кодували почуття невеликої вибірки посад. По-третє, вони підготували контрольовану модель навчання, щоб класифікувати почуття посад. По-четверте, вони використовували контрольовану модель навчання, щоб оцінити почуття всіх посад. Дивіться Кінг, Пан і Робертс (2013), додаток B для більш детального опису.

Рисунок 2.5: Спрощена схема процедури, яку використовували King, Pan, and Roberts (2013) щоб оцінити почуття 11 мільйонів китайських публікацій у соціальній мережі. По-перше, на етапі попередньої обробки дослідники перетворили пости соціальних мереж у матрицю документ-термінів (див. Grimmer and Stewart (2013) для отримання додаткової інформації). По-друге, вони вручну кодували почуття невеликої вибірки посад. По-третє, вони підготували контрольовану модель навчання, щоб класифікувати почуття посад. По-четверте, вони використовували контрольовану модель навчання, щоб оцінити почуття всіх посад. Дивіться King, Pan, and Roberts (2013) , додаток B для більш детального опису.

Зрештою, Кінг і його колеги виявили, що регулярно цензуються лише три типи посад: порнографія, критика цензурів та ті, що мали потенціал колективної дії (тобто можливість вести широкомасштабні акції протесту). Спостерігаючи величезну кількість повідомлень, які були видалені, і публікації, які не були вилучені, Кінг та його колеги змогли дізнатись, як працюють цензори, просто переглядаючи та підраховуючи. Крім того, передчасна тема, яка відбудеться в цій книзі, під наглядом навчального підходу, який вони використовували, - маркування деяких результатів, а потім побудова моделі машинного навчання для позначення решти - виявляється дуже поширеним у соціальних дослідженнях у цифрову епоху . Ви побачите фотографії, дуже схожі на малюнок 2.5 в розділах 3 (Задавайте питання) та 5 (Створення масового співробітництва); це одна з небагатьох ідей, яка з'являється в декількох розділах.

Ці приклади - робоча поведінка водіїв таксі в Нью-Йорку та цензурна поведінка китайського уряду соціальних мереж - показують, що відносно простий підрахунок великих джерел даних в деяких ситуаціях може призвести до цікавих та важливих досліджень. Проте в обох випадках дослідникам доводилося цікавити питання великому джерелу даних; даних сам по собі було недостатньо.