2.3.1.1 Великий

Цей переклад був створений за допомогою комп'ютера. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

2.3.1.1 Великий

Великі набори даних є засобом для досягнення мети; вони не є самоціллю.

Перший з трьох хороших характеристик великих обсягів даних є найбільш обговорюваною: це великі дані. Ці джерела даних можуть бути великими трьома різними способами: багато людей, багато інформації на людину, або багато спостережень з плином часу. Маючи великий набір даних дозволяє деякі специфічні типи досліджень для вимірювання гетерогенності, вивчення рідкісних подій, виявлення невеликих відмінностей, а також робить причинні оцінки за даними спостережень. Крім того, здається, призведе до певного типу нехлюйства.

Перше, для яких розмір особливо корисний виходять за рамки середніх, щоб зробити оцінки для конкретних підгруп. Наприклад, Гері Кінг, Дженніфер Пан, і Моллі Робертс (2013) вимірюється ймовірність того, що повідомлення соціальних медіа в Китаї будуть піддані цензурі з боку уряду. Само по собі це середня ймовірність видалення не надто корисно для розуміння того, чому уряд піддає цензурі деякі повідомлення, але не інші. Але, оскільки їх набір даних включені 11 мільйонів постів, Кінг і його колеги також отримані оцінки для ймовірності цензури щодо посад на 85 окремих категорій (наприклад, порнографія, Тибет, і трафік в Пекіні). Порівнюючи ймовірність цензури на посади в різних категоріях, вони були в стані зрозуміти більше про те, як і чому уряд піддає цензурі певні типи повідомлень. З 11 тисяч посад (а не 11 мільйонів повідомлень), то вони не змогли б проводити ці категорії конкретних оцінок.

По-друге, розмір особливо корисний для вивчає рідкісних подій. Наприклад, Гоел і його колеги (2015) хотіли вивчити різні способи , якими твіти можуть піти вірусні. Через великі каскади повторних твітів вкрай рідкісні, близько в 3000-їм потрібно було вивчити більше мільярда твітів, щоб знайти чималі каскади для їх аналізу.

По-третє, великі набори даних дозволяють дослідникам виявити невеликі відмінності. Насправді, більша частина уваги великих обсягів даних в галузі про ці невеликих відмінностей: надійно виявляти різницю між 1% і 1,1% число кліків по оголошенню може перевести на мільйони доларів у вигляді додаткових доходів. У деяких наукових установках, такі невеликі відмінності можуть бути не дуже важливо (навіть якщо вони є статистично значущими). Але, в деяких параметрах політики, такі невеликі відмінності можуть стати важливим, якщо дивитися в сукупності. Наприклад, якщо є два заходи у сфері охорони здоров'я і один трохи більш ефективний, ніж інший, то перехід на більш ефективне втручання може в кінцевому підсумку врятувати тисячі додаткових життів.

Нарешті, великі набори даних значно збільшують нашу здатність робити причинні оцінки за даними спостережень. Хоча великі набори даних не докорінно змінити проблеми зі створенням причинний висновок з даних спостережень, зіставлення і природні експерименти-два методи, які дослідники розробили для виготовлення причинних претензій з боку наглядових даних, як витягти велику користь з великих наборів даних. Я поясню, і проілюструвати це твердження більш докладно далі в цьому розділі, коли я описую стратегії досліджень.

Хоча великий бізнес, як правило, хороша властивість при правильному використанні, я помітив, що великий бізнес зазвичай призводить до концептуальної помилки. З якоїсь причини, великий бізнес, здається, веде дослідників ігнорувати, як створювався їх дані. У той час як великий бізнес дійсно зменшує необхідність турбуватися про випадкову помилку, на самому ділі збільшує необхідність турбуватися про систематичних помилок, види помилок , які я опишу в більш нижче , які виникають з ухилів в тому , як створюються і зібрані дані. У невеликому наборі даних, як випадкова помилка і систематична помилка може мати важливе значення, але в великому наборі даних випадкової помилки можна усереднити далеко і домінує систематична помилка. Дослідники, які не думають про систематичної помилки буде в кінцевому підсумку, використовуючи свої великі набори даних, щоб отримати точну оцінку неправильні речі; вони будуть точно неточні (McFarland and McFarland 2015) .