3.6 Обследования, связанные с большими источниками данных

Связывание обследований с большими источниками данных позволяет создавать оценки, которые были бы невозможны при использовании обоих источников данных по отдельности.

Большинство обследований являются самостоятельными, самодостаточными усилиями. Они не строят друг друга, и они не используют все другие данные, существующие в мире. Это изменится. Слишком много можно получить, связав данные обследований с большими источниками данных, обсуждаемыми в главе 2. Объединив эти два типа данных, часто можно сделать что-то невозможное с каждым из них индивидуально.

Существует несколько различных способов, с помощью которых данные опроса могут быть объединены с большими источниками данных. В этом разделе я опишу два подхода, которые являются полезными и четкими, и я буду называть их обогащенными, спрашивая и усиливая запрос (рисунок 3.12). Хотя я собираюсь проиллюстрировать каждый подход подробным примером, вы должны признать, что это общие рецепты, которые могут использоваться с различными типами данных опроса и различными типами больших данных. Кроме того, вы должны заметить, что каждый из этих примеров можно рассматривать двумя разными способами. Возвращаясь к идеям главы 1, некоторые люди будут рассматривать эти исследования как примеры данных обследований «custommade», которые улучшают «готовые» большие данные, а другие будут рассматривать их как примеры «готовых» больших данных, улучшающих данные «custommade». Вы должны уметь видеть оба вида. Наконец, вы должны заметить, как эти примеры разъясняют, что опросы и большие источники данных являются дополнением, а не заменой.

Рисунок 3.12. Два способа объединения больших источников данных и данных опроса. В обогащенном запросе (раздел 3.6.1) большой источник данных имеет основную меру интереса, и данные опроса создают необходимый контекст вокруг него. В усиленном запросе (раздел 3.6.2) большой источник данных не имеет основной меры, представляющей интерес, но используется для усиления данных опроса.

Рисунок 3.12. Два способа объединения больших источников данных и данных опроса. В обогащенном запросе (раздел 3.6.1) большой источник данных имеет основную меру интереса, и данные опроса создают необходимый контекст вокруг него. В усиленном запросе (раздел 3.6.2) большой источник данных не имеет основной меры, представляющей интерес, но используется для усиления данных опроса.