3.6.1 Wzbogacone pytanie

W wzbogaconym pytaniu dane z ankiety budują kontekst wokół dużego źródła danych, które zawiera ważne pomiary, ale brakuje mu innych.

Jednym ze sposobów połączenia danych ankiety z dużymi źródłami danych jest proces, który będę nazywać wzbogaconym pytaniem . W bogatym pytaniu duże źródło danych zawiera ważne pomiary, ale brakuje w nim innych pomiarów, więc badacz gromadzi te brakujące wyniki w ankiecie, a następnie łączy oba źródła danych. Przykładem wzbogaconego pytania jest studium Burke and Kraut (2014) temat tego, czy interakcja na Facebooku zwiększa siłę przyjaźni, co opisałem w sekcji 3.2). W takim przypadku Burke i Kraut połączyli dane z ankiety z danymi dziennika Facebooka.

Otoczenie, w którym pracowali Burke i Kraut, oznaczało jednak, że nie musieli radzić sobie z dwoma dużymi problemami, które naukowcy wzbogacali, pytając typowo o twarz. Po pierwsze, faktycznie łączenie zestawów danych na poziomie indywidualnym, proces nazywany powiązaniem rekordów , może być trudny, jeśli nie ma unikalnego identyfikatora w obu źródłach danych, który może być użyty do zapewnienia, że ​​poprawny rekord w jednym zestawie danych jest dopasowany do prawidłowego zapisu w innym zestawie danych. Drugim głównym problemem z pytaniami wzbogaconymi jest to, że jakość dużego źródła danych będzie często trudna do oceny przez naukowców, ponieważ proces, w którym tworzone są dane, może być zastrzeżony i może być podatny na wiele problemów opisanych w rozdziale 2. Innymi słowy, wzbogacone pytania będą często wiązały się z podatnym na błędy łączeniem ankiet z czarnymi skrzynkami źródeł danych o nieznanej jakości. Mimo tych problemów, wzbogacone pytania mogą być wykorzystane do przeprowadzenia ważnych badań, co zademonstrowali Stephen Ansolabehere i Eitan Hersh (2012) w swoich badaniach wzorców głosowania w Stanach Zjednoczonych.

Frekwencja wyborcza była przedmiotem szeroko zakrojonych badań w dziedzinie nauk politycznych, a w przeszłości wiedza badaczy na temat tego, kto głosuje i dlaczego generalnie opiera się na analizie danych z ankiety. Głosowanie w Stanach Zjednoczonych jest jednak niezwykłym zachowaniem, ponieważ rząd rejestruje, czy głosował każdy obywatel (oczywiście rząd nie rejestruje, za kogo głosuje każdy obywatel). Przez wiele lat te rządowe zapisy głosowania były dostępne na papierowych formularzach, rozproszonych w różnych lokalnych urzędach rządowych w całym kraju. To bardzo utrudniło, ale nie uniemożliwiło, aby politolodzy mieli pełny obraz elektoratu i porównali to, co ludzie mówią w ankietach dotyczących głosowania z ich faktycznym zachowaniem w głosowaniu (Ansolabehere and Hersh 2012) .

Ale te zapisy głosowania zostały zdigitalizowane, a szereg prywatnych firm systematycznie zbiera i łączy je w celu stworzenia obszernych plików do głosowania głównego, które zawierają zachowania głosowania wszystkich Amerykanów. Ansolabehere i Hersh nawiązali współpracę z jedną z tych firm - katalicką LCC - w celu wykorzystania swojego głównego pliku do głosowania w celu uzyskania lepszego obrazu elektoratu. Ponadto, ponieważ ich badania opierały się na cyfrowych zapisach zebranych i opracowanych przez firmę, która zainwestowała znaczące zasoby w gromadzenie i harmonizację danych, oferowała szereg korzyści w stosunku do wcześniejszych wysiłków, które zostały przeprowadzone bez pomocy firm i przy użyciu rekordów analogowych.

Podobnie jak wiele dużych źródeł danych w rozdziale 2, główny plik katalisty nie zawierał wielu informacji demograficznych, dotyczących postaw i zachowań, jakich Ansolabehere i Hersh potrzebowali. W rzeczywistości byli szczególnie zainteresowani porównaniem zgłoszonych zachowań głosujących w ankietach z potwierdzonym zachowaniem w głosowaniu (tj. Informacjami w bazie danych Catalyst). Ansolabehere i Hersh zgromadzili dane, które chcieli, jako duże badanie społeczne, CCES, wspomniane wcześniej w tym rozdziale. Następnie przekazali swoje dane Katalizatorowi, a Katalistka przekazała im scalony plik danych, który zawierał potwierdzone zachowanie w głosowaniu (od Katalistyki), zgłoszone przez siebie głosowanie (z CCES) oraz demografię i postawy respondentów (z CCES) (rysunek 3.13). Innymi słowy, Ansolabehere i Hersh połączyli dane z rejestrów głosowania z danymi z ankiety, aby przeprowadzić badania, które nie były możliwe dla każdego źródła danych indywidualnie.

Rysunek 3.13: Schemat badania Ansolabehere and Hersh (2012). Aby utworzyć główny plik danych, Catalist łączy i harmonizuje informacje z wielu różnych źródeł. Ten proces łączenia, niezależnie od tego, jak ostrożny, będzie propagował błędy w oryginalnych źródłach danych i wprowadzi nowe błędy. Drugim źródłem błędów jest rekordowe powiązanie między danymi z badania a głównym plikiem danych. Gdyby każda osoba miała stabilny, unikalny identyfikator w obu źródłach danych, połączenie byłoby trywialne. Katalizator musiał jednak wykonać powiązanie za pomocą niedoskonałych identyfikatorów, w tym przypadku nazwy, płci, roku urodzenia i adresu domowego. Niestety, w wielu przypadkach mogą być niekompletne lub niedokładne informacje; wyborca ​​o imieniu Homer Simpson może pojawić się jako Homer Jay Simpson, Homie J Simpson, a nawet Homer Sampsin. Pomimo możliwości wystąpienia błędów w głównym pliku danych Catalyst i błędów związanych z rekordowym powiązaniem, Ansolabehere i Hersh byli w stanie zbudować zaufanie do swoich oszacowań za pomocą kilku różnych rodzajów kontroli.

Rysunek 3.13: Schemat badania Ansolabehere and Hersh (2012) . Aby utworzyć główny plik danych, Catalist łączy i harmonizuje informacje z wielu różnych źródeł. Ten proces łączenia, niezależnie od tego, jak ostrożny, będzie propagował błędy w oryginalnych źródłach danych i wprowadzi nowe błędy. Drugim źródłem błędów jest rekordowe powiązanie między danymi z badania a głównym plikiem danych. Gdyby każda osoba miała stabilny, unikalny identyfikator w obu źródłach danych, połączenie byłoby trywialne. Katalizator musiał jednak wykonać powiązanie za pomocą niedoskonałych identyfikatorów, w tym przypadku nazwy, płci, roku urodzenia i adresu domowego. Niestety, w wielu przypadkach mogą być niekompletne lub niedokładne informacje; wyborca ​​o imieniu Homer Simpson może pojawić się jako Homer Jay Simpson, Homie J Simpson, a nawet Homer Sampsin. Pomimo możliwości wystąpienia błędów w głównym pliku danych Catalyst i błędów związanych z rekordowym powiązaniem, Ansolabehere i Hersh byli w stanie zbudować zaufanie do swoich oszacowań za pomocą kilku różnych rodzajów kontroli.

Z połączonych plików danych Ansolabehere i Hersh doszli do trzech ważnych wniosków. Po pierwsze, niedoinformowanie o głosowaniu jest nieokreślone: ​​prawie połowa ankietowanych zgłosiła głosowanie, a jeśli ktoś zgłosił głosowanie, istnieje tylko 80% szans, że faktycznie głosowali. Po drugie, nadmierna sprawozdawczość nie jest przypadkowa: nadmierna sprawozdawczość jest bardziej powszechna wśród wysoko wykształconych, dobrze wykształconych, partyzantów, którzy zajmują się sprawami publicznymi. Innymi słowy, osoby, które najprawdopodobniej zagłosują, najprawdopodobniej będą kłamać na temat głosowania. Po trzecie, i najbardziej krytycznie, ze względu na systematyczny charakter nadreprezentacji, rzeczywiste różnice między głosującymi a niewerterami są mniejsze niż wynikają z ankiet. Na przykład ci z tytułem licencjata są o około 22 punkty procentowe bardziej skłonni zgłosić głosowanie, ale są tylko o 10 punktów procentowych bardziej skłonni do głosowania. Okazuje się, być może nie dziwi, że istniejące oparte na zasobach teorie głosowania są dużo lepsze w przewidywaniu, kto zgłosi głosowanie (co jest danymi, które badacze wykorzystali w przeszłości), niż są w stanie przewidzieć, kto faktycznie głosuje. Tak więc empiryczne odkrycie Ansolabehere and Hersh (2012) wymaga nowych teorii, aby zrozumieć i przewidzieć głosowanie.

Ale jak bardzo powinniśmy ufać tym wynikom? Pamiętaj, że wyniki te zależą od podatnego na błędy łączenia z czarnymi skrzynkami z nieznanymi ilościami błędów. Dokładniej, wyniki zależą od dwóch kluczowych etapów: (1) zdolność Katalizatora do łączenia wielu różnych źródeł danych w celu wytworzenia dokładnego głównego pliku danych oraz (2) zdolność Catalyst do łączenia danych z badań z jego głównym plikiem danych. Każdy z tych kroków jest trudny, a błędy na każdym z tych etapów mogą prowadzić do błędnych wniosków. Jednak zarówno przetwarzanie danych, jak i łączenie mają kluczowe znaczenie dla dalszego istnienia Catalyst jako firmy, więc może inwestować zasoby w rozwiązywanie tych problemów, często w skali, na którą żaden badacz akademicki nie może się równać. W swojej pracy Ansolabehere i Hersh przechodzą szereg kroków, aby sprawdzić wyniki tych dwóch kroków - nawet jeśli niektóre z nich są zastrzeżone - i te kontrole mogą być pomocne dla innych naukowców, którzy chcą połączyć dane z ankiety z dużymi danymi z czarnej skrzynki źródła.

Jakie są ogólne wnioski, jakie naukowcy mogą wyciągnąć z tego badania? Po pierwsze, istnieje ogromna wartość zarówno w zakresie wzbogacania dużych źródeł danych danymi z badań, jak i wzbogacania danych z badań o duże źródła danych (można zobaczyć to badanie w dowolny sposób). Łącząc te dwa źródła danych, naukowcy byli w stanie zrobić coś, co było niemożliwe z każdym z osobna. Druga ogólna lekcja jest taka, że ​​chociaż zagregowane, komercyjne źródła danych, takie jak dane z katalistyki, nie powinny być uważane za "podstawową prawdę", w niektórych przypadkach mogą być użyteczne. Sceptycy czasami porównują te zagregowane, komercyjne źródła danych z absolutną prawdą i wskazują, że te źródła danych są niewystarczające. Jednak w tym przypadku sceptycy dokonują błędnego porównania: wszystkie dane, których używają badacze, nie mają absolutnej prawdy. Zamiast tego lepiej jest porównać zagregowane, komercyjne źródła danych z innymi dostępnymi źródłami danych (np. Z własnym zgłoszeniem do głosowania), które również zawsze zawierają błędy. Wreszcie, trzecią lekcją ogólną Ansolabehere i Hersh's study jest to, że w niektórych sytuacjach naukowcy mogą skorzystać z ogromnych inwestycji, które wiele prywatnych firm robi w zbieraniu i harmonizacji złożonych zbiorów danych społecznych.