2.3.2.1 Niekompletne

Bez względu na to, jak "duże" Państwa "big data" to chyba nie ma informacje, które chcesz.

Większość dużych źródeł danych są niekompletne, w tym sensie, że nie posiada informacji, że będziesz chciał do badań. Jest to wspólna cecha danych, które zostały utworzone w celach innych niż badania. Wielu naukowców społeczne miały już doświadczenie w kontaktach z niekompletności, takich jak istniejący badania, które nie zadać pytanie chciałeś. Niestety, problemy z niekompletności wydają się być bardziej ekstremalne w dużych danych. Z mojego doświadczenia wynika, duży danych wydaje się, że brakuje trzech rodzajów informacji przydatnych do badań społecznych: demografii, zachowania na innych platformach i dane do operacjonalizacji konstruktów teoretycznych.

Wszystkie te trzy formy niekompletność są przedstawione w badaniu przeprowadzonym przez Gueorgi Kossinets i Duncan Watts (2006) na temat ewolucji sieci społecznych na uniwersytecie. Kossinets i Watts rozpoczął dzienników e-mail z uczelni, które mieli dokładne informacje o tym, kto wysłał e-maile do kogo, w jakim czasie (naukowcy nie mają dostępu do treści wiadomości e-mail). Te zapisy e-mail brzmi jak niesamowitym zestawu danych, ale są one, mimo ich wielkości i ziarnistości-fundamentalnie niekompletne. Na przykład, dzienniki e-mail nie zawierają danych o cechach demograficznych studentów, takich jak płeć i wiek. Ponadto dzienniki e-mail nie zawierają informacji o komunikacji za pośrednictwem innych mediów, takich jak rozmowy telefoniczne, wiadomości tekstowe lub twarzą w twarz rozmów. Wreszcie, dzienniki e-mail bezpośrednio nie zawierają informacji na temat relacji, teoretycznych konstruktów w wielu istniejących teorii. W dalszej części rozdziału, kiedy mówię o strategiach badawczych, zobaczysz, jak Kossinets i Watts rozwiązać te problemy.

Spośród trzech rodzajów niekompletności, problem niekompletnych danych operacjonalizacji konstrukty teoretyczne jest najtrudniejszy do rozwiązania, w moim doświadczeniu, jest często przypadkowo pomijane przez naukowców danych. Z grubsza, konstrukty teoretyczne są abstrakcyjne idee, które badają socjologowie, ale, niestety, konstrukty te nie zawsze mogą być jednoznacznie określone i mierzone. Na przykład, wyobraźmy sobie, starając się empirycznie przetestować pozornie proste twierdzenie, że ludzie, którzy są bardziej inteligentny zarobić więcej pieniędzy. W celu zbadania tego wniosku będzie trzeba zmierzyć "inteligencja". Ale to, co jest inteligencja? Na przykład, Gardner (2011) twierdził, że nie są w rzeczywistości osiem różnych form inteligencji. I są tam procedury, które mogą dokładnie zmierzyć żadnej z tych form inteligencji? Pomimo ogromnych ilości pracy przez psychologów, te pytania wciąż nie ma jednoznacznych odpowiedzi. Tak więc, nawet stosunkowo prosty zastrzeżeniu ludzie, którzy są bardziej inteligentny zarobić więcej pieniędzy może być trudne do oszacowania empirycznie, ponieważ może to być trudne do operacjonalizacji konstruktów teoretycznych danych. Inne przykłady konstruktów teoretycznych, które są ważne, ale trudne do operacjonalizacji obejmują "normy", "kapitał społeczny" i "demokracji". Socjologowie nazywają meczu pomiędzy konstruktami teoretycznymi i ważności Construct Data (Cronbach and Meehl 1955) . I, jak ta lista konstruktów sugeruje, budowy ważności jest to problem, który socjologowie starali się przez bardzo długi czas, nawet jeśli zostały one pracy z danymi, które zostały zebrane w celu badania. Podczas pracy z danych zebranych w celach innych niż badania, problemy ważności konstruktu są jeszcze trudniejsze (Lazer 2015) .

Gdy czytasz referatu, jeden szybki i skuteczny sposób, aby ocenić obawy o ważności konstruktu ma mieć roszczenia głównego w gazecie, która jest zwykle wyrażana w zakresie konstrukcji i ponownie wyrazić w kategoriach stosowanych danych. Na przykład, należy rozważyć dwa hipotetyczne badań, które twierdzą, aby pokazać, że bardziej inteligentni ludzie zarabiają więcej pieniędzy:

  • Badanie 1: ludzie, którzy osiągają dobre wyniki w teście matryc progresywnych Raven-a dobrze zbadane testem inteligencji analitycznej (Carpenter, Just, and Shell 1990) -należy wyższe dochody wykazane w swoich deklaracjach podatkowych
  • Badanie 2: ludzie na Twitterze, którzy używali dłuższe słowa są bardziej prawdopodobne, aby wspomnieć, luksusowe marki

W obu przypadkach, naukowcy mogliby twierdzić, że wykazały, że bardziej inteligentni ludzie zarabiają więcej pieniędzy. Jednak w pierwszym badaniu konstrukty teoretyczne są dobrze do wdrożenia przez danych, a w drugim nie są. Ponadto, jak ten przykład pokazuje, więcej danych nie jest automatycznie rozwiązać problemy z ważności konstruktu. Należy wątpić w wyniki badań 2 czy udział milion tweets, miliard tweets lub biliona tweety. Dla naukowców nie zna idei ważności konstruktu, Tabela 2.2 podaje kilka przykładów badań, które operacjonalizacji konstruktów teoretycznych na podstawie danych śledzenia cyfrowych.

Tabela 2.2: Przykłady śladów cyfrowych, które są wykorzystywane jako mierniki bardziej abstrakcyjnych pojęć teoretycznych. Socjologowie nazywają to ważność meczu skonstruować i to poważne wyzwanie z użyciem dużych źródeł danych dla badań społecznych (Lazer 2015) .
cyfrowy śladu konstrukt teoretyczny Cytat
Dzienniki e-mail z uczelni (tylko meta-danych) Związki międzyludzkie Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
posty w serwisach społecznościowych na Weibo Zaangażowanie obywatelskie Zhang (2016)
Dzienniki e-mail od firmy (meta-danych i pełny tekst) dopasowanie kulturowe w organizacji Goldberg et al. (2015)

Chociaż problem niekompletnych danych dla Operacjonalizacja konstruktów teoretycznych jest dość trudne do rozwiązania, istnieją trzy wspólne rozwiązania problemu niekompletnych informacji demograficznych i niepełnych informacji na temat zachowania na innych platformach. Pierwszym z nich jest rzeczywiście zebrać potrzebne dane; Opowiem ci o przykład, że w rozdziale 3, kiedy mówię o badaniach. Niestety, tego rodzaju zbierania danych nie zawsze jest to możliwe. Drugie rozwiązanie jest głównie do tego, co naukowcy nazywają wnioskowania danych użytkownika i atrybutach, co socjologowie nazywają przypisania. W tym podejściu, naukowcy wykorzystują informacje, że mają na niektórych ludzi, aby wywnioskować cechy innych ludzi. Trzecim możliwym rozwiązaniem, jeden używany przez Kossinets i Watts-było połączenie wielu źródeł danych. Proces ten nazywa się czasem scalania lub nagrywać podnośnik. Moją ulubioną metaforą tego procesu została zaproponowana w pierwszym akapicie pierwszym kiedykolwiek napisane na papierze rekordowym powiązania (Dunn 1946) :

"Każda osoba na świecie tworzy Księga Życia. Ta książka zaczyna się od narodzin, a kończy się wraz ze śmiercią. Jego strona składa się z zapisów zasady wydarzeń w życiu. Rekord podnośnik to nazwa nadana do procesu montażu stron tej książki na objętość ".

Ten fragment został napisany w 1946 roku, aw tym czasie, ludzie myśleli, że Księga Życia mogą obejmować ważnych wydarzeń życiowych, takich jak narodziny, małżeństwo, rozwód, i śmierci. Jednak teraz, że tak wiele informacji o ludziach, jest rejestrowana, Księga Życia może być niezwykle szczegółowy portret, jeśli te różne strony (czyli nasze ślady cyfrowe) mogą być ze sobą powiązane. Ta Księga Życia może być cennym źródłem dla badaczy. Ale, Księga Życia może być również nazywane bazę ruinę (Ohm 2010) , które mogłyby być wykorzystywane do wszelkiego rodzaju celów nieetyczne, jak opisano bardziej szczegółowo poniżej, kiedy mówię o wrażliwym charakterze informacji zebranych przez dużych źródeł danych poniżej oraz w rozdziale 6 (etyki).