3.6.1 Obogaćeno pita

U obogaćenom pitanju, podaci istraživanja grade kontekst oko jednog velikog izvora podataka koji sadrži neka važna merenja, ali nedostaju drugi.

Jedan od načina za kombinovanje podataka istraživanja i velikih izvora podataka je proces koji ću nazvati obogaćenim pitanjem . U obogaćenom pitanju, veliki izvor podataka sadrži nekoliko važnih mjerenja, ali nema drugih mjerenja, tako da istraživač prikuplja ove nedostajuće mere u istraživanju, a zatim povezuje dva izvora podataka zajedno. Jedan primer obogaćenog pitanja jeste studija koju su Burke and Kraut (2014) proučavali o tome da li interakcija na Facebook povećava snagu prijateljstva, koju sam opisao u odeljku 3.2). U tom slučaju, Burke i Kraut su zajedno anketirali podatke s Facebook log datotekama.

Postavka u kojoj su Burke i Kraut radili, podrazumevali su da se ne moraju baviti sa dva velika problema koja istraživači koji obogaćuju postavljanje obično suočavaju. Prvo, ustvari povezivanje skupova podataka na nivou pojedinačnih nivoa, proces koji se zove povezivanje zapisa , može biti teško ako ne postoji jedinstveni identifikator u oba izvora podataka koji se mogu koristiti kako bi se osiguralo da se tačan zapis u jednom skupu podataka podudara s pravilnim zapisom u drugom skupu podataka. Drugi glavni problem sa obogaćenim pitanjem je da će kvalitet velikog izvora podataka često biti teško za istraživače da procijene jer se procesom kojim se stvaraju podaci može biti vlasnički i može biti podložan mnogim problemima opisanim u poglavlju 2. Drugim rečima, obogaćeno postavljanje pitanja će često uključivati ​​povezivanje anketa sa crno-kutijskim izvorima podataka nepoznatog kvaliteta. Uprkos ovim problemima, međutim, obogaćeno postavljanje pitanja može se koristiti za obavljanje važnih istraživanja, što su pokazali Stephen Ansolabehere i Eitan Hersh (2012) u njihovom istraživanju uzoraka glasanja u Sjedinjenim Državama.

Odziv birača bio je predmet opsežnih istraživanja u političkim naukama, a u prošlosti su razumijevanje kohevara i zašto se uglavnom baziralo na analizi podataka istraživanja. Međutim, glasanje u Sjedinjenim Državama je neuobičajeno ponašanje u tome što vlada evidentira da li je svaki građanin glasao (naravno, vlada ne evidentira za koga svaki građanin glasa). Ove vladine evidencije već dugi niz godina su dostupne na papirnim formama, raspršene u različitim kancelarijama lokalne samouprave širom zemlje. Ovo je otežavalo, ali ne i nemoguće, da političari imaju potpunu sliku biračkog tela i uporede ono što ljudi kažu u anketama o glasanju sa svojim stvarnim ponašanjem glasanja (Ansolabehere and Hersh 2012) .

Ali ovi zapisi o glasanju su sada digitalizovani, a veliki broj privatnih kompanija je sistematski prikupljao i spajao ih kako bi proizveli sveobuhvatne datoteke glasačkog glasanja koje sadrže glasanje ponašanja svih Amerikanaca. Ansolabehere i Hersh su se udružili sa jednim od ovih kompanija-Katalizator LCC-a, kako bi koristili datoteku svojih glasačkih glasova kako bi pomogli u razvijanju bolje slike biračkog tijela. Štaviše, zbog toga što se njihova studija oslanja na digitalne podatke koje je sakupljala i kurivala kompanija koja je uložila značajne resurse u prikupljanje i usklađivanje podataka, ponudila je brojne prednosti u odnosu na prethodne napore koji su učinjeni bez pomoći kompanija i korišćenjem analognih zapisa.

Kao i mnogi od velikih izvora podataka u poglavlju 2, matična datoteka Catalista nije sadržala većinu demografskih, stavničkih i ponašanja koje su Ansolabehere i Hersh trebali. Zapravo, oni su posebno zainteresovani za upoređivanje izveštaja o ponašanju glasanja u anketama sa validiranim ponašanjem glasanja (tj. Informacije u bazi Catalista). Tako su Ansolabehere i Hersh prikupili podatke koje su željeli kao veliko društveno istraživanje, CCES, pomenut ranije u ovom poglavlju. Potom su dali svoje podatke Catalistu, a Catalist ih je vratio u spajaljenu datoteku podataka koja uključuje validirano ponašanje glasanja (iz Katalizma), samopodređeno ponašanje glasanja (od CCES-a) i demografske i stavove ispitanika (od CCES-a) (slika 3.13). Drugim riječima, Ansolabehere i Hersh su kombinirali podatke o glasačkim zapisima sa podacima iz ankete kako bi istraživanje bilo moguće neuslovno ili sa izvora podataka pojedinačno.

Slika 3.13: Shema studije Ansolabeherea i Hersha (2012). Da bi kreirao glavni datafile, Catalist kombinuje i usklađuje informacije iz različitih izvora. Ovaj proces spajanja, ma koliko pažljiv, propagira greške u originalnim izvorima podataka i uvodi nove greške. Drugi izvor grešaka je rekordna povezanost između podataka istraživanja i master datafilea. Ako svaka osoba ima stabilan, jedinstveni identifikator u oba izvora podataka, tada bi veza bila trivijalna. Ali, Catalist je morao da izvrši vezu koristeći nesavršene identifikatore, u ovom slučaju ime, pol, godinu rođenja i kućnu adresu. Nažalost, u mnogim slučajevima mogu biti nepotpune ili netačne informacije; glasač Homer Simpson bi mogao da se pojavi kao Homer Jay Simpson, Homie J Simpson ili čak Homer Sampson. Uprkos potencijalu grešaka u glavnoj podatkovnoj datoteki Catalista i greškama u rekordnoj povezanosti, Ansolabehere i Hersh su uspjeli izgraditi povjerenje u svoje procjene kroz nekoliko različitih vrsta provjera.

Slika 3.13: Shema studije Ansolabehere and Hersh (2012) . Da bi kreirao glavni datafile, Catalist kombinuje i usklađuje informacije iz različitih izvora. Ovaj proces spajanja, ma koliko pažljiv, propagira greške u originalnim izvorima podataka i uvodi nove greške. Drugi izvor grešaka je rekordna povezanost između podataka istraživanja i master datafilea. Ako svaka osoba ima stabilan, jedinstveni identifikator u oba izvora podataka, tada bi veza bila trivijalna. Ali, Catalist je morao da izvrši vezu koristeći nesavršene identifikatore, u ovom slučaju ime, pol, godinu rođenja i kućnu adresu. Nažalost, u mnogim slučajevima mogu biti nepotpune ili netačne informacije; glasač Homer Simpson bi mogao da se pojavi kao Homer Jay Simpson, Homie J Simpson ili čak Homer Sampson. Uprkos potencijalu grešaka u glavnoj podatkovnoj datoteki Catalista i greškama u rekordnoj povezanosti, Ansolabehere i Hersh su uspjeli izgraditi povjerenje u svoje procjene kroz nekoliko različitih vrsta provjera.

Uz njihovu kombinovanu datoteku podataka, Ansolabehere i Hersh su došli do tri važna zaključka. Prvo, prekomerno izvještavanje o glasanju je beskrajno: skoro polovina glasača izvijestila je o glasanju, a ako je neko prijavio glasanje, samo je 80% šanse da su glasali. Drugo, prekomerno izveštavanje nije slučajno: prekomerno izveštavanje je češće kod visokoobrazovanih, dobro obrazovanih, partizana koji se bave javnim poslovima. Drugim riječima, najverovatnije će glasati i osobe koje su najverovatnije glasale. Treće, a najkritičnije, zbog sistematske prirode prekomernog prijavljivanja, stvarne razlike između birača i bezvrednika su manje nego što se pojavljuju upravo iz anketa. Na primjer, oni sa bachelor's degree-om imaju oko 22 procentna poena vjerojatnije da prijave glasanje, ali su samo 10 procentnih poena vjerojatnije da će glasati. Izgleda, možda nije iznenađujuće, da su postojeće teorije glasanja na resursu mnogo bolje u predviđanju ko će izvještavati o glasanju (što su podaci koje su istraživači koristili u prošlosti) nego što predviđaju ko zapravo glasuje. Tako, empirijski nalaz Ansolabehere and Hersh (2012) poziva nove teorije da razumeju i predvide glasanje.

Ali koliko treba da verujemo ovim rezultatima? Zapamtite, ovi rezultati zavise od prijenosa pogrešnih podataka na podatke crne kutije sa nepoznatom greškom. Preciznije rečeno, rezultati se odnose na dva ključna koraka: (1) mogućnost Catalista da kombinira mnoge različite izvore podataka kako bi proizvela tačnu glavnu datoteku podataka i (2) sposobnost Catalista da poveže podatke istraživanja sa glavnom datotekom podataka. Svaki od ovih koraka je teško i greške u bilo kom koraku mogu dovesti istraživače u pogrešne zaključke. Međutim, obrada i povezivanje podataka su od ključnog značaja za nastavak postojanja Catalista kao kompanije, tako da može uložiti resurse u rješavanje ovih problema, često u skali koju nijedan akademski istraživač ne može podudarati. U svom članku, Ansolabehere i Hersh prolaze kroz niz koraka kako bi provjerili rezultate ovih dva koraka - iako su neki od njih zaštićeni - a ove provjerice mogu biti korisne za druge istraživače koji žele povezati podatke istraživanja sa velikim podacima crne kutije izvori.

Koje su opće lekcije koje istraživači mogu izvući iz ove studije? Prvo, postoji ogromna vrijednost i od obogaćivanja velikih izvora podataka sa podacima istraživanja i od obogaćivanja podataka istraživanja velikih izvora podataka (možete vidjeti ovu studiju bilo koji način). Kombinujući ova dva izvora podataka, istraživači su mogli učiniti nešto što je bilo nemoguće bilo pojedinačno. Druga opšta lekcija je da, iako agregirani, komercijalni izvori podataka, kao što su podaci iz Catalista, ne treba smatrati "istinom zemlje", u nekim slučajevima mogu biti korisni. Skeptici ponekad upoređuju ovaj agregirani, komercijalni izvor podataka sa apsolutnom istinom i ističu da ovi izvori podataka ostanu kratki. Međutim, u ovom slučaju skeptici prave pogrešno upoređivanje: svi podaci koje istraživači koriste ne potpišu apsolutnu Istinu. Umesto toga, bolje je upoređivanje agregiranih, komercijalnih izvora podataka sa drugim raspoloživim izvorima podataka (npr. Samoprijavljeno ponašanje glasanja), koje uvijek imaju greške. Na kraju, treća opšta lekcija Ansolabeherea i Hershove studije je da u nekim situacijama istraživači mogu imati koristi od ogromnih investicija koje mnoge privatne kompanije čine u prikupljanju i usklađivanju složenih setova socijalnih podataka.